Traitements linguistiques pour la reconnaissance automatique de la parole appliquée à la langue arabe

Traitements linguistiques pour la reconnaissance automatique de la parole appliquée à la langue arabe PDF Author: Rahma Boujelbane Jarraya
Publisher:
ISBN:
Category :
Languages : fr
Pages : 0

Get Book Here

Book Description
Les différents dialectes de la langue arabe (DA) présentent de grandes variations phonologiques, morphologiques, lexicales et syntaxiques par rapport à la langue Arabe Standard Moderne (MSA). Jusqu'à récemment, ces dialectes n'étaient présents que sous leurs formes orales et la plupart des ressources existantes pour la langue arabe se limite à l'Arabe Standard (MSA), conduisant à une abondance d'outils pour le traitement automatique de cette variété. Étant donné les différences significatives entre le MSA et les DA, les performances de ces outils s'écroulent lors du traitement des DA. Cette situation conduit à une augmentation notable de l'ambiguïté dans les approches computationnelles des DA. Les travaux décrits dans cette thèse s'inscrivent dans ce cadre à travers la modélisation de l'oral parlé dans les médias tunisiens. Cette source de données contient une quantité importante d'Alternance Codique (AC) entre la langue normative MSA et le dialecte parlé en Tunisie (DT). La présence de ce dernier d'une manière désordonnée dans le discours pose une sérieuse problématique pour le Traitement Automatique de Langue et fait de cet oral une langue peu dotée. Toutefois, les ressources nécessaires pour modéliser cet oral sont quasiment inexistantes. Ainsi, l'objectif de cette thèse consiste à pallier ce manque afin de construire un modèle de langage dédié à un système de reconnaissance automatique pour l'oral parlé dans les médias tunisiens. Pour ce fait, nous décrivons dans cette thèse une méthodologie de création de ressources et nous l'évaluons par rapport à une tâche de modélisation de langage. Les résultats obtenu sont encourageants.

Traitements linguistiques pour la reconnaissance automatique de la parole appliquée à la langue arabe

Traitements linguistiques pour la reconnaissance automatique de la parole appliquée à la langue arabe PDF Author: Rahma Boujelbane Jarraya
Publisher:
ISBN:
Category :
Languages : fr
Pages : 0

Get Book Here

Book Description
Les différents dialectes de la langue arabe (DA) présentent de grandes variations phonologiques, morphologiques, lexicales et syntaxiques par rapport à la langue Arabe Standard Moderne (MSA). Jusqu'à récemment, ces dialectes n'étaient présents que sous leurs formes orales et la plupart des ressources existantes pour la langue arabe se limite à l'Arabe Standard (MSA), conduisant à une abondance d'outils pour le traitement automatique de cette variété. Étant donné les différences significatives entre le MSA et les DA, les performances de ces outils s'écroulent lors du traitement des DA. Cette situation conduit à une augmentation notable de l'ambiguïté dans les approches computationnelles des DA. Les travaux décrits dans cette thèse s'inscrivent dans ce cadre à travers la modélisation de l'oral parlé dans les médias tunisiens. Cette source de données contient une quantité importante d'Alternance Codique (AC) entre la langue normative MSA et le dialecte parlé en Tunisie (DT). La présence de ce dernier d'une manière désordonnée dans le discours pose une sérieuse problématique pour le Traitement Automatique de Langue et fait de cet oral une langue peu dotée. Toutefois, les ressources nécessaires pour modéliser cet oral sont quasiment inexistantes. Ainsi, l'objectif de cette thèse consiste à pallier ce manque afin de construire un modèle de langage dédié à un système de reconnaissance automatique pour l'oral parlé dans les médias tunisiens. Pour ce fait, nous décrivons dans cette thèse une méthodologie de création de ressources et nous l'évaluons par rapport à une tâche de modélisation de langage. Les résultats obtenu sont encourageants.

Contribution à l'étude et à la reconnaissance automatique de la parole en Arabe standard

Contribution à l'étude et à la reconnaissance automatique de la parole en Arabe standard PDF Author: Mahieddine Djoudi
Publisher:
ISBN:
Category :
Languages : fr
Pages :

Get Book Here

Book Description
La reconnaissance automatique de la parole continue pose un certain nombre de problèmes. Les caractéristiques phonétiques et linguistiques de la langue sont largement impliquées dans le processus. Ce travail consiste à présenter une contribution à la reconnaissance automatique de l'arabe standard. Nous avons d'abord effectué une étude phonétique de la langue basée essentiellement sur l'examen de spectrogrammes de mots et de phrases en tenant compte des différents contextes de production des phénomènes. Cette étude nous a permis de définir les caractéristiques acoustiques des phénomènes nécessaires au système de reconnaissance. Ensuite, nous avons réalisé un système de décodage acoustico-phonétique, baptise sapha (systeme acoustico-phonétique de l'arabe) qui reçoit en entrée le signal de parole d'une phrase et retourne comme résultat un treillis de phonèmes. Les principales étapes du système sont: la segmentation du signal de parole en grandes classes phonétiques (voyelles, plosives, fricatives et sonnantes); l'extraction des indices phonétiques utilisés en reconnaissance; l'étiquetage des segments utilisant un systeme à base de règles de production. Les méthodes utilisées ont été adaptées du système aphodex développé dans notre équipe pour le décodage phonétique du français. L'évaluation des performances du systeme a été effectuée à partir de l'étiquetage manuel des phrases phonétiquement équilibrées du corps djouma que nous avons constitué. Enfin, nous avons développé quelques idées pour la conception d'un systeme de reconnaissance de phrases en arabe (mars) intégrant le décodeur phonétique et nous avons soulevé les problèmes d'ordre morphologique, phonologique, syntaxique et prosodique qu'il faut résoudre.

Reconnaissance Automatique de La Langue Arabe En Utilisant Le Systeme

Reconnaissance Automatique de La Langue Arabe En Utilisant Le Systeme PDF Author: Hassan Satori
Publisher: Omniscriptum
ISBN: 9783841628190
Category :
Languages : fr
Pages : 136

Get Book Here

Book Description
Ce travail, est une contribution au traitement Automatique de la Parole, dans lequel nous avons etudie et realise un systeme de reconnaissance automatique de la parole en utilisant un environnement base entierement sur la langue arabe (base de donnees audio, base de donnees texte, transcriptions, affichage de resultat, etc.). Dans le but d'etudier les parametres les mieux adaptes a la langue arabe nous avons developpe un systeme de reference a base des modeles de Markov caches pour la reconnaissance de la parole continue. Le systeme est constitue de modeles phonetiques dependants du contexte, il a ete mis au point avec la plate-forme Sphinx4 a travers la modification et la construction de nouveaux outils appropries a la langue arabe. Le systeme, a ete teste pour differents locuteurs dans le but d'evaluer ses performances. Les resultats de tests de reconnaissances sont satisfaisants. La realisation du systeme a ete faite avec succes."

Reconnaissance et traduction automatique de la parole de vidéos arabes et dialectales

Reconnaissance et traduction automatique de la parole de vidéos arabes et dialectales PDF Author: Mohamed Amine Menacer
Publisher:
ISBN:
Category :
Languages : fr
Pages : 0

Get Book Here

Book Description
Les travaux de recherche ont été développés dans le cadre du projet AMIS (Access to Multilingual Information and opinionS) dont l'objectif principal est de développer un système d'aide à la compréhension de vidéos dans des langues étrangères en générant un résumé automatique de ces dernières dans une langue compréhensible par l'utilisateur. Dans le cadre de cette thèse, nous nous sommes concentrés sur la reconnaissance et la traduction automatique de la parole de vidéos arabes et dialectales. Les approches statistiques proposées dans la littérature pour la reconnaissance automatique de la parole (RAP) sont indépendantes de la langue et elles sont applicables à l'arabe standard. Cependant, cette dernière présente quelques caractéristiques que nous devons prendre en considération afin de booster les performances du système de RAP. Parmi ces caractéristiques on peut citer l'absence de l'indication des voyelles dans le texte ce qui rend difficile leur apprentissage par le modèle acoustique. Nous avons proposé plusieurs approches de modélisation acoustique et/ou de langage afin de mieux reconnaître la parole arabe. L'arabe standard n'est pas la langue maternelle, c'est pourquoi dans les conversations quotidiennes, on utilise le dialecte, un arabe inspiré de l'arabe standard, mais pas seulement. Nous avons travaillé sur l'adaptation du système développé pour l'arabe standard au dialecte algérien qui est l'une des variantes de la langue arabe les plus difficiles à reconnaître par les systèmes de RAP. Cela est dû aux mots empruntés d'autres langues, au code-switching et au manque de ressources. Notre proposition pour remédier à ces problèmes est de tirer profit des données orales et textuelles d'autres langues impactant le dialecte. Le texte résultant de la RAP arabe a été utilisé pour la traduction automatique (TA). Nous avons réalisé dans un premier temps une étude comparative entre l'approche statistique à base de segments et l'approche neuronale utilisées dans le cadre de la TA. Ensuite, nous nous sommes intéressés à l'adaptation de ces deux approches pour traduire le texte code-switché. Notre étude portait sur le mélange de l'arabe et de l'anglais dans des documents officiels des nations unies. Pour pallier les différents problèmes dus à la propagation des erreurs dans le système séquentiel, nous avons travaillé sur l'adaptation du vocabulaire du système de RAP et sur la proposition d'une nouvelle modélisation permettant la traduction directe de la parole.

Reconnaissance et correction des erreurs dans les textes arabes

Reconnaissance et correction des erreurs dans les textes arabes PDF Author: Toufik Sari
Publisher: Univ Europeenne
ISBN: 9783841674661
Category :
Languages : fr
Pages : 264

Get Book Here

Book Description
Le langage est un moyen utilise pour communiquer des idees par la parole, ou tout autres signes expressifs, tandis que l'ecriture constitue l'acte de prescrire ces idees dans le but de les enregistrer. Vu que l'ecriture est une transcription de la langue, les systemes de reconnaissance de l'ecriture doivent imperativement integrer les traitements lies a la langue. Reconnaissance et correction doivent cooperer afin de prendre les bonnes decisions exploitant les connaissances linguistiques et contextuelles. La correction des erreurs de reconnaissance fait partie du processus de prise de decision vu le caractere pluridisciplinaire de ses techniques. La reconnaissance de l'ecriture Arabe n'emploie pas encore des dictionnaires electroniques, statistiques d'utilisation des elements de la langue et de verificateurs orthographiques. Ainsi, nous visons le developpement d'un systeme de reconnaissance automatique des textes arabes non contraint. Nous combinons les connaissances de la langue arabe avec les connaissances contextuelles des erreurs de reconnaissance. Les experimentations effectuees demontrent les performances de notre demarche et ouvrent une voie de recherche tres interessante.

Reconnaissance automatique de la parole par la méthode globale

Reconnaissance automatique de la parole par la méthode globale PDF Author: Boualem Bousseksou
Publisher:
ISBN:
Category :
Languages : fr
Pages :

Get Book Here

Book Description


Traitement automatique des langues et linguistique informatique 1

Traitement automatique des langues et linguistique informatique 1 PDF Author: Mohamed Zakaria Kurdi
Publisher: ISTE Group
ISBN: 1784051845
Category : Computational linguistics
Languages : fr
Pages : 281

Get Book Here

Book Description
Le traitement automatique des langues (TAL) connaît aujourd’hui un essor majeur. Au carrefour de l’informatique, de la linguistique et de la psychologie cognitive, il se développe grâce à la disponibilité croissante de données numériques en langues naturelles. Pluridisciplinaire, ce premier volume donne les clés pour comprendre et concevoir des systèmes de TAL. Traitement automatique des langues et linguistique informatique 1fournit au lecteur des connaissances théoriques et pratiques sur le traitement de la parole, de la morphologie et de la syntaxe ainsi que sur les ressources linguistiques destinées au TAL. Parmi les nombreuses applications du TAL, sont abordés dans cet ouvrage, la reconnaissance et la synthèse automatiques de la parole, l’analyse morphologique automatique, l’étiquetage en parties du discours ainsi que l’analyse syntaxique automatique.

Approche hybride pour la reconnaissance automatique de la parole en langue arabe

Approche hybride pour la reconnaissance automatique de la parole en langue arabe PDF Author: Abir Masmoudi Dammak
Publisher:
ISBN:
Category :
Languages : fr
Pages : 0

Get Book Here

Book Description
Le développement d'un système de reconnaissance de la parole exige la disponibilité d'une grande quantité de ressources à savoir, grands corpus de texte et de parole, un dictionnaire de prononciation. Néanmoins, ces ressources ne sont pas disponibles directement pour des dialectes arabes. De ce fait, le développement d'un SRAP pour les dialectes arabes se heurte à de multiples difficultés à savoir, l''abence de grandes quantités de ressources et l'absence d''une orthographe standard vu que ces dialectes sont parlés et non écrit. Dans cette perspective, les travaux de cette thèse s'intègrent dans le cadre du développement d'un SRAP pour le dialecte tunisien. Une première partie des contributions consiste à développer une variante de CODA (Conventional Orthography for Arabic Dialectal) pour le dialecte tunisien. En fait, cette convention est conçue dans le but de fournir une description détaillée des directives appliquées au dialecte tunisien. Compte tenu des lignes directives de CODA, nous avons constitué notre corpus nommé TARIC : Corpus de l'interaction des chemins de fer de l'arabe tunisien dans le domaine de la SNCFT. Outre ces ressources, le dictionnaire de prononciation s'impose d'une manière indispensable pour le développement d'un SRAP. À ce propos, dans la deuxième partie des contributions, nous visons la création d'un système nommé conversion (Graphème-Phonème) G2P qui permet de générer automatiquement ce dictionnaire phonétique. Toutes ces ressources décrites avant sont utilisées pour adapter un SRAP pour le MSA du laboratoire LIUM au dialecte tunisien dans le domaine de la SNCFT. L'évaluation de notre système donné lieu WER de 22,6% sur l'ensemble de test.

Traitement automatique des langues et recherche d'information en langue arabe dans un domaine de spécialité

Traitement automatique des langues et recherche d'information en langue arabe dans un domaine de spécialité PDF Author: Siham Boulaknadel
Publisher:
ISBN:
Category :
Languages : fr
Pages : 226

Get Book Here

Book Description
La Recherche d'Information a pour objectif de fournir à un utilisateur un accès facile à l'information qui l'intéresse, cette information étant située dans une masse de documents textuels. Afin d'atteindre cet objectif, un système de recherche d'information doit représenter, stocker et organiser l'information, puis fournir à l'utilisateur les éléments correspondant au besoin d'information exprimé par sa requête. La plupart des systèmes de recherche d'information (SRI) utilisent des termes simples pour indexer et retrouver des documents. Cependant, cette représentation n'est pas assez précise pour représenter le contenu des documents et des requêtes, du fait de l'ambiguïté des termes isolés de leur contexte. Une solution à ce problème consiste à utiliser des termes complexes à la place de termes simples isolés. Cette approche se fonde sur l'hypothèse qu'un terme complexe est moins ambigu qu'un terme simple isolé.Notre thèse s’inscrit dans le cadre de la recherche d’information dans un domaine de spécialité en langue arabe. L'objectif de notre travail a été d’une part, d’identifier les termes complexes présents dans les requêtes et les documents. D’autre part, d'exploiter pleinement la richesse de la langue en combinant plusieurs connaissances linguistiques appartenant aux niveaux morphologique et syntaxique, et de montrer comment l'apport de connaissances morphologiques et syntaxiques permet d'améliorer l'accès à l'information. Ainsi, nous avons proposé une plate-forme intégrant divers composants dans le domaine public ; elle conduit à montrer l'apport significatif et tranché de plusieurs de ces composants. En outre, nous avons avons défini linguistiquement les termes complexes en langue arabe et nous avons développé un système d’identification de termes complexes sur corpus qui produit des résultats de bonne qualité en terme de précision, en s’appuyant sur une approche mixte qui combine modèle statistique et données linguistiques

Reconnaissance automatique de la parole pour des langues peu dotées

Reconnaissance automatique de la parole pour des langues peu dotées PDF Author: Viêt Bac Lê
Publisher:
ISBN:
Category :
Languages : fr
Pages : 0

Get Book Here

Book Description
Dans la plupart des langues peu dotées, les services liés aux technologies du traitement de l'oral sont inexistants. L'originalité de mon travail de thèse vient de la volonté d'aborder ces langues pour lesquelles peu ou pas de ressources nécessaires pour la reconnaissance automatique de la parole sont disponibles. Ce manuscrit présente notre méthodologie qui vise à développer et adapter rapidement un système de reconnaissance automatique de la parole continue pour une nouvelle langue peu dotée. La nature statistique des approches nécessite de disposer d'une grande quantité de ressources (vocabulaires, grands corpus de texte, grands corpus de parole, dictionnaires de prononciation) pour le développement d'un système de reconnaissance automatique de la parole continue à grand vocabulaire. Ces ressources ne sont cependant pas disponibles directement pour des langues peu dotées. Par conséquent, une première façon d'accélérer la portabilité des systèmes de reconnaissance vocale vers une nouvelle langue est de développer une méthodologie permettant une collecte rapide et facilitée de ressources écrites et orales. Dans ce travail, nous proposons tout d'abord des solutions pour résoudre les difficultés principales de récupération et de traitement des ressources textuelles spécifiques aux langues peu dotées : recueil d'un vocabulaire, collecte de documents à partir de l'Internet, normalisation de textes, segmentation de textes, filtrage. Une boîte à outils générique " open source " nommée CLIPS-Text-Tk a notamment été développée pour faciliter le portage des outils de traitement de corpus textuels vers une nouvelle langue. Ensuite, la plus grande partie de notre travail de thèse concerne la construction rapide de modèles acoustiques pour une langue peu dotée. Nous proposons des concepts et des méthodes d'estimation de similarités entre unités phonémiques (phonème, polyphone, groupe de polyphones, ...). Ces mesures de similarité sont ensuite utilisées pour la portabilité et l'adaptation rapide des modèles acoustiques multilingues indépendant et dépendant du contexte vers une nouvelle langue peu dotée. Pour les langues peu dotées qui ne disposent pas encore de dictionnaire phonétique, une modélisation acoustique à base de graphèmes est aussi proposée et évaluée. Enfin, les ressources écrites et orales collectées pour le vietnamien et le khmer ainsi que les résultats expérimentaux obtenus par nos systèmes de reconnaissance automatique de la parole en vietnamien et en khmer sont présentés et valident le potentiel des méthodes que nous avons proposées.