Traduction automatique statistique de la langue arabe

Traduction automatique statistique de la langue arabe PDF Author: Haithem Afli
Publisher: Editions Universitaires Europeennes
ISBN: 9783841793225
Category :
Languages : de
Pages : 104

Get Book Here

Book Description
La mondialisation a eu des effets considerables sur l'essor de l'industrie de la langue, et plus particulierement en traduction automatique ou la demande ne cesse de croitre. Ainsi, les besoins en matiere de systemes de traduction automatique plus fiables augmentent de plus en plus. Pour cela nous sommes interesses a la conception de systemes de traduction automatique bases sur les modeles statistiques. Ce travail presente une etude et amelioration des phases d'optimisation et d'alignement d'un systeme de traduction automatique statistique pour la paire de langue arabe/anglais.

Traduction automatique statistique de la langue arabe

Traduction automatique statistique de la langue arabe PDF Author: Haithem Afli
Publisher: Editions Universitaires Europeennes
ISBN: 9783841793225
Category :
Languages : de
Pages : 104

Get Book Here

Book Description
La mondialisation a eu des effets considerables sur l'essor de l'industrie de la langue, et plus particulierement en traduction automatique ou la demande ne cesse de croitre. Ainsi, les besoins en matiere de systemes de traduction automatique plus fiables augmentent de plus en plus. Pour cela nous sommes interesses a la conception de systemes de traduction automatique bases sur les modeles statistiques. Ce travail presente une etude et amelioration des phases d'optimisation et d'alignement d'un systeme de traduction automatique statistique pour la paire de langue arabe/anglais.

Reconnaissance et traduction automatique de la parole de vidéos arabes et dialectales

Reconnaissance et traduction automatique de la parole de vidéos arabes et dialectales PDF Author: Mohamed Amine Menacer
Publisher:
ISBN:
Category :
Languages : fr
Pages : 0

Get Book Here

Book Description
Les travaux de recherche ont été développés dans le cadre du projet AMIS (Access to Multilingual Information and opinionS) dont l'objectif principal est de développer un système d'aide à la compréhension de vidéos dans des langues étrangères en générant un résumé automatique de ces dernières dans une langue compréhensible par l'utilisateur. Dans le cadre de cette thèse, nous nous sommes concentrés sur la reconnaissance et la traduction automatique de la parole de vidéos arabes et dialectales. Les approches statistiques proposées dans la littérature pour la reconnaissance automatique de la parole (RAP) sont indépendantes de la langue et elles sont applicables à l'arabe standard. Cependant, cette dernière présente quelques caractéristiques que nous devons prendre en considération afin de booster les performances du système de RAP. Parmi ces caractéristiques on peut citer l'absence de l'indication des voyelles dans le texte ce qui rend difficile leur apprentissage par le modèle acoustique. Nous avons proposé plusieurs approches de modélisation acoustique et/ou de langage afin de mieux reconnaître la parole arabe. L'arabe standard n'est pas la langue maternelle, c'est pourquoi dans les conversations quotidiennes, on utilise le dialecte, un arabe inspiré de l'arabe standard, mais pas seulement. Nous avons travaillé sur l'adaptation du système développé pour l'arabe standard au dialecte algérien qui est l'une des variantes de la langue arabe les plus difficiles à reconnaître par les systèmes de RAP. Cela est dû aux mots empruntés d'autres langues, au code-switching et au manque de ressources. Notre proposition pour remédier à ces problèmes est de tirer profit des données orales et textuelles d'autres langues impactant le dialecte. Le texte résultant de la RAP arabe a été utilisé pour la traduction automatique (TA). Nous avons réalisé dans un premier temps une étude comparative entre l'approche statistique à base de segments et l'approche neuronale utilisées dans le cadre de la TA. Ensuite, nous nous sommes intéressés à l'adaptation de ces deux approches pour traduire le texte code-switché. Notre étude portait sur le mélange de l'arabe et de l'anglais dans des documents officiels des nations unies. Pour pallier les différents problèmes dus à la propagation des erreurs dans le système séquentiel, nous avons travaillé sur l'adaptation du vocabulaire du système de RAP et sur la proposition d'une nouvelle modélisation permettant la traduction directe de la parole.

Segmentation de l'arabe dans des modèles statistiques de traduction automatique

Segmentation de l'arabe dans des modèles statistiques de traduction automatique PDF Author: Jonathan Salfati
Publisher:
ISBN:
Category :
Languages : fr
Pages : 95

Get Book Here

Book Description


Amélioration des systèmes de traduction par analyse linguistique et thématique

Amélioration des systèmes de traduction par analyse linguistique et thématique PDF Author: Souhir Gahbiche-Braham
Publisher:
ISBN:
Category :
Languages : fr
Pages : 0

Get Book Here

Book Description
La traduction automatique des documents est considérée comme l'une des tâches les plus difficiles en traitement automatique des langues et de la parole. Les particularités linguistiques de certaines langues, comme la langue arabe, rendent la tâche de traduction automatique plus difficile. Notre objectif dans cette thèse est d'améliorer les systèmes de traduction de l'arabe vers le français et vers l'anglais. Nous proposons donc une étude détaillée sur ces systèmes. Les principales recherches portent à la fois sur la construction de corpus parallèles, le prétraitement de l'arabe et sur l'adaptation des modèles de traduction et de langue.Tout d'abord, un corpus comparable journalistique a été exploré pour en extraire automatiquement un corpus parallèle. Ensuite, différentes approches d'adaptation du modèle de traduction sont exploitées, soit en utilisant le corpus parallèle extrait automatiquement soit en utilisant un corpus parallèle construit automatiquement.Nous démontrons que l'adaptation des données du système de traduction permet d'améliorer la traduction. Un texte en arabe doit être prétraité avant de le traduire et ceci à cause du caractère agglutinatif de la langue arabe. Nous présentons notre outil de segmentation de l'arabe, SAPA (Segmentor and Part-of-speech tagger for Arabic), indépendant de toute ressource externe et permettant de réduire les temps de calcul. Cet outil permet de prédire simultanément l'étiquette morpho-syntaxique ainsi que les proclitiques (conjonctions, prépositions, etc.) pour chaque mot, ensuite de séparer les proclitiques du lemme (ou mot de base). Nous décrivons également dans cette thèse notre outil de détection des entités nommées, NERAr (Named Entity Recognition for Arabic), et nous examions l'impact de l'intégration de la détection des entités nommées dans la tâche de prétraitement et la pré-traduction de ces entités nommées en utilisant des dictionnaires bilingues. Nous présentons par la suite plusieurs méthodes pour l'adaptation thématique des modèles de traduction et de langue expérimentées sur une application réelle contenant un corpus constitué d'un ensemble de phrases multicatégoriques.Ces expériences ouvrent des perspectives importantes de recherche comme par exemple la combinaison de plusieurs systèmes lors de la traduction pour l'adaptation thématique. Il serait également intéressant d'effectuer une adaptation temporelle des modèles de traduction et de langue. Finalement, les systèmes de traduction améliorés arabe-français et arabe-anglais sont intégrés dans une plateforme d'analyse multimédia et montrent une amélioration des performances par rapport aux systèmes de traduction de base.

Modélisation Statistique de la Langue Arabe

Modélisation Statistique de la Langue Arabe PDF Author: Karima Meftouh
Publisher: Omniscriptum
ISBN: 9786131597565
Category :
Languages : fr
Pages : 104

Get Book Here

Book Description
Ce manuscrit expose le travail de recherche effectué dans le cadre de ma thèse de doctorat et qui s'intéresse au traitement automatique de la langue Arabe. Il décrit d'abord l'outil conçu pour la construction de corpus de l'Arabe; cet outil permet de recueillir automatiquement une liste de site, extrait leur contenu et le normalise. Le corpus ainsi constitué peut ètre utilisé dans diverses applications de TAL et plus particulièrement dans le calcul de modèles statistiques. Il présente ensuite les expérimentations menées en terme de modélisation statistique et qui ont pour objectif de trouver comment modéliser le mieux la langue Arabe . Le manque de données m'a conduit à entreprendre d'autres solutions sans pour cela augmenté la taille du corpus. J'ai procédé à une segmentation des mots du corpus afin d'augmenter sa viabilité statistique. une meilleure performance en terme de perplexité normalisée fut constatée. Finalement, ce livre expose les résultats d'une étude comparative des modèles statistiques de l'Arabe et ceux d'autres langues à savoir le Français, l'Anglais, le Grec, le Portugais et le Finnois.

Désambiguïsation lexicale de l'arabe pour et par la traduction automatique

Désambiguïsation lexicale de l'arabe pour et par la traduction automatique PDF Author: Marwa Hadj salah
Publisher:
ISBN:
Category :
Languages : fr
Pages : 0

Get Book Here

Book Description
Nous abordons dans cette thèse une étude sur la tâche de la désambiguïsation lexicale qui est une tâche centrale pour le traitement automatique des langues, et qui peut améliorer plusieurs applications telles que la traduction automatique ou l'extraction d'informations. Les recherches en désambiguïsation lexicale concernent principalement l'anglais, car la majorité des autres langues manque d'une référence lexicale standard pour l'annotation des corpus, et manque aussi de corpus annotés en sens pour l'évaluation, et plus important pour la construction des systèmes de désambiguïsation lexicale. En anglais, la base de données lexicale wordnet est une norme de-facto de longue date utilisée dans la plupart des corpus annotés et dans la plupart des campagnes d'évaluation.Notre contribution porte sur plusieurs axes: dans un premier temps, nous présentons une méthode pour la création automatique de corpus annotés en sens pour n'importe quelle langue, en tirant parti de la grande quantité de corpus anglais annotés en sens wordnet, et en utilisant un système de traduction automatique. Cette méthode est appliquée sur la langue arabe et est évaluée sur le seul corpus arabe, qui à notre connaissance, soit annoté manuellement en sens wordnet: l'OntoNotes 5.0 arabe que nous avons enrichi semi-automatiquement. Son évaluation est réalisée grâce à la mise en œuvre de deux systèmes supervisés (SVM, LSTM) qui sont entraînés sur les corpus produits avec notre méthode.Grâce ce travail, nous proposons ainsi une base de référence solide pour l'évaluation des futurs systèmes de désambiguïsation lexicale de l'arabe, en plus des corpus arabes annotés en sens que nous fournissons en tant que ressource librement disponible.Dans un second temps, nous proposons une évaluation in vivo de notre système de désambiguïsation de l'arabe en mesurant sa contribution à la performance de la tâche de traduction automatique.

Traitement automatique des langues et recherche d'information en langue arabe dans un domaine de spécialité

Traitement automatique des langues et recherche d'information en langue arabe dans un domaine de spécialité PDF Author: Siham Boulaknadel
Publisher:
ISBN:
Category :
Languages : fr
Pages : 226

Get Book Here

Book Description
La Recherche d'Information a pour objectif de fournir à un utilisateur un accès facile à l'information qui l'intéresse, cette information étant située dans une masse de documents textuels. Afin d'atteindre cet objectif, un système de recherche d'information doit représenter, stocker et organiser l'information, puis fournir à l'utilisateur les éléments correspondant au besoin d'information exprimé par sa requête. La plupart des systèmes de recherche d'information (SRI) utilisent des termes simples pour indexer et retrouver des documents. Cependant, cette représentation n'est pas assez précise pour représenter le contenu des documents et des requêtes, du fait de l'ambiguïté des termes isolés de leur contexte. Une solution à ce problème consiste à utiliser des termes complexes à la place de termes simples isolés. Cette approche se fonde sur l'hypothèse qu'un terme complexe est moins ambigu qu'un terme simple isolé.Notre thèse s’inscrit dans le cadre de la recherche d’information dans un domaine de spécialité en langue arabe. L'objectif de notre travail a été d’une part, d’identifier les termes complexes présents dans les requêtes et les documents. D’autre part, d'exploiter pleinement la richesse de la langue en combinant plusieurs connaissances linguistiques appartenant aux niveaux morphologique et syntaxique, et de montrer comment l'apport de connaissances morphologiques et syntaxiques permet d'améliorer l'accès à l'information. Ainsi, nous avons proposé une plate-forme intégrant divers composants dans le domaine public ; elle conduit à montrer l'apport significatif et tranché de plusieurs de ces composants. En outre, nous avons avons défini linguistiquement les termes complexes en langue arabe et nous avons développé un système d’identification de termes complexes sur corpus qui produit des résultats de bonne qualité en terme de précision, en s’appuyant sur une approche mixte qui combine modèle statistique et données linguistiques

Vers un système de traduction automatique du langage juridique du français vers l'arabe

Vers un système de traduction automatique du langage juridique du français vers l'arabe PDF Author: Haytham Alsharaf
Publisher:
ISBN:
Category :
Languages : fr
Pages : 259

Get Book Here

Book Description
La recherche a pour objectif la conception d'un système de traduction automatique du français vers l'arabe avec une application à un langage juridique. Sont étudiées tout d'abord les caractéristiques linguistiques des langages juridiques et une nouvelle définition et conception des langues de spécialité est formulée. Une nouvelle approche linguistique permettant la traduction automatique du français vers l'arabe est proposée. L'accent est mis sur ses différentes étapes et son originalité par rapport aux autres modèles de traduction automatique. Un système informatique est mis au point qui se fonde sur l'approche linguistique proposée, appelée approche globale. Plusieurs corpus sont soumis à ce système afin de tester sa validité. Ce traitement révèle la performance et les difficultés rencontrées par le système de traduction automatique. Enfin, une synthèse globale est formulée et quelques pistes de réflexions sur la traduction automatique et la linguistique qui la fonde sont proposées.

PASCAL thema. T205, Information science, documentation

PASCAL thema. T205, Information science, documentation PDF Author:
Publisher:
ISBN:
Category : Documentation
Languages : fr
Pages : 410

Get Book Here

Book Description


Das Wort

Das Wort PDF Author: Igorʹ Aleksandrovič Melʹčuk
Publisher:
ISBN:
Category : Grammar, Comparative and general
Languages : en
Pages : 480

Get Book Here

Book Description