Segmentation de l'arabe dans des modèles statistiques de traduction automatique

Segmentation de l'arabe dans des modèles statistiques de traduction automatique PDF Author: Jonathan Salfati
Publisher:
ISBN:
Category :
Languages : fr
Pages : 95

Get Book Here

Book Description

Segmentation de l'arabe dans des modèles statistiques de traduction automatique

Segmentation de l'arabe dans des modèles statistiques de traduction automatique PDF Author: Jonathan Salfati
Publisher:
ISBN:
Category :
Languages : fr
Pages : 95

Get Book Here

Book Description


Modélisation Statistique de la Langue Arabe

Modélisation Statistique de la Langue Arabe PDF Author: Karima Meftouh
Publisher: Omniscriptum
ISBN: 9786131597565
Category :
Languages : fr
Pages : 104

Get Book Here

Book Description
Ce manuscrit expose le travail de recherche effectué dans le cadre de ma thèse de doctorat et qui s'intéresse au traitement automatique de la langue Arabe. Il décrit d'abord l'outil conçu pour la construction de corpus de l'Arabe; cet outil permet de recueillir automatiquement une liste de site, extrait leur contenu et le normalise. Le corpus ainsi constitué peut ètre utilisé dans diverses applications de TAL et plus particulièrement dans le calcul de modèles statistiques. Il présente ensuite les expérimentations menées en terme de modélisation statistique et qui ont pour objectif de trouver comment modéliser le mieux la langue Arabe . Le manque de données m'a conduit à entreprendre d'autres solutions sans pour cela augmenté la taille du corpus. J'ai procédé à une segmentation des mots du corpus afin d'augmenter sa viabilité statistique. une meilleure performance en terme de perplexité normalisée fut constatée. Finalement, ce livre expose les résultats d'une étude comparative des modèles statistiques de l'Arabe et ceux d'autres langues à savoir le Français, l'Anglais, le Grec, le Portugais et le Finnois.

Amélioration des systèmes de traduction par analyse linguistique et thématique

Amélioration des systèmes de traduction par analyse linguistique et thématique PDF Author: Souhir Gahbiche-Braham
Publisher:
ISBN:
Category :
Languages : fr
Pages : 0

Get Book Here

Book Description
La traduction automatique des documents est considérée comme l'une des tâches les plus difficiles en traitement automatique des langues et de la parole. Les particularités linguistiques de certaines langues, comme la langue arabe, rendent la tâche de traduction automatique plus difficile. Notre objectif dans cette thèse est d'améliorer les systèmes de traduction de l'arabe vers le français et vers l'anglais. Nous proposons donc une étude détaillée sur ces systèmes. Les principales recherches portent à la fois sur la construction de corpus parallèles, le prétraitement de l'arabe et sur l'adaptation des modèles de traduction et de langue.Tout d'abord, un corpus comparable journalistique a été exploré pour en extraire automatiquement un corpus parallèle. Ensuite, différentes approches d'adaptation du modèle de traduction sont exploitées, soit en utilisant le corpus parallèle extrait automatiquement soit en utilisant un corpus parallèle construit automatiquement.Nous démontrons que l'adaptation des données du système de traduction permet d'améliorer la traduction. Un texte en arabe doit être prétraité avant de le traduire et ceci à cause du caractère agglutinatif de la langue arabe. Nous présentons notre outil de segmentation de l'arabe, SAPA (Segmentor and Part-of-speech tagger for Arabic), indépendant de toute ressource externe et permettant de réduire les temps de calcul. Cet outil permet de prédire simultanément l'étiquette morpho-syntaxique ainsi que les proclitiques (conjonctions, prépositions, etc.) pour chaque mot, ensuite de séparer les proclitiques du lemme (ou mot de base). Nous décrivons également dans cette thèse notre outil de détection des entités nommées, NERAr (Named Entity Recognition for Arabic), et nous examions l'impact de l'intégration de la détection des entités nommées dans la tâche de prétraitement et la pré-traduction de ces entités nommées en utilisant des dictionnaires bilingues. Nous présentons par la suite plusieurs méthodes pour l'adaptation thématique des modèles de traduction et de langue expérimentées sur une application réelle contenant un corpus constitué d'un ensemble de phrases multicatégoriques.Ces expériences ouvrent des perspectives importantes de recherche comme par exemple la combinaison de plusieurs systèmes lors de la traduction pour l'adaptation thématique. Il serait également intéressant d'effectuer une adaptation temporelle des modèles de traduction et de langue. Finalement, les systèmes de traduction améliorés arabe-français et arabe-anglais sont intégrés dans une plateforme d'analyse multimédia et montrent une amélioration des performances par rapport aux systèmes de traduction de base.

Reconnaissance et traduction automatique de la parole de vidéos arabes et dialectales

Reconnaissance et traduction automatique de la parole de vidéos arabes et dialectales PDF Author: Mohamed Amine Menacer
Publisher:
ISBN:
Category :
Languages : fr
Pages : 0

Get Book Here

Book Description
Les travaux de recherche ont été développés dans le cadre du projet AMIS (Access to Multilingual Information and opinionS) dont l'objectif principal est de développer un système d'aide à la compréhension de vidéos dans des langues étrangères en générant un résumé automatique de ces dernières dans une langue compréhensible par l'utilisateur. Dans le cadre de cette thèse, nous nous sommes concentrés sur la reconnaissance et la traduction automatique de la parole de vidéos arabes et dialectales. Les approches statistiques proposées dans la littérature pour la reconnaissance automatique de la parole (RAP) sont indépendantes de la langue et elles sont applicables à l'arabe standard. Cependant, cette dernière présente quelques caractéristiques que nous devons prendre en considération afin de booster les performances du système de RAP. Parmi ces caractéristiques on peut citer l'absence de l'indication des voyelles dans le texte ce qui rend difficile leur apprentissage par le modèle acoustique. Nous avons proposé plusieurs approches de modélisation acoustique et/ou de langage afin de mieux reconnaître la parole arabe. L'arabe standard n'est pas la langue maternelle, c'est pourquoi dans les conversations quotidiennes, on utilise le dialecte, un arabe inspiré de l'arabe standard, mais pas seulement. Nous avons travaillé sur l'adaptation du système développé pour l'arabe standard au dialecte algérien qui est l'une des variantes de la langue arabe les plus difficiles à reconnaître par les systèmes de RAP. Cela est dû aux mots empruntés d'autres langues, au code-switching et au manque de ressources. Notre proposition pour remédier à ces problèmes est de tirer profit des données orales et textuelles d'autres langues impactant le dialecte. Le texte résultant de la RAP arabe a été utilisé pour la traduction automatique (TA). Nous avons réalisé dans un premier temps une étude comparative entre l'approche statistique à base de segments et l'approche neuronale utilisées dans le cadre de la TA. Ensuite, nous nous sommes intéressés à l'adaptation de ces deux approches pour traduire le texte code-switché. Notre étude portait sur le mélange de l'arabe et de l'anglais dans des documents officiels des nations unies. Pour pallier les différents problèmes dus à la propagation des erreurs dans le système séquentiel, nous avons travaillé sur l'adaptation du vocabulaire du système de RAP et sur la proposition d'une nouvelle modélisation permettant la traduction directe de la parole.

Traduction automatique statistique de la langue arabe

Traduction automatique statistique de la langue arabe PDF Author: Haithem Afli
Publisher: Editions Universitaires Europeennes
ISBN: 9783841793225
Category :
Languages : de
Pages : 104

Get Book Here

Book Description
La mondialisation a eu des effets considerables sur l'essor de l'industrie de la langue, et plus particulierement en traduction automatique ou la demande ne cesse de croitre. Ainsi, les besoins en matiere de systemes de traduction automatique plus fiables augmentent de plus en plus. Pour cela nous sommes interesses a la conception de systemes de traduction automatique bases sur les modeles statistiques. Ce travail presente une etude et amelioration des phases d'optimisation et d'alignement d'un systeme de traduction automatique statistique pour la paire de langue arabe/anglais.

Vers un système de traduction automatique du langage juridique du français vers l'arabe

Vers un système de traduction automatique du langage juridique du français vers l'arabe PDF Author: Haytham Alsharaf
Publisher:
ISBN:
Category :
Languages : fr
Pages : 259

Get Book Here

Book Description
La recherche a pour objectif la conception d'un système de traduction automatique du français vers l'arabe avec une application à un langage juridique. Sont étudiées tout d'abord les caractéristiques linguistiques des langages juridiques et une nouvelle définition et conception des langues de spécialité est formulée. Une nouvelle approche linguistique permettant la traduction automatique du français vers l'arabe est proposée. L'accent est mis sur ses différentes étapes et son originalité par rapport aux autres modèles de traduction automatique. Un système informatique est mis au point qui se fonde sur l'approche linguistique proposée, appelée approche globale. Plusieurs corpus sont soumis à ce système afin de tester sa validité. Ce traitement révèle la performance et les difficultés rencontrées par le système de traduction automatique. Enfin, une synthèse globale est formulée et quelques pistes de réflexions sur la traduction automatique et la linguistique qui la fonde sont proposées.

Désambiguïsation lexicale de l'arabe pour et par la traduction automatique

Désambiguïsation lexicale de l'arabe pour et par la traduction automatique PDF Author: Marwa Hadj salah
Publisher:
ISBN:
Category :
Languages : fr
Pages : 0

Get Book Here

Book Description
Nous abordons dans cette thèse une étude sur la tâche de la désambiguïsation lexicale qui est une tâche centrale pour le traitement automatique des langues, et qui peut améliorer plusieurs applications telles que la traduction automatique ou l'extraction d'informations. Les recherches en désambiguïsation lexicale concernent principalement l'anglais, car la majorité des autres langues manque d'une référence lexicale standard pour l'annotation des corpus, et manque aussi de corpus annotés en sens pour l'évaluation, et plus important pour la construction des systèmes de désambiguïsation lexicale. En anglais, la base de données lexicale wordnet est une norme de-facto de longue date utilisée dans la plupart des corpus annotés et dans la plupart des campagnes d'évaluation.Notre contribution porte sur plusieurs axes: dans un premier temps, nous présentons une méthode pour la création automatique de corpus annotés en sens pour n'importe quelle langue, en tirant parti de la grande quantité de corpus anglais annotés en sens wordnet, et en utilisant un système de traduction automatique. Cette méthode est appliquée sur la langue arabe et est évaluée sur le seul corpus arabe, qui à notre connaissance, soit annoté manuellement en sens wordnet: l'OntoNotes 5.0 arabe que nous avons enrichi semi-automatiquement. Son évaluation est réalisée grâce à la mise en œuvre de deux systèmes supervisés (SVM, LSTM) qui sont entraînés sur les corpus produits avec notre méthode.Grâce ce travail, nous proposons ainsi une base de référence solide pour l'évaluation des futurs systèmes de désambiguïsation lexicale de l'arabe, en plus des corpus arabes annotés en sens que nous fournissons en tant que ressource librement disponible.Dans un second temps, nous proposons une évaluation in vivo de notre système de désambiguïsation de l'arabe en mesurant sa contribution à la performance de la tâche de traduction automatique.

Artificial Intelligence Abstracts

Artificial Intelligence Abstracts PDF Author:
Publisher:
ISBN:
Category : Artificial intelligence
Languages : en
Pages : 664

Get Book Here

Book Description


Quality Estimation for Machine Translation

Quality Estimation for Machine Translation PDF Author: Lucia Specia
Publisher: Springer Nature
ISBN: 3031021681
Category : Computers
Languages : en
Pages : 148

Get Book Here

Book Description
Many applications within natural language processing involve performing text-to-text transformations, i.e., given a text in natural language as input, systems are required to produce a version of this text (e.g., a translation), also in natural language, as output. Automatically evaluating the output of such systems is an important component in developing text-to-text applications. Two approaches have been proposed for this problem: (i) to compare the system outputs against one or more reference outputs using string matching-based evaluation metrics and (ii) to build models based on human feedback to predict the quality of system outputs without reference texts. Despite their popularity, reference-based evaluation metrics are faced with the challenge that multiple good (and bad) quality outputs can be produced by text-to-text approaches for the same input. This variation is very hard to capture, even with multiple reference texts. In addition, reference-based metrics cannot be used in production (e.g., online machine translation systems), when systems are expected to produce outputs for any unseen input. In this book, we focus on the second set of metrics, so-called Quality Estimation (QE) metrics, where the goal is to provide an estimate on how good or reliable the texts produced by an application are without access to gold-standard outputs. QE enables different types of evaluation that can target different types of users and applications. Machine learning techniques are used to build QE models with various types of quality labels and explicit features or learnt representations, which can then predict the quality of unseen system outputs. This book describes the topic of QE for text-to-text applications, covering quality labels, features, algorithms, evaluation, uses, and state-of-the-art approaches. It focuses on machine translation as application, since this represents most of the QE work done to date. It also briefly describes QE for several other applications, including text simplification, text summarization, grammatical error correction, and natural language generation.

Practical Course in Terminology Processing

Practical Course in Terminology Processing PDF Author: Juan C. Sager
Publisher: John Benjamins Publishing
ISBN: 902722076X
Category : Language Arts & Disciplines
Languages : en
Pages : 271

Get Book Here

Book Description
Since the advent of the computer, terminology management can be carried out by almost anyone who has learnt to use a computer. Terminology management has proved to be an efficient tool in international communications in industry, education and international organisations. Software packages are readily available and international corporations often have their own terminology database. Following these developments, translators and terminologists are confronted with a specialised form of information management involving compilation and standardisation of vocabulary, storage, retrieval and updating.A Practical Course in Terminology Processing provides the key to methods of terminology management for the English language, for general and specific purposes. This unique course has been developed on the basis of years of teaching experience and research at the University of Manchester Institute of Science and Technology (UMIST, UK) and is particularly suitable for translation courses, freelance translators, technical writers, as well as for non-linguists who are confronted with terminology processing as part of their profession. The 1996 reprint of the paperback edition includes an index.