Traduction automatique de la parole par méthodes statistiques

Traduction automatique de la parole par méthodes statistiques PDF Author: Daniel Déchelotte
Publisher:
ISBN:
Category :
Languages : fr
Pages : 139

Get Book Here

Book Description
Cette thèse porte sur la traduction de la parole reconnue automatiquement. La tâche retenue est la traduction des discours des députés européens aux sessions plénières du parlement européen, entre l'anglais et l'espagnol. Cette thèse repose sur deux systèmes de traduction statistique. Le premier a été entièrement développé au cours de cette thèse et met en œuvre le modèle IBM-4. Le second système emploie Moses, un décodeur libre par groupes de mots à l'état de l'art. Nous envisageons aussi une collaboration entre les deux décodeurs. Le modèle quadrigramme neuronal s'avère très performant dans les deux sens de traduction. Les systèmes de traduction mis en oeuvre dans cette thèse furent très compétitifs à l'évaluation TC-Star de février 2007. Nous proposons un algorithme inspiré de celui du Perceptron pour modifier de façon discriminante les scores de la table de traduction en observant les erreurs de traduction sur un ensemble de développement. Concernant l'interaction entre reconnaissance de la parole et traduction, nous mesurerons l'impact du taux de mots erronés de la reconnaissance sur les performances de la traduction, et évaluons séparément les impacts respectifs du modèle de langage source et du modèle acoustique. Nous menons également des expériences prenant en compte l'ambiguïté de la sortie de la reconnaissance automatique, c'est-à-dire les mots entre lesquels la reconnaissance « hésite ». Nous décrivons ensuite plusieurs traitements spécifiques à la parole qui interviennent après la reconnaissance et avant la traduction. Enfin, nous modifions le système de reconnaissance de manière à améliorer les performances de traduction de la parole.

Traduction automatique de la parole par méthodes statistiques

Traduction automatique de la parole par méthodes statistiques PDF Author: Daniel Déchelotte
Publisher:
ISBN:
Category :
Languages : fr
Pages : 139

Get Book Here

Book Description
Cette thèse porte sur la traduction de la parole reconnue automatiquement. La tâche retenue est la traduction des discours des députés européens aux sessions plénières du parlement européen, entre l'anglais et l'espagnol. Cette thèse repose sur deux systèmes de traduction statistique. Le premier a été entièrement développé au cours de cette thèse et met en œuvre le modèle IBM-4. Le second système emploie Moses, un décodeur libre par groupes de mots à l'état de l'art. Nous envisageons aussi une collaboration entre les deux décodeurs. Le modèle quadrigramme neuronal s'avère très performant dans les deux sens de traduction. Les systèmes de traduction mis en oeuvre dans cette thèse furent très compétitifs à l'évaluation TC-Star de février 2007. Nous proposons un algorithme inspiré de celui du Perceptron pour modifier de façon discriminante les scores de la table de traduction en observant les erreurs de traduction sur un ensemble de développement. Concernant l'interaction entre reconnaissance de la parole et traduction, nous mesurerons l'impact du taux de mots erronés de la reconnaissance sur les performances de la traduction, et évaluons séparément les impacts respectifs du modèle de langage source et du modèle acoustique. Nous menons également des expériences prenant en compte l'ambiguïté de la sortie de la reconnaissance automatique, c'est-à-dire les mots entre lesquels la reconnaissance « hésite ». Nous décrivons ensuite plusieurs traitements spécifiques à la parole qui interviennent après la reconnaissance et avant la traduction. Enfin, nous modifions le système de reconnaissance de manière à améliorer les performances de traduction de la parole.

La Traduction automatique statistique dans un contexte multimodal

La Traduction automatique statistique dans un contexte multimodal PDF Author: Haithem Afli
Publisher:
ISBN:
Category :
Languages : fr
Pages : 0

Get Book Here

Book Description
Les performances des systèmes de traduction automatique statistique dépendent de la disponibilité de textes parallèles bilingues, appelés aussi bitextes. Cependant, les textes parallèles librement disponibles sont aussi des ressources rares : la taille est souvent limitée, la couverture linguistique insuffisante ou le domaine des textes n'est pas approprié. Il y a relativement peu de paires de langues pour lesquelles des corpus parallèles de tailles raisonnables sont disponibles pour certains domaines. L'une des façons pour pallier au manque de données parallèles est d'exploiter les corpus comparables qui sont plus abondants. Les travaux précédents dans ce domaine n'ont été appliqués que pour la modalité texte. La question que nous nous sommes posée durant cette thèse est de savoir si un corpus comparable multimodal permet d'apporter des solutions au manque de données parallèles dans le domaine de la traduction automatique.Dans cette thèse, nous avons étudié comment utiliser des ressources provenant de différentes modalités (texte ou parole) pour le développement d'un système de traduction automatique statistique. Une première partie des contributions consisteà proposer une technique pour l'extraction des données parallèles à partir d'un corpus comparable multimodal (audio et texte). Les enregistrements sont transcrits avec un système de reconnaissance automatique de la parole et traduits avec unsystème de traduction automatique. Ces traductions sont ensuite utilisées comme requêtes d'un système de recherche d'information pour sélectionner des phrases parallèles sans erreur et générer un bitexte. Dans la deuxième partie des contributions, nous visons l'amélioration de notre méthode en exploitant les entités sous-phrastiques créant ainsi une extension à notre système en vue de générer des segments parallèles. Nous améliorons aussi le module de filtrage. Enfin, nous présentons plusieurs manières d'aborder l'adaptation des systèmes de traduction avec les données extraites.Nos expériences ont été menées sur les données des sites web TED et Euronews qui montrent la faisabilité de nos approches.

De l'utilisation de mesures de confiance en traduction automatique

De l'utilisation de mesures de confiance en traduction automatique PDF Author: Sylvain Raybaud
Publisher:
ISBN:
Category :
Languages : fr
Pages : 0

Get Book Here

Book Description
Cette thèse de doctorat aborde les problématiques de l'estimation de confiance pour la traduction automatique, et de la traduction automatique statistique de la parole spontanée à grand vocabulaire. J'y propose une formalisation du problème d'estimation de confiance, et aborde expérimentalement le problème sous le paradigme de la classification et régression multivariée. Je propose une évaluation des performances des différentes méthodes évoquées, présente les résultats obtenus lors d'une campagne d'évaluation internationale et propose une application à la post-édition par des experts de documents traduits automatiquement. J'aborde ensuite le problème de la traduction automatique de la parole. Après avoir passé en revue les spécificités du medium oral et les défis particuliers qu'il soulève, je propose des méthodes originales pour y répondre, utilisant notamment les réseaux de confusion phonétiques, les mesures de confiances et des techniques de segmentation de la parole. Je montre finalement que le prototype propose rivalise avec des systèmes état de l'art à la conception plus classique.

Méthodes statistiques pour la compréhension automatique de la parole

Méthodes statistiques pour la compréhension automatique de la parole PDF Author: Selma Jamoussi
Publisher:
ISBN:
Category :
Languages : fr
Pages : 220

Get Book Here

Book Description
Le travail présenté dans ce manuscrit vise à réaliser un système de compréhension de la parole spontanée spécifique à un domaine. Nous nous intéressons plus particulièrement à l'interrogation orale de bases de données. Dans notre travail, nous nous sommes basés sur une approche statistique qui considère que la compréhension est un processus de traduction de la parole en des concepts sémantiques. L'idée que nous défendons est qu'il est possible d'obtenir des concepts sémantiques significatifs par des méthodes de classification automatique. Pour ce faire, nous commençons par proposer des mesures permettant de quantifier les relations sémantiques entre mots. Ensuite, nous testons quelques méthodes de partionnement : l'algorithme des K-means et les cartes de Kohonen. Nous proposons également l'utilisation des réseaux neuronaux de Oja et Sanger. Enfin, nous utilisons le réseau bayésien AutoClass conçu pour la classification non supervisée et qui nous a fourni des concepts significatifs.

Techniques de sélection de candidates pour la traduction automatique statistique

Techniques de sélection de candidates pour la traduction automatique statistique PDF Author: Samuel Larkin
Publisher:
ISBN:
Category :
Languages : fr
Pages : 150

Get Book Here

Book Description


Méthodes et outils pour l'analyse phonétique des grands corpus oraux

Méthodes et outils pour l'analyse phonétique des grands corpus oraux PDF Author: NGUYEN Noël
Publisher: Lavoisier
ISBN: 274629530X
Category :
Languages : en
Pages : 322

Get Book Here

Book Description
Cet ouvrage offre un panorama des méthodes et des outils utilisables pour les analyses phonétiques sur de grands corpus oraux. Les ressources considérables dont nous disposons aujourd'hui dans le domaine de l’oral, en sont venues à jouer un rôle majeur pour les phonologues et les phonéticiens, qui entreprennent de soumettre leurs hypothèses théoriques à des tests empiriques étendus. On a vu se généraliser l'utilisation d'un large ensemble d'instruments et de méthodes pour le traitement et l'analyse automatique des données recueillies. L'ouvrage aborde notamment le prétraitement des données acoustiques, l’extraction (semi-)automatique des paramètres d’analyse, la mise en relation entre les données acoustiques et les catégories phonologiques. L’accent est placé sur le français, et les données recueillies dans le projet « Phonologie du français contemporain » sont utilisées dans de nombreux exemples. Une large place est accordée à la contribution des technologies de la parole, et notamment les systèmes de reconnaissance automatique de la parole, à l’analyse phonétique des grands corpus oraux.

Adaptation au domaine de la traduction automatique statistique

Adaptation au domaine de la traduction automatique statistique PDF Author: Marwen Azouzi
Publisher: Presses Academiques Francophones
ISBN: 9783841630735
Category :
Languages : fr
Pages : 64

Get Book Here

Book Description
Les performances de traduction des systemes statistiques dependent considerablement de la qualite et de la quantite des donnees d'apprentissage disponibles. Cependant, la plupart des corpus paralleles convenables et librement disponibles proviennent d'organisations internationales (ONU, Parlement europeen, etc.). En consequence, le style de ces donnees d'apprentissage n'est pas tres approprie pour construire un systeme de traduction adapte a des domaines particuliers. Nous presentons, alors, dans ce travail plusieurs techniques et approches pour adapter un systeme de traduction a un domaine different specifique pour lequel on dispose d'une quantite raisonnable de donnees d'apprentissage. Nous avons obtenu des ameliorations significatives du score BLEU avec des systemes de traduction adaptes de l'anglais vers le francais.

Reconnaissance automatique de la parole

Reconnaissance automatique de la parole PDF Author: Jean-Paul Haton
Publisher: Dunod
ISBN: 2100528033
Category : Computers
Languages : fr
Pages : 396

Get Book Here

Book Description
Cet ouvrage fait la synthèse des techniques de reconnaissance automatique de la parole (RAP) et de synthèse de la parole (SAP). Les applications de ces techniques sont présentées, de la télématique vocale (vérification d'identité par la voix, synthèse vocale...) à l'apprentissage des langues en passant par la traduction automatique.

La traduction automatique statistique dans un contexte mutimodal

La traduction automatique statistique dans un contexte mutimodal PDF Author: Haithem Afli
Publisher:
ISBN: 9783841638076
Category :
Languages : fr
Pages : 136

Get Book Here

Book Description


Méthodes en caractères pour le traitement automatique des langues

Méthodes en caractères pour le traitement automatique des langues PDF Author: Etienne Denoual
Publisher:
ISBN:
Category :
Languages : fr
Pages : 186

Get Book Here

Book Description
Le traitement automatique des langues fondé sur les données a récemment assimilé de nombreuses techniques et perspectives héritées du domaine de la reconnaissance de parole. Parmi celles-ci, les méthodes qui utilisent le mot comme unité de traitement sont difficilement transposables aux systèmes d'écriture sans séparateur orthographique, et ne sont donc pas multilingues. Le présent travail promeut l'utilisation de méthodes travaillant au niveau du signal de l'écrit: le caractère, unité immédiatement accessible dans toute langue informatisée, permet de se passer de segmentation en mots, étape actuellement incontournable pour des langues comme le chinois ou le japonais. Dans un premier temps, nous transposons et appliquons en caractères une méthode bien établie d'évaluation objective de la traduction automatique, BLEU. Les résultats encourageants nous permettent dans un deuxième temps d'aborder d'autres tâches de traitement des données linguistiques. Tout d'abord, le filtrage de la grammaticalité; ensuite, la caractérisation de la similarité et de l'homogénéité des ressources linguistiques. Dans toutes ces tâches, le traitement en caractères obtient des résultats acceptables, et comparables à ceux obtenus en mots. Dans un troisième temps, nous abordons des tâches de production de données linguistiques: le calcul analogique sur les chaines de caractères permet la production de paraphrases aussi bien que la traduction automatique. Ce travail montre qu'on peut construire un système complet de traduction automatique ne nécessitant pas de segmentation, a fortiori pour traiter des langues sans séparateur orthographique.