Un modèle de composante phonologique pour la reconnaissance de la parole

Un modèle de composante phonologique pour la reconnaissance de la parole PDF Author: Alix de Ginestel-Mailland
Publisher:
ISBN:
Category :
Languages : fr
Pages : 179

Get Book Here

Book Description
LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE CONTINUE DOIT PRENDRE EN COMPTE LA VARIABILITE DE PRONONCIATION. LE ROLE D'UNE COMPOSANTE PHONOLOGIQUE EST DE MODELISER CE PHENOMENE, LE PLUS SOUVENT, A PARTIR D'UNE BASE DE REGLES. NOTRE TRAVAIL A POUR BUT DE TRADUIRE LES VARIATIONS PHONOLOGIQUES DE MANIERE A LES INTEGRER DANS DES MODELES DE MARKOV CACHES QUI SONT ACTUELLEMENT LES PLUS PERFORMANTS EN RECONNAISSANCE AUTOMATIQUE DE LA PAROLE. POUR CELA, NOUS AVONS UTILISE DE NOUVEAUX TYPES D'UNITES PHONOLOGIQUES ET PHONETIQUES: LES GROUPES A PRONONCIATIONS MULTIPLES (OU GPM) ET LES GROUPES PHONOLOGIQUES CONTEXTUELS (OU GPC). NOUS AVONS CONCU ET IMPLEMENTE UNE COMPOSANTE PHONOLOGIQUE QUI PROCEDE A PARTIR DE DEUX BASES DE REGLES: L'UNE PHONOLOGIQUE TRADUISANT LES GPC EN GPM DANS UN CONTEXTE DONNE, L'AUTRE PHONETIQUE REPRESENTANT LES PRONONCIATIONS POSSIBLES DES DIFFERENTS GPM. CETTE COMPOSANTE GENERE, A PARTIR D'UNE ENONCE ORTHOGRAPHIQUE, UN ENONCE UNIQUE (OU ENONCE PHONOTYPIQUE) DECRIVANT TOUTES LES VARIANTES PHONETIQUES POSSIBLES DE L'ENONCE INITIAL. CETTE COMPOSANTE REQUIERT UN APPRENTISSAGE SUR UN GRAND CORPUS DE PAROLE AFIN QUE LA MAJORITE DES GPM Y SOIENT ATTESTES ET QUE LES PROBABILITES ATTACHEES AUX REGLES PHONETIQUES SOIENT CORRECTEMENT ESTIMEES POUR REPRESENTER LE MODELE DE PRONONCIATION D'UN GROUPE DE LOCUTEURS. L'APPRENTISSAGE A ETE EFFECTUE SUR LE CORPUS BREF80 CORPUS DEVELOPPE DANS LE CADRE DU POLE PAROLE DU GDR-PRC COMMUNICATION HOMME-MACHINE PAR LE LIMSI. IL OFFRE UNE BASE D'INVESTIGATION INTERESSANTE CAR IL COMPREND DES ENREGISTREMENTS DE PAROLE CONTINUE D'UN GROUPE DE LOCUTEURS. POUR EFFECTUER L'APPRENTISSAGE, NOUS AVONS REALISE UN SYSTEME PERMETTANT D'ALIGNER UN ENONCE PHONOTYPIQUE ISSU DE LA COMPOSANTE PHONOLOGIQUE AVEC UNE TRANSCRIPTION PHONETIQUE AUDITIVE. NOUS PRESENTONS, DANS CE MEMOIRE, LES REALISATIONS DES DIFFERENTS GROUPES DE CONSONNES FINALES

Un modèle de composante phonologique pour la reconnaissance de la parole

Un modèle de composante phonologique pour la reconnaissance de la parole PDF Author: Alix de Ginestel-Mailland
Publisher:
ISBN:
Category :
Languages : fr
Pages : 179

Get Book Here

Book Description
LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE CONTINUE DOIT PRENDRE EN COMPTE LA VARIABILITE DE PRONONCIATION. LE ROLE D'UNE COMPOSANTE PHONOLOGIQUE EST DE MODELISER CE PHENOMENE, LE PLUS SOUVENT, A PARTIR D'UNE BASE DE REGLES. NOTRE TRAVAIL A POUR BUT DE TRADUIRE LES VARIATIONS PHONOLOGIQUES DE MANIERE A LES INTEGRER DANS DES MODELES DE MARKOV CACHES QUI SONT ACTUELLEMENT LES PLUS PERFORMANTS EN RECONNAISSANCE AUTOMATIQUE DE LA PAROLE. POUR CELA, NOUS AVONS UTILISE DE NOUVEAUX TYPES D'UNITES PHONOLOGIQUES ET PHONETIQUES: LES GROUPES A PRONONCIATIONS MULTIPLES (OU GPM) ET LES GROUPES PHONOLOGIQUES CONTEXTUELS (OU GPC). NOUS AVONS CONCU ET IMPLEMENTE UNE COMPOSANTE PHONOLOGIQUE QUI PROCEDE A PARTIR DE DEUX BASES DE REGLES: L'UNE PHONOLOGIQUE TRADUISANT LES GPC EN GPM DANS UN CONTEXTE DONNE, L'AUTRE PHONETIQUE REPRESENTANT LES PRONONCIATIONS POSSIBLES DES DIFFERENTS GPM. CETTE COMPOSANTE GENERE, A PARTIR D'UNE ENONCE ORTHOGRAPHIQUE, UN ENONCE UNIQUE (OU ENONCE PHONOTYPIQUE) DECRIVANT TOUTES LES VARIANTES PHONETIQUES POSSIBLES DE L'ENONCE INITIAL. CETTE COMPOSANTE REQUIERT UN APPRENTISSAGE SUR UN GRAND CORPUS DE PAROLE AFIN QUE LA MAJORITE DES GPM Y SOIENT ATTESTES ET QUE LES PROBABILITES ATTACHEES AUX REGLES PHONETIQUES SOIENT CORRECTEMENT ESTIMEES POUR REPRESENTER LE MODELE DE PRONONCIATION D'UN GROUPE DE LOCUTEURS. L'APPRENTISSAGE A ETE EFFECTUE SUR LE CORPUS BREF80 CORPUS DEVELOPPE DANS LE CADRE DU POLE PAROLE DU GDR-PRC COMMUNICATION HOMME-MACHINE PAR LE LIMSI. IL OFFRE UNE BASE D'INVESTIGATION INTERESSANTE CAR IL COMPREND DES ENREGISTREMENTS DE PAROLE CONTINUE D'UN GROUPE DE LOCUTEURS. POUR EFFECTUER L'APPRENTISSAGE, NOUS AVONS REALISE UN SYSTEME PERMETTANT D'ALIGNER UN ENONCE PHONOTYPIQUE ISSU DE LA COMPOSANTE PHONOLOGIQUE AVEC UNE TRANSCRIPTION PHONETIQUE AUDITIVE. NOUS PRESENTONS, DANS CE MEMOIRE, LES REALISATIONS DES DIFFERENTS GROUPES DE CONSONNES FINALES

Un modele de composante phonologique pour la reconnaissance de la parole. Apprentissage a partir de corpus

Un modele de composante phonologique pour la reconnaissance de la parole. Apprentissage a partir de corpus PDF Author: Alix de Ginestel-Mailland
Publisher:
ISBN:
Category :
Languages : fr
Pages :

Get Book Here

Book Description


Modèles de production de parole et reconnaissance à partir d'automates

Modèles de production de parole et reconnaissance à partir d'automates PDF Author: Bruno Mathieu
Publisher:
ISBN:
Category :
Languages : fr
Pages : 102

Get Book Here

Book Description
L'objet de cette thèse est l'étude de la reconnaissance automatique de parole. Ce document débute avec la description des traitements acoustiques les plus répandus en vue de reconnaître la parole. Nous décrivons ensuite les diverses architectures qui ont été utilisées : comparaison dynamique de formes acoustiques, systèmes experts, réseaux neuro-mimétiques et modèles de Markov. Puis ce document se divise en deux parties. Dans une première expérience, nous nous sommes intéressés à la reconnaissance de mots. Pour cela, nous utilisons des automates qui modélisent le vocabulaire. Celui-ci comporte les dix chiffres anglo-saxons, dont deux prononciations différentes pour le zéro. Le corpus de parole TiDigits a été utilisé par d'autres laboratoires ce qui nous permet de comparer nos résultats. La première étape est consacrée à la reconnaissance de mots isolés. Puis nous présentons une méthode de segmentation de séquences de chiffres. La fin de ce chapitre est consacrée à la reconnaissance de mots enchaînés et à une discussion sur les mérites et les faiblesses de notre approche. La deuxième partie traite de l'utilisation d'un modèle de production qui pourrait être utilisé pour le reconnaissance de la parole. Nous commençons par présenter les équations acoustiques régissant l'écoulement de l'air dans le conduit vocal et divers modèles articulatoires. Ensuite nous justifions le choix du modèle articulatoire de Maeda. Nous décrivons comment nous avons adapté le modèle à un locuteur masculin. Puis nous présentons la méthode variationnelle utilisée pour retrouver les trajectoires des articulateurs en fonction de la parole prononcée. Une dernière section présente les logiciels réalisés. En conclusion, nous résumons les résultats obtenus et donnons quelques perspectives en vue de reconnaître la parole continue quel que soit le locuteur.

Pour une phonologie de la parole

Pour une phonologie de la parole PDF Author: Julien Eychenne
Publisher:
ISBN:
Category :
Languages : fr
Pages : 799

Get Book Here

Book Description
Ce mémoire offre une synthèse de mes travaux universitaires au cours des dix dernières années. Ce travail, qui se situe au carrefour de la phonologie de corpus et de la phonologie théorique, est organisé autour des trois axes structurants de mon parcours scientifique: l'analyse de la variation phonologique, le travail de développement informatique et la modélisation théorique. J'offre en premier lieu un panorama de mes travaux portant sur la description des variétés de français, avec une attention particulière portées aux variétés méridionales, dans une perspective de phonologie de corpus. Je montre notamment l'apport essentiel des corpus dans le renouvellement des descriptions de phénomènes aussi complexes que le schwa et la liaison en français. Le mémoire décrit ensuite les principaux outils que j'ai développés pour la linguistique de corpus. Il décrit notamment de manière détaillée l'architecture et les principes d'ingénierie qui ont guidé la réalisation de Dolmen, une plateforme logicielle libre pour la gestion et l'analyse de corpus phonologiques. Enfin, le mémoire présente une synthèse de mes travaux de modélisation à partir de corpus. Je montre d'une part l'évolution de ma démarche, d'abord ancrée en phonologie générative et qui s'est peu à peu réorientée vers des approches probabilistes, mais aussi sa cohérence d'ensemble, puisque ce changement de perspective a été guidé par le souci de rendre compte au plus près de la gradience des phénomènes phonologiques.

GEPH

GEPH PDF Author: Jacqueline Tihoni
Publisher:
ISBN:
Category :
Languages : fr
Pages : 371

Get Book Here

Book Description
LA COMPOSANTE PHONOLOGIQUE D'UNE GRAMMAIRE, QUI EXPLICITE LA RELATION ENTRE LA STRUCTURE SUPERFICIELLE DE LA PHRASE ET SES DIVERSES PRONONCIATIONS POSSIBLES, DOIT ETRE MISE EN UVRE DES QUE L'ON VEUT TRAITER LA PAROLE CONTINUE EN SYNTHESE OU EN RECONNAISSANCE. DANS UNE ETUDE BIBLIOGRAPHIQUE PRELIMINAIRE, NOUS METTONS EN RELIEF LES DIFFICULTES DE LA FORMALISATION D'UN TEL SYSTEME. PUIS NOUS PROPOSONS UNE REALISATION PAR UNE APPROCHE SYSTEME EXPERT. LE SYSTEME PRESENTE EST LA TROISIEME VERSION DE GEPH (GENERATEUR PHONOLOGIQUE). IL COMPORTE DES EXTENSIONS ORIGINALES TELLES QU'UNE STRUCTURATION DE LA BASE DE REGLES EN BLOCS QUI PERMET AINSI UNE APPLICATION EN PARALLELE ET EN SERIE DES REGLES, UN FONCTIONNEMENT DE L'APPLICATEUR DE REGLES EN MODE DETERMINISTE OU INDETERMINISTE, DES OUTILS D'AIDE A L'ELABORATION DE TESTS... DES DIACRITIQUES ONT ETE DEFINIS POUR RENDRE COMPTE DE CERTAINS PHENOMENES PHONOLOGIQUES LIES A LA VARIABILITE INTER- ET INTRA-LOCUTEUR. EN OUTRE, LES FORMES PHONETIQUES SONT GENEREES EN FONCTION D'UN DIALECTE ET/OU D'UN IDIOLECTE ET D'UN STYLE D'ELOCUTION, A UN NIVEAU DE DESCRIPTION PHONETIQUE DESIRE. ELLES SONT, DE PLUS, MUNIES D'UN SCORE DE REALISATION DEDUIT DE LA PLAUSIBILITE DES REGLES PHONOLOGIQUES SATISFAITES. LA STRUCTURE DES REPRESENTATIONS PHONOLOGIQUES A ELLE-MEME ETE MODIFIEE PAR L'INTRODUCTION D'UNE NOTION NOUVELLE: LES GPM (POUR GROUPES A PRONONCIATIONS MULTIPLES QUI EQUIVALENT A PLUSIEURS SEQUENCES PHONETIQUES ALTERNATIVES) PARTICULIEREMENT ADAPTES POUR TRADUIRE L'INDETERMINISME AU NIVEAU DE LA PRONONCIATION. PLUSIEURS VERSIONS PARTICULIERES DU SYSTEME DE REGLES ONT ETE ADOPTEES EN VUE D'APPLICATIONS DE TRANSCRIPTION AUTOMATIQUE D'ENONCES ORTHOGRAPHIQUES 1) POUR L'ANNOTATION DES CORPUS DE PAROLE ENREGISTREE, 2) POUR LA GENERATION DE CORPUS PHONETIQUES ET PROSODIQUES D'EVALUATION DES SYSTEMES DE RECONNAISSANCE AUTOMATIQUE DE LA PAROLE ET 3) POUR LES BESOINS D'UN SYSTEME DE SYNTHESE DE LA PAROLE A PARTIR DU TEXTE, TEXOR, DEVELOPPE PAR UNE EQUIPE DU LABORATOIRE. CES APPLICATIONS ONT NECESSITE L'INTRODUCTION DE MARQUES PROSODIQUES DANS GEPH

Activation des codes orthographiques et phonologiques dans la reconnaissance visuelle du mot

Activation des codes orthographiques et phonologiques dans la reconnaissance visuelle du mot PDF Author: Enéas Ndinkabandi
Publisher:
ISBN:
Category :
Languages : fr
Pages : 512

Get Book Here

Book Description
La controverse sur la nature rapide, automatique, fiable et générale du processus d'assemblage phonologique est le point de départ de la proposition par Berent et Perfetti (1995) du modèle à deux cycles d'assemblage phonologique. Le principal mérite de ce modèle fut de considérer, que dans la reconnaissance visuelle d'un mot, les constituants consonnes et voyelles de la représentation assemblée sont dérivés en deux cycles qui diffèrent en vitesse et automaticité. Le premier cycle rapide et automatique assemble les consonnes et serait indifférent aux effets de régularité graphophonologique et de fréquence lexicale. Le deuxième cycle lent et contrôlé rajoute l'information concernant les voyelles, et l'on voit alors émerger les effets de régularité graphophonologique et de fréquence lexicale. Les recherches présentées dans cette thèse ont testé en français la structure de la représentation assemblée en constituants consonnes et voyelles. Dans le choix des mots cibles, les principales variables manipulées sont l'irrégularité graphophonologique des voyelles ou des consonnes ainsi que leur complexité graphémique. Les résultats des expériences 1 et 2 ont largement démontré qu'il y a au premier cycle, un avantage pour l'amorçage et le rétablissement de l'information dérivée des consonnes sur l'information dérivée des voyelles. Cet avantage des consonnes sur les voyelles disparaît au deuxième cycle, pendant lequel on voit aussi émerger des effets significatifs d'homophonie. Cependant, les expériences 3 et 4 font constater que ces résultats peuvent subir l'influence de l'irrégulérité des consonnes ou de leur complexité graphémique. Dans l'ensemble, les résultats permettent de penser que l'assemblage des consonnes et des voyelles a lieu en deux temps successifs, différents en vitesse et automaticité. Toutefois, le test en français de ce modèle nécessite d'être approfondi en suivant notamment les orientations suggérées dans notre conclusion générale.

UTILISATION ET APPRENTISSAGE DE MODELES DE LANGAGE POUR LA RECONNAISSANCE DE LA PAROLE CONTINUE

UTILISATION ET APPRENTISSAGE DE MODELES DE LANGAGE POUR LA RECONNAISSANCE DE LA PAROLE CONTINUE PDF Author: Pierre Dupont
Publisher:
ISBN:
Category :
Languages : fr
Pages : 247

Get Book Here

Book Description
LE PRESENT TRAVAIL S'INTERESSE A LA MODELISATION DU LANGAGE POUR LA RECONNAISSANCE DE LA PAROLE CONTINUE. CETTE MODELISATION A POUR OBJECTIF LE CONTROLE DU DECODAGE ACOUSTIQUE PAR UNE INFORMATION CONTRAIGNANT LES SEQUENCES DE MOTS A RECONNAITRE. DANS LA PREMIERE PARTIE, NOUS DEFINISSONS LE CONTEXTE GENERAL D'UTILISATION D'UN MODELE DE LANGAGE. NOUS Y ABORDONS LE CADRE PROBABILISTE ET LES ASPECTS ALGORITHMIQUES DE L'UTILISATION DE MODELES DE MARKOV CACHES EN RECONNAISSANCE DE LA PAROLE CONTINUE. NOUS DETAILLONS L'ALGORITHME DE VITERBI ET LA STRATEGIE DE RECHERCHE EN FAISCEAU QUI LUI EST ASSOCIEE. LA SECONDE PARTIE DE NOTRE TRAVAIL TRAITE D'UN TYPE PARTICULIER DE MODELES DE LANGAGE, CEUX BASES SUR UNE GRAMMAIRE HORS-CONTEXTE PROBABILISTE OU NON. NOUS PROPOSONS UNE APPROCHE ORIGINALE POUR L'INTEGRATION D'UN TEL MODELE DANS L'ALGORITHME DE VITERBI. ELLE UTILISE UN DEVELOPPEMENT D'UNE STRUCTURE RECURSIVE QUI DEFINIT DYNAMIQUEMENT L'ESPACE DE RECHERCHE DU DECODAGE ACOUSTIQUE. A CE PROPOS, NOUS MONTRONS L'INTERET D'UNE MISE SOUS FORME NORMALE DE GREIBACH DE LA GRAMMAIRE HORS-CONTEXTE. NOUS ETUDIONS EGALEMENT LA COMPLEXITE THEORIQUE D'UN ALGORITHME DE TRANSFORMATION SOUS CETTE FORME NORMALE. LES PERFORMANCES DE NOTRE APPROCHE SONT EVALUEES DANS DIFFERENTS SYSTEMES DE RECONNAISSANCE DE LA PAROLE EN METTANT L'ACCENT SUR SA COMPLEXITE PRATIQUE. DANS LA TROISIEME PARTIE, NOUS NOUS INTERESSONS A L'APPRENTISSAGE AUTOMATIQUE DE MODELES DE LANGAGE DEFINIS PAR LE BIAIS D'UNE GRAMMAIRE FORMELLE. EN PARTICULIER, NOUS NOUS CONCENTRONS SUR L'INFERENCE DE GRAMMAIRES REGULIERES A PARTIR D'ECHANTILLONS POSITIF ET NEGATIF D'UN LANGAGE. NOUS PROPOSONS UNE ETUDE THEORIQUE DETAILLEE DE L'ESPACE DE RECHERCHE DE CE PROBLEME ET NOUS DEMONTRONS DES PROPRIETES ORIGINALES PERMETTANT DE GUIDER LA CONSTRUCTION D'UNE SOLUTION. NOUS INTRODUISONS EGALEMENT UN NOUVEAU POINT DE VUE QUI CONSISTE A TRAITER L'INFERENCE REGULIERE COMME UN PROBLEME D'OPTIMISATION COMBINATOIRE. DANS CE CADRE, NOUS DEVELOPPONS UN ALGORITHME D'INFERENCE PAR OPTIMISATION GENETIQUE. ENSUITE, NOUS ETUDIONS L'INFERENCE REGULIERE SUR BASE D'UNE PRESENTATION SEQUENTIELLE DES DONNEES D'APPRENTISSAGE. A CETTE FIN, UNE EXTENSION INCREMENTALE D'UN ALGORITHME CONNU EST PROPOSEE. NOUS EN DEMONTRONS LA CONVERGENCE ET NOUS ETUDIONS SA COMPLEXITE THEORIQUE. FINALEMENT, NOUS DEFINISSONS DEUX PROTOCOLES D'EVALUATION DE METHODES D'INFERENCE ET NOUS COMPARONS LES DIFFERENTS ALGORITHMES ETUDIES

IDENTIFICATION ET GENERATION AUTOMATIQUE DE CONTOURS PROSODIQUES POUR LA SYNTHESE VOCALE A PARTIR DU TEXTE EN FRANCAIS

IDENTIFICATION ET GENERATION AUTOMATIQUE DE CONTOURS PROSODIQUES POUR LA SYNTHESE VOCALE A PARTIR DU TEXTE EN FRANCAIS PDF Author: Stéphanie de Tournemire
Publisher:
ISBN:
Category :
Languages : fr
Pages : 254

Get Book Here

Book Description
EN FRANCAIS, COMME DANS LA PLUPART DES LANGUES INDO-EUROPEENNES, LA PROSODIE DEPEND DE NOMBREUX FACTEURS (LA SYNTAXE, LA SEMANTIQUE, LA PRAGMATIQUE, LE LOCUTEUR) DIFFICILES A MODELISER PAR UN SEUL SYSTEME DE SYNTHESE A PARTIR DU TEXTE (TTS). AINSI, GENERALEMENT, LA CREATION D'UNE NOUVELLE VOIX SYNTHETIQUE CONSISTE A MODIFIER LES NIVEAUX ACOUSTIQUES SANS INTRODUIRE DE NOUVELLES CARACTERISTIQUES PROSODIQUES. LES TECHNIQUES D'APPRENTISSAGE AUTOMATIQUE PERMETTENT D'EXTRAIRE AUTOMATIQUEMENT LES REGULARITES PROSODIQUES PRESENTES DANS UN CORPUS DE PAROLE ENREGISTREE. NEANMOINS, CES TECHNIQUES NECESSITENT LA TRANSCRIPTION PROSODIQUE (SOUVENT) MANUELLE DE CORPUS IMPORTANTS, CREANT PAR LA-MEME UN FREIN A L'ACQUISITION RAPIDE DE NOUVEAUX MODELES PROSODIQUES. CETTE ETUDE PROPOSE UNE SOLUTION PERMETTANT DE CAPTURER AUTOMATIQUEMENT UNE NOUVELLE PROSODIE A PARTIR D'UN CORPUS DE PAROLE ENREGISTREE. LA METHODOLOGIE DE CONSTRUCTION DU MODELE PROSODIQUE COMPORTE TROIS PRINCIPALES ETAPES : LA TRANSCRIPTION PROSODIQUE SEMI-AUTOMATIQUE D'UN CORPUS ENREGISTRE, L'APPRENTISSAGE AUTOMATIQUE D'UN MODELE DE PREDICTION DES CONTOURS PROSODIQUES A PARTIR DU CORPUS TRANSCRIT ET L'INTEGRATION DE CE MODELE DANS UN SYSTEME DE SYNTHESE DE PAROLE A PARTIR DU TEXTE. LA MISE AU POINT DE LA METHODOLOGIE S'APPUIE SUR LA REALISATION D'UN MODELE PROSODIQUE DE F0 ET DES DUREES POUR LE FRANCAIS A PARTIR D'UN CORPUS ENREGISTRE. L'ERREUR OBJECTIVE MOYENNE PRODUITE PAR LE MODELE SUR LA BASE DE TEST EST DE 20 HZ POUR F0 ET DE 17 MS POUR LES DUREES DES PHONEMES. LES RESULTATS D'UN TEST SUBJECTIF ONT SITUE LE MODELE PROSODIQUE DEVELOPPE COMME EQUIVALENT AU SYSTEME STANDARD DE GENERATION DES CONTOURS PROSODIQUES DU CNET (CNETVOX). LA METHODOLOGIE EST APPLIQUEE A L'ACQUISITION DES PARAMETRES PROSODIQUES D'UN SECOND LOCUTEUR A PARTIR D'UN CORPUS ENREGISTRE PAR CE NOUVEAU LOCUTEUR. LES PERFORMANCES DU NOUVEAU MODELE PROSODIQUE PERMETTENT DE VALIDER LA METHODOLOGIE.

Un système multi-agent pour la machine à dicter vocale MAUD

Un système multi-agent pour la machine à dicter vocale MAUD PDF Author: Roselyne Nguyen
Publisher:
ISBN:
Category :
Languages : fr
Pages : 187

Get Book Here

Book Description
MAUD est un prototype de machine à dicter vocale élaboré au CRIN par l'équipe RFIA. Ce système est destiné à la reconnaissance automatique de la parole continue, multilocuteur, pour un très grand vocabulaire. Pour être un système opérationnel, MAUD doit tenter de faire collaborer toutes les connaissances linguistiques susceptibles d'améliorer la reconnaissance. Notre travail s'inscrit dans cette optique avec un double objectif : - faire évoluer l'architecture de MAUD afin de faciliter la modification des connaissances existantes – ou l'intégration de nouvelles connaissances, - profiter de cette nouvelle architecture pour étudier l'apport de la phonologie à la reconnaissance automatique de la parole. La réalisation de ce double objectif met en oeuvre trois domaines d'application distincts que sont la reconnaissance automatique de la parole, les systèmes multi-agents et la phonologie. Ces trois domaines sont présentés successivement dans la première partie de ce document. La partie suivante est consacrée à l’évolution de l'architecture procédurale de MAUD selon une approche multi agent. Après l'introduction de la version initiale de MAUD et du générateur ATOME qui a été choisi pour restructurer MAUD, nous proposons une nouvelle architecture fondée sur le modèle du tableau noir. Cette architecture multi-agent sert de base aux travaux concernant la phonologie. Le modèle phonologique que nous avons retenu et qui formalise (de manière informatique) les connaissances phonologiques sous la forme de règles en termes de gpm et de gpc, nous a permis de mettre en oeuvre deux réalisations concrètes. Ces travaux ont été menés dans le but d'étudier l'apport de la phonologie à la recherche des mots candidats au niveau lexical de MAUD. La première réalisation consiste à utiliser la partie contextuelle des règles phonologiques pour réduire le nombre trop important de mots candidats proposés par le module lexical. Les règles phonologiques agissent ici en tant que filtre lexico-phonologique. La seconde réalisation s'appuie plus largement sur le modèle phonologique et fait intervenir les règles dans la détermination des frontières de mot, l'un des problèmes majeurs de la reconnaissance de la parole continue. C'est dans cet esprit que le module lexico-phonologique PHONOLEX a été développé. L'ensemble de ces travaux présente les atouts d'une architecture multi-agent pour le système MAUD. De plus, les différentes expérimentations ont montré que les connaissances phonologiques actuelles sont capables de contribuer efficacement au processus global de reconnaissance à condition de les utiliser en complément d'autres connaissances susceptibles de réduire l'arbre de propositions lexicales généré.

Modélisation du langage pour les systèmes de reconnaissance de la parole destinés aux grands vocabulaires

Modélisation du langage pour les systèmes de reconnaissance de la parole destinés aux grands vocabulaires PDF Author: Imed Zitouni
Publisher:
ISBN:
Category :
Languages : fr
Pages : 188

Get Book Here

Book Description
Le traitement automatique de la parole suscite actuellement un grand interêt ; il est considéré comme une branche importante de l'interaction homme-machine. En effet, nous éprouvons le besoin de communiquer avec nos ordinateurs, de la facon la plus naturelle et la plus directe qui soit : le langage parle ; l'interaction et l'échange d'informations s'en trouvent grandement facilités. Le marché des logiciels offre aujourd'hui des produits qui prétendent effectuer une reconnaissance de la parole continue avec un vocabulaire important. En réalité, les performances de ces systèmes sont encore largement inférieures à celles de l'être humain, particulièrement au niveau de la modélisation du langage. Le travail que nous présentons dans ce manuscrit s'inscrit dans le cadre de la modélisation du langage pour les systèmes de reconnaissance de la parole continue destinés aux grands vocabulaires. Nous proposons de nouveaux modèles fondés sur des séquences de mots de longueur variable. Ces séquences représentent des structures langagières qui s'apparentent à des syntagmes linguistiques. Elles sont détectées automatiquement, à partir d'importants corpus de textes, en utilisant des mesures issues de la théorie de l'information. Nous proposons également une approche hybride combinant les modèles de langage probabilistes, utilisés dans la plupart des systèmes de reconnaissance actuels, avec des connaissances linguistiques explicites supplementaires. L'évaluation de l'ensemble de ces modèles est effectuée en terme de perplexité et en terme de prédiction à l'aide du jeu de Shannon. Pour tester leurs performances au niveau de la reconnaissance, nous avons développé un système de reconnaissance vocale nommé MAUD : machine automatique à dicter ; il se fonde sur les modèles de Markov cachés de second ordre et utilise un vocabulaire de 20000 mots. Par rapport à la version de base de ce système utilisant un modèle trigrammes, l'intégration de ces modèles de langage a amélioré le taux de reconnaissance d'environ 22%.