Ressources et méthodes semi-supervisées pour l’analyse sémantique de texte en français

Ressources et méthodes semi-supervisées pour l’analyse sémantique de texte en français PDF Author: Claire Mouton
Publisher:
ISBN:
Category :
Languages : fr
Pages : 239

Get Book Here

Book Description
Pouvoir chercher des informations sur un niveau sémantique plutôt que purement lexical devrait améliorer la recherche d'informations. Cette thèse a pour objectif de développer des modules d'analyse sémantique lexicale afin d'améliorer le système de recherche de documents textuels de la société Exalead. Les travaux présentés concernent plus spécifiquement l'analyse sémantique de texte en français. La problématique liée au traitement du français réside dans le fait qu'il n'existe que peu de ressources sémantiques et de corpus annotés pour cette langue. Rendre possible une telle analyse implique donc d'une part de pourvoir aux besoins en ressources linguistiques françaises, et d'autre part, de trouver des méthodes alternatives ne nécessitant pas de corpus français manuellement annoté. Notre manuscrit est structuré en trois parties suivies d'une conclusion. Les deux chapitres de la première partie délimitent les objectifs et le contexte de notre travail. Le premier introduit notre thèse en évoquant la problématique de la sémantique en recherche d'information, en présentant la notion de sens et en identifiant deux tâches d'analyse sémantique : la désambiguïsation lexicale et l'analyse en rôles sémantiques. Ces deux tâches font l'objet de l'ensemble de notre étude et constituent respectivement les parties 2 et 3. Le second chapitre dresse un état de l'art de toutes les thématiques abordées dans notre travail. La deuxième partie aborde le problème de la désambiguïsation lexicale. Le chapitre 3 est consacré à la constitution de nouvelles ressources françaises pour cette tâche. Nous décrivons dans un premier temps une méthode de traduction automatique des synsets nominaux de WordNet vers le français à partir de dictionnaires bilingues et d'espaces distributionnels. Puis, nous constituons une ressource automatiquement en proposant une adaptation de deux méthodes d'induction de sens existantes. L'originalité des clusters de sens ainsi constitués est de contenir des mots dont la syntaxe est proche de celle des mots source. Ces clusters sont alors exploités dans l'algorithme que nous proposons au chapitre 4 pour la désambiguïsation elle-même. Le chapitre 4 fournit également des recommandations concernant l'intégration d'un tel module dans un système de recherche de documents. L'annotation en rôles sémantiques est traitée dans la troisième partie. Suivant une structure similaire, un premier chapitre traite de la constitution de ressources pour le français, tandis que le chapitre suivant présente l'algorithme développé pour l'annotation elle-même. Ainsi, le chapitre 5 décrit nos méthodes de traduction et d'enrichissement des prédicats de FrameNet, ainsi que l'évaluation associée. Nous proposons au chapitre 6 une méthode semi-supervisée exploitant les espaces distributionnels pour l'annotation en rôles sémantiques. Nous concluons ce chapitre par une réflexion sur l'usage des rôles sémantiques en recherche d'information et plus particulièrement dans le cadre des systèmes de réponses à des questions posées en langage naturel. La conclusion de notre mémoire résume nos contributions en soulignant le fait que chaque partie de notre travail exploite les espaces distributionnels syntaxiques et que ceci permet d'obtenir des résultats intéressants. Cette conclusion mentionne également les perspectives principales que nous inspirent ces travaux. La perspective principale et la plus immédiate est l'intégration de ces modules d'analyse sémantique dans des prototypes de recherche documentaire.

Ressources et méthodes semi-supervisées pour l’analyse sémantique de texte en français

Ressources et méthodes semi-supervisées pour l’analyse sémantique de texte en français PDF Author: Claire Mouton
Publisher:
ISBN:
Category :
Languages : fr
Pages : 239

Get Book Here

Book Description
Pouvoir chercher des informations sur un niveau sémantique plutôt que purement lexical devrait améliorer la recherche d'informations. Cette thèse a pour objectif de développer des modules d'analyse sémantique lexicale afin d'améliorer le système de recherche de documents textuels de la société Exalead. Les travaux présentés concernent plus spécifiquement l'analyse sémantique de texte en français. La problématique liée au traitement du français réside dans le fait qu'il n'existe que peu de ressources sémantiques et de corpus annotés pour cette langue. Rendre possible une telle analyse implique donc d'une part de pourvoir aux besoins en ressources linguistiques françaises, et d'autre part, de trouver des méthodes alternatives ne nécessitant pas de corpus français manuellement annoté. Notre manuscrit est structuré en trois parties suivies d'une conclusion. Les deux chapitres de la première partie délimitent les objectifs et le contexte de notre travail. Le premier introduit notre thèse en évoquant la problématique de la sémantique en recherche d'information, en présentant la notion de sens et en identifiant deux tâches d'analyse sémantique : la désambiguïsation lexicale et l'analyse en rôles sémantiques. Ces deux tâches font l'objet de l'ensemble de notre étude et constituent respectivement les parties 2 et 3. Le second chapitre dresse un état de l'art de toutes les thématiques abordées dans notre travail. La deuxième partie aborde le problème de la désambiguïsation lexicale. Le chapitre 3 est consacré à la constitution de nouvelles ressources françaises pour cette tâche. Nous décrivons dans un premier temps une méthode de traduction automatique des synsets nominaux de WordNet vers le français à partir de dictionnaires bilingues et d'espaces distributionnels. Puis, nous constituons une ressource automatiquement en proposant une adaptation de deux méthodes d'induction de sens existantes. L'originalité des clusters de sens ainsi constitués est de contenir des mots dont la syntaxe est proche de celle des mots source. Ces clusters sont alors exploités dans l'algorithme que nous proposons au chapitre 4 pour la désambiguïsation elle-même. Le chapitre 4 fournit également des recommandations concernant l'intégration d'un tel module dans un système de recherche de documents. L'annotation en rôles sémantiques est traitée dans la troisième partie. Suivant une structure similaire, un premier chapitre traite de la constitution de ressources pour le français, tandis que le chapitre suivant présente l'algorithme développé pour l'annotation elle-même. Ainsi, le chapitre 5 décrit nos méthodes de traduction et d'enrichissement des prédicats de FrameNet, ainsi que l'évaluation associée. Nous proposons au chapitre 6 une méthode semi-supervisée exploitant les espaces distributionnels pour l'annotation en rôles sémantiques. Nous concluons ce chapitre par une réflexion sur l'usage des rôles sémantiques en recherche d'information et plus particulièrement dans le cadre des systèmes de réponses à des questions posées en langage naturel. La conclusion de notre mémoire résume nos contributions en soulignant le fait que chaque partie de notre travail exploite les espaces distributionnels syntaxiques et que ceci permet d'obtenir des résultats intéressants. Cette conclusion mentionne également les perspectives principales que nous inspirent ces travaux. La perspective principale et la plus immédiate est l'intégration de ces modules d'analyse sémantique dans des prototypes de recherche documentaire.

Méthodes d'analyse supervisée pour l'interface syntaxe-sémantique

Méthodes d'analyse supervisée pour l'interface syntaxe-sémantique PDF Author: Corentin Ribeyre
Publisher:
ISBN:
Category :
Languages : fr
Pages : 0

Get Book Here

Book Description
Aujourd'hui, le volume de données textuelles disponibles est colossal. Ces données représentent des informations inestimables impossibles à traiter manuellement. De fait, il est essentiel d'utiliser des techniques de Traitement Automatique des Langues pour extraire les informations saillantes et comprendre le sens sous-jacent. Cette thèse s'inscrit dans cette perspective et proposent des ressources, des modèles et des méthodes pour permettre : (i) l'annotation automatique de corpus à l'interface entre la syntaxe et la sémantique afin d'en extraire la structure argumentale (ii) l'exploitation des ressources par des méthodes efficaces. Nous proposons d'abord un système de réécriture de graphes et un ensemble de règles de réécriture manuellement écrites permettant l'annotation automatique de la syntaxe profonde du français. Grâce à cette approche, deux corpus ont vu le jour : le DeepSequoia, version profonde du corpus Séquoia et le DeepFTB, version profonde du French Treebank en dépendances. Ensuite, nous proposons deux extensions d'analyseurs par transitions et les adaptons à l'analyse de graphes. Nous développons aussi un ensemble de traits riches issus d'analyses syntaxiques. L'idée est d'apporter des informations topologiquement variées donnant à nos analyseurs les indices nécessaires pour une prédiction performante de la structure argumentale. Couplé à un analyseur par factorisation d'arcs, cet ensemble de traits permet d'établir l'état de l'art sur le français et de dépasser celui établi pour les corpus DM et PAS sur l'anglais. Enfin, nous explorons succinctement une méthode d'induction pour le passage d'un arbre vers un graphe.

Algorithmes d'analyse syntaxique par grammaires lexicalisées

Algorithmes d'analyse syntaxique par grammaires lexicalisées PDF Author: Olivier Blanc
Publisher:
ISBN:
Category :
Languages : fr
Pages : 194

Get Book Here

Book Description
Nos recherches portent sur l'analyse automatique de textes par application de grammaires lexicalisées en utilisant des ressources linguistiques à large couverture. Dans ce contexte, nous avons appronfondi nos travaux dans trois domaines : l'algorithmique, la réalisation d'applications utilisables dans un contexte industriel et l'analyse syntaxique profonde. En ce qui concerne le premier point, nous avons implémenté des algorithmes originaux pour l'optimisation des grammaires locales en préalable à leur utilisation pour l'analyse et nous proposons un algorithme efficace pour l'application de ce type de grammaire sur un texte. Notre algorithme améliore le traitement des ambiguïtés lexicales et syntaxiques. Nous montrons par des évaluations chiffrées que nos algorithmes permettent de traiter de gros volumes de données textuelles en combinaison avec des ressources linguistiques fines et à large couverture. Au niveau applicatif, nous avons participé au développement de la plate-forme RNTL Outilex dédiée aux traitements automatiques de textes écrits. L'architecture modulaire de la plate-forme et sa licence peu restrictive (LGPL) permet la réalisation, à faible coût, d'applications hybrides mélangeant les méthodes à base de ressources linguistiques avec les méthodes statistiques. Enfin, le troisième axe de nos recherches porte sur l'exploitation des tables du lexique-grammaire, pour l'analyse syntaxique profonde et l'extraction des prédicats et de leurs arguments dans les textes français.A cet effet, nous avons fait évoluer le formalisme de nos grammaires vers un formalisme à structure de traits. Les équations sur les traits qui décorent notre grammaire nous permettent de résoudre de manière déclarative différents phénomènes syntaxiques et de représenter de manière formelle les résultats d'analyse. Nous présentons notre grammaire du français dans l'état actuel, qui est générée de manière semi-automatique à partir des tables du lexique grammaire, et nous donnons des évaluations de sa couverture lexicale et syntaxique

Les méthodes de l'analyse sémantique

Les méthodes de l'analyse sémantique PDF Author: Jacques Noël
Publisher:
ISBN:
Category : Semantics
Languages : fr
Pages : 31

Get Book Here

Book Description


Opinion Mining and Sentiment Analysis

Opinion Mining and Sentiment Analysis PDF Author: Bo Pang
Publisher: Now Publishers Inc
ISBN: 1601981503
Category : Data mining
Languages : en
Pages : 149

Get Book Here

Book Description
This survey covers techniques and approaches that promise to directly enable opinion-oriented information-seeking systems.

Search Result Diversification

Search Result Diversification PDF Author: Santos Rodrygo L T
Publisher: Now Publishers
ISBN: 9781680830002
Category : Computers
Languages : en
Pages : 108

Get Book Here

Book Description
This primer reviews the published literature on search result diversification. In particular, it discusses the motivations for diversifying the search results for an ambiguous query and provides a formal definition of the search result diversification problem. In addition, it describes the most successful approaches in the literature for producing and evaluating diversity in multiple search domains.

Pattern Recognition and Applications

Pattern Recognition and Applications PDF Author: María Inés Torres
Publisher:
ISBN: 9784274903625
Category : Artificial intelligence
Languages : en
Pages : 316

Get Book Here

Book Description


Robust Adaptation to Non-Native Accents in Automatic Speech Recognition

Robust Adaptation to Non-Native Accents in Automatic Speech Recognition PDF Author: Silke Goronzy
Publisher: Springer
ISBN: 3540362908
Category : Computers
Languages : en
Pages : 135

Get Book Here

Book Description
Speech recognition technology is being increasingly employed in human-machine interfaces. A remaining problem however is the robustness of this technology to non-native accents, which still cause considerable difficulties for current systems. In this book, methods to overcome this problem are described. A speaker adaptation algorithm that is capable of adapting to the current speaker with just a few words of speaker-specific data based on the MLLR principle is developed and combined with confidence measures that focus on phone durations as well as on acoustic features. Furthermore, a specific pronunciation modelling technique that allows the automatic derivation of non-native pronunciations without using non-native data is described and combined with the previous techniques to produce a robust adaptation to non-native accents in an automatic speech recognition system.

A Textbook of Translation

A Textbook of Translation PDF Author: Peter Newmark
Publisher:
ISBN:
Category : Translating and interpreting
Languages : en
Pages : 292

Get Book Here

Book Description


Towards Knowledge Societies

Towards Knowledge Societies PDF Author: Jérôme Bindé
Publisher: Unesco
ISBN:
Category : Continuing education
Languages : fr
Pages : 232

Get Book Here

Book Description
Urges governments to expand quality education for all, increase community access to information and communication technology, and improve cross-border scientific knowledge-sharing, in an effort to narrow the digital and "knowledge" divides between the North and South and move towards a "smart" form of sustainable human development.