Analyse morpho-syntaxique automatique et reconnaissance des entités nommées en arabe standard

Analyse morpho-syntaxique automatique et reconnaissance des entités nommées en arabe standard PDF Author: Slim Mesfar
Publisher:
ISBN:
Category :
Languages : fr
Pages : 464

Get Book Here

Book Description
La langue arabe, bien que très importante par son nombre de locuteurs, elle présente des phénomènes morpho-syntaxiques très particuliers. Cette particularité est liée principalement à sa morphologie flexionnelle et agglutinante, à l’absence des voyelles dans les textes écrits courants, et à la multiplicité de ses formes, et cela induit une forte ambiguïté lexicale et syntaxique. Il s'ensuit des difficultés de traitement automatique qui sont considérables. Le choix d'un environnement linguistique fournissant des outils puissants et la possibilité d'améliorer les performances selon nos besoins spécifiques nous ont conduit à utiliser la plateforme linguistique NooJ. Nous commençons par une étude suivie d’une formalisation à large couverture du vocabulaire de l’arabe. Le lexique construit, nommé «El-DicAr», permet de rattacher l’ensemble des informations flexionnelles, morphologiques, syntactico-sémantiques à la liste des lemmes. Les routines de flexion et dérivation automatique à partir de cette liste produisent plus de 3 millions de formes fléchies. Nous proposons un nouveau compilateur de machines à états finis en vue de pouvoir stocker la liste générée de façon optimale par le biais d’un algorithme de minimisation séquentielle et d’une routine de compression dynamique des informations stockées. Ce dictionnaire joue le rôle de moteur linguistique pour l’analyseur morpho-syntaxique automatique que nous avons implanté. Cet analyseur inclut un ensemble d’outils: un analyseur morphologique pour le découpage des formes agglutinées en morphèmes à l’aide de grammaires morphologiques à large couverture, un nouvel algorithme de parcours des transducteurs à états finis afin de traiter les textes écrits en arabe indépendamment de leurs états de voyellation, un correcteur des erreurs typographiques les plus fréquentes, un outil de reconnaissance des entités nommées fondé sur une combinaison des résultats de l’analyse morphologique et de règles décrites dans des grammaires locales présentées sous forme de réseaux augmentés de transitions (ATNs), ainsi qu’un annotateur automatique et des outils pour la recherche linguistique et l’exploration contextuelle. Dans le but de mettre notre travail à la disposition de la communauté scientifique, nous avons développé un service de concordances en ligne «NooJ4Web: NooJ pour la Toile» permettant de fournir des résultats instantanés à différents types de requêtes et d’afficher des rapports statistiques ainsi que les histogrammes correspondants. Les services ci-dessus cités sont offerts afin de recueillir les réactions des divers usagers en vue d’une amélioration des performances. Ce système est utilisable aussi bien pour traiter l’arabe, que le français et l’anglais

Analyse morpho-syntaxique automatique et reconnaissance des entités nommées en arabe standard

Analyse morpho-syntaxique automatique et reconnaissance des entités nommées en arabe standard PDF Author: Slim Mesfar
Publisher:
ISBN:
Category :
Languages : fr
Pages : 464

Get Book Here

Book Description
La langue arabe, bien que très importante par son nombre de locuteurs, elle présente des phénomènes morpho-syntaxiques très particuliers. Cette particularité est liée principalement à sa morphologie flexionnelle et agglutinante, à l’absence des voyelles dans les textes écrits courants, et à la multiplicité de ses formes, et cela induit une forte ambiguïté lexicale et syntaxique. Il s'ensuit des difficultés de traitement automatique qui sont considérables. Le choix d'un environnement linguistique fournissant des outils puissants et la possibilité d'améliorer les performances selon nos besoins spécifiques nous ont conduit à utiliser la plateforme linguistique NooJ. Nous commençons par une étude suivie d’une formalisation à large couverture du vocabulaire de l’arabe. Le lexique construit, nommé «El-DicAr», permet de rattacher l’ensemble des informations flexionnelles, morphologiques, syntactico-sémantiques à la liste des lemmes. Les routines de flexion et dérivation automatique à partir de cette liste produisent plus de 3 millions de formes fléchies. Nous proposons un nouveau compilateur de machines à états finis en vue de pouvoir stocker la liste générée de façon optimale par le biais d’un algorithme de minimisation séquentielle et d’une routine de compression dynamique des informations stockées. Ce dictionnaire joue le rôle de moteur linguistique pour l’analyseur morpho-syntaxique automatique que nous avons implanté. Cet analyseur inclut un ensemble d’outils: un analyseur morphologique pour le découpage des formes agglutinées en morphèmes à l’aide de grammaires morphologiques à large couverture, un nouvel algorithme de parcours des transducteurs à états finis afin de traiter les textes écrits en arabe indépendamment de leurs états de voyellation, un correcteur des erreurs typographiques les plus fréquentes, un outil de reconnaissance des entités nommées fondé sur une combinaison des résultats de l’analyse morphologique et de règles décrites dans des grammaires locales présentées sous forme de réseaux augmentés de transitions (ATNs), ainsi qu’un annotateur automatique et des outils pour la recherche linguistique et l’exploration contextuelle. Dans le but de mettre notre travail à la disposition de la communauté scientifique, nous avons développé un service de concordances en ligne «NooJ4Web: NooJ pour la Toile» permettant de fournir des résultats instantanés à différents types de requêtes et d’afficher des rapports statistiques ainsi que les histogrammes correspondants. Les services ci-dessus cités sont offerts afin de recueillir les réactions des divers usagers en vue d’une amélioration des performances. Ce système est utilisable aussi bien pour traiter l’arabe, que le français et l’anglais

Automatic Processing of Natural-Language Electronic Texts with NooJ

Automatic Processing of Natural-Language Electronic Texts with NooJ PDF Author: Tatsiana Okrut
Publisher: Springer
ISBN: 3319424718
Category : Computers
Languages : en
Pages : 233

Get Book Here

Book Description
This book constitutes the refereed proceedings of the 9th International Conference, NooJ 2015, held in Minsk, Belarus, in June 2015. NooJ 2015 received 51 submissions. The 20 revised full papers presented in this volume were carefully reviewed and selected from the 35 papers that were presented at the conference. The papers are organized in topical sections on corpora, vocabulary and morphology; syntax and semantics; application.

Formalising Natural Languages with NooJ

Formalising Natural Languages with NooJ PDF Author: Victoria Khurshudian
Publisher: Cambridge Scholars Publishing
ISBN: 1443850195
Category : Language Arts & Disciplines
Languages : en
Pages : 255

Get Book Here

Book Description
NooJ is a linguistic development environment that provides tools for linguists to construct linguistic resources that formalise a large gamut of linguistic phenomena: typography, orthography, lexicons for simple words, multiword units and discontinuous expressions, inflectional and derivational morphology, local, structural and transformational syntax, and semantics. For each resource that linguists create, NooJ provides parsers that can apply it to any corpus of texts in order to extract examples or counter-examples, to annotate matching sequences, to perform statistical analyses, etc. NooJ also contains generators that can produce the texts that these linguistic resources describe, as well as a rich toolbox that allows linguists to construct, maintain, test, debug, accumulate and reuse linguistic resources. For each elementary linguistic phenomenon to be described, NooJ proposes a set of computational formalisms, the power of which ranges from very efficient finite-state automata to very powerful Turing machines. This makes NooJ’s approach different from most other computational linguistic tools that typically offer a unique formalism to their users. Since it was released in 2002, NooJ has been enhanced with new features every year. Linguists, researchers in the social sciences and, more generally, professionals who analyse texts have contributed to its development and participated in the annual NooJ conference. Since 2011, the European project Meta-Net CESAR has introduced new interest in NooJ as well as a new set of projects, both in linguistics and in computer science. The present volume contains 18 articles selected from the 32 papers presented at the International NooJ 2012 Conference which was held from June 14th to 16th at the Institut National des Langues et Civilisations Orientales (INALCO) in Paris. These articles are organised in three parts: “Vocabulary and Morphology” contains five articles; “Syntax and Semantics” contains six articles; “NooJ Applications” contains six articles. In this volume, we decided to add a new part: eight short papers that present prototype NooJ modules developed by graduate students and that could serve as bases for more ambitious projects.

Automatic Processing of Natural-Language Electronic Texts with NooJ

Automatic Processing of Natural-Language Electronic Texts with NooJ PDF Author: Linda Barone
Publisher: Springer
ISBN: 3319550020
Category : Computers
Languages : en
Pages : 266

Get Book Here

Book Description
This book constitutes the refereed proceedings of the 10th International Conference, NooJ 2016, held České Budějovice, Czech Republic, in June 2016. The 21 revised full papers presented in this volume were carefully reviewed and selected from 45 submissions. NooJ is a linguistic development environment that provides tools for linguists to construct linguistic resources that formalise a large gamut of linguistic phenomena: typography, orthography, lexicons for simple words, multiword units and discontinuous expressions, inflectional and derivational morphology, local, structural and transformational syntax, and semantics.

Text, Speech and Dialogue

Text, Speech and Dialogue PDF Author: Petr Sojka
Publisher: Springer
ISBN: 3319108166
Category : Computers
Languages : en
Pages : 623

Get Book Here

Book Description
This book constitutes the refereed proceedings of the 17th International Conference on Text, Speech and Dialogue, TSD 2013, held in Brno, Czech Republic, in September 2014. The 70 papers presented together with 3 invited papers were carefully reviewed and selected from 143 submissions. They focus on topics such as corpora and language resources; speech recognition; tagging, classification and parsing of text and speech; speech and spoken language generation; semantic processing of text and speech; integrating applications of text and speech processing; automatic dialogue systems; as well as multimodal techniques and modelling.

Formalizing Natural Languages

Formalizing Natural Languages PDF Author: Max Silberztein
Publisher: John Wiley & Sons
ISBN: 1119264138
Category : Language Arts & Disciplines
Languages : en
Pages : 350

Get Book Here

Book Description
This book is at the very heart of linguistics. It provides the theoretical and methodological framework needed to create a successful linguistic project. Potential applications of descriptive linguistics include spell-checkers, intelligent search engines, information extractors and annotators, automatic summary producers, automatic translators, and more. These applications have considerable economic potential, and it is therefore important for linguists to make use of these technologies and to be able to contribute to them. The author provides linguists with tools to help them formalize natural languages and aid in the building of software able to automatically process texts written in natural language (Natural Language Processing, or NLP). Computers are a vital tool for this, as characterizing a phenomenon using mathematical rules leads to its formalization. NooJ – a linguistic development environment software developed by the author – is described and practically applied to examples of NLP.

Natural Language Processing and Information Systems

Natural Language Processing and Information Systems PDF Author: Max Silberztein
Publisher: Springer
ISBN: 3319919474
Category : Computers
Languages : en
Pages : 514

Get Book Here

Book Description
This book constitutes the refereed proceedings of the 23rd International Conference on Applications of Natural Language to Information Systems, NLDB 2018, held in Paris, France, in June 2018. The 18 full papers, 26 short papers, and 9 poster papers presented were carefully reviewed and selected from 99 submissions. The papers are organized in the following topical sections: Opinion Mining and Sentiment Analysis in Social Media; Semantics-Based Models and Applications; Neural Networks Based Approaches; Ontology Engineering; NLP; Text Similarities and Plagiarism Detection; Text Classification; Information Mining; Recommendation Systems; Translation and Foreign Language Querying; Software Requirement and Checking.

Natural Language Processing and Information Systems

Natural Language Processing and Information Systems PDF Author: Elisabeth Métais
Publisher: Springer
ISBN: 3642388248
Category : Computers
Languages : en
Pages : 439

Get Book Here

Book Description
This book constitutes the refereed proceedings of the 18th International Conference on Applications of Natural Language to Information Systems, held in Salford, UK, in June 2013. The 21 long papers, 15 short papers and 17 poster papers presented in this volume were carefully reviewed and selected from 80 submissions. The papers cover the following topics: requirements engineering, question answering systems, named entity recognition, sentiment analysis and mining, forensic computing, semantic web, and information search.

Empowering Low-Resource Languages With NLP Solutions

Empowering Low-Resource Languages With NLP Solutions PDF Author: Pakray, Partha
Publisher: IGI Global
ISBN:
Category : Computers
Languages : en
Pages : 328

Get Book Here

Book Description
In our increasingly interconnected world, low-resource languages face the threat of oblivion. These linguistic gems, often spoken by marginalized communities, are at risk of fading away due to limited data and resources. The neglect of these languages not only erodes cultural diversity but also hinders effective communication, education, and social inclusion. Academics, practitioners, and policymakers grapple with the urgent need for a comprehensive solution to preserve and empower these vulnerable languages. Empowering Low-Resource Languages With NLP Solutions is a pioneering book that stands as the definitive answer to the pressing problem at hand. It tackles head-on the challenges that low-resource languages face in the realm of Natural Language Processing (NLP). Through real-world case studies, expert insights, and a comprehensive array of topics, this book equips its readers—academics, researchers, practitioners, and policymakers—with the tools, strategies, and ethical considerations needed to address the crisis facing low-resource languages.

Formalizing Natural Languages: Applications to Natural Language Processing and Digital Humanities

Formalizing Natural Languages: Applications to Natural Language Processing and Digital Humanities PDF Author: Mariana González
Publisher: Springer Nature
ISBN: 3031233174
Category : Computers
Languages : en
Pages : 226

Get Book Here

Book Description
This book constitutes selected revised papers of the 16th International Conference on Formalizing Natural Languages: Applications to Natural Language Processing and Digital Humanities, NooJ 2022, held in Rosario, Argentina, in June 2022. Due to COVID-19 pandemic the conference was held virtually. NooJ is a linguistic development environment that provides tools for linguists to construct linguistic resources that formalize a large gamut of linguistic phenomena: typography, orthography, lexicons for simple words, multiword units and discontinuous expressions, inflectional, derivational and agglutinative morphology, local, phrase-structure and dependency grammars, as well as transformational and semantic grammars. The 17 full papers presented were carefully reviewed and selected from 50 submissions. The papers are organized in the following topics:​ Morphological and Lexical Resources; Syntactic and Semantic Resources; Corpus Linguistics and Discourse Analysis; Natural Language Processing Applications.