Loading...
Please wait, while we are loading the content...
Création rapide et efficace d'un système de désambiguïsation lexicale pour une langue peu dotée
| Content Provider | Semantic Scholar |
|---|---|
| Author | Nasiruddin, Mohammad Tchechmedjiev, Andon Blanchon, Hervé Schwab, Didier |
| Copyright Year | 2015 |
| Abstract | Nous presentons une methode pour creer rapidement un systeme de desambiguisation lexicale (DL) pour une langue L peu dotee pourvu que l'on dispose d'un systeme de traduction automatique statistique (TAS) d'une langue riche en corpus annotes en sens (ici l'anglais) vers L. Il est, en effet, plus facile de disposer des ressources necessaires a la creation d'un systeme de TAS que des ressources dediees necessaires a la creation d'un systeme de DL pour la langue L. Notre methode consiste a traduire automatiquement un corpus annote en sens vers la langue L, puis de creer le systeme de desambiguisation pour L par des methodes supervisees classiques. Nous montrons la faisabilite de la methode et sa genericite en traduisant le SemCor, un corpus en anglais annote grâce au Princeton WordNet, de l'anglais vers le bangla et de l'anglais vers le francais. Nous montrons la validite de l'approche en evaluant les resultats sur la tâche de desambi-guisation lexicale multilingue de Semeval 2013. Abstract. Rapid Construction of Supervised Word Sense Disambiguation System for Lesser-resourced Languages We introduce a method to quickly build a Word Sense Disambiguation (WSD) system for a lesser-resourced language L, under the condition that a Statistical Machine Transation system (SMT) is available from a well resourced language where semantically annotated corpora are available (here, English) towards L. We argue that it is less difficult to obtain the resources mandatory for the development of an SMT system (parallel-corpora) than it is to create the resources necessary for a WSD system (semantically annotated corpora, lexical resources). In the present work, we propose to translate a semantically annotated corpus from English to L and then to create a WSD system for L following the classical supervised WSD paradigm. We demonstrate the feasibility and genericity of our proposed method by translating SemCor from English to Bangla and from English to French. SemCor is an English corpus annotated with Princeton WordNet sense tags. We show the feasibility of the approach using the Multilingual WSD task from Semeval 2013. Mots-cles : clarification de texte, desambiguisation lexicale, langues peu dotees, traduction automatique, portage d'annotations. |
| File Format | PDF HTM / HTML |
| Alternate Webpage(s) | http://talnarchives.atala.org/TALN/TALN-2015/taln-2015-long-008.pdf |
| Alternate Webpage(s) | https://hal.archives-ouvertes.fr/hal-01856098/file/NTBS-taln2015.pdf |
| Language | English |
| Access Restriction | Open |
| Content Type | Text |
| Resource Type | Article |