Loading...
Please wait, while we are loading the content...
Similar Documents
Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document OCRisés en Arabe
| Content Provider | Semantic Scholar |
|---|---|
| Author | Bouzidi, Kamel Elloumi, Zied Besacier, Laurent Lecouteux, Benjamin Zeghiba, Mohamed Faouzi Ben |
| Copyright Year | 2017 |
| Abstract | Cet article presente un systeme original de traduction de documents numerises en arabe. Deux modules sont cascades : un systeme de reconnaissance optique de caracteres (OCR) en arabe et un systeme de traduction automatique (TA) arabe-francais. Le couplage OCR-TA a ete peu aborde dans la litterature et l'originalite de cette etude consiste a proposer un couplage etroit entre OCR et TA ainsi qu'un traitement specifique des mots hors vocabulaire (MHV) engendres par les erreurs d'OCRisation. Le couplage OCR-TA par treillis et notre traitement des MHV par remplacement selon une mesure composite qui prend en compte forme de surface et contexte du mot, permettent une amelioration significative des performances de traduction. Les experimentations sont realises sur un corpus de journaux numerises en arabe et permettent d'obtenir des ameliorations en score BLEU de 3,73 et 5,5 sur les corpus de developpement et de test respectivement. |
| File Format | PDF HTM / HTML |
| Alternate Webpage(s) | http://www.a2ialab.com/lib/exe/fetch.php?media=publications:mfb_taln2017.pdf |
| Alternate Webpage(s) | https://hal.archives-ouvertes.fr/hal-01623072/file/papier_kamel.pdf |
| Language | English |
| Access Restriction | Open |
| Content Type | Text |
| Resource Type | Article |