Loading...
Please wait, while we are loading the content...
Similar Documents
Apprentissage dynamique du nombre d'états d'un modèle de markov caché à observations continues : Application au tri de formulaires
| Content Provider | Semantic Scholar |
|---|---|
| Author | Ramdane, Saïd Taconet, Bruno Zahour, Abderrazak |
| Copyright Year | 2003 |
| Abstract | Our purpose is to recognise types of forms with handwritten fields. The form is described by a pseudo-2D hidden Markov model (PHMM). The observations are features extracted from the rectangular blocks of its physical structure. This model consists of a graph of super-states. To each super-state, one associates a secondary 1D hidden Markov model (HMM) whose observations are continuous. We expose why the traditional method of the K-means is badly adapted to our problem, then we detail a general method which takes better into account the physical reality of the states, by locating them in the space of representation of the characteristics, and by dynamically building them by progressive aggregation of the sequences of observations. It is only at the end of the process of aggregation that the number of states of the initial stochastic model is known. 1. Le modele de la structure physique d'un formulaire Nos travaux visent a trouver une methode generale et fiable fondee scientifiquement, qui permet de trier automatiquement les formulaires avec champs manuscrits et sans aucun signe de reference. La structure physique est decrite par un modele de Markov cache pseudo-2D (PHMM), qui incorpore les variations de taille des champs manuscrits et qui prend en compte les phenomenes de fusionnement et de fragmentation des blocs [1,2]. 1.1 Architecture generale du modele PHMM Un algorithme de rectangulation [3,4] permet d'extraire les blocs rectangulaires englobant les zones d'inscription, et en fournit la liste. L'ensemble de ces rectangles constitue la totalite de l'information retenue pour faire l'identification. Nous nous sommes limites aux parametres les plus simples de chaque rectangle : hauteur, largeur, coordonnees de son centre. Puisque le formulaire traite est compose de paves noirs sur fond blanc, nous observons frequemment des ensembles de lignes successives identiques ; une super-ligne decrit un tel ensemble. De facon a comprimer la representation, un formulaire sera decrit par un tableau de super-lignes, composees de super-segments noirs. Nous avons opte pour une architecture planaire a modele principal vertical ; l'image d'un formulaire doit donc etre decoupee en bandes horizontales homogenes (dont les lignes sont semblables). Chaque bande horizontale est modelisee par un modele de Markov secondaire (HMM-1D) de type gauche droite (figure 1). Dans la direction verticale, un modele de duree explicite a ete retenu, ce qui permet de mieux prendre en compte la hauteur des differents super-etats [5]. La duree dans un super-etat est ainsi assimilee a la hauteur de la bande (c'est-a-dire le nombre de lignes). Dans la direction horizontale, les observations sont relatives aux supersegments noirs et caracterisees par deux composantes : la position et la longueur du super-segment noir. Les phenomenes de fragmentation horizontale, et, paradoxalement, les phenomenes de fragmentation verticale d'un rectangle majeur sont traites par les transitions entre etats des HMMs secondaires. 1.2 Les modeles secondaires Les modeles secondaires du PHMM propose sont des modeles markoviens continus d'ordre 1, de type gauchedroite. Dans un tel probleme, il est recommande de faire l'apprentissage des HMMs par l'algorithme des k-moyennes (de preference a l'algorithme de Baum-Welch), pour repartir le mieux possible les observations continues dans les etats. Les phenomenes de fragmentation horizontale sont naturellement pris en compte par les transitions entre etats des HMMs secondaires. Les phenomenes de fragmentation verticale, se produisant a l'interieur d'un meme super-etat, sont egalement (et paradoxalement) absorbes par les transitions entre etats du modele secondaire (figure 2). Fragmentation horizontale Fragmentation verticale Decoupage de l'image du document en bandes Super-etat Etat Super-segment noir FIG. 1 : architecture generale du modele markovien PHMM Fragmentation horizontale (hauteurs identiques) Fragmentation verticale (largeurs identiques) Fragmentation verticale (largeurs differentes) Fragmentation horizontale (hauteurs differentes) Super-etat |
| File Format | PDF HTM / HTML |
| Alternate Webpage(s) | http://documents.irevues.inist.fr/bitstream/handle/2042/13759/A456.pdf;jsessionid=24DEF1D938200F774E4514EE8EDE32DC?sequence=1 |
| Language | English |
| Access Restriction | Open |
| Content Type | Text |
| Resource Type | Article |