Loading...
Please wait, while we are loading the content...
Adaptation de modèles statistiques pour la séparation de sources mono-capteur Texte imprimé : application à la séparation voix / musique dans les chansons
| Content Provider | Semantic Scholar |
|---|---|
| Author | Ozerov, Alexey |
| Copyright Year | 2006 |
| Abstract | La separation de sources avec un seul capteur est un probleme tres recent, qui attire de plus en plus d'attention dans le monde scientifique. Cependant, il est loin d'etre resolu et, meme plus, il ne peut pas etre resolu en toute generalite. La difficulte principale est que, ce probleme etant extremement sous determine, il faut disposer de fortes connaissances sur les sources pour pouvoir les separer. Pour une grande partie des methodes de separation, ces connaissances sont representees par des modeles statistiques des sources, notamment par des Modeles de Melange de Gaussiennes (MMG), qui sont appris auparavant a partir d'exemples. L'objet de cette these est d'etudier les methodes de separation basees sur des modeles statistiques en general, puis de les appliquer a un probleme concret, tel que la separation de la voix par rapport a la musique dans des enregistrements monophoniques de chansons. Apporter des solutions a ce probleme, qui est assez difficile et peu etudie pour l'instant, peut etre tres utile pour faciliter l'analyse du contenu des chansons, par exemple dans le contexte de l'indexation audio. Les methodes de separation existantes donnent de bonnes performances a condition que les caracteristiques des modeles statistiques utilises soient proches de celles des sources a separer. Malheureusement, il n'est pas toujours possible de construire et d'utiliser en pratique de tels modeles, a cause de l'insuffisance des exemples d'apprentissage representatifs et des ressources calculatoires. Pour remedier a ce probleme, il est propose dans cette these d'adapter a posteriori les modeles aux sources a separer. Ainsi, un formalisme general d'adaptation est developpe. En s'inspirant de techniques similaires utilisees en reconnaissance de la parole, ce formalisme est introduit sous la forme d'un critere d'adaptation Maximum A Posteriori (MAP). De plus, il est montre comment optimiser ce critere a l'aide de l'algorithme EM a differents niveaux de generalite. Ce formalisme d'adaptation est ensuite applique dans certaines formes particulieres pour la separation voix / musique. Les resultats obtenus montrent que pour cette tâche, l'utilisation des modeles adaptes permet d'augmenter significativement (au moins de 5 dB) les performances de separation par rapport aux modeles non adaptes. Par ailleurs, il est observe que la separation de la voix chantee facilite l'estimation de sa frequence fondamentale (pitch), et que l'adaptation des modeles ne fait qu'ameliorer ce resultat. |
| File Format | PDF HTM / HTML |
| Alternate Webpage(s) | https://tel.archives-ouvertes.fr/tel-00564866/file/ozerov_these.pdf |
| Alternate Webpage(s) | https://tel.archives-ouvertes.fr/tel-00564866/document |
| Language | English |
| Access Restriction | Open |
| Content Type | Text |
| Resource Type | Article |