Loading...
Please wait, while we are loading the content...
Sélection de variables pour la classification non supervisée par mélanges gaussiens. Application à l'étude de données transcriptomes.
| Content Provider | Semantic Scholar |
|---|---|
| Author | Maugis, Cathy |
| Copyright Year | 2008 |
| Abstract | Nous nous interessons a la selection de variables en classification non supervisee par melanges gaussiens. Ces travaux sont en particulier motives par la classification de genes a partir de donnees transcriptomes. Dans les deux parties de cette these, le probleme est ramene a celui de la selection de modeles. Dans la premiere partie, le modele propose, generalisant celui de Raftery et Dean (2006) permet de specifier le role des variables vis-a-vis du processus de classification. Ainsi les variables non significatives peuvent etre dependantes d'une partie des variables retenues pour la classification. Ces modeles sont compares grâce a un critere de type BIC. Leur identifiabilite est etablie et la consistance du critere est demontree sous des conditions de regularite. En pratique, le statut des variables est obtenu grâce a un algorithme imbriquant deux algorithmes descendants de selection de variables pour la classification et pour la regression lineaire. L'interet de cette procedure est en particulier illustre sur des donnees transcriptomes. Une amelioration de la modelisation du role des variables, consistant a repartir les variables declarees non significatives entre celles dependantes et celles independantes des variables significatives pour la classification, est ensuite proposee pour pallier une surpenalisation de certains modeles. Enfin, la technologie des puces a ADN engendrant de nombreuses donnees manquantes, une extension de notre procedure tenant compte de l'existence de ces valeurs manquantes est suggeree, evitant leur estimation prealable. Dans la seconde partie, des melanges gaussiens de formes specifiques sont consideres et un critere penalise non asymptotique est propose pour selectionner simultanement le nombre de composantes du melange et l'ensemble des variables pertinentes pour la classification. Un theoreme general de selection de modeles pour l'estimation de densites par maximum de vraisemblance, propose par Massart (2007), est utilise pour determiner la forme de la penalite. Ce theoreme necessite le controle de l'entropie a crochets des familles de melanges gaussiens multidimensionnels etudiees. Ce critere dependant de constantes multiplicatives inconnues, l'heuristique dite « de la pente » est mise en œuvre pour permettre une utilisation effective de ce critere. |
| File Format | PDF HTM / HTML |
| Alternate Webpage(s) | https://www.math.u-psud.fr/select/phd/ManuscritTheseMaugis.pdf |
| Language | English |
| Access Restriction | Open |
| Content Type | Text |
| Resource Type | Article |