Loading...
Please wait, while we are loading the content...
Similar Documents
Estimation et sélection de modèle pour le modèle des blocs latents
| Content Provider | Semantic Scholar |
|---|---|
| Author | Brault, Vincent |
| Copyright Year | 2014 |
| Abstract | Le but de la classification est de partager des ensembles de donnees en sous-ensembles les plus homogenes possibles, c'est-a-dire que les membres d'une classe doivent plus se ressembler entre eux qu'aux membres des autres classes. Le probleme se complique lorsque le statisticien souhaite definir des groupes a la fois sur les individus et sur les variables. Le modele des blocs latents definit une loi pour chaque croisement de classe d'objets et de classe de variables, et les observations sont supposees independantes conditionnellement au choix de ces classes. Toutefois, il est impossible de factoriser la loi jointe des labels empechant le calcul de la logvraisemblance et l'utilisation de l'algorithme EM. Plusieurs methodes et criteres existent pour retrouver ces partitions, certains frequentistes, d'autres bayesiens, certains stochastiques, d'autres non. Dans cette these, nous avons d'abord propose des conditions suffisantes pour obtenir l'identifiabilite. Dans un second temps, nous avons etudie deux algorithmes proposes pour contourner le probleme de l'algorithme EM : VEM de Govaert et Nadif (2008) et SEM-Gibbs de Keribin, Celeux et Govaert (2010). En particulier, nous avons analyse la combinaison des deux et mis en evidence des raisons pour lesquelles les algorithmes degenerent (terme utilise pour dire qu'ils renvoient des classes vides). En choisissant des lois a priori judicieuses, nous avons ensuite propose une adaptation bayesienne permettant de limiter ce phenomene. Nous avons notamment utilise un echantillonneur de Gibbs dont nous proposons un critere d'arret base sur la statistique de Brooks-Gelman (1998). Nous avons egalement propose une adaptation de l'algorithme Largest Gaps (Channarond et al. (2012)). En reprenant leurs demonstrations, nous avons demontre que les estimateurs des labels et des parametres obtenus sont consistants lorsque le nombre de lignes et de colonnes tendent vers l'infini. De plus, nous avons propose une methode pour selectionner le nombre de classes en ligne et en colonne dont l'estimation est egalement consistante a condition que le nombre de ligne et de colonne soit tres grand. Pour estimer le nombre de classes, nous avons etudie le critere ICL (Integrated Completed Likelihood) dont nous avons propose une forme exacte. Apres avoir etudie l'approximation asymptotique, nous avons propose un critere BIC (Bayesian Information Criterion) puis nous conjecturons que les deux criteres selectionnent les memes resultats et que ces estimations seraient consistantes ; conjecture appuyee par des resultats theoriques et empiriques. Enfin, nous avons compare les differentes combinaisons et propose une methodologie pour faire une analyse croisee de donnees. |
| File Format | PDF HTM / HTML |
| Alternate Webpage(s) | https://www.math.u-psud.fr/select/phd/VA2_BRAULT_VINCENT_30092014.pdf |
| Language | English |
| Access Restriction | Open |
| Content Type | Text |
| Resource Type | Article |