Loading...
Please wait, while we are loading the content...
Similar Documents
Adaptation des systèmes de recherche d'information aux contextes : le cas des requêtes difficiles
| Content Provider | Semantic Scholar |
|---|---|
| Author | Chifu, Adrian-Gabriel |
| Copyright Year | 2015 |
| Abstract | Le domaine de la recherche d'information (RI) etudie la facon de trouver des informations pertinentes dans un ou plusieurs corpus, pour repondre a un besoin d'information. Dans un Systeme de Recherche d'Information (SRI) les informations cherchees sont des " documents " et un besoin d'information prend la forme d'une " requete " formulee par l'utilisateur. La performance d'un SRI est dependante de la requete. Les requetes pour lesquelles les SRI echouent (pas ou peu de documents pertinents retrouves) sont appelees dans la litterature des " requetes difficiles ". Cette difficulte peut etre causee par l'ambiguite des termes, la formulation peu claire de la requete, le manque de contexte du besoin d'information, la nature et la structure de la collection de documents, etc. Cette these vise a adapter les systemes de recherche d'information a des contextes, en particulier dans le cadre de requetes difficiles. Le manuscrit est structure en cinq chapitres principaux, outre les remerciements, l'introduction generale et les conclusions et perspectives. Le premier chapitre represente une introduction a la RI. Nous developpons le concept de pertinence, les modeles de recherche de la litterature, l'expansion de requetes et le cadre d'evaluation utilise dans les experimentations qui ont servi a valider nos propositions. Chacun des chapitres suivants presente une de nos contributions. Les chapitres posent les problemes, indiquent l'etat de l'art, nos propositions theoriques et leur validation sur des collections de reference. Dans le chapitre deux, nous presentons nos recherche sur la prise en compte du caractere ambigu des requetes. L'ambiguite des termes des requetes peut en effet conduire a une mauvaise selection de documents par les moteurs. Dans l'etat de l'art, les methodes de desambiguisation qui donnent des bonnes performances sont supervisees, mais ce type de methodes n'est pas applicable dans un contexte reel de RI, car elles necessitent de l'information normalement indisponible. De plus, dans la litterature, la desambiguisation de termes pour la RI est declaree comme sous optimale. Dans ce contexte, nous proposons une methode de desambiguisation de requetes non-supervisee et montrons son efficacite. Notre approche est interdisciplinaire, entre les domaines du traitement automatique du langage et la RI. L'objectif de la methode de desambiguisation non-supervisee que nous avons mise au point est de donner plus d'importance aux documents retrouves par le moteur de recherche qui contient les mots de la requete avec les sens identifies par la desambiguisation. Ce changement d'ordre des documents permet d'offrir une nouvelle liste qui contient plus de documents potentiellement pertinents pour l'utilisateur. Nous avons teste cette methode de re-ordonnancement des documents apres desambiguisation en utilisant deux techniques de classification differentes (Naive Bayes [Chifu et Ionescu, 2012] et classification spectrale [Chifu et al., 2015]), sur trois collections de documents et des requetes de la competition TREC (TREC7, TREC8, WT10G). Nous avons montre que la methode de desambiguisation donne de bons resultats dans le cas ou peu de documents pertinents sont retrouves par le moteur de recherche (7,9% d'amelioration par rapport aux methodes de l'etat de l'art). Dans le chapitre trois, nous presentons le travail focalise sur la prediction de la difficulte des requetes. En effet, si l'ambiguite est un facteur de difficulte, il n'est pas le seul. Nous avons complete la palette des predicteurs de difficulte en nous appuyant sur l'etat de l'art. Les predicteurs existants ne sont pas suffisamment efficaces et, en consequence, nous introduisons des nouvelles mesures de prediction de la difficulte qui combinent les predicteurs. Nous proposons egalement une methode robuste pour evaluer les predicteurs de difficulte des requetes. En utilisant les combinaisons des predicteurs, sur les collections TREC7 et TREC8, nous obtenons une amelioration de la qualite de la prediction de 7,1% par rapport a l'etat de l'art [Chifu, 2013]. Dans le quatrieme chapitre nous nous interessons a l'application des mesures de prediction. Plus precisement, nous avons propose une approche selective de RI, c'est-a-dire que les predicteurs sont utilises pour decider quel moteur de recherche, parmi plusieurs, repondrait mieux pour une requete. Le modele de decision est appris par un SVM (Separateur a Vaste Marge). Nous avons teste notre modele sur des collections de reference de TREC (Robust, WT10G, GOV2). Les modeles appris ont classe les requetes de test avec plus de 90% d'exactitude. Par ailleurs, les resultats de la recherche ont ete ameliores de plus de 11% en termes de performance, compare a des methodes non selectives [Chifu et Mothe, 2014]. Dans le dernier chapitre, nous avons traite une problematique importante dans le domaine de la RI : l'expansion des requetes par l'ajout de termes. Il est tres difficile de predire les parametres d'expansion ou d'anticiper si une requete a besoin d'expansion, ou pas. Nous presentons notre contribution pour optimiser le parametre lambda dans le cas de RM3 (un modele pseudo-pertinence d'expansion des requetes), par requete. Nous avons teste plusieurs hypotheses, a la fois avec et sans information prealable. Nous recherchons la quantite minimale d'information necessaire pour que l'optimisation du parametre d'expansion soit possible. Les resultats obtenus ne sont pas satisfaisants, meme si nous avons utilise une vaste plage de methodes, comme les SVM, la regression, la regression logistique et les mesures de similarite. Par consequent, ces observations peuvent renforcer la conclusion sur la difficulte de ce probleme d'optimisation. Les recherches ont ete menees non seulement au cours d'une mobilite de la recherche de trois mois a l'institut Technion de Haifa, en Israel, en 2013, mais aussi par la suite, en gardant le contact avec l'equipe de Technion. A Haifa, nous avons travaille avec le professeur Oren Kurland et la doctorante Anna Shtok. En conclusion, dans cette these nous avons propose de nouvelles methodes pour ameliorer les performances des systemes de RI, en s'appuyant sur la difficulte des requetes. Les resultats des methodes proposees dans les chapitres deux, trois et quatre montrent des ameliorations importantes et ouvrent des perspectives pour de futures recherches. L'analyse presentee dans le chapitre cinq confirme la difficulte de la problematique d'optimisation du parametre concerne et incite a creuser plus sur le parametrage de l'expansion selective des requetes |
| File Format | PDF HTM / HTML |
| Alternate Webpage(s) | http://thesesups.ups-tlse.fr/2772/1/2015TOU30061.pdf |
| Alternate Webpage(s) | https://www.irit.fr/publis/SIG/2015_These_CAG.pdf |
| Language | English |
| Access Restriction | Open |
| Content Type | Text |
| Resource Type | Article |