formation par la recherche / formation doctorale / enseignement, stages / sujets de thèses

Sujet de thèse proposé à l'Irisa pour la rentrée 2000-2001

Apprentissage de lexiques sémantiques pour l'extension de requêtes au sein d'un système de recherche d'information

Localisation :Irisa, Rennes

Equipe Aïda

Responsable : P. Sébillot (tél. direct : 02 99 84 73 17, email : sebillot@irisa.fr)

Mot-clés : acquisition d'informations lexicales en corpus, recherche d'information, variations sémantiques de termes, apprentissage automatique.

Sujet : De nombreuses applications du traitement automatique du langage naturel (recherche documentaire, traduction automatique, etc.) nécessitent l'utilisation d'un lexique décrivant la sémantique des mots qu'elles manipulent ; pour être pertinents, ces dictionnaires doivent être suffisamment précis pour que les sens des mots répertoriés correspondent effectivement à ceux du domaine particulier de l'application. Puisqu'il n'est pas possible de disposer a priori de tels lexiques pour tous les domaines, il faut être capable d'acquérir automatiquement une représentation sémantique riche des mots. J. Pustejovsky a proposé un modèle théorique de description des mots, le lexique génératif, dans lequel un nom possède une structure dite des qualia qui le lie à différents prédicats correspondant à ses diverses facettes sémantiques (son origine, sa fonction, etc.), c'est-à-dire aux différents événements auquel il peut participer. Ainsi, un livre y est décrit comme étant un objet qui a été écrit et dont la fonction est d'être lu. Un premier travail d'acquisition partielle de la structure des qualia a été développé au sein de l'équipe Aïda, dans lequel les prédicats verbaux qui peuvent être liés à un nom sont appris par Programmation Logique Inductive.

Le but de cette thèse sera de compléter l'acquisition de cette structure des qualia, en s'intéressant d'une part à la structure argumentale des prédicats verbaux associés à un nom, et, d'autre part, à l'acquisition d'éléments nominaux complétant sa description. L'apport de cette connaissance associée aux noms pour étendre les requêtes d'utilisateurs d'un système de recherche d'information devra être testé, et une caractérisation des variations sémantiques des termes des requêtes sera effectuée. La faisabilité de l'extension de ce travail à des moteurs de recherche de type web sera étudiée.

File translated from T_EX by T_TH, version 2.25.
On 8 Mar 2000, 15:33.

dernière mise à jour : 13 mars2000

english version

webmaster@irisa.fr

©copyright