accueil

carte
anim les activités scientifiques  
-
recherche

aide
 

formation par la recherche / formation doctorale / enseignement, stages / sujets de thèses

-

Sujet de thèse proposé à l'Irisa pour la rentrée 2001-2002

-image
 

anim Acquisition automatique sur corpus de lexiques basés sur la sémantique différentielle

Localisation : Irisa, Rennes

Equipe : Aïda

Responsable : P. Sébillot (tél. direct : 02 99 84 73 17, email : sebillot@irisa.fr)

Mots-clés : acquisition d’information lexicale sur corpus, classification, sémantique lexicale, sémantique différentielle.

De nombreuses applications du traitement automatique du langage naturel (recherche documentaire, traduction automatique, etc.) nécessitent l’utilisation d’un lexique décrivant la sémantique des mots qu’elles manipulent. Or de tels lexiques n’existent pas pour tous les domaines, et ils doivent donc être acquis automatiquement à partir d’un corpus, ensemble de textes du domaine concerné.

Nous nous intéressons à l’acquisition, à l’aide de méthodes de classification, de lexiques basés sur la sémantique différentielle de Rastier, théorie dans laquelle la signification d’un mot est définie par les différences qu’elle entretient avec celles des autres mots. Pour Rastier, le sens d’un mot est essentiellement déterminé par le thème du texte dans lequel il apparaît et par les mots qui l’entourent (son voisinage). Un premier travail a permis de découper automatiquement un corpus en sous-corpus parlant du même sujet. Le but de cette thèse sera, dans un premier temps, d’affiner ce découpage en sous-corpus thématiques en gérant les ambiguïtés sémantiques concernant les diverses occurrences d’un même mot. La seconde phase concernera la mise au point d’une méthode efficace de classification permettant de regrouper automatiquement, dans un sous-corpus donné, les mots sémantiquement proches en classes homogènes (par exemple, regrouper chaise, tabouret, fauteuil) grâce à la ressemblance de leurs voisinages, puis l’établissement d’une technique permettant, au sein d’une même classe, de distinguer automatiquement les mots regroupés (notion de confort présente pour fauteuil, pas pour tabouret), ou, au sein de deux thèmes distincts, de caractériser la différence de sens d’un même mot (aspect économique ou humain du mot pays) toujours en se basant sur l’étude de leurs contextes d’utilisation. Une application des liens ainsi appris à la recherche d’information est envisagée.

 

 

up

dernière mise à jour : 15 juin 2001

-- english version --- webmaster@irisa.fr --- ©copyright --


accueil
 

w3c-html4