|
Acquisition automatique
sur corpus de lexiques basés sur la sémantique
différentielle
Localisation : Irisa, Rennes
Equipe : Aïda
Responsable : P. Sébillot (tél. direct : 02
99 84 73 17, email : sebillot@irisa.fr)
Mots-clés : acquisition dinformation lexicale
sur corpus, classification, sémantique lexicale, sémantique
différentielle.
De nombreuses applications du traitement automatique du langage
naturel (recherche documentaire, traduction automatique, etc.) nécessitent
lutilisation dun lexique décrivant la sémantique
des mots quelles manipulent. Or de tels lexiques nexistent
pas pour tous les domaines, et ils doivent donc être acquis
automatiquement à partir dun corpus, ensemble de textes
du domaine concerné.
Nous nous intéressons à lacquisition, à
laide de méthodes de classification, de lexiques basés
sur la sémantique différentielle de Rastier, théorie
dans laquelle la signification dun mot est définie
par les différences quelle entretient avec celles des
autres mots. Pour Rastier, le sens dun mot est essentiellement
déterminé par le thème du texte dans lequel
il apparaît et par les mots qui lentourent (son voisinage).
Un premier travail a permis de découper automatiquement un
corpus en sous-corpus parlant du même sujet. Le but de cette
thèse sera, dans un premier temps, daffiner ce découpage
en sous-corpus thématiques en gérant les ambiguïtés
sémantiques concernant les diverses occurrences dun
même mot. La seconde phase concernera la mise au point dune
méthode efficace de classification permettant de regrouper
automatiquement, dans un sous-corpus donné, les mots sémantiquement
proches en classes homogènes (par exemple, regrouper chaise,
tabouret, fauteuil) grâce à la ressemblance de leurs
voisinages, puis létablissement dune technique
permettant, au sein dune même classe, de distinguer
automatiquement les mots regroupés (notion de confort présente
pour fauteuil, pas pour tabouret), ou, au sein de deux thèmes
distincts, de caractériser la différence de sens dun
même mot (aspect économique ou humain du mot pays)
toujours en se basant sur létude de leurs contextes
dutilisation. Une application des liens ainsi appris à
la recherche dinformation est envisagée.
|