Si l'on souhaite prendre connaissance de ce que contiennent de grandes bases de documents multimédias (par exemple, pour avoir une vue rapide ou plus précise d'un flux continu de 6 mois de télévision) et y naviguer selon divers besoins, il est nécessaire d'avoir des moyens de structuration automatique de ces contenus. Une des possibilités pour ce faire consiste à transcrire automatiquement la parole contenue dans ces documents et à exploiter les transcriptions ainsi obtenues en utilisant des techniques de traitement automatique des langues et de recherche d'information textuelle. C'est dans ce cadre que se situe ce stage de Master.
Partant d'un flux TV transcrit et segmenté automatiquement en documents thématiquement homogènes (émissions ou fragments d'émissions), on se focalisera sur un type de structuration particulier : la mise en relation de documents abordant le même sujet. Le travail envisagé vise donc à étudier des moyens pour répondre à des interrogations du type : quelles sont toutes les émissions ou portions d'émissions qui ont, au cours de la période considérée, abordé tel sujet ?
Afin de répondre à cette problématique, différentes questions doivent être résolues : comment caractériser un segment de document à l'aide de certains mots qu'il contient, malgré les erreurs inhérentes à la transcription automatique ? Comment lier des caractérisations de segments potentiellement courts, contenant donc peu de mots et exprimant les mêmes idées par des unités lexicales différentes ? Pour résoudre ces problèmes, on cherchera en particulier à étudier l'influence de la prise en compte de liens sémantiques entre mots (synonymie, etc.) sur la qualité de la mise en relation des documents. On s'intéressera dans un second temps à l'exploitation plus spécifique des entités nommées (noms de lieux, de personnes, etc.).