TEXMEX
Équipe de recherche TEXMEX
Techniques d'exploitation des documents multimédias
Exploration, indexation, navigation et recherche dans de très grandes bases

Sujet de master 2 recherche en informatique pour l'année 2012 / 2013

Titre : Résumés multidocuments multimédias

Une façon d'explorer une base de contenus multimédias (TV, vidéos, user generated contents (YouTube...), sites Web...) est de naviguer entre les documents disponibles en suivant, par exemple, un lien thématique. On peut ainsi prendre l'extrait d'un journal télévisé d'une chaîne de TV abordant un fait divers, obtenir de l'information sur le lieu où se déroule ce fait sur un site Web, retrouver dans des journaux d'autres chaînes TV la façon donc ce même fait divers a été présenté, voire explorer des réseaux sociaux à la recherche de commentaires émis sur le sujet. Si ce mode de navigation thématique est un moyen d'accès pratique pour un utilisateur, c'est actuellement à lui qu'incombe la tâche de synthétiser l'ensemble de l'information que sa navigation lui a permis de récolter, afin, malgré les redites nombreuses, de collecter l'ensemble des points-clés correspondant au sujet. Le sujet de ce stage se situe dans ce cadre et a pour objectif d'aider l'utilisateur dans cette tâche en offrant des mécanismes de production de résumés multidocuments multimédias.

Cet objectif final étant vaste, on se focalisera ici sur l'obtention d'un résumé à partir du média langage contenu dans les documents, que ce soit en exploitant des données textuelles écrites (sites Web, réseaux sociaux, documents pdf...) ou en accédant au texte prononcé dans des vidéos grâce à une transcription automatique de la parole. Pour ce faire, on fera dans un premier temps un état de l'art des techniques de résumés multidocuments issues du traitement automatique des langues. En effet, depuis quelques années, des travaux sont menés dans cette communauté sur des textes écrits bien formés. Ils permettent de produire des résumés multidocuments essentiellement par extraction des phrases saillantes en termes d'information contenue, et par fusion des phrases extraites en prenant soin de minimiser la redondance d'information inhérente à la méthodologie. Le stage visera l'étude de l'applicabilité de ces techniques à des mélanges de transcriptions de la parole (dépourvues de la notion de phrases et contenant des erreurs de transcription pouvant fausser l'extraction des phrases importantes) et de textes écrits. Dans un second temps, des indices issus des médias image, vidéo et son pourront être exploités, d'une part pour consolider l'émergence des parties saillantes à conserver pour le résumé, d'autre part pour étudier des possibilités de production de résumés sous une forme non uniquement langagière. Enfin, si des "benchmarks" d'évaluation de systèmes de résumés multidocuments textuels existent, le stage devra également s'intéresser à la proposition d'une méthodologie d'évaluation des résumés produits dans ce cadre multimédia.

Bibliographie

Encadreurs

Équipe de recherche

Équipe TexMex, IRISA (UMR 6074)