De nombreuses collections de documents multimédias -- on peut, par exemple, citer les flux télévisuels archivés par l'Institut National de l'Audiovisuel -- atteignent des tailles telles qu'il n'est plus possible d'avoir une vision globale de leur contenu. Outre l'indexation permettant de retrouver des passages à partir de mots-clés, il est nécessaire de disposer d'un mode de navigation intelligent exploitant des liens sémantiques entre différents documents (ou parties de documents).
À l'instar des hyperliens textuels disponibles sur le Web, nous cherchons à enrichir des contenus multimédias par des liens vers d'autres documents. De tels liens doivent permettre de mettre en relation soit différentes parties d'un même document, soit un document et d'autres documents, voire une vidéo avec des textes sur le même sujet et des images illustrant le sujet.
Dans ce cadre, les liens auxquels nous nous intéressons reflètent la proximité thématique plus ou moins fine (même thème, même sujet précis) et visent à mettre en oeuvre une navigation sémantique dans une collection de documents. Par exemple, on peut envisager de grouper les documents portant sur un même sujet (clustering). De manière plus fine, on peut vouloir suivre l'évolution d'un sujet, notamment dans les actualités, sur une période de temps donnée (threading) et comparer le traitement du sujet selon différents médias (chaînes de télévision, journaux écrits, radios).
Lier deux documents en fonction de leur sens implique de « comprendre » leurs contenus. La langue naturelle, accessible par transcription automatique de la parole dans les médias non écrits, est le vecteur le plus fort du sens. Cependant, les outils actuels de transcription automatique de la parole ne sont pas exempts d'erreurs et ce d'autant plus pour de la parole spontanée.
L'objectif de cette thèse est de définir des moyens de navigation dans des collections multimédias et de les mettre en oeuvre. Plus précisément, on pourra distinguer trois étapes : (i) déterminer une mesure de proximité sémantique entre deux documents en dépit des éventuelles erreurs de transcription ; (ii) organiser la collection en créant des liens à partir des proximités entre documents ; (iii) offrir à un utilisateur des moyens de navigation dans la collection.
Pour le premier point, on s'attachera à définir une interface pertinente entre transcription automatique et traitement automatique des langues. On tirera également profit d'indices provenant d'autres modalités (e.g. image dans les vidéos) afin de pallier l'absence de robustesse de la transcription dans certains cas. Pour le deuxième point, on mettra tout d'abord en oeuvre des techniques de clustering flou afin de regrouper les documents selon une thématique gros grain avant d'envisager une organisation thématico-temporelle plus fine. Enfin, on étudiera les questions d'interfaces permettant une interaction effective en s'inspirant du domaine de l'hypermédia. On se penchera également sur la notion même de document dans ce cadre.
Cette thèse, qui s'effectuera au sein de l'équipe-projet Texmex, s'inscrit pleinement dans les efforts de recherche actuels sur l'analyse de la composante orale des documents multimédias, en collaboration avec l'équipe-projet Metiss. Elle s'insèrera naturellement dans les activités du groupe du travail "reconnaissance automatique de la parole et traitement automatique des langues pour le multimédia" et sera valorisée dans le cadre de projets applicatifs internationaux (Quaero, etc.).