Offrir des moyens de navigation pertinents et précis dans des collections de documents multimédias s'impose comme une nécessité face à l'explosion du volume de données disponible. Un des modes de navigation naturels est la navigation thématique. Afin de permettre ce type de navigation tout en répondant à des besoins de précision et de complétude, il est d'une part nécessaire de structurer chaque document de manière hiérarchique, offrant ainsi la possibilité de passer aisément d'une vision globale des thèmes abordés à une vision précise de chaque sujet. D'autre part, il convient de mettre en relation des documents à différents niveaux de leur hiérarchie thématique afin de faciliter la recherche par un utilisateur d'une information ou d'un ensemble d'informations sur un sujet donné.
La thèse vise à étudier les techniques permettant d'obtenir une structuration thématique hiérarchique d'un document multimédia, et les implications d'une telle représentation hiérarchique pour la mise en relation de parties de documents et pour la recherche d'information. L'accès aux informations sémantiques portées par les documents se fera en privilégiant la parole qu'ils contiennent, transcrite automatiquement.
Dans une première étape, on s'intéressera à extraire une structure thématique hiérarchique à partir de la transcription, la hiérarchie reflétant différents niveaux de granularité dans les thèmes abordés dans chaque document. Si la structuration thématique linéaire a donné lieu à de nombreux travaux en traitement automatique des langues [1, 2], très peu concernent jusqu'à présent la segmentation hiérarchique [3]. Diverses questions fondamentales seront à étudier, parmi lesquelles la notion même de granularité ainsi que les relations (ou l'emboîtement) entre différents niveaux de la hiérarchie pour un même thème. Si le critère de cohésion lexicale (récurrence d'un même vocabulaire pour aborder un thème donné, et changement global de vocabulaire quand on passe à un autre sujet), habituel en segmentation linéaire, restera au coeur de la segmentation hiérarchique, de nouveaux moyens d'exploitation de ce concept dans des segments petits d'une part et des méthodes permettant de faire émerger le vocabulaire spécifique aux différents niveaux de la hiérarchie d'un même thème d'autre part seront à découvrir. Pour apporter des réponses à ces diverses questions, on pourra soit adapter les algorithmes de segmentation linéaire pour les appliquer de manière récursive, soit proposer des approches directes de segmentation hiérarchique. On étudiera par ailleurs l'apport des modalités autres que la parole pour cette tâche.
Dans une seconde étape, on étudiera l'impact d'une structure thématique hiérarchique sur la mise en relation de (parties de) documents et la recherche d'information. Dans les deux cas, l'existence d'une structure hiérarchique soulève la question des parties du document à mettre en relation ou à retourner pour répondre à un besoin d'information. Dans le premier cas, la structure hiérarchique offre la possibilité de mettre en relation différents niveaux de description des documents. Mais pour cela, il est crucial de définir une distance pertinente entre parties de documents, qui prenne en compte l'éventuelle redondance entre différents niveaux de la hiérarchie. À nouveau, la multimodalité des documents pourra être exploitée à ce stade. Pour ce qui est de la recherche d'information, la question qui se pose est celle de la sélection des parties d'un ou de plusieurs documents répondant au besoin d'information exprimé, tout en déterminant le niveau apportant la réponse la plus ciblée possible. En d'autres termes, se pose la question de la partie, ou la collection de parties, la plus petite possible suffisant à répondre à une requête. On exploitera pour cela l'existence de relations entre les parties des documents, telles qu'établies au point précédent. Cette problématique sera à rapprocher des questionnements soulevés dans les systèmes de question/réponse. On pourra également exploiter la structure hiérarchique et les liens associés dans une optique de résumé automatique afin d'apporter une réponse concise et reflétant les éléments de réponse disséminés dans différentes parties de documents.
Cette thèse s'inscrit pleinement dans les efforts de recherche actuels de l'équipe Texmex de l'IRISA sur l'utilisation de grandes collections multimédias et sur l'analyse de la composante orale de ces documents. Les travaux s'appuieront sur l'expertise développée dans Texmex autour de l'exploitation de la parole pour l'accès sémantique aux contenus multimédias.
multimédia, traitement automatique des langues, segmentation thématique, traitement de la parole, recherche d'information