Présentation
L'explosion de la quantité de documents multimédias
numériques a engendré un très fort
dynamisme de la recherche dans le domaine de l'indexation
multimédia. Cependant, la portée des travaux menés par
les spécialistes des médias est limitée par leur aspect
monomédia et par la quantité de documents que ces personnes
manipulent, quelques milliers d'images par exemple, alors que les
applications professionnelles demanderaient d'en manipuler bien plus
(quelques millions).
De telles quantités de documents posent des problèmes de
structuration et de stockage sur disque, problèmes qui sont hors de
l'expertise des spécialistes de médias. à l'inverse,
les spécialistes des bases de données, coutumiers de ce
problèmes, ne considèrent que des techniques très
rudimentaires de description des documents, faute de savoir-faire dans le domaine.
Pour remédier à cela, nous proposons la création
d'une équipe réunissant en son sein à la fois des
spécialistes des médias et des spécialistes des
techniques d'utilisation de ces documents telles les bases de
données, la recherche d'information ou les statistiques. L'objectif
de l'équipe est donc de se situer à l'intersection des deux
axes de travail suivants :
- définition de nouveaux descripteurs de documents pour les
images fixes, la vidéo et le texte, définition de
descripteurs faisant intervenir plusieurs médias et de
méta-données associées aux documents,
évaluation de ces descripteurs sur de grandes bases de
documents ;
- statistiques pour l'exploration des grands volumes de données,
gestion et stratégies de calcul des méta-données
et descripteurs associées aux documents, analyse de la
qualité des données, étude de stratégies
économes d'exploitation (navigation, indexation, recherche),
définition de supports systèmes et matériels pour
un accès rapide à ces données.
L'originalité de notre approche vient de la prise en compte
simultanée des contraintes liées aux médias et aux
documents et des contraintes liées à l'exploitation de ces
données, qui sont deux aspects d'un même
problème. Cette approche pluridisciplinaire doit permettre de
dépasser les limites des systèmes actuels et d'arriver
à gérer finement et efficacement des quantités de
documents très importantes.
Mots-clés : exploration, indexation et recherche par le
contenu, grandes bases de données, multimédia.
Axes de recherche
Notre travail s'organise en deux axes de travail que nous appliquons
à l'étude de trois problèmes.
Les axes de travail sont :
- la description des documents multimédias : il s'agit de pouvoir
calculer automatiquement des descripteurs du contenu d'un document ou
d'autres méta-données, de vérifier la pertinence
et le pouvoir discriminant de ces descripteurs lors de recherche dans
de grandes bases de documents.
- l'utilisation de ces descripteurs pour l'organisation et la gestion
des bases de documents, l'exploration et la navigation, ou la
recherche de documents : stratégies de calcul, de gestion et de
maintien de la cohérence des descripteurs et
méta-données, analyse exploratoire des données,
indexation multidimensionnelle, supports systèmes et
matériels pour les systèmes de recherche.
Nous appliquons ces outils à trois problèmes :
- la recherche d'images dans de grandes bases d'images ;
- la description conjointe texte - image de documents comportant ces deux médias ;
- l'ajout de capacités sémantiques aux moteurs de recherche textuels.
Domaines d'application
- Nous appliquons nos travaux tout d'abord dans le domaine des médias :
archives de vidéos, de télévision
agences de presse et de photographie
internet et intranets d'entreprise
- Le domaine biomédical est un gros fournisseur de données
difficiles à exploiter :
bases bibliographiques médicales
données d'imagerie : imagerie anatomique et fonctionnelle
cérébrale par exemple
données génomiques et protéomiques
- Une autre application : la gestion de la mémoire visuelle des
robots pour la plannification des déplacements
Collaborations
Soutiens pour la création de l'équipe
Nous avons été soutenus par le ministère de la
recherche (programme ACI jeunes chercheurs) et le département STIC du
CNRS (programme JemSTIC).
Collaborations internationales
À côté des projets européens cités ci-dessous, nos partenaires principaux sont :
Projets européens
- projet intégré aceMedia du 6e PCRDT :
notre contribution concerne l'indexation de données ;
- réseau d'excellence MUSCLE du 6e PCRDT.
Projets nationaux
Nous participons à de nombreux projets nationaux avec des
partenaires académiques et industriels. En ce moment, sont actifs :
- ACI masse de données DEMI-TON : description multimodale pour la structuration automatique des flux de télévision ;
Contrats industriels
Nous avons de contacts privilégiés avec la société
Thomson sur les outils pour l'indexation de la vidéo, avec l'Institut national de l'audiovisuel, et avec France Télécom R&D.