Vous êtes ici

Indexation de données audiovisuelles

Equipe et encadrants
Département / Equipe: 
Site Web Equipe: 
http://www-linkmedia.irisa.fr/
Directeur de thèse
Gravier Guillaume
Co-directeur(s), co-encadrant(s)
Malinowski Simon
Silvio Jamil Guimaraes
Contact(s)
NomAdresse e-mail
Malinowski Simon
smalinow@irisa.fr
Sujet de thèse
Descriptif

Les thématiques de recherche de l'équipe Linkmedia s'articulent autour de l'analyse de grandes collections de données multimedias. Cette thèse propose de s'intéresser à la recherche de plus proches voisins dans de grandes bases de données audiovisuelles par l'intermédiaire de techniques d'indexation. Ces données comportent une dimension temporelle multidimensionnelle qu'il est primordial de prendre en compte. Nous nous intéresserons au développement de méthodes de recherche de plus proches voisins efficaces, et qui, de par la spécificité des données utilisées devront satisfaire les contraintes suivantes:

       - la quantité de données à gérer est conséquente
       - les données sont des vecteurs en grande dimension (temporelle)
       - les données sont multidimensionnelles

Les méthodes classiques d'indexation de séries temporelles tentent d'approcher les techniques exhaustives de comparaison de séries temporelles par la distance euclidienne ou le dynamic time warping (DTW). Ces méthodes sont mal adaptées à des données multidimensionnelles, peu efficaces avec de grandes bases de données, et supposent de plus que la distance euclidienne ou le DTW sont les meilleures mesures pour comparer des séries, ce qui n'est pas toujours le cas.
 
L'objectif de cette thèse sera de concevoir des représentations de séries temporelles sous forme de vecteurs descripteurs, afin de transformer l'indexation de ce type de données en un problème classique d'indexation de vecteurs.
 
Xie et al. [7] ont montré que la classification et la recherche de plus proches voisins ne font qu'un (en ce qui concerne les images au moins). De plus, les techniques les plus performantes de classification de séries temporelles se basent sur la représentation de séries sous forme de vecteurs descripteurs, contenant des informations locales et/ou globales sur les séries.  Des techniques basées sur des sacs de mots ont été proposées (dans [3,4] par exemple). Des méthodes basées sur l'extraction de shapelets ont aussi été proposées dans [5,6].

Nous nous inspirerons dans cette thèse de ces travaux pour proposer des représentations de séries temporelles sous forme de vecteurs permettant une recherche efficace de plus proches voisins. Les pistes suivantes seront explorées: 

1) Les réseaux de neurones convolutionnels (RNC) ont permis de grandes avancées en terme de performances dans le domaine de la description et la classification d'images. Ils pourraient être utilisés pour concevoir des descripteurs de séries temporelles en considérant des convolutions 1D. On étudiera donc la pertinence de tels descripteurs dans le contexte de la recherche efficace de séries temporelles. L'avantage des RNC est qu'ils peuvent traiter des données multidimensionnelles et en grande dimension sans difficultés.

2) La représentation de séries temporelles par "Shapelet transformation" [5] est très efficace pour la classification de séries temporelles. Ce genre de technique semble convenir à des séries multidimensionnelles. Nous étudierons la pertinence d'une telle représentation pour la recherche de séries temporelles. La représentation issue de cette transformation permet de savoir si la série originale contient des shapelets préalablement extraites. Cependant, aucune information concernant l'endroit (instant temporel) où ces shapelets sont présentes n'est disponible.  Nous nous intéresserons à étendre cette représentation afin qu'elle puisse comporter également cette information.

Les méthodes développées durant cette thèse seront appliquées à des données audiovisuelle dans un contexte de recherche efficace de documents similaires. Elles seront utilisées pour des applications telles que la structuration de collections de documents multimédias, la détection de copyright, la recherche de motifs dans des flux audiovisuels, ou la recommandation de contenus.

Bibliographie

[1] Thanawin Rakthanmanon, Bilson Campana, Abdullah Mueen, Gustavo Batista, Brandon Westover, Qiang Zhu, Jesin Zakaria, and Eamonn Keogh. Searching and mining trillions of time series subsequences un- der dynamic time warping. In Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 262–270. ACM, 2012.

[2] A. Camerra, T. Palpanas, J. Shieh, and E. Keogh. isax 2.0 : Indexing and mining one billion time series. In 2010 IEEE International Conference on Data Mining, pages 58–67, Dec 2010.

[3] Patrick Schäfer. Scalable time series classification. Data Mining and Knowledge Discovery, pages 1–26, 2015.

[4] Adeline Bailly, Simon Malinowski, Romain Tavenard, Laetitia Chapel, and Thomas Guyet. Dense Bag-of-Temporal-SIFT-Words for Time Series Classification. Lecture Notes in Artificial Intelligence, 9785 :17–30, 2016.

[5] Jon Hills, Jason Lines, Edgaras Baranauskas, James Mapp, and Anthony Bagnall. Classification of time series by shapelet transformation. Data Mining and Knowledge Discovery, 28(4) :851–881, 2014.

[6] Josif Grabocka, Nicolas Schilling, Martin Wistuba, and Lars Schmidt- Thieme. Learning time-series shapelets. pages 392–401, 2014.

[7] Lingxi Xie, Richang Hong, Bo Zhang, and Qi Tian. Image classification and retrieval are one. In Proceedings of the 5th ACM on International Conference on Multimedia Retrieval, pages 3–10. ACM, 2015.

Début des travaux: 
Septembre 2017
Mots clés: 
Indexation, Données audiovisuelles, Réseaux de neurones convolutionnels
Lieu: 
IRISA - Campus universitaire de Beaulieu, Rennes