La découverte de motifs sonores est une tâche émergente qui consiste à trouver dans un signal sonore des portions de signal répétés avec une certaine variabilité, sans aucune connaissance a priori sur les motifs potentiellement présents. Suivant l'application visée, les motifs recherchés peuvent être peu variable d'une instance à l'autre (chansons répétés à la radio, publicités, etc.) [1,2] ou, au contraire, présenter une forte variabilité (cas des mots et locutions répétés dans les données de parole) [3,4].
Une approche naïve de la découverte de motifs nécessite de comparer tous les segments possibles entre eux, ce qui est inconcevable. Les techniques proposées pour résoudre ce problème font appel à des stratégies de restriction du nombre de comparaison et s'appuient, tant pour des motifs faiblement variables que pour les motifs hautement variables, sur des techniques de comparaison de motifs (pattern matching), coûteuse en temps de calcul, limitant ainsi le passage à l'échelle des technologies de découverte de motifs [2]. En parallèle, les techniques d'indexation sonore permettent de retrouver de manière extrêmement efficace (en terme de temps de calcul) les plus proches voisins d'une portion de signal requête [5]. Ces techniques d'indexation restent cependant peu étudiés dans le cadre de la découverte de motifs dans des données sonores.
L'objectif du stage est d'étudier l'apport des techniques d'indexation pour la découverte de motifs sonores afin de permettre un passage à l'échelle. On s'intéressera pour cela à différents aspects de la question : comparaison de techniques d'indexation, graphes de plus proches voisins approximatifs, indexing based fast match, fingerprinting, etc. On étudiera l'apport des techniques d'indexation dans deux cas d'étude : la découverte de chansons et publicités dans les flux radios (faible variabilité) et la découverte de mots dans des documents oraux (forte variabilité), en s'efforçant de montrer le potentiel et les limites des différentes techniques d'indexation dans ces deux cadres.
Le travail s'appuiera sur l'algorithme de découverte de motifs développé par les les équipes Texmex et Metiss de l'Irisa [4,5] et tirera partie des techniques d'indexation sonore développés dans l'équipe Texmex. Le stagiaire sera accueilli dans l'équipe Texmex.