Les techniques permettant la recherche d'images par le contenu au sein de grandes bases de données ont largement progressé ces dernières années. On arrive actuellement à indexer plusieurs centaines de millions de descripteurs d'images dans des systèmes aux temps de réponse courts (LSH, NV-Tree). Malheureusement, le problème très proche de la classification d'images (clustering) n'est pas encore résolu de manière satisfaisante : les meilleurs algorithmes ont souvent une complexité quadratique et ne passent généralement pas à l'échelle.
Ce stage de master a pour but d'établir s'il est possible de faire de la classification de très grands volumes de données en grande dimension en détournant de leurs buts premiers les algorithmes d'indexation multidimensionnels et les règles d'association communément employées en fouille de données. D'une part, les algorithmes d'indexation passent à l'échelle et tendent à regrouper les données similaires. D'autre part, les règles d'association cherchent à découvrir les données qui apparaissent souvent ensemble. Là où ces approches diffèrent de la classification est dans l'expression du nombre de classes à obtenir (incontrolable en indexation) ou encore dans la paramétrisation des supports et confiances essentiels aux règles. De plus, formes, population des partitions, chevauchements, prise en compte du bruit, etc, sont autant d'aspects à explorer.
Aucune connaissance en traitement d'images n'est nécessaire. Une excellente compréhension des bases des techniques de classification est indispensable. Une bonne habitude de la programmation en C++ est bienvenue.