Skip to content
  metiss  

Proposition de stage: Apprentissage automatique et parcimonie

Document Actions

Titre: Apprentissage automatique et parcimonie

Mots-clés: traitement du signal et de l'image, optimisation convexe, approximation parcimonieuse, concentration de la mesure.

Les techniques de modélisation parcimonieuse de données de grande dimension permettent de résoudre de façon satisfaisante de nombreux problème tels que la séparation aveugle de signaux sonores (pour extraire le son des instruments à partir des pistes du mélange), le débruitage, le défloutage et l'extrapolation d'images (inpainting), l'amélioration de résolution, etc [1]. Elles ont également fait leurs preuves en apprentissage automatique et notamment via les méthodes à noyau telles que les machines à vecteur support (SVM) [2].

Leur principe consiste à exploiter le fait que les données à traiter, bien que de grande dimension, peuvent être décrites de façon concise à l'aide d'un petit jeu de paramètres. Concrètement, les données sont bien approchées par des combinaisons linéaires de quelques vecteurs de base appelés atomes et choisis dans une famille très redondante appelée dictionnaire. On parle d'approximations parcimonieuses.

Ces dernières années, des progrès important ont permis de comprendre les fondements statistiques d'algorithmes qui calculent des approximations parcimonieuses quasi-optimales. Dans des conditions contrôlées, on dispose de garanties de performance pour des algorithmes explicites de complexité limitée, notamment des approches basées sur l'optimisation convexe. Une application émergente particulièrement prometteuse de ces méthodes est l'échantillonnage compressé, qui permet de réduire la dimension des données par projection aléatoire en petite dimension, tout en préservant la capacité de capturer dans la projection obtenue l'essentiel de l'information contenue dans les données d'origine. La validité de cette approche découle de résultats fins en concentration de la mesure et en théorie des grandes matrices aléatoires.

L'objectif de ce stage, qui pourra déboucher sur une thèse, est d'explorer numériquement le potentiel de  l'échantilonnage compressé dans le domaine de l'apprentissage, où les données apparaissent sous forme de grand corpus et sont implicitement associées à une densité de probabilité dans un espace de très grande dimension. L'idée à valider est que, pourvu que la densité sous jacente admette un modèle parcimonieux adéquat, il est possible de capturer l'essentiel de sa  structure via une forme de projection qui la réduit à un petit jeu de paramètres facilement calculables.

L'approche envisagée combinera une expérimentation sur  des données synthétiques, la mise en oeuvre d'algorithmes d'optimisation en Matlab, et le développement des premiers éléments d'une analyse théorique du problème.

Bibliographie:

[1] S. Mallat, Wavelet Tour of Signal Processing, 3ème édition: The Sparse Way. Academic Press, 2008.

[2] B. Schölkopf and A.J. Smola. Learning with Kernels. MIT Press, 2002. 

Contact: Rémi Gribonval

Created by remi
Last modified 13.06.2011 03:49 PM expired
« May 2012 »
Su Mo Tu We Th Fr Sa
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31