Compte-rendu du petit groupe de travail

"Analyse harmonique et approximation non-linéaire pour le traitement des signaux" (SPARS'04)

organisé au CIRM du 14 au 16 Décembre 2004 dans le cadre du projet MathSTIC

"Appoximations parcimonieuses structurées pour le traitement signaux sonores".

 

Etaient présents :

• Laurent DAUDET, Univ. Paris 6

• Cédric FÉVOTTE, Cambridge University

• Patrick FLANDRIN, ENS Lyon

• Rémi GRIBONVAL, INRIA

• Florent JAILLET, Univ. Méditerranée

• Sylvain LESAGE, Univ. Rennes

• Pierre LEVEAU, Univ. Paris 6

• Damian MARELLI, Univ. Provence

• Clothilde MELOT, Univ. Aix-Marseille 1

• Alexey OZEROV, France Télécom R&D

• Bruno TORRESANI, Univ. Provence

 

Déroulement :

      Lundi 13 décembre :

Journée commune avec le GDR ISIS Thème A "Décompositions adaptatives II",

sur le Campus Saint-Charles.

 

      Mardi 14 décembre:

La matinée est consacrée à des exposés de présentation des travaux des doctorants

• "Séparation de sources avec un seul capteur", Alexey OZEROV (France Télécom R&D)

• "Apprentissage de dictionnaire pour les décompositions parcimonieuses", Sylvain LESAGE (Univ. Rennes)

Dans l'après-midi, à partir d'une liste des diverses applications (séparation de sources,

édition de documents sonores, transcription, reconnaissance et classification) qui intéressent

les membres du groupe de travail, une discussion s'engage concernant les ressources communes

nécessaires pour travailler sur ces sujets.

 

Bases de données :

La base de données SQAM (sound quality assesment material)

http://www.tnt.uni-hannover.de/project/mpeg/audio/sqam/

et

http://www.ebu.ch/en/technical/publications/tech3000_series/tech3253/index.php

est conçue pour les applications de codage.

 

La base de donnée RWC Music Database

http://staff.aist.go.jp/m.goto/RWC-MDB/

contient 315 morceaux musicaux (dont 100 sont des chansons) fournis avec les fichiers MIDI

correspondants et les textes (en Japonais ?) pour les chansons. Cette base peut être

intéressante pour les applications d'identification ou de reconnaissance des instruments,

de transcription, mais elle semble moins appropriée aux applications de séparation de sources.

 

Pour la séparation de sources, il ne semble pas exister de base à part le prototype construit

dans le cadre de l'Action Jeunes Chercheurs du GDR ISIS qui y était dédiée, mais des problèmes

de droit se posent. Il serait intéressant de se mettre d'accord avec l'équipe du

Center for Digital Music à Londres pour concevoir une base réellement utilisable.

 

Patrick Flandrin précise le rôle que peut jouer le GDR ISIS vis-à-vis de l'acquisition et

du partage de jeux de données: favoriser des actions collective du type de notre projet

MathSTIC sans faire doublon avec d'autres formes de soutien, donner un cadre d'accueil

pour héberger et distribuer les ressources communes mises en place, aider la prolongation

des actions engagées sous d'autres formes.

 

Logiciel :

A l'image de la Time Frequency Toolbox qui a mobilisé de nombreuses personnes notamment via

le GDR ISIS, il pourrait être intéressant de lancer un projet de boîte à outil de méthodes

de traitement du signal basées sur la parcimonie. Une possibilité serait de partir de la

librairie de Matching Pursuit en cours de développement à l'IRISA (voir ci-dessous).

 

Diffusion et communication :

Patrick Flandrin suggère qu'un effort de communication à destination de la communauté du

traitement du signal biomédical soit envisagé, en utilisant les structures du GDR pour établir

les contacts. Cela pourrait par exemple prendre la forme d'une session biomédical au

workshop SPARS'05 ou bien de journées du GDR parcimonie+biomédical.

 

Divers :

Au cours de la discussion, quelques thèmes et perspectives de collaboration plus fondamentaux

ressortent, notamment l'intérêt de creuser les liens et la "transition continue" possibles

entre le codage par transformée et le codage paramétrique/sinusoidal. Il semblerait également

intéressant d'aller glaner du côté des modèles de parole tels que les modèles sinusoidaux,

modèles de Markov ou modèles source résonateur pour proposer des modèles structurés de

signaux musicaux.

 

L'après-midi se conclut par un exposé de présentation des travaux de Pierre LEVEAU (Univ. Paris 6)

• "Identification des instruments musicaux à base des décompositions MMP", Pierre LEVEAU (Univ. Paris 6)

et une discussion sur les techniques de détection de chirps / lignes temps-fréquence par

"serpents élastiques" (méthodes de mécanique statistique) et les méthodes de resynthèse de

lignes régulières par des approches variationnelles .

 

      Mercredi 15 décembre:

 

Démonstrations de logiciels :

La matinée est consacrée à des démonstrations de logiciels pour confronter les savoir-faire

des différentes équipes et discuter des perspectives de développement commun.

 

· Florent Jaillet présente le Logiciel d'Expertise Acoustique (LEA) développé par la

société GENESIS (http://www.genesis.fr). Le choix de l'échelle de couleur et le mode de rééchantillonnage

de l'image temps-fréquence sont des aspects non négligeables de la qualité du logiciel, de même que

les mécanismes de gestion des annulations (undo).

 

· Rémi Gribonval présente la librairie de Matching Pursuit (en C++, libre, pour unix/cygwin,

documentée avec Doxygen) et la représentation graphique de la décomposition obtenue à l'aide du

logiciel LastWave (http://www.cmap.polytechnique.fr/~bacry/LastWave/index.html ). La librairie de

Matching Pursuit est conçue de façon modulaire et permet de rajouter des dictionnaires et des types

d'atomes nouveaux, en bénéficiant des algorithmes de décomposition rapide monocanal ou multicanal.

Elle peut fournir un bon point de départ pour une "sparse toolbox". L'interaction graphique avec

des atomes de Gabor proposée dans LastWave est un exemple de ce que l'on pourrait désirer construire

comme interface commune pour la manipulation de représentations parcimonieuses structurées.

 

La pause déjeuner est l'occasion de (re)découvrir les calanques pour un pique-nique, puis on

discute durant l'après-midi de la forme à donner à une interface commune de visualisation et

d'interaction avec des décompositions de signaux sonores.

 

Interface commune de visualisation et d'interaction :

 

En subtance, il s'agirait d'être en mesure

-d'offrir un certain nombre de visualisations d'une décomposition précalculée :

 temps-fréquence, "spatiale" , par labels (tonal/nontonal, ...) par labels

-de sélectionner / regrouper(par union / intersection et autres opération plus ou

moins booléennes) des sous-ensembles d'"atomes" à utiliser pour une reconstruction

-éventuellement : de modifier les paramètres des éléments / groupes d'éléments sélectionnés :

 translation temporelle, dilatation temporelle, changement de hauteur, atténuation d'amplitude, ...

 

L'idéal serait de définir cette interface sous une forme suffisament modulaire pour pouvoir

l'utiliser avec une large gamme de décompositions possibles, et de pouvoir ajouter des types de

visualisation adaptés aux nouvelles représentations.

 

Pour obtenir un progamme portable, il faudrait utiliser une API graphique multiplateforme

telle que Java/Swing ou wxWidgets (librairie graphique en C++). En vue d'une diffusion large

(pour favoriser l'utilisation des méthodes de décomposition parcimonieuses+structurées par

un public non scientifique : musiciens ...), l'interfaçage avec le logiciel audacity est à

considérer. Un avantage possible serait de bénéficier des fonctionnalités d'édition d'audacity,

mais l'intérêt pourrait être rendu limité s'il s'avère difficile de se "brancher" sur le code d'audacity.

Les noms (o|au)spar(s|c)ity ont été proposés pour l'interface.

 

Les principales tâches à accomplir en vue de faire avancer ce projet sont

-l'étude de faisabilité du "branchement" sur audacity (Pierre Leveau)

-l'étude de conception globale du projet, sa structuration en objets (Florent Jaillet ?)

-la recherche de sources institutionnelles (CNRS / INRIA / Ministère ...) de financement pour un ingénieur

(ex : Florent Jaillet) sur une durée à déterminer (Bruno Torrésani / Laurent Daudet / Rémi Gribonval).

 

      Jeudi 16 décembre :

 

La matinée du jeudi est dédiée à des discussions scientifiques de fond.

 

Tout d'abord, Bruno Torrésani soulève le problème de la mesure de la qualité d'une approximation,

sachant que l'ajout de contraintes (parcimonie, structure) augmente nécessairement l'erreur

d'approximation. La notion de vraisemblance par rapport à un modèle (parcimonieux et structuré)

probabiliste est-elle un meilleur outil que la distortion pour mesurer la qualité ?

 

Bruno Torrésani rappelle les éléments d'analyse du modèle bi-Gaussien bi-couche (tonal+transitoire,

indice de transitoirité) et les limites du modèle de Bernoulli sur les activations de coefficients.

Dans les modèles bi-couches -structurés ou non- la partie tonale est toujours estimée et retirée au

signal avant la partie transitoire. Ne serait-il pas plus judicieux d'estimer chacune des cartes de

signifiance et de calculer la décomposition en utilisant une projection globale sur l'ensemble des

atomes sélectionnés ?

 

Pour modéliser la continuité temporelle des atomes activés (dans une approche bi-couche) ainsi que

les structures tonales harmoniques, plusieurs pistes sont envisagées. Bruno Torrésani propose une

approche basée sur un modèle d'Ising. Dans un premier temps, il serait également intéressant de

fusionner les approches Matching Pursuit Harmonique et Matching Pursuit Moléculaire, et il est décidé

de le faire en utilisant la librairie de Matching Pursuit, d'une part avec des atomes de Gabor,

d'autre part avec les molécules tonales à base de MDCT (Rémi Gribonval et Pierre Leveau, avec une

visite de Pierre Leveau à l'IRISA à prévoir au printemps ).

 

Pour la représentation des transitoires, les ondelettes ne sont pas nécessairement l'outil le plus

adapté. Il serait intéressant de combiner les techniques de détection d'onset avec le sparse coding

pour "apprendre" une représentation adaptée des transitoires, sans doute par classe

d'instruments de musique. Une collaboration entre Pierre Leveau et Sylvain Lesage serait un bon

moyen de faire avancer le sujet.

 

Rémi Gribonval présente les principes de différentes version du Matching Pursuit stéréophonique /

multicanal et leur utilisation pour la séparation de sources. Ces algorithme sont en cours

d'implémentation dans la librairie de Matching Pursuit.

 

 

Actions à entreprendre :

 

1- Acquérir la base de données RWC pour chacun des laboratoires du projet

(commande à passer par Rémi)

 

2- Préparation de l'interface de visualisation

-étude de faisabilité du "branchement" sur audacity

(Pierre Leveau)

-étude de conception globale du projet, structuration en objets

(Florent Jaillet ?)

-recherche de sources institutionnelles (CNRS / INRIA / Ministère ...) de

financement pour un ingénieur (ex : Florent Jaillet) sur une durée à déterminer

(Bruno Torrésani / Laurent Daudet / Rémi Gribonval)

 

3- Contacter Center for Digital Music pour projet acquisition base de données séparation sources

(Laurent Daudet + Rémi Gribonval ?)

 

4- Apprentissage de transitoire par détection d'onsets + sparse coding

(Pierre Leveau + Sylvain Lesage)

 

5- Fusion MP harmonique et MP moléculaire

(Pierre Leveau, Sylvain Lesage et Rémi Gribonval)