Compte-rendu
du petit groupe de travail
"Analyse
harmonique et approximation non-linéaire pour le traitement des signaux"
(SPARS'04)
organisé
au CIRM du 14 au 16 Décembre 2004 dans le cadre du projet MathSTIC
"Appoximations
parcimonieuses structurées pour le traitement signaux sonores".
Etaient
présents :
•
Laurent DAUDET, Univ. Paris 6
•
Cédric FÉVOTTE, Cambridge University
•
Patrick FLANDRIN, ENS Lyon
•
Rémi GRIBONVAL, INRIA
•
Florent JAILLET, Univ. Méditerranée
•
Sylvain LESAGE, Univ. Rennes
•
Pierre LEVEAU, Univ. Paris 6
•
Damian MARELLI, Univ. Provence
•
Clothilde MELOT, Univ. Aix-Marseille 1
•
Alexey OZEROV, France Télécom R&D
•
Bruno TORRESANI, Univ. Provence
Déroulement
:
Lundi 13 décembre :
Journée
commune avec le GDR ISIS Thème A "Décompositions adaptatives II",
sur
le Campus Saint-Charles.
Mardi 14 décembre:
La
matinée est consacrée à des exposés de présentation des travaux des doctorants
•
"Séparation de sources avec un seul capteur", Alexey OZEROV (France
Télécom R&D)
•
"Apprentissage de dictionnaire pour les décompositions
parcimonieuses", Sylvain LESAGE (Univ. Rennes)
Dans
l'après-midi, à partir d'une liste des diverses applications (séparation de
sources,
édition
de documents sonores, transcription, reconnaissance et classification) qui
intéressent
les
membres du groupe de travail, une discussion s'engage concernant les ressources
communes
nécessaires
pour travailler sur ces sujets.
Bases
de données :
La
base de données SQAM (sound quality assesment material)
http://www.tnt.uni-hannover.de/project/mpeg/audio/sqam/
et
http://www.ebu.ch/en/technical/publications/tech3000_series/tech3253/index.php
est
conçue pour les applications de codage.
La
base de donnée RWC Music Database
http://staff.aist.go.jp/m.goto/RWC-MDB/
contient
315 morceaux musicaux (dont 100 sont des chansons) fournis avec les fichiers
MIDI
correspondants
et les textes (en Japonais ?) pour les chansons. Cette base peut être
intéressante
pour les applications d'identification ou de reconnaissance des instruments,
de
transcription, mais elle semble moins appropriée aux applications de séparation
de sources.
Pour
la séparation de sources, il ne semble pas exister de base à part le prototype
construit
dans
le cadre de l'Action Jeunes Chercheurs du GDR ISIS qui y était dédiée, mais des
problèmes
de
droit se posent. Il serait intéressant de se mettre d'accord avec l'équipe du
Center
for Digital Music à Londres pour concevoir une base réellement utilisable.
Patrick
Flandrin précise le rôle que peut jouer le GDR ISIS vis-à-vis de l'acquisition
et
du
partage de jeux de données: favoriser des actions collective du type de notre
projet
MathSTIC
sans faire doublon avec d'autres formes de soutien, donner un cadre d'accueil
pour
héberger et distribuer les ressources communes mises en place, aider la
prolongation
des
actions engagées sous d'autres formes.
Logiciel
:
A
l'image de la Time Frequency Toolbox qui a mobilisé de nombreuses personnes
notamment via
le
GDR ISIS, il pourrait être intéressant de lancer un projet de boîte à outil de
méthodes
de
traitement du signal basées sur la parcimonie. Une possibilité serait de partir
de la
librairie
de Matching Pursuit en cours de développement à l'IRISA (voir ci-dessous).
Diffusion
et communication :
Patrick
Flandrin suggère qu'un effort de communication à destination de la communauté
du
traitement
du signal biomédical soit envisagé, en utilisant les structures du GDR pour
établir
les
contacts. Cela pourrait par exemple prendre la forme d'une session biomédical
au
workshop
SPARS'05 ou bien de journées du GDR parcimonie+biomédical.
Divers
:
Au
cours de la discussion, quelques thèmes et perspectives de collaboration plus
fondamentaux
ressortent,
notamment l'intérêt de creuser les liens et la "transition continue"
possibles
entre
le codage par transformée et le codage paramétrique/sinusoidal. Il semblerait
également
intéressant
d'aller glaner du côté des modèles de parole tels que les modèles sinusoidaux,
modèles
de Markov ou modèles source résonateur pour proposer des modèles structurés de
signaux
musicaux.
L'après-midi
se conclut par un exposé de présentation des travaux de Pierre LEVEAU (Univ.
Paris 6)
•
"Identification des instruments musicaux à base des décompositions
MMP", Pierre LEVEAU (Univ. Paris 6)
et
une discussion sur les techniques de détection de chirps / lignes
temps-fréquence par
"serpents
élastiques" (méthodes de mécanique statistique) et les méthodes de
resynthèse de
lignes
régulières par des approches variationnelles .
Mercredi 15 décembre:
Démonstrations
de logiciels :
La
matinée est consacrée à des démonstrations de logiciels pour confronter les
savoir-faire
des
différentes équipes et discuter des perspectives de développement commun.
·
Florent Jaillet présente le Logiciel d'Expertise Acoustique (LEA) développé par
la
société
GENESIS (http://www.genesis.fr). Le choix de l'échelle de couleur et le mode de
rééchantillonnage
de
l'image temps-fréquence sont des aspects non négligeables de la qualité du
logiciel, de même que
les
mécanismes de gestion des annulations (undo).
·
Rémi Gribonval présente la librairie de Matching Pursuit (en C++, libre, pour
unix/cygwin,
documentée
avec Doxygen) et la représentation graphique de la décomposition obtenue à
l'aide du
logiciel
LastWave (http://www.cmap.polytechnique.fr/~bacry/LastWave/index.html ). La
librairie de
Matching
Pursuit est conçue de façon modulaire et permet de rajouter des dictionnaires
et des types
d'atomes
nouveaux, en bénéficiant des algorithmes de décomposition rapide monocanal ou multicanal.
Elle
peut fournir un bon point de départ pour une "sparse toolbox".
L'interaction graphique avec
des
atomes de Gabor proposée dans LastWave est un exemple de ce que l'on pourrait
désirer construire
comme
interface commune pour la manipulation de représentations parcimonieuses
structurées.
La
pause déjeuner est l'occasion de (re)découvrir les calanques pour un
pique-nique, puis on
discute
durant l'après-midi de la forme à donner à une interface commune de
visualisation et
d'interaction
avec des décompositions de signaux sonores.
Interface
commune de visualisation et d'interaction :
En
subtance, il s'agirait d'être en mesure
-d'offrir
un certain nombre de visualisations d'une décomposition précalculée :
temps-fréquence, "spatiale" , par
labels (tonal/nontonal, ...) par labels
-de
sélectionner / regrouper(par union / intersection et autres opération plus ou
moins
booléennes) des sous-ensembles d'"atomes" à utiliser pour une
reconstruction
-éventuellement
: de modifier les paramètres des éléments / groupes d'éléments sélectionnés :
translation temporelle, dilatation temporelle,
changement de hauteur, atténuation d'amplitude, ...
L'idéal
serait de définir cette interface sous une forme suffisament modulaire pour
pouvoir
l'utiliser
avec une large gamme de décompositions possibles, et de pouvoir ajouter des
types de
visualisation
adaptés aux nouvelles représentations.
Pour
obtenir un progamme portable, il faudrait utiliser une API graphique
multiplateforme
telle
que Java/Swing ou wxWidgets (librairie graphique en C++). En vue d'une
diffusion large
(pour
favoriser l'utilisation des méthodes de décomposition
parcimonieuses+structurées par
un
public non scientifique : musiciens ...), l'interfaçage avec le logiciel
audacity est à
considérer.
Un avantage possible serait de bénéficier des fonctionnalités d'édition
d'audacity,
mais
l'intérêt pourrait être rendu limité s'il s'avère difficile de se
"brancher" sur le code d'audacity.
Les
noms (o|au)spar(s|c)ity ont été proposés pour l'interface.
Les
principales tâches à accomplir en vue de faire avancer ce projet sont
-l'étude
de faisabilité du "branchement" sur audacity (Pierre Leveau)
-l'étude
de conception globale du projet, sa structuration en objets (Florent Jaillet ?)
-la
recherche de sources institutionnelles (CNRS / INRIA / Ministère ...) de
financement pour un ingénieur
(ex
: Florent Jaillet) sur une durée à déterminer (Bruno Torrésani / Laurent Daudet
/ Rémi Gribonval).
Jeudi 16 décembre :
La
matinée du jeudi est dédiée à des discussions scientifiques de fond.
Tout
d'abord, Bruno Torrésani soulève le problème de la mesure de la qualité d'une
approximation,
sachant
que l'ajout de contraintes (parcimonie, structure) augmente nécessairement
l'erreur
d'approximation.
La notion de vraisemblance par rapport à un modèle (parcimonieux et structuré)
probabiliste
est-elle un meilleur outil que la distortion pour mesurer la qualité ?
Bruno
Torrésani rappelle les éléments d'analyse du modèle bi-Gaussien bi-couche
(tonal+transitoire,
indice
de transitoirité) et les limites du modèle de Bernoulli sur les activations de
coefficients.
Dans
les modèles bi-couches -structurés ou non- la partie tonale est toujours
estimée et retirée au
signal
avant la partie transitoire. Ne serait-il pas plus judicieux d'estimer chacune
des cartes de
signifiance
et de calculer la décomposition en utilisant une projection globale sur
l'ensemble des
atomes
sélectionnés ?
Pour
modéliser la continuité temporelle des atomes activés (dans une approche
bi-couche) ainsi que
les
structures tonales harmoniques, plusieurs pistes sont envisagées. Bruno
Torrésani propose une
approche
basée sur un modèle d'Ising. Dans un premier temps, il serait également
intéressant de
fusionner
les approches Matching Pursuit Harmonique et Matching Pursuit Moléculaire, et
il est décidé
de
le faire en utilisant la librairie de Matching Pursuit, d'une part avec des
atomes de Gabor,
d'autre
part avec les molécules tonales à base de MDCT (Rémi Gribonval et Pierre
Leveau, avec une
visite
de Pierre Leveau à l'IRISA à prévoir au printemps ).
Pour
la représentation des transitoires, les ondelettes ne sont pas nécessairement
l'outil le plus
adapté.
Il serait intéressant de combiner les techniques de détection d'onset avec le
sparse coding
pour
"apprendre" une représentation adaptée des transitoires, sans doute
par classe
d'instruments
de musique. Une collaboration entre Pierre Leveau et Sylvain Lesage serait un
bon
moyen
de faire avancer le sujet.
Rémi
Gribonval présente les principes de différentes version du Matching Pursuit
stéréophonique /
multicanal
et leur utilisation pour la séparation de sources. Ces algorithme sont en cours
d'implémentation
dans la librairie de Matching Pursuit.
Actions
à entreprendre :
1-
Acquérir la base de données RWC pour chacun des laboratoires du projet
(commande
à passer par Rémi)
2-
Préparation de l'interface de visualisation
-étude
de faisabilité du "branchement" sur audacity
(Pierre
Leveau)
-étude
de conception globale du projet, structuration en objets
(Florent
Jaillet ?)
-recherche
de sources institutionnelles (CNRS / INRIA / Ministère ...) de
financement
pour un ingénieur (ex : Florent Jaillet) sur une durée à déterminer
(Bruno
Torrésani / Laurent Daudet / Rémi Gribonval)
3-
Contacter Center for Digital Music pour projet acquisition base de données
séparation sources
(Laurent
Daudet + Rémi Gribonval ?)
4-
Apprentissage de transitoire par détection d'onsets + sparse coding
(Pierre
Leveau + Sylvain Lesage)
5-
Fusion MP harmonique et MP moléculaire
(Pierre
Leveau, Sylvain Lesage et Rémi Gribonval)