Master 2017 2018
Stages de la spécialité SAR
Modèles sinusoïdaux et méthodes bayésiennes pour la séparation de sources sonores


Site : Département Image, Données, Signal (IDS), groupe S2A, thème Traitement du signal et analyse de données audio
Lieu : Télécom ParisTech, 46 rue Barrault, 75013 Paris
Encadrant : Roland Badeau
Dates :du 01/02/2018 au 29/06/2018
Rémunération :rémunération forfaitaire de l’ordre de 550 € par mois
Mots-clés : Parcours ATIAM : Traitement du signal

Description

Contexte : Les techniques de séparation de sources sonores permettent, dans le cas d’un mélange "sous-déterminé", de séparer un enregistrement musical constitué d’un faible nombre de canaux (par exemple monophonique ou stéréophonique) en un nombre supérieur de pistes audio correspondant à chaque instrument de musique. Bien qu’un pan entier de la littérature a déjà été consacré à ce sujet, les techniques actuelles de l’état de l’art souffrent encore de défauts tels que des artéfacts et distorsions.

Sujet de stage : Dans ce stage, nous proposons d’aborder le problème de séparation de sources d’une nouvelle manière. Alors que l’approche commune consiste à traiter le signal audio dans un domaine transformé (comme le plan temps-fréquence), le cadre de travail proposé vise à manipuler une représentation plus compacte de la musique, en l’occurrence la séquence de paramètres de sinusoïdes et de bruit produite par un estimateur ad-hoc, nous permettant d’exploiter conjointement deux types de connaissances : des modèles paramétriques de sources pouvant être estimés d’une manière soit non supervisée, soit supervisée (en utilisant des données d’apprentissage) et des indices perceptifs de "destin commun" utilisés par le système auditif humain. L’objectif de ce stage est donc d’une part de produire des algorithmes de séparation de sources, et d’autre part d’améliorer la qualité audio des pistes séparées, en combinant des modèles paramétriques réalistes avec des techniques d’apprentissage automatique de l’état de l’art.

Mots clés : Traitement du signal, séparation de sources, méthodes bayésiennes, modèles à variables latentes, algorithme espérance-maximisation (EM) variationnel, représentations d’états, filtrage de Kalman, modèles de Markov cachés (hidden Markov models, HMM), méthodes Monte Carlo Markov Chain (MCMC).

Profil du candidat : les conditions exigées pour ce stage sont les suivantes :

  • deuxième année de Master Recherche ;
  • des connaissances en traitement du signal audio ;
  • des connaissances en probabilités, statistiques et estimation bayésienne ;
  • la maîtrise du langage Matlab.

Contact : Les candidats intéressés peuvent contacter Roland Badeau (roland.badeau@telecom-paristech.fr) pour plus d’informations, ou directement adresser par courriel une lettre de candidature incluant un Curriculum Vitae.

Bibliographie

M. Betser. Sinusoidal polynomial parameter estimation using the distribution derivative. IEEE Transactions on Signal Processing, 57(12):4633–4645, Dec 2009.

Sylvain Marchand and Philippe Depalle. Generalization of the derivative analysis method to non-stationary sinusoidal modeling. Proc. of Digital Audio Effects (DAFx) Conference, pages 281–288, Espoo, Finland, September 2008.

E. Creager, N. Stein, R. Badeau, P. Depalle. Nonnegative tensor factorization with frequency modulation cues for blind audio source séparation. Proc. of 17th International Society for Music Information Retrieval (ISMIR) Conference, Aug 2016, New York, NY, United States.

M. Campedel-Oudot, O. Cappe, and E. Moulines. Estimation of the spectral envelope of voiced sounds using a penalized likelihood approach. IEEE Transactions on Speech and Audio Processing, , 9(5):469–481, Jul 2001.