Master 2014 2015
Stages de la spécialité SAR
Extraction de la voix dans un signal audio


Lieu :Equipe Analyse et Synthèse des Son (IRCAM, Institut de Recherche et de Coordination Acoustique Musique), en collaboration avec l'ISIR (Institut des Systèmes Intelligents et de Robotique)
Encadrant : Nicolas Obin (Nicolas.Obin@ircam.fr), Axel Roebel (Axel.Roebel@ircam.fr) Sylvain Argentieri (Sylvain.Argentieri@upmc.fr)
Dates :01/03/2015 au 31/07/2015
Rémunération : 480€ / mois
Mots-clés : Parcours ATIAM : Traitement du signal


Description

Contexte :

La séparation de sources audio consiste à extraire d’un enregistrement audio (mono, stéréo, etc…) les signaux audio correspondant à chacune des sources sonores de l’enregistrement. La séparation de source est notamment utilisée en production audio pour la transcription de la musique, le démixage audio, et l’interaction homme-machine. Les représentations par factorisation en matrices non-négatives (NMF) se sont imposées pour la séparation de sources audio, et des avancées récentes permettent de spécifier des connaissances a priori pour améliorer la séparation de sources, ainsi que l’imposition de contraintes de parcimonie dans la factorisation. Il est notamment possible d’ajouter des connaissances a priori sur les sources audio à extraire. L’extraction de la voix constitue un enjeu majeur pour l’industrie du multi-média (musique, cinéma) et de l’interaction homme-machine (robotique).

Objet :

Le stage vise à réaliser une méthode de séparation de sources pour l’extraction de la voix dans des enregistrements audio. Le stage s’appuiera sur les connaissances actuelles en séparation de sources audio de l’équipe Analyse et Synthèse des Sons à l’Ircam, et consistera à :

-  formaliser la séparation de sources pour l’extraction d’une source audio principale ;
-  intégrer des connaissances a priori sur la voix dans la séparation de source audio ;

La solution d’extraction de la voix sera confrontée à divers contextes d’applications : musique, cinéma, robotique.

Bibliographie

A. Ozerov, E. Vincent, and F. Bimbot (2012). A General Flexible Framework for the Handling of Prior Information in Audio Source Separation. IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, n°4, pp. 1118-1133.

Y. Mitsufuji, and A. Roebel (2014). On the Use of a Spatial Cue as Prior Information for Stereo Sound Source Separation based on Spatially Weighted Non-Negative Tensor Factorization. EURASIP Journal on Advances in Signal Processing, pp. 1-9.

T. Virtanen, and A. Klapuri (2006). Analysis of polyphonic audio using source-filter model and non-negative matrix factorization. Advances in models for acoustic processing, neural information processing systems workshop.

J.-L. Durrieu, and A. Ozerov, and C. Févotte, and G. Richard, and B. David, (2009). Main instrument separation from stereophonic audio signals using a source/filter model, European Signal Processing Conference (EUSIPCO), Glasgow, Scotland.