Master 2013 2014
Stages de la spécialité SAR
Automatisation de la séparation de la voix chantée de l’accompagnement dans la musique


Site :Automatisation de la séparation de la voix chantée de l’accompagnement dans la musique
Lieu :Audionamix 171 quai de Valmy 75010 Paris
Encadrant : Romain Hennequin. Contact: stage@audionamix.com
Dates :à partir de février/mars 2014. Durée 4 à 6 mois.
Rémunération :900 € bruts mensuels + tickets restaurant 11,50€
Mots-clés : Parcours ATIAM : Traitement du signal

Description

La séparation de sources audio (ou démixage audio) est un domaine de recherche extrêmement actif qui fait l’objet de nombreux travaux depuis plus de 15 ans. Le transfert technologique de ce domaine de recherche reste un défi majeur pour l’industrie.

Si le problème de séparation de sources a d’abord été abordé dans un contexte aveugle, de nombreux travaux récents proposent de guider le processus de séparation grâce à de l’information fournie par l’utilisateur, ce qui permet d’améliorer fortement les performances. Plusieurs types d’information ont ainsi été proposés : requête parlée ou chantée imitant la source à extraire [1], partition musicale [2], information textuelle [3], annotation d’activation [4], indications sur la position spatiale des sources dans le champ stéréo [5]... L’apport de cette information peut toutefois s’avérer long et fastidieux, et afin d’améliorer l’expérience utilisateur, il est nécessaire de réduire cette apport tout en maintenant un niveau de qualité de séparation élevé. L’objectif du stage est de proposer des méthodes permettant de réduire au maximum l’entrée utilisateur dans une application de séparation de la voix du fond sonore (musique, bande son de film) en automatisant celle-ci au maximum via des méthodes d’analyse automatique de la musique : une détection précise de certains paramètres de la voix (fréquence fondamental, activité, mots prononcés...) peut ainsi permettre une forte réduction de l’apport utilisateur tout en maintenant un niveau de qualité élevé.

Entreprise d’accueil : Audionamix est une société technologique spécialisée dans la séparation de source audio (ou démixage audio). Forte de plus de 10 ans de recherche et développement dans ce domaine, Audionamix propose des services de démixage audio d’une qualité inégalée et a notamment travaillé pour des acteurs majeurs de l’industrie du cinéma et de la musique (http://www.audionamix.com/portfolio/). Audionamix développe actuellement une solution logicielle professionnelle unique de séparation de la voix qui sortira très prochainement : ADX Trax (http://www.audionamix.com/software/).

Le candidat doit posséder les compétences suivantes :
- Connaissances solides en traitement du signal audio.
- Bonne connaissance de Matlab
- Bonne maîtrise de l’anglais
- Expérience de travail en équipe

Apports du stage :
- Recherche à la croisée de la séparation de sources et de l’extraction automatique d’information dans la musique (Music Information Retrieval) ayant pour objectif une intégration à moyen terme dans un produit commercial.
- Intégration complète dans une équipe de R&D fonctionnant en mode agile.
- Travail dans un environnement international (l’équipe d’ingénieurs du son s’occupant du servir est aux Etats-Unis).
- un stage s’étant bien déroulé aboutit généralement à une publication dans une conférence internationale et/ou au dépôt d’un brevet.

Profil recherché :
- Dernière année d’école d’ingénieur ou Master Recherche M2, spécialité/option traitement du signal ou Machine learning.
- Grand intérêt pour l’audio, la musique, les logiciels audio pour ingénieurs du son.

Bibliographie

[1] Paris Smaragdis and Gautham J. Mysore, “Separation by humming : User-guided sound extraction from monophonic mixtures,” in WASPAA 2009

[2] Romain Hennequin, Bertrand David, and Roland Badeau, “Score informed audio source separation using a parametric model of nonnegative spectrogram,” in ICASSP 2011.

[3] Luc Le Magoarou, Alexey Ozerov, and Ngoc Q. K. Duong, “Text informed audio source separation using nonnegative matrix partial cofactorization,” in WMLSP 2013.

[4] Alexey Ozerov, Cedric Févotte, Raphael Blouet, and Jean-Louis Durrieu “Multichannel nonnegative tensor factorization with structured constraints for user-guided audio source separation”, ICASSP 2011

[5] M. Vinyes, J. Bonada, and A. Loscos, “Demixing commercial music productions via human-assisted time-frequency masking,” in 120th Convention of AES, 2006.