Master 2015 2016
Stages de la spécialité SAR
Transcription de la piste de batterie dans un signal de musique polyphonique


Site : Audionamix
Lieu : Audionamix, 171 quai de Valmy, 75010 Paris
Encadrant : François Rigaud, Mathieu Radenen
Dates :à discuter
Rémunération :1000 euros bruts + tickets restaurant
Mots-clés : Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Description

Entreprise d’accueil : Audionamix est une société technologique spécialisée dans la séparation de sources audio (ou dé-mixage audio). Forte de plus de 10 ans de recherche et développement dans ce domaine, Audionamix propose des services de dé-mixage audio d’une qualité inégalée et a notamment travaillé pour des acteurs majeurs de l’industrie du cinéma et de la musique (http://audionamix.com/portfolio/). Audionamix développe actuellement plusieurs solutions logicielles professionnelles de séparation de la voix (http://audionamix.com/technology/).

Sujet : Si le problème de séparation de sources a d’abord été abordé dans un contexte aveugle, de nombreux travaux récents proposent de guider le processus de séparation grâce à de l’information fournie par l’utilisateur, ce qui permet d’améliorer fortement les performances. Plusieurs types d’information ont ainsi été proposés : requête parlée ou chantée imitant la source à extraire, partition musicale, information textuelle, annotation d’activation, indications sur la position spatiale des sources dans le champ stéréo... L’apport de cette information peut toutefois s’avérer long et fastidieux, et afin d’améliorer l’expérience utilisateur, il est nécessaire de réduire cet apport tout en maintenant un niveau de qualité de séparation élevé. L’objectif du stage est de proposer des méthodes permettant de réduire au maximum l’entrée utilisateur dans le cas d’une application à la séparation de la piste de batterie d’un enregistrement musical polyphonique. Pour cela il est envisagé de mettre en oeuvre un système de transcription automatique de la piste de batterie permettant d’estimer précisement les instants d’occurence des divers éléments percussifs (grosse caisse, caisse claire, toms, cymbales, …) à partir du mix polyphonique [1-3]. Pour traiter cette problématique on s’intéressera en particulier aux approches de type “réseaux de neurones” pour lesquels les récentes applications au domaine du Music Information Retrieval (MIR) ont démontré leur efficacité [4-7]. Le système proposé sera evalué et comparé avec quelques méthodes de l’état de l’art retenues durant la phase d’étude bibliographique.

Le candidat doit posséder les compétences suivantes :

  • Connaissances solides en traitement du signal audio / machine learning
  • Bonne connaissance de Matlab
  • Bonne maîtrise de l’anglais

Apports du stage :

  • Recherche à la croisée de la séparation de sources et de l’extraction automatique d’information dans la musique (Music Information Retrieval) ayant pour objectif une intégration à moyen terme dans un produit commercial.
  • Intégration complète dans une équipe de R&D fonctionnant en mode agile.
  • Travail dans un environnement international (l’équipe d’ingénieurs du son s’occupant du service est aux Etats-Unis).

Un stage s’étant bien déroulé aboutit généralement à une publication dans une conférence internationale et/ou au dépôt d’un brevet.

Profil recherché :

  • Dernière année d’école d’ingénieur ou Master Recherche M2, spécialité/option traitement du signal ou Machine learning.
  • Grand intérêt pour l’audio, la musique, les logiciels audio pour ingénieurs du son.

Rémunération : 1000 € bruts mensuels + tickets restaurant 11,50€

Contact : stage@audionamix.com

Bibliographie

[1] Fitzgerald D., “Automatic drum transcription and source separation”, PhD dissertation, 2004.

[2] Gillet O. and Richard G., “Transcription and separation of drum signals from polyphonic music”, IEEE TASLP, Vol 16, No 3, March 2008

[3] Roebel A., Liuni M., Pons J. and Lagrange M., “On automatic drum transcription using non-negative matrix deconvolution and itakura-saito divergence”, in ICASSP 2015

[4] Leglaive S., Hennequin R., Badeau R., “Singing voice detection with deep recurrent neural networks”, in ICASSP 2015

[5] Durand S., Bello J.P., David B. and Richard G., “Downbeat tracking with multiple features and Deep Neural Networks”, in ICASSP 2015

[6] Florian Eyben, Sebastian Böck, Björn W. Schuller, Alex Graves “Universal Onset Detection with Bidirectional Long Short-Term Memory Neural Networks”, in ISMIR 2010

[7] Jan Schlüter, Sebastian Böck, “Improved musical onset detection with Convolutional Neural Networks.”, in ICASSP 2014