Master 2014 2015
Stages de la spécialité SAR
Utilisation de réseaux de neurones profonds pour la détection et la caractérisation de la voix chantée à grande échelle.


Site :Deezer R&D
Lieu :Deezer HQ, Paris 9e
Encadrant : Manuel Moussallam
Dates :février 2015 (6 mois)
Rémunération :1000€ brut/mois
Mots-clés : Parcours ATIAM : Acoustique, Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal


Description

Description : L’analyse automatique de la musique, et en particulier l’extraction d’information (MIR pour Music Information Retrieval) a franchi, ces dernières années, de nombreux obstacles théoriques et pratiques. Bénéficiant d’avancées en traitement des images, du langage et de développements spécifiques, le champ du MIR est aujourd’hui largement reconnu et utilisé dans des contextes industriels. Les défis restant sont ceux du passage à l’échelle et de l’extraction d’informations de haut niveau. Dans le domaine très concurrentiel et mondial du streaming musical, Deezer est un acteur de premier plan qui développe en interne des algorithmes de recommandation à la pointe de l’état de l’art. Forte de son catalogue de plus de 35M de titres et de ses 30M d’utilisateurs actifs dans plus de 180 pays, l’entreprise est en forte croissance et offre un cadre de travail dynamique et motivant.

Le but du stage est d’envisager l’application de techniques d’apprentissage par réseaux de neurones profonds (Deep neural networks) pour la détection de voix chantée et sa caractérisation (genre du locuteur, tessiture du locuteur, langue...) sur de grands volumes (à l’échelle du million de pistes) de données musicales : Les méthodes d’apprentissage profond ont récemment donné d’excellents résultats en reconnaissance d’images et en reconnaissance de la parole [2] et ont l’avantage d’avoir une étape d’inférence assez peu lourde en calcul, ce qui leur permet d’être utilisées sur de larges volumes de données. La détection de voix chantée est un domaine de recherche très actif [1] basé sur l’extraction de descripteurs de timbre, d’harmonie, de rythme etc.. Le stagiaire combinera des outils de la physique acoustique, du traitement du signal et de l’apprentissage automatique pour développer un cadre théorique innovant, qui sera évalué dans un contexte industriel.

Le stagiaire sera encadré par des chercheurs et des développeurs qui seront à même de lui fournir une aide aussi bien théorique que matérielle, ainsi que des moyens techniques de pointe en terme de puissance et de volume de calculs grâce à l’environnement “big data” disponible au sein de l’entreprise. Il sera néanmoins incité à une grande autonomie et prise d’initiative dans la conduite du projet. Le stage pourra donner lieu à une publication de conférence.

Profil recherché : étudiant en Master 2 avec de solides bases en apprentissage automatique et en traitement du signal audio. Une expérience en programmation serait également appréciée. La connaissance de la musique est un plus, de même que celle des technologies et langages dit “big data”.

Compétences nécessaires :
- Traitement du signal audio (analyse Temps/Fréquence, extraction de descripteurs audio)
- Connaissance de techniques d’apprentissage automatique (SVM, HMM, réseaux de neurones, inférence bayésienne...)
- Curiosité et motivation

Bibliographie

Lehner, B., Sonnleitner, R., & Widmer, G. (2013). Towards light-weight, real-time-capable singing voice detection. ISMIR Conference

Mohamed, A., Dahl, G. E., & Hinton, G. (2012). Acoustic Modeling Using Deep Belief Networks. IEEE Transactions on Audio, Speech, and Language Processing, 20(1), 14–22. doi:10.1109/TASL.2011.2109382