Master 2015 2016
Stages de la spécialité SAR
Construction d’un système de transcription de voix parlée à grande échelle


Site : Deezer
Lieu : Deezer HQ, Paris
Encadrant : Manuel Moussallam
Dates :février 2015 (6 mois)
Rémunération : 1000€
Mots-clés : Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Description

La transcription de la voix parlée consiste, à partir d’un enregistrement sonore de locuteurs humains, à proposer un texte correspondant à ce qui est prononcé par le ou les locuteurs enregistrés. Ce domaine est depuis peu révolutionné par des approches novatrices utilisant des réseaux de neurones profonds, techniques d’apprentissage automatique qui tirent parti de l’accroissement considérable des jeux de données disponibles pour l’apprentissage.

Dans le domaine très concurrentiel et mondial du streaming audio, Deezer est un acteur de premier plan qui développe en interne des algorithmes de recommandation à la pointe de l’état de l’art. Forte de son catalogue de plus de 35M de titres et de ses 30M d’utilisateurs actifs dans plus de 180 pays, l’entreprise est en forte croissance et offre un cadre de travail dynamique et motivant. Intégrant depuis cette année les podcasts du catalogue de Stitcher, Deezer mets en place des outils d’analyse spécialisés sur ce type de données audio.

Le but du stage est d’envisager l’application de techniques d’apprentissage par réseaux de neurones profonds (Deep neural networks) pour la détection puis la transcription de voix parlée sur de grands volumes de données audio : Les méthodes d’apprentissage profond ont récemment donné d’excellents résultats en reconnaissance d’images et en reconnaissance de la parole [1] et ont l’avantage d’avoir une étape d’inférence assez peu lourde en calcul, ce qui leur permet d’être utilisées sur de larges volumes de données. Le stagiaire combinera des outils de traitement du signal, du langage naturel et de l’apprentissage automatique pour développer un cadre théorique innovant, qui sera évalué dans un contexte industriel.

Le stagiaire sera encadré par des chercheurs et des développeurs qui seront à même de lui fournir une aide aussi bien théorique que matérielle, ainsi que des moyens techniques de pointe en terme de puissance et de volume de calculs grâce à l’environnement “big data” disponible au sein de l’entreprise. Il sera néanmoins incité à une grande autonomie et prise d’initiative dans la conduite du projet. Le stage pourra donner lieu à une publication de conférence.

Profil recherché :

étudiant en Master 2 avec de solides bases en apprentissage automatique, traitement du signal et du langage naturel. Une expérience en programmation sera grandement appréciée.

Compétences recherchées :

- Machine Learning / Traitement du signal audio (analyse Temps/Fréquence, extraction de descripteurs audio) / Traitement du Langage Naturel
- Outils de Programmation et librairies de machine learning (Python)
- Curiosité et motivation

Bibliographie

Mohamed, A., Dahl, G. E., & Hinton, G. (2012). Acoustic Modeling Using Deep Belief Networks. IEEE Transactions on Audio, Speech, and Language Processing, 20(1), 14–22. doi:10.1109/TASL.2011.2109382