Master 2018 2019
Stages de la spécialité SAR
Génération automatique de version Karaoké


Site : Trac-Génération automatique de version Karaoké
Lieu : Lille
Encadrant : Nathan Souviraà-Labastie
Dates :Flexible
Rémunération :Gratification
Mots-clés : Parcours ATIAM : Traitement du signal

Description

Problématique

Une version Karaoké d’un morceau de musique est une version ou la voix du chanteur n’est plus présente dans le morceau. Généralement une telle version de la musique est présenté avec un sous-titrage des paroles permettant à l’utilisateur de chanter au rythme du morceau "instrumental". La plupart du temps, ces versions Karaoké sont générées ("masterisées") à la main par un ingénieur du son. Les sociétés de divertissement ont déjà des bases de données bien fournies de ce genre de contenu. Cependant, elles ne peuvent pas faire face à la quantité des morceaux créés chaque jour notamment par les musiciens amateurs et doivent se concentrer sur les morceaux les plus connus. Ainsi, un outil de génération automatique de version Karaoké permettrait au grand public d’accéder à une base de données potentiellement infinie de version Karaoké. De même, dans le cas d’un contenu écouté en streaming un outil automatique (et temps réel) serait également nécessaire.

Approche

Une première tâche sera de mettre en oeuvre une méthode de l’état de l’art de séparation de sources audio. La méthode sera à discuter selon les aspirations de l’étudiant (ML [ 2 ], empirique type REPET [ 1 ]). Une base de données et les résultats d’une campagnes d’évaluation de séparation de musique est disponible dans [ 3 ]. Une deuxième tâche sera de générer un sous-titrage synchronisé avec le morceaux de musique. Pour la majorité des morceaux, les paroles sont disponibles en ligne en version texte brute. Il s’agirait alors de synchroniser et d’afficher cette version sur la base d’une comparaison avec la version speech-to-text de la source de voix qui a été retirée. Des compétences ou expériences en Natural Language Processing (NLP) ou en traitement de données symboliques seraient un plus.

Encadrants

Nathan Souviraà-Labastie, ingénieur R&D (A-Volute) nathan.souviraa-labastie@a-volute.com Maxime Baelde, ingénieur R&D, doctorant (A-Volute / INRIA) maxime.baelde@a-volute.com Raphaël Greff, directeur R&D (A-Volute) raphael.greff@a-volute.com

En préparation d’un diplôme d’ingénieur ou d’un master (bac+5), voire d’un doctorat (bac+8) (stage de césure), vous disposez de préférence de connaissance dans le développement et l’implémentation d’algorithmes avancés de traitement numérique du signal audio.

En outre, des notions avancées dans les domaines variés suivants seraient fortement appréciés :

Audio, acoustique et psychoacoustique Effets audio de manière générale : compression, égalisation, etc. Machine learning et réseaux de neurones artificiels. Statistiques, mathématiques probabilistes, optimisation. Programmation et développement informatique : Matlab, Python.

Et des expériences dans les domaines suivants seraient des plus :

Effets de spatialisation sonore : synthèse binaurale, Ambisonics, réverbération artificielle. Reconnaissance vocale, commande vocale. Effets de traitement de la voix : réduction de bruit, annulation d’écho, traitement d’antenne. Réalité virtuelle, augmentée et mixte. Programmation et développement informatique : Max/MSP, C/C++/C#. Moteurs de jeux vidéo : Unity, Unreal Engine, Wwise, FMod, etc. Logiciels d’édition audio : Audacity, Adobe Audition, etc. Publications scientifiques et dépôts de brevet. Maitriser parfaitement l’anglais. Faire preuve de curiosité intellectuelle.

Bibliographie

[ 1 ] Z.Rafii et al. « An Overview of Lead and Accompaniment Separation in Music ». In :IEEE TRANSACTIONS ON AUDIO(), p. 31. [ 2 ] N.Takahashi et al. « Deep Convolutional Neural Networks and Data Augmentation for Acoustic Event Detection ». In :arXiv :1604.07160 cs. [ 3 ] D.Ward et al. « SISEC 2018 : state of the art in musical audio source separation - Subjective selection of the best algorithm ». In :4th Workshop on Intelligent Music Production, WIMP 2018. University of Huddersfield, sept. 2018