Master 2018 2019
Stages de la spécialité SAR
Extraction de sources sonores dans un flux multi-canal en temps-réel


Site : Trac-Extraction de sources sonores dans un flux multi-canal en temps-réel
Lieu : Lille
Encadrant : Maxime Baelde
Dates :Flexible
Rémunération :Gratification
Mots-clés : Parcours ATIAM : Traitement du signal

Description

Problématique L’extraction de sources dans un flux multi-canal peut être vue comme à la croisée entre la séparation et la localisation de sources sonores. La séparation de sources consiste à extraire les différentes sources sonores présentes dans un signal audio (distribution fréquentielle) alors que la localisation de sources consiste à trouver la distribution spatiale des sources sonores. Beaucoup de techniques de séparation et de localisation existent mais fort peu parviennent à fonctionner en temps-réel (car non conçu dans ce but ou à cause de lacharge computationnelle).

Sujet Il s’agit de développer un algorithme d’extraction de sources sonores dans un flux multi-canal en temps-réel par un approche à choisir (par exemple de type Deep Learning [ 1 ]). Le projet commencera par un état de l’art des publications scientifiques (voire brevets) relatives aux deux sujets [ 2 ], [ 3 ]. L’aspect temps-réel est un point essentiel du projet : il s’agit de modifier un algorithme existant ou en créer un nouveau quipuisse fonctionner avec très peu d’informations audio et dont la charge computationnelle soit la plus faiblepossible. Le prototypage de l’algorithme sur Matlab ou Python en fin de projet serait un plus.

Encadrants Maxime Baelde, ingénieur R&D, doctorant (A-Volute / INRIA) maxime.baelde@a-volute.com Nathan Souviraà-Labastie, ingénieur R&D (A-Volute) nathan.souviraa-labastie@a-volute.com Raphaël Greff, directeur R&D (A-Volute) raphael.greff@a-volute.com

En préparation d’un diplôme d’ingénieur ou d’un master (bac+5), voire d’un doctorat (bac+8) (stage de césure), vous disposez de préférence de connaissances dans le développement et l’implémentation d’algorithmes avancés de traitement numérique du signal audio.

En outre, des notions avancées dans les domaines variés suivants seraient fortement appréciés :

Audio, acoustique et psychoacoustique Effets audio de manière générale : compression, égalisation, etc. Machine learning et réseaux de neurones artificiels. Statistiques, mathématiques probabilistes, optimisation. Programmation et développement informatique : Matlab, Python.

Et des expériences dans les domaines suivants seraient des plus :

Effets de spatialisation sonore : synthèse binaurale, Ambisonics, réverbération artificielle. Reconnaissance vocale, commande vocale. Effets de traitement de la voix : réduction de bruit, annulation d’écho, traitement d’antenne. Réalité virtuelle, augmentée et mixte. Programmation et développement informatique : Max/MSP, C/C++/C#. Moteurs de jeux vidéo : Unity, Unreal Engine, Wwise, FMod, etc. Logiciels d’édition audio : Audacity, Adobe Audition, etc. Publications scientifiques et dépôts de brevet. Maitriser parfaitement l’anglais. Faire preuve de curiosité intellectuelle.

Bibliographie

Références [ 1 ] I.Goodfellow, Y.Bengioet A.Courville.Deep Learning. 2016.

[ 2 ] N.Takahashi et al. « PhaseNet : Discretized Phase Modeling with Deep Neural Networks for AudioSource Separation ». In :Interspeech 2018. Interspeech 2018. ISCA, 2 sept. 2018, p. 2713-2717.

[ 3 ] Z.-Q.Wang, X.Zhanget D.Wang. « Robust TDOA Estimation Based on Time-Frequency Maskingand Deep Neural Networks ». In :Interspeech 2018. Interspeech 2018. ISCA, 2 sept. 2018, p. 322-326.