Master 2018 2019
Stages de la spécialité SAR
Extraction de sources sonores dans un flux multi-canal en temps-réel
Site : | Trac-Extraction de sources sonores dans un flux multi-canal en temps-réel |
Lieu : | Lille |
Encadrant : | Maxime Baelde |
Dates : | Flexible |
Rémunération : | Gratification |
Mots-clés : | Parcours ATIAM : Traitement du signal |
Description
Problématique L’extraction de sources dans un flux multi-canal peut être vue comme à la croisée entre la séparation et la localisation de sources sonores. La séparation de sources consiste à extraire les différentes sources sonores présentes dans un signal audio (distribution fréquentielle) alors que la localisation de sources consiste à trouver la distribution spatiale des sources sonores. Beaucoup de techniques de séparation et de localisation existent mais fort peu parviennent à fonctionner en temps-réel (car non conçu dans ce but ou à cause de lacharge computationnelle).
Sujet Il s’agit de développer un algorithme d’extraction de sources sonores dans un flux multi-canal en temps-réel par un approche à choisir (par exemple de type Deep Learning [ 1 ]). Le projet commencera par un état de l’art des publications scientifiques (voire brevets) relatives aux deux sujets [ 2 ], [ 3 ]. L’aspect temps-réel est un point essentiel du projet : il s’agit de modifier un algorithme existant ou en créer un nouveau quipuisse fonctionner avec très peu d’informations audio et dont la charge computationnelle soit la plus faiblepossible. Le prototypage de l’algorithme sur Matlab ou Python en fin de projet serait un plus.
Encadrants Maxime Baelde, ingénieur R&D, doctorant (A-Volute / INRIA) maxime.baelde@a-volute.com Nathan Souviraà-Labastie, ingénieur R&D (A-Volute) nathan.souviraa-labastie@a-volute.com Raphaël Greff, directeur R&D (A-Volute) raphael.greff@a-volute.com
En préparation d’un diplôme d’ingénieur ou d’un master (bac+5), voire d’un doctorat (bac+8) (stage de césure), vous disposez de préférence de connaissances dans le développement et l’implémentation d’algorithmes avancés de traitement numérique du signal audio.
En outre, des notions avancées dans les domaines variés suivants seraient fortement appréciés :
Audio, acoustique et psychoacoustique Effets audio de manière générale : compression, égalisation, etc. Machine learning et réseaux de neurones artificiels. Statistiques, mathématiques probabilistes, optimisation. Programmation et développement informatique : Matlab, Python.
Et des expériences dans les domaines suivants seraient des plus :
Effets de spatialisation sonore : synthèse binaurale, Ambisonics, réverbération artificielle. Reconnaissance vocale, commande vocale. Effets de traitement de la voix : réduction de bruit, annulation d’écho, traitement d’antenne. Réalité virtuelle, augmentée et mixte. Programmation et développement informatique : Max/MSP, C/C++/C#. Moteurs de jeux vidéo : Unity, Unreal Engine, Wwise, FMod, etc. Logiciels d’édition audio : Audacity, Adobe Audition, etc. Publications scientifiques et dépôts de brevet. Maitriser parfaitement l’anglais. Faire preuve de curiosité intellectuelle.
Bibliographie
Références [ 1 ] I.Goodfellow, Y.Bengioet A.Courville.Deep Learning. 2016.
[ 2 ] N.Takahashi et al. « PhaseNet : Discretized Phase Modeling with Deep Neural Networks for AudioSource Separation ». In :Interspeech 2018. Interspeech 2018. ISCA, 2 sept. 2018, p. 2713-2717.
[ 3 ] Z.-Q.Wang, X.Zhanget D.Wang. « Robust TDOA Estimation Based on Time-Frequency Maskingand Deep Neural Networks ». In :Interspeech 2018. Interspeech 2018. ISCA, 2 sept. 2018, p. 322-326.
- Valid CSS 2.1
- Valid XHTML Basic 1.1
- Triple-A conformance Web Content Accessibility Guidelines 2.0
- Valid RSS Atom
-
Calculé le 23 janvier 2021 à 00h05minpar DidacSPIPSorbonne Université
- Mobile OK
- SPIP