Master 2015 2016
Stages de la spécialité SAR
Détection et Localisation de Source Sonore en Environnement Réaliste pour la Robotique


Site : projet émergence ROUTE, Sorbonne Universités
Lieu : -* ISIR (Institut des Systèmes Intelligents et de la Robotique), équipe PAM. 4 place Jussieu, 75005 Paris -* IRCAM (Institut de Recherche et Coordination Acoustique/Musique), équipe analyse/synthèse. 1 Place Igor-Stravinsky, 75004 Paris
Encadrant : Sylvain Argentieri (ISIR), Nicolas Obin (IRCAM), Marco Liuni (IRCAM) sylvain.argentieri@upmc.fr, Nicolas.Obin@ircam.fr
Dates :01/02/2016 au 30/06/16
Rémunération :554,40€ + frais de transport + tickets restaurants
Mots-clés : Master SAR, autre qu’ATIAM, Parcours ATIAM : Traitement du signal

Description

Contexte :

Le projet ROUTE (Robot à l’écOUTE) est un projet collaboratif entre l’ISIR et l’IRCAM financé par Sorbonne Universités. Il a pour objectif la conception et l’évaluation d’une méthode multi-canal de séparation de sources pour la localisation et la détection de locuteur en robotique. L’approche utilisée s’appuie sur la décomposition non-négative des signaux reçus, permettant l’estimation de masques temps-fréquence par canal. Cette représentation parcimonieuse des signaux permet alors de sélectionner les zones pertinentes (i.e. dominées par la source d’intérêt) pour effectuer la localisation. Dans un premier temps, l’analyse s’effectuera —sans perte de généralité— dans un cadre binaural.

Objectifs :

Dans ce cadre, le stagiaire prendra en charge :

  • la génération des signaux binauraux (de manière simulée) via les outils de l’IRCAM ;
  • l’estimation des masques idéaux appliqués aux 2 signaux gauche et droite ;
  • la comparaison de ces masques idéaux avec ceux obtenus par la décomposition non négative (via des métriques de l’état de l’art) ;
  • la mise en œuvre de méthodes de localisation binaurales classiques, basées sur des toolbox/outils de la communauté, prenant en compte l’aspect incomplet de la représentation temps-fréquence des signaux (problématique de fusion des masques) ;
  • la génération de bases de données, mesurées depuis un mannequin binaural KEMAR, placé en environnement réaliste (possiblement bruyant et/ou réverbérant) ;
  • la généralisation de l’approche au cas non binaural (plus de 2 microphones, dans un contexte d’antennerie).

Le stage s’effectuera à l’ISIR en collaboration avec l’IRCAM. Le stagiaire bénéficiera de l’environnement des 2 laboratoires, incluant un robot mobile équipé d’un mannequin binaural KEMAR et des studios d’enregistrent équipé d’un dispositif de spatialisation sonore.

Bibliographie

[Févotte, Idier, 2011] Cédric Févotte and Jérôme Idier, “Algorithms for nonnegative matrix factorization with the β-divergence,” Neural Computation, vol. 23, no. 9, pp. 2421–2456, 2011.

[Smaragdis, 2004] P. Smaragdis, “Non-negative matrix factor deconvolution, extraction of multiple sound sources from monophonic inputs,” International Symposium on Independent Component Analysis and Blind Source Separation (ICA) 3195 (2004) 494, 2004.

[Mitsufuji et al., 2014] Yuki Mitsufuji, Marco Liuni, Alex Baker, and Axel Roebel, “Online non-negative tensor deconvolution for source detection in 3dtv audio,” in Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on, 2014, pp. 3082–3086.

[Dessein et al., 2012] A. Dessein, A. Cont, and G. Lemaitre, “Real-time detection of overlapping sound events with non-negative matrix factorization,” in Matrix Information Geometry, F. Nielsen and R. Bhatia, Eds., pp. 341–372. Springer, 2012.

[Nakadai et al., 2000] K. Nakadai, T. Lourens, H. Okuno, H. Kitano, Active audition for humanoid, in : 17th National Conference on Artificial Intelligence, 2000, pp. 832–839

[Rodemann et al., 2008] T. Rodemann, G. Ince, F. Joublin, C. Goerick, Using binaural and spectral cues for azimuth and elevation localization, in : IEEE/RSJ International Conference on Intelligent Robots and Systems, 2008, pp. 2185– 2190.

[Ishi et al., 2013] C. Ishi, J. Even, N. Hagita, Using multiple microphone arrays and reflections for 3d localization of sound sources, in : Intelligent Robots and Systems (IROS), 2013 IEEE/RSJ International Conference on, 2013, pp. 3937– 3942.