Master 2017 2018
Stages de la spécialité SAR
Identification des HRTFs par "selfies binauraux"


Site : IRCAM - UMR STMS - Equipe Espaces Acoustiques et Cognitifs
Lieu : IRCAM - Equipe EAC (Espaces Acoustiques et Cognitifs)
Encadrant : Olivier Warusfel
Dates :1er février - 30 juin 2018
Rémunération : 530€ / mois + contribution 50% carte de transports et tickets repas
Mots-clés : Parcours ATIAM : Acoustique, Parcours ATIAM : Traitement du signal

Description

Projet

L’analyse de l’environnement sonore se base généralement sur l’utilisation de dispositifs de mesure calibrés, tels que les réseaux de microphones sphériques qui permettent une analyse fine de la direction d’incidence des sources ou des réflexions qui composent la scène sonore [11, 14, 15, 17]. Les algorithmes d’identification ou de séparation de sources basés sur ces réseaux de capteurs (e.g. audition des robots) supposent une connaissance a priori de la configuration géométrique des transducteurs ou la caractérisation préalable de leur fonction de directivité et de celles des formations de voies qui leur sont associées [4, 8].

Dans ce projet on inverse l’objectif en tentant d’identifier la fonction de directivité du dispositif à partir de l’analyse de la scène sonore enregistrée. L’un des contextes applicatifs du projet de recherche, à la frontière du traitement du signal, de l’acoustique et de l’apprentissage artificiel est l’identification de fonctions de transfert de tête (HRTF Head Related Transfer Functions), à la base de la technologie de reproduction binaurale. Les mesures de HRTFs sont généralement réalisées en environnement contrôlé (chambre anéchoïque) en utilisant des signaux calibrés (balayage fréquentiel), ce qui les rend inaccessibles pour le grand public. Il serait donc intéressant de pouvoir identifier ces fonctions de transfert à partir d’un « selfie binaural » c’est à dire d’un simple enregistrement effectué en conditions non supervisées avec une paire de micros binauraux insérés dans les oreilles de l’auditeur.

Cette application peut-être considérée comme un cas particulier du problème général exposé plus haut et dans lequel le réseau de capteurs bien que mobile ne se déforme pas. Dans ce contexte, la mobilité du réseau représente un atout puisque le système peut accumuler en permanence de nouvelles connaissances sur son environnement proche ou lointain et sur son propre comportement acoustique. Le travail s’appuiera sur des études préliminaires réalisées dans l’équipe [9, 10]. Dans ces études, l’autodétermination des HRTFs se base sur un enregistrement binaural effectué à l’aide de microphones intra-auriculaires en conditions non-supervisées : signaux quelconques, auditeur et sources en mouvement, milieu bruité et réverbérant. L’enregistrement est exploité pour identifier par apprentissage artificiel, au sein d’une base de données de HRTFs, celles qui expliquent au mieux les paramètres inter-auraux et monauraux d’un modèle de localisation auditive.

Deux approches successives seront étudiées pour estimer les HRTFs à partir d’un enregistrement binaural.

La première, dérivée des travaux préliminaires effectués récemment à l’IRCAM [MaaW16] consiste à reconnaître au sein d’une base d’HRTFs de référence mesurées le jeu le plus vraisemblable, c’est à dire celui qui explique le mieux les caractéristiques interaurales observables sur les signaux enregistrés. L’évolution par rapport aux travaux précédents consiste à introduire des hypothèses de continuité spatiale des mouvements relatifs entre les sources et l’auditeur de sorte à pouvoir repérer des motifs spatio-fréquentiels et non plus uniquement fréquentiels.

Dans la seconde, plus prospective, on ne cherche plus à « reconnaître » le jeu de HRTFs le plus approprié au sein d’une base de données mais on s’autorise à reconstruire un jeu de HRTFs « plausible » au sens d’un modèle paramétrique spatio-fréquentiel des HRTFs de sorte à pouvoir s’adapter plus facilement à des têtes s’écartant des spécimens présents dans la base de données.

Enjeux

L’explosion des usages basés sur les périphériques mobiles (e.g. téléphones portables) suggère la recherche et le développement de méthodes de caractérisation capables d’identifier en permanence l’environnement acoustique dans lequel ils évoluent et d’inférer des hypothèses sur son organisation spatiale à partir de l’analyse des seules sources sonores en présence [7, 16] sans le recours à des signaux test. Dans le projet de recherche proposé, l’accent est mis non pas sur l’optimisation de l’extraction de sources mais sur l’autodétermination des caractéristiques géométriques ou acoustiques d’un réseau de capteurs grâce à l’analyse de l’environnement sonore dans lequel il évolue.

Bibliographie

[1] Ajdler, T., Sbaiz L., and Vetterli, M., The Plenacoustic Function and its Sampling, IEEE Transactions on Signal Processing, Vol. 54, Nr. 10, pp. 3790-3804, 2006.

[2] Brungart, D.S., Rabinowitz, W.M., (1999). Auditory localization of nearby sources. Head-related transfer functions. J. Acoust. Soc. Am., 106 :1465

[3] Cohen I. (2004), Relative transfer function identification using speech signals, Speech and Audio Processing, IEEE Transactions on, vol. 12, pp. 451‐459, 2004.

[4] Comon, P., Jutten, C., Handbook of Blind Source Separation, Independent Component Analysis and Applications. Elsevier, 2010.

[5] Bourdillat, E., deVries, D., Hulsebos, E. Improved microphone array configurations for auralization of sound fields by Wave Field Synthesis. 110th AES Convention, 2001.

[6] Filos, J., Habets, E. A. P. and Naylor, P. A. ,(2010) “A two-step approach to blindly infer room geometries,” in Proc. Intl. Workshop Acoust. Echo Noise Control (IWAENC), Tel Aviv, Israel..

[7] Gallo, E., Tsingos, N., Lemaitre, G., 3D-audio matting, post-editing and re-rendering from field recordings. EURASIP JASP, special issue on Spatial Sound and Virtual Acoustics, 2007.

[8] Maazaoui, M., Abed-Meraim, K., Grenier, Y., Blind source separation for robot audition using fixed hrtf beamforming. EURASIP Journal on Advances in Signal Processing, 2012.

[9] Maazaoui, M. et Warusfel O., Estimation des HRTFs individuelles sur la base d’enregistrements binauraux en conditions non supervisées, In Proc. of CFA/Vishno 2016, 2016.

[10] Maazaoui, M. et Warusfel O., Estimation of Individualized HRTFs in Unsupervised Conditions, In Proc of 140th AES Convention (paper 9520), 2016.

[11] Morgenstern H. Morgenstern, B. Rafaely and M. Noisternig. "Design framework for spherical microphone and loudspeaker arrays in a multiple-input multiple-output system". J. Acoust. Soc. Am., Vol. 141(3) : p. 2024-2038. April 2017.

[12] Nakadai, K., Nakajima, H., Yuji, H., Hiroshi, T. Sound source separation of moving speakers for robot audition. IEEE International Conference on Acoustics, Speech and Signal Processing, pages 3685–3688, 2009.

[13] Pollow, M., et a., (2012) Calculation of head-related transfer functions for arbitrary field points using spherical harmonics décomposition, Acta Acustica united with Acustica, vol. 98, n° 1, pp. 72-82

[14] Rafaely, B. (2005), Analysis and design of spherical microphone arrays, IEEE Trans. ASP, 13(1), 135-143.

[15] Sun H., Kellermann W., Mabande E., Kowalczyck K., (2012) Localization of distinct reflections in rooms using spherical microphone array eigenbeam processing, JASA, 131(4), 2828-40

[16] Zeng, Y. and Hendriks, R.C. (2012), Distributed Delay And Sum Beamformer For Speech Enhancement In Wireless Sensor Networks Via Randomized Gossip, in IEEE Int. Conf. Acoust., Speech, Signal Processing

[17] Zotkin D.N. et al., (2010), Plane-wave decomposition of acoustical scenes via spherical and cylindrical microphone arrays, IEEE Trans. ASLP, 18 :2-18