Master 2018 2019
Stages de la spécialité SAR
Restitution binaurale de scènes sonores captées par des microphones sphériques et encodées en format Higher Order Ambisonics (HOA). Application à la réalité virtuelle / augmentée audio.


Site : Espaces Acoustiques et Cognitifs
Lieu : IRCAM
Encadrant : Thibaut Carpentier, Markus Noisternig, Olivier Warusfel
Dates :01/02/19 au 31/07/19
Rémunération : 530€ / mois + 50% titre transport / tickets repas
Mots-clés : Parcours ATIAM : Acoustique, Parcours ATIAM : Traitement du signal

Description

Contexte et motivations : Ambisonics désigne une technique de captation, de synthèse et de reproduction de scènes sonores, permettant un rendu spatialisé sur des dispositifs périphériques (circulaires ou sphériques) de haut-parleurs [daniel:2001]. La technique repose sur une description modale du champ sonore 3D dans une base de fonctions orthogonales, les harmoniques sphériques. Cette représentation, compacte, hiérarchique, et indépendante du format de diffusion, permet de manipuler aisément les caractéristiques spatiales du champ sonore, par exemple pour simuler des rotations de la scène. La captation d’une scène en format Ambisonics repose sur des réseaux microphoniques, disposés de façon quasi-coïncidente, typiquement selon une géométrie sphérique. Les signaux captés par les différentes cellules doivent faire l’objet d’un encodage (matriçage et filtrage) afin de produire un flux compatible avec le formalisme Ambisonics [moreau:2006]. L’usage de ces dispositifs de prise de son est en voie de démocratisation, et différents modèles de microphones dits « à haute résolution spatiale » sont désormais disponibles commercialement. Ces éléments concourent au déploiement du format Ambisonics, devenu ces dernières années un standard de facto pour la production et la post-production de contenus multimédia, en particulier dans les domaines de la vidéo 360° et de la réalité virtuelle/augmentée. Ces contenus sont le plus souvent présentés en écoute individuelle au casque, en s’appuyant sur la technique binaurale qui permet une restitution fidèle des indices acoustiques de localisation auditive via les fonctions de transfert de la tête (Head-Related Transfer Functions, HRTF).

L’équipe EAC développe depuis plusieurs années une suite d’outils pour la production et la post-production audio spatialisée [carpentier:2016][carpentier:2015]. L’enjeu du stage est d’étendre et optimiser plusieurs briques de la chaîne de traitement Ambisonics. Plus particulièrement, le travail portera sur les modules d’encodage des microphones sphériques, et de transcodage d’un flux Ambisonics vers une restitution binaurale.

Travail à réaliser : 1) Module d’encodage de microphones sphériques 1.1) Réalisation d’un banc de filtres d’encodage tenant compte de la configuration du réseau (description géométrique et propriétés des cellules microphoniques). Simulation numérique et comparaison objective de différentes topologies. Analyse des propriétés spectrales et de la résolution spatiale. 1.2) Optimisation de l’encodeur à partir d’une caractérisation acoustique de la fonction de directivité du réseau, mesurée en conditions anéchoïques.

2) Module de transcodage Ambisonics vers binaural Plusieurs approches ont d’ores et déjà été proposées :
-  Décodage de la scène Ambisonics sur un réseau de haut-parleurs virtualisés [noisternig:2003][mckeag:1996],
-  Décomposition du champ sonore sous forme d’ondes planes, pondérées par les HRTFs des directions correspondantes [duraiswami:2005][menzies:2007],
-  Extraction paramétrique non-linéaire des sources sonores et filtrage par les HRTFs correspondantes [berge:2010],
-  Décomposition harmonique du jeu de HRTFs, et filtrage du champ Ambisonics dans le domaine modal [rafaely:2010][bernschütz :2014].

Ces approches peuvent conduire à divers artefacts de reproduction, notamment : erreur de reconstruction du champ sonore en basses fréquences, colorations spectrales hautes fréquences, dégradation des différences interaurales de temps, etc. [solvang:2008][vennerød:2014] [zaunschirm:2018]. Le travail à mener consistera donc en :

2.1) Implémentation et étude comparative des différentes approches de transcodage. Caractérisation objectives des artefacts de reproduction. 2.2) Etude de faisabilité d’un transcodeur temps-réel, notamment en exploitant une décomposition phase-minimale des HRTFs.

Compétences requises :
- Solides compétences en traitement du signal (représentations temps-fréquence-espace),
- Notions d’acoustique physique et de psycho-acoustique,
- Bonne maîtrise de Matlab,
- Connaissance de l’environnement Max/MSP appréciée.

Apports pour l’étudiant : L’analyse/synthèse de champs sonores 3D est un domaine de recherche en pleine expansion, porté par différents laboratoires européens et des industriels du secteur multimédia. Le stage propose de mettre en œuvre des connaissances en acoustique physique et en traitement du signal, et vise des applications de mixage et production audio.

Bibliographie

[daniel:2001] J. Daniel. Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia. PhD thesis, Université de Paris VI, 2001.

[moreau:2006] S. Moreau. Etude et réalisation d’outils avancés d’encodage spatial pour la technique de spatialisation sonore Higher Order Ambisonics : microphone 3D et contrôle de distance. PhD thesis, Université du Maine, 2006.

[zaunschirm:2018] M. Zaunschirm, C. Schörkhuber, and R. Höldrich. Binaural rendering of Ambisonic signals by head-related impulse response time alignment and a diffuseness constraint. Journal of the Acoustical Society of America, 143(6):3616 – 3627, June 2018.

[rafaely:2010] B. Rafaely and A. Avni. Interaural cross correlation in a sound field represented by spherical harmonics. Journal of the Acoustical Society of America, 127(2):823 – 828, Feb 2010.

[solvang:2008] A. Solvang. Spectral Impairment of Two-Dimensional Higher Order Ambisonics. Journal of the Audio Engineering Society, 56(4):267 – 279, April 2008.

[vennerød:2014] J. Vennerød. Binaural Reproduction of Higher Order Ambisonics - A Real-Time Implementation and Perceptual Improvements. Master’s thesis, Norwegian University of Science and Technology (Trondheim), 2014.

[bernschütz:2014] B. Bernschütz, A. V. Giner, C. Pörschmann, and J. Arend. Binaural reproduction of plane waves with reduced modal order. Acta Acustica united with Acustica, 100:972 – 983, 2014.

[enzner:2013] G. Enzner, M. Weinert, S. Abeling, J.-M. Batke, and P. Jax. Advances System Options for Binaural Rendering of Ambisonic Format. In Proc. of IEEE International Conference on Acoustics, Speech, and Signal Processing, pages 251 – 255, 2013.

[tylka:2015] J. G. Tylka and E. Y. Choueiri. Comparison of Techniques for Binaural Navigation of Higher-Order Ambisonic Soundfields. In Proc. of 139th Convention of the Audio Engineering Society, New York, NY, USA, Oct 2015.

[noisternig:2003] M. Noisternig, A. Sontacchi, T. Musil, and R. Höldrich. A 3D Ambisonic Based Binaural Sound Reproduction System. In Proc. of AES 24th International Conference on Multichannel Audio, June 2003.

[mckeag:1996] A. McKeag and D. S. McGrath. Sound field format to binaural decoder with head tracking. In AES 6th Australian Regional Convention, Melbourne, Australia, Aug 1996.

[menzies:2007] D. Menzies. Nearfield Synthesis of Complex Sources with High-Order Ambisonics, and Binaural Rendering. In Proc. of the 13th International Conference on Auditory Display, Montreal, Canada, June 2007.

[duraiswami:2005] R. Duraiswami, D. N. Zotkin, Z. Li, E. Grassi, N. A. Gumerov, and L. S. Davis. High Order Spatial audio capture and binaural head-tracked playback over headphones with HRTF cues. In Proc. 119th Convention of the Audio Engineering Society, New York, NY, USA, Oct 2005.

[berge:2010] S. Berge and N. Barrett. A New Method for B-Format to Binaural Transcoding. In Proc. of the 40th International Conference of the Audio Engineering Society, Tokyo, Japan, Oct 2010.

[carpentier:2016] T. Carpentier. Panoramix : 3D mixing and post-production workstation. In Proc. 42nd International Computer Music Conference (ICMC), pages 122 – 127, Utrecht, Netherlands, Sept 2016.

[carpentier:2015] T. Carpentier, M. Noisternig, and O. Warusfel. Twenty Years of Ircam Spat : Looking Back, Looking Forward. In Proc. of the 41st International Computer Music Conference, pages 270 – 277, Denton, TX, USA, Sept. 2015.