Master 2018 2019
Stages de la spécialité SAR
Caractérisation expérimentale et computationnelle de jugements auditifs haut-niveau – étude à partir du cas de la « chaleur » perçue d’un son


Site : STMS Ircam /équipe Perception et Design Sonores (PDS)
Lieu : IRCAM – UMR STMS Ircam-Cnrs-Upmc Equipes PDS / AnaSyn 1, place Igor Stravinsky – 75004 Paris
Encadrant : Nom des proposants : Nicolas Misdariis, Nicolas Obin, Emmanuel Ponsot Tel. : 01.44.78.48.90 / 01.44.78.13.50 Adresse électronique : nicolas.obin@ircam.fr / nicolas.misdariis@ircam.fr
Dates :du 18/02/2019 au 26/07/2019
Rémunération :env. 500 E./mois (+ ticket resto. + transport)
Mots-clés : Parcours ATIAM : Acoustique, Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Description

Contexte scientifique La description verbale des sons de toute nature – musicale, vocale, environnementale – peut s’effectuer à plusieurs niveaux. Par analogie avec les différents modes d’écoute formalisés initialement par Schaeffer [Schaeffer, 1966] puis repris notamment par Chion [Chion, 1994] ou, plus récemment, Lemaitre [Lemaitre et al., 2010], on peut distinguer 3 modes de description ou de « discours » sur le son, correspondant chacun à une terminologie spécifique [Carron, 2016] :
-  le discours réduit – dual de la démarche d’entendre –, associé à des descripteurs élémentaires de bas niveau (hauteur, intensité), à des morphologies temporelles ou à des propriétés spatiales et timbrales ;
-  le discours causal – dual de la démarche d’écouter – associé à des descripteurs relatifs aux types de sources, aux matériaux qui les constituent ou aux actions qui les mettent en mouvement pour produire le son ;
-  le discours sémantique (ou contextuel) – dual de la démarche de comprendre –, associé à des descripteurs de haut niveau relatifs à la signification (sens) des sons, ou bien aux émotions, jugements et associations qu’ils évoquent. Inspirées par les premières recherches sur le timbre musical [Wessel, 1979, McAdams, 1995], de nombreuses études en perception sonore vise à établir un lien de correspondance entre descripteurs verbaux et propriétés physiques du signal sonore associé ; plus précisément, ces études visent à mettre à jour des dimensions perceptives qui sous-tendent la représentation mentale d’un ensemble de sons, puis à qualifier ces dimensions à la fois du point de vue verbal (leur donner un nom) mais aussi du point de vue physique (les relier à des paramètres calculables sur le signal). C’est ainsi, par exemple, que le percept de brillance émerge fortement dans la caractérisation des sons musicaux [Krimphoff et al., 1994] – s’étendant aux sons environnementaux [Misdariis et al., 2010] – et est généralement modélisé par le calcul d’un centre de gravité spectral. Pour de nombreux autres descripteurs usuels du son, notamment les descripteurs de haut niveau (p. ex., rond, chaud, agressif, etc.), ce lien perceptif – physique n’a pas encore été formalisé et modélisé aussi finement. Par ailleurs, les techniques de corrélation inverse (reverse corrélation), utilisées à la fois en vision et en audition, permettent de révéler des représentations mentales d’un attribut perceptif inconnu par une approche data-driven. L’idée générale de la corrélation inverse est de présenter à des participants un stimulus modifié aléatoirement au cours de nombreux essais. Cette perturbation s’effectue soit sur le signal directement (Ahumada et Lovel, 1971), soit en manipulant ses dimensions perceptives, comme le niveau (Ponsot et al., 2013), la hauteur (Ponsot et al., 2018b) ou le timbre (Sabin et al., 2011 ; Ponsot et al., 2018a) pour des stimuli auditifs, à partir de techniques de traitement du signal. La dimension de ces perturbations est choisie en adéquation avec la tâche considérée afin que ces stimuli conduisent à des jugements perceptifs différents. La corrélation inverse permet de déduire le traitement perceptif linéaire effectué (le modèle acoustique interne) à partir du profil des perturbations et des réponses obtenues au cours des différents essais. D’abord utilisée par les psychophysiciens pour caractériser les traitements sensoriels bas-niveau (Ahumada et Lovel, 1971), cette méthode s’avère également être un outil puissant pour caractériser des processus perceptuels ou cognitifs de haut niveau (Jack et al., 2017 ; Ponsot et al., 2018b), et permet en particulier de révéler le code sousjacent à des « représentations mentales » de l’attribut considéré (par ex., le timbre d’une voix souriante ou l’intonation d’une voix digne de confiance).

Objectifs L’objectif principal du stage est de consolider les premiers résultats obtenus sur l’attribut « chaud » [Rampon, 2018]. Cet attribut a été étudié sur 3 corpus différents : sons vocaux mono- et bi- syllabiques, et sons de synthèse, à partir de 2 hypothèses : la perception de « chaleur » peut s’expliquer, d’une part, par l’enveloppe spectro-temporelle du signal (EQ), et d’autre part, par le rapport harmoniques-sur-bruit (HNR) de son contenu spectral. Ces hypothèses ont fait l’objet d’expériences perceptives à partir d’une population de professionnels du son et ont abouti à la détermination de filtres moyens (linéaires) modélisant un son chaud à partir des 2 paramètres étudiés. La consolidation de ce travail pourra prendre trois directions différentes : i/ la validation expérimentale des premiers résultats, au moyen d’une reconstruction synthétique de « chaleur » et de son évaluation perceptive – cette partie expérimentale pourra également faire l’objet de l’étude de l’attribut opposé (« froid ») ; ii/ la reprise et l’exploitation approfondie des données d’expérience en s’intéressant, par exemple, à des modélisations non-linéaires ; ii/ une réflexion méthodologique sur la technique de corrélation inverse et, le cas échéant, la mise en œuvre d’implémentation palliant le principal problème de cette méthode, la durée d’expérience – cette réflexion pourra, par exemple, s’intéresser aux moyens d’obtenir une convergence plus rapide et plus sure de la méthode (plans d’expérience pré-déterminés et non aléatoire, choix des stimuli en fonction des réponses passées, etc. )

Déroulement envisagé Le stage pourra s’articuler en plusieurs grandes parties : i) travail bibliographique sur les techniques de reverse correlation appliquées à l’audio ; ii) étude approfondie de la première phase de l’étude à partir des données déjà collectées [Rampon, 2018] ; iii) amélioration du modèle de « chaleur » sonore ; iv) mise en œuvre d’une expérience de validation du modèle ; v) conception et implémentation de méthodes adaptatives / bayésiennes pour révéler les représentations mentales plus rapidement qu’avec la corrélation inverse ; vi) rédaction du rapport.

Type de travail et résultats attendus Travail bibliographique, expérimental et créatif. Résultats attendus, d’un point de vue théorique, en termes d’acquisition de connaissances en psychologie expérimentale, et d’un point de vue pratique, en termes de pattern de caractérisation des descripteurs sélectionnés.

Compétences requises Notions de base en traitement du signal, psychoacoustique, psychophysique, perception/cognition auditive, programmation (Matlab). Autonomie et goût pour la recherche.

Bibliographie

Ahumada Jr, A., & Lovell, J. (1971). Stimulus features in signal detection. The Journal of the Acoustical Society of America, 49(6B), 1751-1756.

Carron, M., Dubois, F., Misdariis, N., Talotte, C., Susini, P. (2014, October). Designing sound identity : providing new communication tools for building brands corporate sound. In Proceedings of the 9th Audio Mostly : A Conference on Interaction With Sound (p. 15). ACM. [hal-01321169]

Chion M. Audio-Vision : sound on screen. Columbia University Press, New York. (1994) Jack, R. E., & Schyns, P. G. (2017). Toward a social psychophysics of face communication. Annual review of psychology, 68, 269-297.

Krimphoff J., McAdams S., Winsberg S. "Caractérisation du timbre des sons complexes. II. Analyses acoustiques et quantification psychophysique." Le Journal de Physique IV 4.C5 (1994) : C5-625.

Lemaitre G., Houix O., Misdariis N., Susini P., « Listener Expertise and Sound Identification Influence the Categorization of Environmental Sounds », Journ. of Experimental Psychology : Applied, 2010, vol. 16, n° 1

McAdams S., Winsberg S., Donnadieu S., De Soete G., Krimphoff J. (1995). Perceptual scaling of synthesized musical timbres : common dimensions, specificities, and latent subject classes. Psychological Research, 58(3), 177-192.

Misdariis, N., Minard, A., Susini, P., Lemaitre, G., McAdams, S., Parizet, E., « Environmental Sound Perception : Metadescription and Modeling Based on Independent Primary Studies », EURASIP Journal on Audio, Speech, and Music Processing, Février 2010

Murray, R. F. (2011). Classification images : A review. Journal of Vision, 11(5), 2-2.

Ponsot E., Susini P., Meunier S. "Loudness Processing of Time-Varying Sounds : Recent advances in psychophysics and challenges for future research." INTER-NOISE Congress Proceed. Vol. 253. No. 2. 2016.

Ponsot, E., Burred, J. J., Belin, P., & Aucouturier, J. J. (2018b). Cracking the social code of speech prosody using reverse correlation. Proceedings of the National Academy of Sciences, 115(15), 3972-3977.

Ponsot, E., Arias, P., & Aucouturier, J. J. (2018a). Uncovering mental representations of smiled speech using reverse correlation. The Journal of the Acoustical Society of America, 143(1), EL19-EL24.

Rampon P.. Caractérisation du code acoustique de l’attribut « chaud » pour des sons vocaux et non-vocuax, par correlation inverse. Rapport stage. Master ATIAM – Sorbonne-Université.

Schaeffer P. Traité des objets musicaux. Paris : Editions du Seuil. (1966)

Wessel D. Timbre Space as a Musical Control Structure. Computer Music Journal, 3(2), 45-52, published by MIT Press. 1979