Master 2017 2018
Stages de la spécialité SAR
Caractérisation du code acoustique de qualités vocales et sonores par "corrélation inverse"


Site : Caractérisation du code acoustique de qualités vocales et sonores par "corrélation inverse"
Lieu : IRCAM – UMR STMS Ircam-Cnrs-Upmc Equipes PDS / AnaSyn 1, place Igor Stravinsky – 75004 Paris
Encadrant : Nicolas Misdariis / Nicolas Obin / Emmanuel Ponsot
Dates :du 12/02/2018 au 13/07/2018
Rémunération :env. 500 E. /mois (variable suivant nbre de jours effectifs travaillés)
Mots-clés : Parcours ATIAM : Acoustique, Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Cliquer ici pour vous authentifier


Description

Contexte scientifique

La description verbale des sons de toute nature – musicale, vocale, environnementale – peut s’effectuer à plusieurs niveaux. Par analogie avec les différents modes d’écoute formalisés initialement par Schaeffer [Schaeffer, 1966] puis repris notamment par Chion [Chion, 1994] ou, plus récemment, Lemaitre [Lemaitre et al., 2010], on peut distinguer 3 modes de description ou de « discours » sur le son, correspondant chacun à une terminologie spécifique [Carron, 2016] :

  • le discours réduit – dual de la démarche d’entendre –, associé à des descripteurs élémentaires de bas niveau (hauteur, intensité), à des morphologies temporelles ou à des propriétés spatiales et timbrales ;
  • le discours causal – dual de la démarche d’écouter – associé à des descripteurs relatifs aux types de sources, aux matériaux qui les constituent ou aux actions qui les mettent en mouvement pour produire le son ;
  • le discours sémantique (ou contextuel) – dual de la démarche de comprendre –, associé à des descripteurs de haut niveau relatifs à la signification (sens) des sons, ou bien aux émotions, jugements et associations qu’ils évoquent.

Inspirées par les premières recherches sur le timbre musical [Wessel, 1979, McAdams, 1995], de nombreuses études en perception sonore visent à établir un lien de correspondance entre descripteurs verbaux et propriétés physiques du signal sonore associé ; plus précisément, ces études visent à mettre à jour des dimensions perceptives qui sous-tendent la représentation mentale d’un ensemble de sons, puis à qualifier ces dimensions à la fois du point de vue verbal (leur donner un nom) mais aussi du point de vue physique (les relier à des paramètres calculables sur le signal). C’est ainsi, par exemple, que le percept de brillance émerge fortement dans la caractérisation des sons musicaux [Krimphoff et al., 1994] – s’étendant aux sons environnementaux [Misdariis et al., 2010] – et est généralement modélisé par le calcul d’un centre de gravité spectral. Pour de nombreux autres descripteurs usuels du son, notamment les descripteurs de haut niveau (p. ex., rond, chaud, agressif, etc.), ce lien perceptif – physique n’a pas encore été formalisé et modélisé aussi finement. Par ailleurs, les techniques de corrélation inverse (reverse correlation), utilisées à la fois en vision et en audition, permettent de révéler des représentations mentales d’un attribut perceptif inconnu par une approche data-driven. L’idée générale de la corrélation inverse est de présenter à des participants un stimulus modifié aléatoirement au cours de nombreux essais. Cette perturbation s’effectue soit sur le signal directement (Ahumada et Lovel, 1971), soit en manipulant ses dimensions perceptives, comme le niveau (Ponsot et al., 2013), la hauteur (Ponsot et al., en révision A) ou le timbre (Sabin et al., 2011 ; Ponsot et al., en révision B) pour des stimuli auditifs, à partir de techniques de pointe en traitement du signal. La dimension de ces perturbations est choisie en adéquation avec la tâche considérée afin que ces stimuli conduisent à des jugements perceptifs différents. La corrélation inverse permet de déduire le traitement perceptif effectué à partir du profil des perturbations et des réponses obtenues au cours des différents essais. D’abord utilisée par les psychophysiciens pour caractériser les traitements sensoriels bas-niveau (Ahumada et Lovel, 1971), cette méthode s’avère également être un outil puissant pour caractériser des processus perceptuels ou cognitifs de haut niveau (Jack et al., 2017 ; Ponsot et al., en révision A), et permet en particulier de révéler le code sousjacent à des « représentations mentales » de l’attribut considéré (par ex., le timbre d’une voix souriante ou l’intonation d’une voix digne de confiance).

Objectifs

L’objectif principal du stage est d’exploiter le principe de la reverse correlation pour caractériser et modéliser des qualités (ou descriptions) vocales et sonores, notamment de haut niveau. Le travail s’inspirera fortement, mais pas uniquement, des travaux de Sabin, Rafii et Pardo [Sabin et al., 2011] qui étudient les fonctions de pondération d’un banc de filtres gammatones caractérisant de différentes caractérisations sémantiques (warm, dark, tiny, bright) pour différents types de son (percussions et voix). L’idée de départ est de transposer cette méthodologie à de nouveaux corpus de sons et à différents descripteurs en lien avec les problématiques spécifiques des deux équipes encadrantes : la synthèse vocale et le design sonore.

Déroulement envisagé

Le stage pourra s’articuler en 5 grandes parties :

  • i) travail bibliographique sur les techniques de reverse correlation appliquées à l’audio et étude approfondie du papier de Sabin et al. ;
  • ii) choix des typologies sonores et terminologies associés et définition des hypothèses de recherche, notamment relatives aux conditions initiales et aux variables contrôlées de la reverse correlation ;
  • iii) développement d’une expérience d’écoute mettant en jeu cette technique et ces corpus d’étude ;
  • iv) passation de l’expérience et analyse des résultats ;
  • v) rédaction du rapport.

Type de travail et résultats attendus

Travail bibliographique, expérimental et créatif. Résultats attendus, d’un point de vue théorique, en termes d’acquisition de connaissances en psychologie expérimentale, et d’un point de vue pratique, en termes de pattern de caractérisation des descripteurs sélectionnés.

Compétences requises

Notions de base en traitement du signal, psychoacoustique, psychophysique, perception/cognition auditive, programmation (Matlab). Autonomie et goût pour la recherche.

Bibliographie

Ahumada Jr, A., & Lovell, J. (1971). Stimulus features in signal detection. The Journal of the Acoustical Society of America, 49(6B), 1751-1756.

Carron, M., Dubois, F., Misdariis, N., Talotte, C., Susini, P. (2014, October). Designing sound identity : providing new communication tools for building brands corporate sound. In Proceedings of the 9th Audio Mostly : A Conference on Interaction With Sound (p. 15). ACM. [hal- 01321169]

Chion M. Audio-Vision : sound on screen. Columbia University Press, New York. (1994)

Jack, R. E., & Schyns, P. G. (2017). Toward a social psychophysics of face communication. Annual review of psychology, 68, 269-297.

Krimphoff J., McAdams S., Winsberg S. "Caractérisation du timbre des sons complexes. II. Analyses acoustiques et quantification psychophysique." Le Journal de Physique IV 4.C5 (1994) : C5-625.

Lemaitre G., Houix O., Misdariis N., Susini P., « Listener Expertise and Sound Identification Influence the Categorization of Environmental Sounds », Journ. of Experimental Psychology : Applied, 2010, vol. 16, n° 1

McAdams S., Winsberg S., Donnadieu S., De Soete G., Krimphoff J. (1995). Perceptual scaling of synthesized musical timbres : common dimensions, specificities, and latent subject classes. Psychological Research, 58(3), 177-192.

Misdariis, N., Minard, A., Susini, P., Lemaitre, G., McAdams, S., Parizet, E., « Environmental Sound Perception : Metadescription and Modeling Based on Independent Primary Studies », EURASIP Journal on Audio, Speech, and Music Processing, Février 2010

Murray, R. F. (2011). Classification images : A review. Journal of Vision, 11(5), 2-2.

Ponsot, E., Susini, P., Saint Pierre, G., & Meunier, S. (2013). Temporal loudness weights for sounds with increasing and decreasing intensity profiles. The Journal of the Acoustical Society of America, 134(4), EL321-EL326.

Ponsot E., Burred JJ., Belin P., Aucouturier JJ., (en révision A) Cracking the social code of speech prosody using reverse correlation. (disponible sur demande)

Ponsot E., Arias P., Aucouturier JJ., (en révision B) Uncovering mental representations of smiled speech using reverse correlation. (disponible sur demande)

Schaeffer P. Traité des objets musicaux. Paris : Editions du Seuil. (1966)

Wessel D. Timbre Space as a Musical Control Structure. Computer Music Journal, 3(2), 45-52, published by MIT Press. 1979