Master 2012 2013
Stages de la spécialité SAR
Analyse et description de scènes sonores à partir de catégories perceptives


Site :IRCAM - Institut de Recherche et Coordination Acoustique/Musique et IRIT - Institut de Recherche en Informatique de Toulouse
Lieu :IRCAM - equipe Perception et Design Sonores - 1, place Igor Stravinsky - 75004 Paris IRIT - equipe SAMOVA - Université Paul Sabatier, 118 Route de Narbonne, Toulouse
Encadrant : Olivier Houix (IRCAM / PdS) Patrice Guyot (IRIT / SAMOVA)
Dates :du 01/03/2013 au 31/07/2013
Rémunération :436,05 Euros / mois
Mots-clés : Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Description

La reconnaissance de scènes sonores est réalisée de manière implicite par les êtres humains au quotidien [1]. Son traitement par des méthodes automatiques est en revanche une problématique majeure du traitement du signal audio [2], notamment dans le cas d’enregistrements effectués sur le terrain.

Une importante partie des études d’analyse automatique de signaux audio s’effectue en effet sur des enregistrements produits en studio (musique, radio, télévision) [3-4]. Le problème de l’adaptation des méthodes à des enregistrements effectués dans des conditions réelles est aujourd’hui largement ouvert [3]. Le bruit de fond (par exemple urbain), le recouvrement des sources sonores, et la variation des conditions acoustiques font considérablement chuter les scores de reconnaissance. L’analyse automatique d’enregistrements effectués dans des conditions non maîtrisées présenterait pourtant de nombreuses applications, par exemple la reconnaissance d’activités à domicile pour l’aide aux personnes âgées ou l’indexation d’enregistrement ethnomusicologiques.

Les études sur la perception sonore nous aident à comprendre comment se structure la représentation mentale du monde sonore et, en particulier, pourquoi des scènes sonores complexes et bruitées peuvent être identifiées facilement par les humains. Les études de catégorisation révèlent ainsi des ensembles de sons partageant des propriétés causales similaires qui peuvent être liées à la nature de la source ou à une action [4]. Ces catégories peuvent servir de base à l’identification de scènes sonores plus complexes [5-6], telles que des activités du quotidien (se laver les mains, faire la vaisselle, utiliser un four, ouvrir une porte, répondre au téléphone) ou de lieux possédant une signature sonore [7].

L’objectif de ce stage est la modélisation de scènes sonores à partir de catégories pertinentes perceptivement. Les modèles pourront s’appuyer sur la probabilité de l’occurrence d’une catégorie sonore dans une scène donnée, mais également en fonction de l’organisation temporelle de ces catégories dans la scène. Un formalisme de reconnaissance automatique sera adapté à cette problématique Ce formalisme pourra être par exemple les Modèles de Markov Cachés (Hidden Markov Model).

Le travail de stage pourra s’appuyer sur des enregistrements sonores provenant de différents projets de recherche : • IMMED (ANR 2009-2012. Indexation de données Multimédia Embarquées pour le diagnostic et le suivi des traitements des Démences, http://immed.labri.fr/) • RIDDLE (ANR 2012-2015). Robots for perceptual Interactions Dedicated to Daily Life Environment. • DIADEMS (ANR 2012-2015). Description, Indexation, Accès aux Documents Ethnomusicologiques et Sonores.

Bibliographie

[1] Bregman, A. S. "Auditory scene analysis," Cambridge, Mass., MIT Press (1990)..

[2] Wang, D. L. and Brown, G. J. (Eds.) Computational auditory scene analysis : Principles, algorithms and applications. IEEE Press/Wiley-Interscience (2006).

[3] Pinquier, J Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle. Thèse de doctorat, (2004).

[4] Pinquier, J. André-Obrecht, R. Jingle detection and identification in audio documents, International Conference on Acoustics, Speech and Signal Processing (ICASSP 2004).

[5] A. Mesaros, T. Heittola, A. Eronen, and T. Virtanen “Acoustic event detection in real-life recordings,” in Proceedings of the 18th European Signal Processing Conference, EUSIPCO, (2010).

[6] Houix, O., Lemaitre, G., Misdariis, N., Susini, P., Visell, Y., Franinovic, K., Rocchesso, D., « Everyday sound classification : Sound perception, interaction and synthesis Part I - State of the art : deliberable 4.1 of the CLOSED project », (2007).

[7] Devergie, A. Relations entre Perception Globale et Composition de Séquences Sonores. Rapport de stage Atiam, (2006).

[8] Cauchi, B. Non-Negative Matrix Factorisation Applied to Auditory Scenes Classification. Rapport de stage Atiam, (2011).

[9] Tardieu, J. De l’ambiance à l’information sonore dans un espace public Méthodologie et réalisation appliquées aux gares. Thèse de doctorat, (2006).