Master 2012 2013
Stages de la spécialité SAR
Caractérisation sémantique des scènes sonores environnementales - Etude paramétrique et perceptive d’un paradigme de synthèse séquentielle par corpus


Site :IRCAM - Institut de Recherche et Coordination Acoustique/Musique
Lieu :IRCAM - equipe Perception et Design Sonores 1, place Igor Stravinsky - 75004 Paris
Encadrant : Nicolas Misdariis Mathieu Lagrange
Dates :du 01/03/2013 au 31/07/2013
Rémunération :436,05 Euros / mois
Mots-clés : Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Description

Cadre. Le projet HOULE, dédié à l’apprentissage de structures hiérarchiques pour l’analyse computationnelle de scènes auditives (CASA), se focalise désormais principalement sur les scènes sonores constituées de sons environnementaux (donc autres que musique et voix). Dans cette optique, l’hypothèse est faite d’un modèle d’écoute fondé sur un processus de séparation / description à deux niveaux :
-  holistique qui, dans une première étape, permet d’effectuer une distinction de type foreground / background et de regrouper un ensemble d’éléments saillants de la scène (foreground)
-  analytique qui, dans une seconde étape, permet de se focaliser sur ces éléments saillants et d’engager des processus de type reconnaissance / description. Par ailleurs, des travaux en perception et cognition auditive sur la classification des sons du quotidien – menés notamment dans le cadre du projet européen CLOSED – ont montré que les auditeurs utilisaient différents types de similarité pour catégoriser les sons [Houix07a,b] :
- acoustique, à partir d’attributs perceptifs directement liés aux propriétés acoustiques,
- évènementiel, sur la base de la cause physique des sons
- sémantique, sur la base d’une abstraction de propriétés associées à l’appartenance à une catégorie d’objets.

Transposé à l’échelle de la scène sonore, nous nous intéressons à cette structure perceptive et, plus particulièrement, au niveau sémantique de description de la scène et des éléments saillants qui la constituent. A ce niveau, les relations entre catégories d’événements sont complexes et peuvent, entre autres, être représentées sous forme de réseaux sémantiques tels que Wordnet appliqué au domaine du sonore (cf., par exemple, le projet AudioClas [Cano04]). Ces approches de type ontologique incluent des relations transversales entre catégories comme synonymie, antonymie, hyponymie (« sorte de … ») ou méronymie (« partie de … »). Plus précisément, le principe du réseau sémantique Wordnet repose sur la représentation d’un concept comme, d’une part, un ensemble de synonymes et d’antonymes (relations lexicales), et d’autre part, un ensemble d’hyponymes/hyperonymes et de méronymes/holonymes (relations sémantiques). Un son donné pourra donc avoir plusieurs types de description associés, et, en fonction de ceux-ci, apparaîtra dans les organisations correspondantes au milieu de voisins directs différents d’une organisation à l’autre (cf. illustration de la représentation sous Treebolic). Ce modèle d’organisation des connaissances semble pertinent pour tenter de comprendre quels processus haut-niveau permettent de constituer ou reconnaître une scène sonore représentative d’une typologie ou d’une thématique donnée. Du point de vue technique, des outils de gestion et de synthèse de type séquentiel ont été développés en s’adossant à la base de sons en accès libre Freesound. Dans un avenir proche, un environnement unifié permettra de réaliser les deux étapes du processus avec la même interface :
- sélectionner des sons dans la base Freesound et en étiqueter leur contenu – le cas échéant, après segmentation – en fonction de catégories prédéfinies (event / background, polyphony / speech / music, …) ou de mots-clés spécifiques ;
- synthétiser des scènes sonores à partir d’éléments référencés dans ce sous-ensemble de la base Freesound et d’un réglage de paramètres de structure de la séquence : rapport Signal/Bruit (SNR), fréquence d’occurrence et position des événement dans la scène (spacing, position), etc.. Ce développement, utilisant les dernières avancées technologiques en matière de Web Audio, permettra une utilisation en ligne de l’outil, via un navigateur Web, et pourra donc donner accès à des méthodes de collaboration et d’expérimentation à large échelle (type crowdsourcing).

Objectifs. Dans le but de développer des connaissances dans le domaine de la perception et cognition des scènes sonores environnementales et de constituer un corpus de référence – dit "vérité-terrain" (ground-truth) – pour la suite du projet HOULE, l’étude vise à observer l’utilisation de l’environnement sceneSynth et d’examiner les résultats qu’il produit dans le cadre de pratiques-utilisateur. Cette analyse permettra également, à terme, de déduire des propositions sur la constitution générique de scènes sonores environnementales et pourra aboutir :
- d’une part, à des informations fondées pour l’analyse et la reconnaissance automatique des scènes sonores,
- d’autre part, à des modèles par défaut (preset) pour la synthèse de scènes sonores. De plus, dans le formalisme de synthèse étudié ici, une scène se caractérise par un ensemble d’éléments sonores plus ou moins saillants avec une organisation temporelle donnée. Alors que les approches de type ontologique se contentent d’inférer le type de scène en fonction des attributs sémantiques de chacun des éléments, nous souhaitons étudier ici comment la connaissance de l’organisation des éléments dans la scène peut apporter une information pertinente pour la caractérisation du type de scène.

Description / Procédure. Au moyen d’approches expérimentales, la démarche pourra dérouler la procédure suivante :
-  à partir d’un état de l’art du domaine, constituer une typologie permettant de définir des classes-type de scènes environnementales (voir, p. ex., [Niessen10]). Cette étape devra également s’attacher à définir le périmètre de la typologie : de très large (p. ex., "forêt", "mer", "ville") à plus restreint (p. ex., les différents types d’environnements urbains formalisés dans les travaux de Maffiolo [Maffiolo99]). Ce sera également l’occasion de s’intéresser à la communauté scientifique qui travaille de manière générale autour de la question du paysage sonore (soundscape) et, notamment, à des projets comme le collectif MILSON [http://milson.fr/wordpress/] ou la COST Action TD0804 [http://soundscape-cost.org].
-  pour chacune des classes de scènes, définir des types d’éléments la constituant (background / foreground) et collecter, au moyen de l’outil sceneSynth, des échantillons sonores correspondant. A noter que la définition des éléments constituant une scène-type peut être envisagée soit de manière experte – arbitraire –, soit de manière expérimentale – statistique – en effectuant une analyse sémantique sur des données produites pas un panel de participants (p. ex., via un questionnaire on-line – cf. expérience de storytelling menée par S. Barrass [Barrass96])
-  à partir de ce corpus de données et de la fonctionnalité de synthèse de l’outil sceneSynth, élaborer une expérience proposant à un utilisateur de construire, pour chaque scène-type, une représentation de la scène choisie, en considérant toutes les variations possibles qu’offrent le paradigme de synthèse (choix des échantillons, valeurs des paramètres, etc.). Grâce aux propriétés de sceneSynth cette étape pourra être réalisée "on-line" dans une approche de type crowdsourcing. Des indicateurs d’activité également collectées lors de l’expérience (p. ex., durée de la tâche, nombre de clics, etc.) permettront d’évaluer la qualité de l’attention mise en œuvre pour réaliser la tâche et donc de contrôler, à minima, les conditions expérimentales. De manière plus générale, toutes les données de l’expérience pourront être stockées ; les principales étant le résultat produit ainsi que le degré de satisfaction de l’utilisateur à l’issue de la tâche.
-  Une analyse statistique des paramètres de synthèse (SNR, spacing, position, etc. – cf. ci-dessus) ainsi que du type d’échantillons choisis pour la construction d’une scène-type permettra, le cas échéant, de faire apparaître des consensus et de déduire des règles génériques dans la construction des scènes. Dans cette optique, la nature des échantillons pourra être modéliser sur la base de descripteurs à définir (acoustique / causale / sémantique ?).
-  sur la base de la typologie de départ, l’ensemble des scènes ainsi produites pourra ensuite être ré-évalué expérimentalement dans le but de valider la pertinence du résultat global et d’obtenir un corpus de scènes sonores informées du point de vue de la perception humaine. Ces classes, chacune constituée de plusieurs représentants, pourront donc servir de base réelle aux procédures d’apprentissage hiérarchique développée en parallèle dans le cadre du projet HOULE.

Bibliographie

[Houix07a] Houix, O., Lemaitre, G., Misdariis, N., Susini, P., Visell, Y., Franinovic, K., Rocchesso, D., « Everyday sound classification : Sound perception, interaction and synthesis Part I - State of the art : deliberable 4.1 of the CLOSED project », 2007, http://closed.ircam.fr/uploads/medi...

[Houix07b] Houix, O., Lemaitre, G., Misdariis, N., Susini, P., « Everyday sound classification. Part 2 : Experimental classification of everyday sounds : deliberable 4.1 of the CLOSED project », 2007, http://closed.ircam.fr/uploads/medi...

[Cano04] Cano P., Koppenberger M. Herrera P., Celma O., « Sound Effect Taxonomy Management in Production Environments », proceedings of 25th International AES Conference London, UK, 2004

[Maffiolo99] Maffiolo, V., « De la caractérisation sémantique et acoustique de la qualité sonore de l’environnement urbain ». Thèse d’Acoustique, Le Mans, Université du Maine, 1999.

[Devergie06a] Devergie, A., « Relations entre Perception Globale et Composition de Séquences Sonores », Université Paris 6, 2006. [Master 2 parcours ATIAM]

[Barrass96] Barrass, S., « EarBenders : using stories about listening to design auditory interfaces ». Proc. of Asia Pacific Conference on Computer Human Interaction (APCHI), 1996.

[Niessen10] Niessen, M., Cance, C., Dubois, D., « Categories for soundscape : toward a hybrid classification », Proc. of Internoise Conference 2010.