Master 2014 2015
Stages de la spécialité SAR
Approches “Deep Learning” appliquées aux représentations mentales de la musique


Site :Équipe SAMOVA
Lieu :IRIT, Université Toulouse III - Paul Sabatier, 118 Route de Narbonne, 31062 Toulouse
Encadrant : Thomas Pellegrini, http://www.irit.fr/~Thomas.Pellegrini/ Contact : thomas.pellegrini@irit.fr
Dates :du 01/02/2014 ou 01/03/2014 au 31/07/2014
Rémunération :rémunération légale ( 500 euros)
Mots-clés : Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Description

Le domaine du décodage de l’activité cérébrale (“neural decoding”) est en plein essor. Des études récentes ont montré qu’il est possible de reconstituer un stimulus de parole ou un stimulus visuel (une vidéo) à partir d’enregistrements de l’activité cérébrale obtenus par résonance magnétique nucléaire ou par électro-encéphalographie ou similaire [1,2]. En ce qui concerne la musique, peu d’études existent. Il s’agit d’un champ de recherche émergent appelé Music Imagery Information Retrieval [3]. Dans [4], Schaefer et al. ont réussi à identifier un stimulus musical parmi un total de 7 stimuli avec 70% de réussite à partir d’un électro-encéphalogramme (EEG). Dans [5], Stober et al. ont identifié des rythmes africains et occidentaux imaginés par des sujets, à l’aide de techniques de deep learning appliquées aux EEGs. Dans ce stage, nous proposons plusieurs pistes de recherche, qu’il faudra choisir au cours du stage, en fonction des préférences de l’étudiant (profil plus traitement du signal ou plus apprentissage) : 1) Le système d’enregistrement des EEGs comporte plus d’une dizaine d’électrodes et chaque électrode capte un signal forme d’onde (waveform). Se pose la question de quelle représentation de ces formes d’onde choisir (spectrogramme, paramètres, etc...) 2) Comme les approches de deep learning consistent à ce qu’un réseau de neurones génère ses propres représentations des données de manière non-linéaire, il devient difficile de savoir ce qu’un réseau profond apprend vraiment des données. Une piste de travail serait de trouver une représentation pertinente de ce qui est appris dans le cas des EEGs, à la manière de ce qui est fait en vision par ordinateur en visualisant les poids associés à chaque neurone caché sous forme d’image élémentaire. 3) Une approche récente très prometteuse [6] consiste à mettre en compétition deux réseaux, un modèle “faussaire” qui génère des données aussi proches que possible des données réelles pour tromper un modèle discriminant qui classifie les données fournies par l’usurpateur comme étant réelles ou provenant d’un modèle. Un cycle itératif permet d’obtenir in fine à la fois un modèle générateur et un classifieur de très bonne qualité. Cette approche pourra être appliquée à nos tâches de MIIR.

L’une ou l’autre de ces pistes sera mise en pratique sur des EEGs obtenus à partir de 12 stimuli musicaux (musique de Star Wars, de Harry Potter, chansons avec parole ou sans, etc). Des tâches de classification seront envisagées : détecter la présence de chant dans les stimulis (le chant active des aires neuronales du langage et donc il est attendu que des différences soient observées en termes d’activité neuronale selon la présence ou non de paroles dans la musique), détecter les émotions ressenties associées à une musique, ou encore tenter d’identifier la mesure d’une musique (mesure à quatre temps, trois temps, etc).

Les données EEGs seront gracieusement fournies par Sebastian Stober, de l’institut Brain and Mind de l’Université Western Ontario.

Si le stage avance bien, nous visons la soumission d’un article à une conférence du domaine (ISMIR ou Audio Mostly par exemple).

Bibliographie

[1] B. N. Pasley, S. V. David, N. Mesgarani, A. Flinker, S. A. Shamma, N. E. Crone, R. T. Knight, and E. F. Chang. Reconstructing speech from human auditory cortex. PLoS Biol, 10(1):e1001251, 01 2012

[2] S. Nishimoto, A.T. Vu, T. Naselaris, Y. Benjamini, B. Yu, and J.L. Gallant, Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies, in Current Biology, 21(19), 2011

[3] S. Stober and J. Thompson, Music imagery information retrieval : Bringing the song on your mind back to your ears, in Proc. of the 13th International Conference on Music Information Retrieval (ISMIR), 2012, Porto

[4] R. S. Schaefer, Y. Blokland, J. Farquhar, and P. Desain. Single trial classification of perceived and imagined music from EEG. In Berlin BCI Workshop, 2009

[5] S. Stober, D.J. Cameron, J.A. Grahn, Does the beat go on ? : identifying rhythms from brain waves recorded after their auditory presentation, in Proc. Audio Mostly, 2014, Aalborg

[6] I.J. Goodfellow et al, Generative Adversarial Networks, (submitted) URL : http://arxiv.org/abs/1406.2661