Master 2012 2013
Stages de la spécialité SAR
Représentation des sons environnementaux, du modèle mathématique à la perception en passant par les neurosciences


Site :IRCCYN (Equipe ADTSI)
Lieu :IRCCYN (UMR 6597), Ecole Centrale de Nantes, 1 rue de la Noë, 44321 Nantes
Encadrant : Mathieu Lagrange (CR CNRS dans l'équipe analyse/synthèse de l'Ircam, actuellement chercheur invité dans l'équipe Adtsi de l'Irccyn)
Dates :01/03/2013 au 31/07/2013
Rémunération :436 euros
Mots-clés : Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Description

L’objectif du travail est de tenter de modéliser par des paramètres acoustiques et/ou psychoacoustiques extraits du signal sonore, la notion de similarité perceptive au sein d’un corpus de sons dits « environnementaux » qui peut se définir comme l’ensemble des événements acoustiques audibles causés par l’action ou le mouvement dans l’environnement quotidien de l’homme.

Si la modélisation des signaux dits stationnaires à court terme est bien maîtrisée à l’heure actuelle, nous en savons encore peu sur la manière dont le système auditif humain est à même d’intégrer l’information sur des intervalles de temps plus long (de la durée d’un événement donné). De nombreuses méthodes permettent de combiner plusieurs observations effectuées à court terme, au prix de la perte de toute information de continuité temporelle.

L’étude des niveaux supérieurs de l’oreille interne a permis au professeur Shamma de proposer un modèle novateur basé sur la modélisation multi échelle des modulations. Plus récemment, le professeur Mallat a proposé une représentation hiérarchique basée sur des cascades d’ondelettes dont les propriétés sont très prometteuses. Ces modèles provenant de disciplines différentes (neurosciences et mathématiques appliquées) trouvent avoir des similitudes encore peu étudiées.

Partant de constat, le travail passera par les différentes étapes suivantes :

  • Constitution d’un corpus de sons environnementaux
  • Etude bibliographique, compréhension et comparaison qualitative des travaux de Prof. Shamma et Prof. Mallat (des rencontres avec ces deux membres de l’ENS feront partie du stage)
  • évaluation des performances de chacune des méthodes :
    • quantitativement, notamment par calcul d’erreur entre les espaces induits par les modèles et la cible (mesure de distances)
    • qualitativement, par visualisation des différents espaces

Type de travail (théorique, numérique, expérimental) : Approche computationnelle d’un sujet traitant de la perception des sons de l’environnement.

Résultats attendus : Comparaison qualitative et quantitative de 2 méthodes de modélisation, évaluation de leurs performances dans le cadre des sons environnementaux

Compétences requises : Traitement du signal, Acoustique, Psychoacoustique. Durée : 5 mois (mars / juillet 2013)

Possibilité de poursuite en thèse : Financement à trouver.

Bibliographie

[1] J. Anden and S. Mallat. Multiscale scattering for audio classi_cation. In ISMIR, pages 657-662, 2011.

[2] J. Anden and S. Mallat. Scattering representation of modulated sounds. In Int. Conf. Digital Audio E_ects, 2012.

[3] Y-lan Boureau, Francis R Bach, Y. LeCun, and J. Ponce. Learning mid-level features for recognition. IEEE, 2010. [4] Taishih Chi, Powen Ru, and Shihab a. Shamma. Multiresolution spectrotemporal analysis of complex sounds. The Journal of the Acoustical Society of America, 118(2):887, 2005.

[5] T Dau, B Kollmeier, and a Kohlrausch. Modeling auditory processing of amplitude modulation. ii. spectral and temporal integration. The Journal of the Acoustical Society of America, 102(5 Pt 1):290619, Nov 1997.

[6] C Joder, S Essid, and G Richard. Temporal integration for audio classification with application to musicalinstrument classfication. IEEETransactions on Audio Speech and Language Processing, 17(1):174186, 2009.

[7] S. Mallat. Group invariant scattering. Communications in Pure and Applied Mathematics, to appear, http://arxiv.org/abs/1101.2286.

[8] N. Mesgarani, M. Slaney, and S. A. Shamma. Discrimination of speechfrom nonspeech based on multiscale spectro-temporal modulations. In IEEE Transactions on Audio, Speech and Language Processing, pages 920930, 2006.

[9] J Reed and CH Lee. Preference music ratings prediction using tokenization and minimum classi_cation error training. Audio, Speech,and Language Processing, , 2011.

[10] K. Wang and S. A. Shamma. Spectral Shape analysis in the Central Auditory System. sap, 3, 1995.