Master 2018 2019
Stages de la spécialité SAR
Multi-task deep learning pour la reconnaissance de modes de jeu en temps réel du violoncelle


Lieu : IRCAM, Equipes Représentations Musicales
Encadrant : Jean-Francois Ducher, Philippe Esling
Dates :du 18/02/2019 au 18/08/2019
Rémunération :Tarif en vigueur IRCAM
Mots-clés : Parcours ATIAM : Informatique musicale

Description

Résumé

La reconnaissance des modes de jeu instrumentaux en temps réel est un domaine de recherche relativement récent dans la communauté du Music Information Retrieval, avec des applications pour les systèmes de transcription automatique et les dispositifs musicaux interactifs (systèmes d’improvisation notamment).

En l’absence de bases de données correctement étiquetées pouvant servir à l’apprentissage des systèmes de reconnaissance, on met en oeuvre des stratégies d’apprentissage semi-supervisé s’appuyant d’une part, sur des données synthétiques produites avec des banques de sons spécialisées, d’autre part, sur des captations audio de solistes non étiquetées.

Dans un premier temps, les travaux ont porté sur les quelques modes les plus représentés dans les banques de sons. Il s’agit maintenant de classer les modes de jeu simultanément selon plusieurs axes grâce à des stratégies de multi-task learning.

Etat de l’art

Sur des sujets connexes à l’identification des modes de jeu instrumentaux, l’effort de la communauté du M.I.R. s’est porté sur l’identification d’instruments dans des extraits audio de notes isolées ou de solos instrumentaux, puis plus récemment, sur l’identification des instruments les plus saillants dans des séquences polyphoniques. Après avoir vu dans les articles une prolifération de features très exotiques, la tendance consiste depuis quelques années à revenir à des features simples calculés à pas temporel régulier et à laisser la machine apprendre elle-même comment identifier dans cette trame bi-dimensionnelle des patterns permettant la classification. Suite au succès des réseaux de neurones à convolution dans les tâches de classification d’images, leur usage s’est beaucoup développé dans les tâches d’identification d’instruments en s’appuyant sur diverses variantes de spectrogrammes[1].

Concernant l’identification des modes de jeu, Lostanen et al. [2] prend une approche transversale à tous les instruments en se focalisant sur la trace du geste instrumental dans l’audio mais il ne considère que des extraits audio de notes isolées et ne s’appuie que sur une banque de sons. On sait depuis Livshin [3] que les résultats d’évaluation utilisant une seule base ne sont pas nécessairement une indication des capacités de généralisation du processus de classification et donc de son intérêt pour des tâches de classification réalistes dans différentes conditions d’enregistrement. Lostanen mentionne dans sa bibliographie ([4] à [8]) des articles relatifs à l’identification des modes de jeu de différents instruments, mais aucun ne concerne directement les modes de jeu contemporains des instruments à cordes.

Objectifs

Les travaux en cours à l’Ircam visent à mettre en oeuvre des stratégies d’apprentissage semi-supervisé (par exemple domain-adversarial training [9]) s’appuyant d’une part, sur des données synthétiques produites avec les quelques banques de sons spécialisées disponibles, d’autre part, sur des captations audio de solistes non étiquetées.

Ces travaux ont porté sur une douzaine de modes les plus représentés dans les banques de sons, faisant l’impasse sur les combinaisons possibles de ceux-ci. Exemple :
- excitateur utilisé en main droite : bois de l’archet (con legno tratto)
- nature de l’intéraction : staccato,
- lieu de l’interaction : sul ponticello (vers le chevalet)
- en main gauche : sans vibrato.

Il s’agit donc maintenant de classer les modes de jeu simultanément selon plusieurs axes grâce à des stratégies de multi-task learning [10]

L’objectif du stage serait :

- de réaliser un nouveau jeux de données synthétiques avec les banques de sons disponibles pour la partie supervisée de l’apprentissage
- d’évaluer la pertinence de différents algorithmes de multi-task learning pour une tâche d’apprentissage semi-supervisé, puis de les implémenter et d’en comparer les résultats.

Bibliographie

• [1] Yoonchang Han, Jaehun Kim, Kyogu Lee, Yoonchang Han, Jaehun Kim, and Kyogu Lee. 2017. Deep convolutional neural networks for predominant instrument recognition in polyphonic music. Proc. Trans. Audio Speech Lang. Process. 25, 1(2017), 208–221 • [2] Lostanlen, Andén, and Lagrange. Extended playing techniques : the next milestone in musical instrument recognition. Proc. DLfM 2018. • [3] Arie Livshin. Automatic Musical Instrument Recognition and Related Topics. Université Pierre et Marie Curie - Paris VI, 2007. English. • [4] Mauricio A. Loureiro, Hugo Bastos de Paula, and Hani C. Yehia. 2004. Timbre Classification Of A Single Musical Instrument. In Proc. ISMIR. • [5] Adam R. Tindale, Ajay Kapur, George Tzanetakis, and Ichiro Fujinaga. 2004. Retrieval of percussion gestures using timbre classification techniques. In Proc. ISMIR. • [6] Raphael Foulon, Pierre Roy, and François Pachet. 2013. Automatic classification of guitar playing modes. In Proc. CMMR. Springer. • [7] Yuan-Ping Chen, Li Su, and Yi-Hsuan Yang. 2015. Electric Guitar Playing Technique Detection in Real- World Recording Based on F0 Sequence Pattern Recognition. In Proc. ISMIR. • [8] Li Su, Li-Fan Yu, and Yi-Hsuan Yang. 2014. Sparse Cepstral, Phase Codes for Guitar Playing Technique Classification. In Proc. ISMIR. • [9] Y. Ganin, E. Ustinova, H. Ajakan, P. Germain, H. Larochelle, F. Laviolette, M. Marchand, V. Lempitsky. "Domain-Adversarial Training of Neural Networks", Journal of Machine Learning Research 2016, vol. 17, p. 1-35. • [10] Caruana, Rich. 1997. "Multitask Learning". Machine Learning, vol 28.