Master 2014 2015
Stages de la spécialité SAR
Apprentissage de descripteurs audio par Deep learning (application pour la classification en genre musical)


Site :Equipe Analyse/Synthèse des sons
Lieu :IRCAM
Encadrant : Geoffroy Peeters
Dates :01/02/2015 au 30/06/2015
Rémunération :480€
Mots-clés : Parcours ATIAM : Acoustique


Description

L’indexation audio, comme utilisée pour l’identification automatique de locuteur en parole ou la reconnaissance de genre ou d’humeur en musique se déroule généralement en deux phases : 1) l’extraction d’informations/ observations à partir du signal audio (phase appelée extraction de descripteurs audio), 2) la modélisation statistique du comportement de ces descripteurs pour chaque catégories étudiées (phase appelée apprentissage machine).

Ces descripteurs audio ont longtemps été conçus manuellement par des experts (comme les MFCCs, Chromas, Spectral Contrast ou autre). Récemment, une branche des réseaux de neurones profonds, les Deep Belief Network (DBN) [Bengio 2009] ont été proposés pour l’apprentissage automatique de ces descripteurs audio [Humphrey, 2012]. Les résultats obtenus à l’aide de ces descripteurs appris pour des tâches de classification sont parmi les meilleurs aujourd’hui dans le domaine de la video et de l’audio [Hamel, 2010] [Schmidt, 2013].

L’objectif de ce stage est d’étudié l’utilisation des DBN pour une tâche de classification en genre. Dans un premier temps, on pré-entraînera le modèle de manière non-supervisée. Ceci peut se faire par empilage de Convolutional Restricted Boltzman Machine (CRBM) [Hinton, 2009] [Lee, 2009] [Dieleman, 2011]. Ceci permet de créer un « modèle du monde » (UBM) de la musique. On étudiera la meilleure représentation à fournir à la couche visible du réseau (spectre, constant-Q, Chroma multi-bandes, beat-synchrone ou non) ainsi que le meilleur choix des hyper-paramètres du réseaux (nombre de couche, nombre de feature map, …). Dans un second temps, ce modèle sera raffiné de manière supervisée en Multi Layer Perceptron ou utilisé comme entrée d’une machine à Vecteur Support (SVM) pour une tâche de classification en genre. Finalement on étudiera dans quelle mesure les poids du réseau peuvent être interprétées en terme de sémantique acoustique liée aux genres.

Bibliographie

Y. Bengio. Learning deep architectures for ai. Machine Learning, 2(1), 2009.

S. Dieleman, P. Brakel, and B. Schrauwen. Audio-based music classification with a pretrained convolu- tional network. In Proc. of ISMIR (International Society for Music Information Retrieval), 2011.

G. E. Hinton and R. R. Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 313:504–507, 2006.

J. Humphrey, Eric, J. P. Bello, and Y. LeCun. Moving beyond feature design : Deep architectures and automatic feature learning in music informatics. In Proc. of ISMIR (International Society for Music Information Retrieval), Porto, Portugal, 2012.

H. Lee, Y. Largman, P. Pham, and A. Y. Ng. Unsupervised feature learning for audio classification using convolutional deep belief networks. NIPS, 2009.

P. Hamel and D. Eck. Learning features from music audio with deep belief networks. In Proc. of ISMIR (International Society for Music Information Retrieval), Utrecht, The Netherlands, 2010.

E. Schmidt and Y. Kim. Learning rhythm and melody features with deep belief networks. In Proc. of ISMIR, Curitiba, Brazil, 2013.