Master 2015 2016
Stages de la spécialité SAR
Apprentissage de structure musicale par Convolutional Neural Network (CNN)


Site : www.ircam.fr
Lieu : IRCAM - Equipe Analyse/Synthèse des sons
Encadrant : Geoffroy Peeters
Dates :01/03/2015 au 31/07/2015
Rémunération :554,4 Euro/mois + Ticket Repas
Mots-clés : Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Cliquer ici pour vous authentifier


Description

Ce stage se situe dans le contexte de l’estimation de la structure temporelle d’un morceau de musique (couplet, refrain, pont) à partir de l’analyse du signal audio. Pour cela, des descripteurs audio sont d’abord extraits du signal audio (généralement des MFCCs ou des Chromas). Trois paradigmes différents sont ensuite utilisés pour représenter la séquence temporelle de descripteurs : 1) la détection de rupture dans la séquence temporelle (utilisation de noyaux de convolution de Foote-2000, Kaiser-Peeters-2013, Peeters & Bisot 2014), 2) la détection de bloques homogènes de descripteurs (méthode de clustering ou chaine de Markov cachées Peeters-LaBurthe-Rodet-2002), 3) la détection de répétitions de sous-séquences temporelles (méthode de DTW Muller-2013 ou Oracle des Facteurs). L’utilisation d’apprentissage machine supervisé (analyse linéaire discriminante McFee-2014) pour l’estimation de structure musicale a récemment été rendue possible par l’apparition de grandes bases de données annotées (base SALAMI). Dans ce stage, nous étudierons plus particulièrement la proposition récente d’utilisation de Convolutional Neural Network [Ullrich-2014, Grill-2015] pour l’estimation des instants de ruptures sur une matrice de distance en lag. Nous étudierons également dans quelle mesure une représentation sous forme de super-vecteurs ou d’iVector [Dehak-2011] des descripteurs audio permet d’améliorer la représetation en matrice de distance de lag.

Bibliographie

N. Dehak, P. Kenny, R. Dehak, P. Dumouchel, and P. Ouellet. Front-end factor analysis for speaker verification. Audio, Speech, and Language Processing, IEEE Transactions on, 19(4):788–798, 2011.

J. Foote. Automatic audio segmentation using a measure of audio novelty. In Proc. of IEEE ICME (International Conference on Multimedia and Expo), pages 452–455, New York City, NY, USA, 2000.

T. Grill and J. Schluter. Music boundary detection using neural networks on combined features and two- level annotations. In Proc. of ISMIR (International Society for Music Information Retrieval), Malaga, Spain, 2015.

F. Kaiser and G. Peeters. Multiple hypotheses at multiple scales for audio novelty computation within music. In Proc. of IEEE ICASSP (International Conference on Acoustics, Speech, and Signal Processing), Vancouver, British Columbia, Canada, May 2013.

B. McFee and D. P. W. Ellis. Learning to segment songs with ordinal linear discriminant analysis. In Proc. of IEEE ICASSP (International Conference on Acoustics, Speech, and Signal Processing), Florence, Italy.

M. Muller, N. Jiang, and P. Grosche. A robust fitness measure for capturing repetitions in music recordings with applications to audio thumbnailing. Audio, Speech and Language Processing, IEEE Transactions on, 21(3):531–543, 2013.

G. Peeters, A. Laburthe, and X. Rodet. Toward automatic music audio summary generation from signal analysis. In Proc. of ISMIR (International Society for Music Information Retrieval), pages 94–100, Paris, France, 2002.

G. Peeters and V. Bisot. Improving music structure segmentation using lag-priors. In Proc. of ISMIR (International Society for Music Information Retrieval), Taipei, Taiwan, 2014.

K. Ullrich, S. Jan, and T. Grill. Boundary detection in music structure analysis using convolutional neural networks. In Proc. of ISMIR (International Society for Music Information Retrieval), Taipei, Taiwan, 2014.