Master 2017 2018
Stages de la spécialité SAR
Apprentissage joint évènements de batterie, battement, 1er temps par CNN/Bi-GRU


Site : IRCAM
Lieu : Equipe Analyse/Synthèse - MIR
Encadrant : Geoffroy Peeters
Dates :du 01/02/2018 au 30/06/2018
Rémunération :554,4 Euro/mois + Ticket Repas + 1/2 Navigo
Mots-clés : Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Cliquer ici pour vous authentifier


Description

Ce stage se situe dans le contexte de la détection d’évènements de batterie (Automatic Drum Transcription, ADT), de l’estimation du tempo et du premier temps.

Alors que de nombreux travaux ont étudié de manière indépendante la détection d’évènements de batterie (par NMF [Dittmar-2014], NMFD [Roebel-2015], partially fixed NMF [Wu-2015] ou RNN [Vogl-2016]) et l’estimation du tempo et du premier temps (par Dynamic Bayesian Network [Peeters-2011] ou RNN-LSTM [Böck-2011]), l’estimation jointe de ces paramètres n’a fait l’objet que de peu de travaux. Ces travaux montrent néanmoins l’intérêt d’estimer ces paramètres suivant un formalisme de modèle acoustique / modèle de language inspiré de la transcription de parole : par SVM/HMM [Gillet-2003] [Paulus-2009] ou par CNN/RNN-Bi-Gru [Vögl-2017].

Ce stage poursuit deux objectifs principaux :

  • poursuivre les recherches présentées dans [Vogl-2017]. Nous comparerons en particulier l’utilisation de différents modèles de langage RNN-Bi-GRU comme [Vogl-2017] ou Dynamic Bayesian Network comme [Krebs-2016].
  • étendre les données d’apprentissage par utilisation de données faiblement annotées par utilisation d’une méthode de type student-teacher [Wu-2017]. En particulier nous étudierons comment l’on peut prédire les performances obtenues par les students à partir de celles obtenues pour chaque classe par les teachers.

Bibliographie

[1] S. Bock and M. Schedl. Enhanced beat tracking with context-aware neural networks. In Proc. of DAFx (International Conference on Digital Audio Effects), Paris, France, 2011. [2] C. Dittmar and D. Gartner. Real-time transcription and separation of drum recordings based on nmf decomposition. In Proc. of DAFx (International Conference on Digital Audio Effects), Erlangen, Germany, 2014. [3] O. Gillet and G. Richard. Automatic labelling of tabla signals. In Proc. of ISMIR (International Society for Music Information Retrieval), Baltimore, Maryland, USA, 2003. [4] F. Krebs. Metrical Analysis of Musical Audio Using Probabilistic Models. PhD thesis, Johannes Kepler University, Linz, Austria, November 2016. [5] J. Paulus and A. Klapuri. Drum sound detection in polyphonic music with hidden markov models. EURASIP Journal on Audio, Speech, and Music Processing, 2009:497292:1–9, 2009. [6] G. Peeters and H. Papadopoulos. Simultaneous beat and downbeat-tracking using a probabilistic frame- work : theory and large-scale evaluation. Audio, Speech and Language Processing, IEEE Transactions on, 19(6):1754–1769, August 2011. [7] A. Roebel, J. Pons, M. Liuni, and M. Lagrange. On automatic drum transcription using non-negative matrix deconvolution and itakura saito divergence. In Proc. of IEEE ICASSP (International Conference on Acoustics, Speech, and Signal Processing), Brisbane, Australia, 2015. [8] R. Vogl, M. Dorfer, and P. Knees. Recurrent neural networks for drum transcription. In Proc. of ISMIR (International Society for Music Information Retrieval), New York, USA, August 2016. [9] R. Vogl, M. Dorfer, G. Widmer, and P. Knees. Drum transcription via joint beat and drum modeling using convolutional recurrent neural networks. In Proc. of ISMIR (International Society for Music Information Retrieval), Suzhou, China, October 2017. [10] C.-W. Wu and A. Lerch. Drum transcription using partially fixed non-negative matrix factorization with template adaptation. In Proc. of ISMIR (International Society for Music Information Retrieval), Malaga, Spain, 2015. [11] C.-W. Wu and A. Lerch. Automatic drum transcription using the student-teacher learning paradigm with unlabeled music data. In Proc. of ISMIR (International Society for Music Information Retrieval), Suzhou, China, October 2017.