Master 2013 2014
Stages de la spécialité SAR
Estimation de la structure musicale par approche DTW localement contraint et maximum 
likelihood


Site :Equipe Analyse/Synthèse
Lieu :IRCAM
Encadrant : Geoffroy Peeters
Dates :01/03/2014 au 31/07/2014
Rémunération :420 Euro/mois
Mots-clés : Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal


Description

L’estimation de la structure temporelle d’un morceau de musique (estimer les différents couplets/refrains ou sections) à partir du signal audio se fait généralement en utilisant deux approches : l’approche par état (dans lequel le morceau est considéré comme une succession au cours du temps de segments homogènes, répétés ou non) et l’approche par séquence (dans lequel le morceau contient des séquences d’évènements successifs a,b,c,d répétés au cours du temps) [Peeters, CMMR, 2004]. Au cours des années, de nombreuses méthodes (généralement basées sur des techniques de type clustering ou HMM) ont été proposées pour l’approche par état, nettement moins pour l’approche par séquence.

Dans ce stage nous proposons de développer un système permettant d’estimer la meilleure représentation par séquence permettant de représenter la matrice d’auto-similarité d’un morceau [Foote, ACM, 1999] au sens d’un critère de vraisemblance. Dans [Peeters, ISMIR, 2007] une première formulation de cette estimation a été proposée. Celle-ci est appliquée à une matrice de similarité préalablement binarisé en éléments répétés/ éléments non-répétés. Récemment, [Mueller, IEEE, 2012] a proposé une méthode permettant d’estimer la séquence la plus répétée d’un morceau de musique sans binarisé la matrice. Pour cela un algorithme de type DTW contraint est proposé.

L’objectif de ce stage est d’étudier l’utilisation de cet algorithme de DTW contraint dans l’approche d’estimation de structure [Peeters, ISMIR, 2007]. Ceci de manière a obtenir une estimation par maximum de vraisemblance de l’ensemble de la structure (et non uniquement de la séquence la plus répétée) et sans binarisation de la matrice d’auto-similarité.

Bibliographie

J. Foote. Visualizing music and audio using self-similarity. In Proc. of ACM Multimedia, pages 77–80, Orlando, Florida, USA, 1999.

M. Mueller, N. Jiang, and P. Grosche. A robust fitness measure for capturing repetitions in music recordings with applications to audio thumbnailing. Audio, Speech and Language Processing, IEEE Transactions on, To Appear in 2012.

G. Peeters. Deriving Musical Structures from Signal Analysis for Music Audio Summary Generation : Sequence and State Approach, pages 142–165. Lecture Notes in Computer Science. Springer-Verlag Berlin Heidelberg 2004, 2004.

G. Peeters. Sequence representation of music structure using higher-order similarity matrix and maximum-likelihood approach. In Proc. of ISMIR (International Society for Music Information Re- trieval), Vienna, Austria, 2007.