Master 2013 2014
Stages de la spécialité SAR
Suivi de Partition par Alignement Voix Chantée / Texte


Site :Antescofo
Lieu :MuTant, IRCAM
Encadrant : Arshia Cont, Philippe Cuvillier (MuTant) Nicolas Obin (Analyse et Synthèses des Sons)
Dates :01/03/2011 au 31/07/11
Rémunération : 400€ (rémunération légale)
Mots-clés : Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Description

Contexte :

Le problème de l’alignement « musique sur partition » consiste à détecter, à partir d’un signal audio, la position du musicien sur une partition ainsi que son tempo. Dans ce champ de recherche actif, l’Ircam a développé un algorithme d’alignement temps-réel : Antescofo [1], aujourd’hui couramment utilisé en production musicale.

Problèmes posés :

Du point de vue de la musique : les systèmes d’alignement se fondent sur une observation de la fréquence fondamentale du son (hauteur du son). Pour le chant, l’utilisation seule de cette source d’information pose des problèmes de fiabilité (manque de justesse et phénomènes parasites : vibrato, intonations, etc.) Ces considérations motivent l’utilisation d’une source d’information plus spécifique : la structure phonétique de la voix (par exemple, représentation MFCC).

Du point de vue de la parole : l’extension des systèmes de reconnaissance de la parole (chaînes de Markov cachées (HMM) [3, 4]) à la voix chantée pose un problème évident : la considération des durées imposées par la partition musicale. Les récents travaux de l’équipe MuTant [2] ont démontré comment une extension des HMM - les chaînes de semi-Markov cachées (HSMM) - permet de représenter correctement les à priori de durées des notes de la partition.

Objet :

Ce stage propose d’aborder de front deux défis de l’alignement audio/texte dans le contexte de la voix chantée : l’alignement « voix/texte » et l’alignement « musique/partition ». La réalisation d’une telle solution constituerait une jonction inédite entre reconnaissance musicale et reconnaissance vocale. Le travail consistera à :

-  formaliser une factorisation tempo/durées dans le cadre des chaines de semi-Markov ;
-  intégrer la représentation explicite de la structure temporelle pour l’alignement « voix chantée/texte » ;
-  comparer les performances des deux sources d’information concurrentes pour l’alignement de chant : l’observation phonétique et l’observation des hauteurs.

L’algorithme développé pourra être incorporé dans le logiciel de suivi de partition et d’accompagnement automatique Antescofo. (voir [5] pour une démonstration)

Bibliographie

[1] A. Cont, « A coupled duration-focused architecture for realtime music to score alignment », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 32, 2010, pp. 974-987.

[2] P. Cuvillier, A. Cont, « Coherent time-modeling for semi-markov models », submitted to ICASSP 2014.

[3] S. J. Young, « The HTK Hidden Markov Model Toolkit : Design and Philosophy », Entropic Cambridge Research Laboratory, Ltd, vol. 2, 1994, 2-44.

[4] P. Lanchantin, A. C. Morris, X. Rodet, C. Veaux, « Automatic Phoneme Segmentation with Relaxed Textual Constraints », International Conference on Language Resources and Evaluation, 2008, pp. 2403-2407.

[5] http://www.dailymotion.com/video/x1...