Master 2014 2015
Stages de la spécialité SAR
Fusion d’Information et Adaptation en-Ligne pour le Suivi de la Voix Chantée en Temps-Réel


Site :MuTant et Analyse et Synthèse des Sons
Lieu :IRCAM – Equipes MuTant, et Analyse et Synthèse des Sons http://www.ircam.fr
Encadrant : Philippe Cuvillier, Arshia Cont (MuTant), Nicolas Obin (Analyse et Synthèses des Sons) Contacts : Philippe.Cuvillier@ircam.fr, Nicolas.Obin@ircam.fr, Arshia.Cont@ircam.fr
Dates :01/03/2015 au 31/07/15
Rémunération : 480€/mois
Mots-clés : Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal


Description

Contexte :

Le problème de l’alignement « musique sur partition » consiste à détecter, à partir d’un signal audio, la position du musicien sur une partition ainsi que son tempo. Dans ce champ de recherche actif, l’Ircam a développé un algorithme d’alignement temps-réel : Antescofo [1] fondé sur une extension des HMM - les chaînes de semi-Markov cachées (HSMM) [2], aujourd’hui couramment utilisé en production musicale.

La voix chantée est une singularité dans le contexte de l’alignement « musique sur partition » : à l’information de la fréquence fondamentale (hauteur du son) utilisée pour le suivi du texte musical, s’ajoute l’information de phonème pour le suivi du texte linguistique. Ces deux sources d’information sont potentiellement complémentaires pour l’alignement de la voix chantée. Les travaux récents menés dans l’équipe MuTant ont montré l’intérêt de l’intégration de l’information de phonème, et de la fusion de l’information de hauteur et de phonème pour l’alignement de la voix chantée [3].

Objet :

Ce stage propose d’aborder de front deux défis de l’alignement audio/texte dans le contexte de la voix chantée : la fusion des sources d’information pour l’alignement de la voix chantée, et l’adaptation en-ligne des sources d’information à un nouveau chanteur. Le travail consistera à poursuivre les recherches actuelles de l’équipe sur deux problématiques : élaborer une fusion avancée des sources d’information de hauteur et de phonème pour le suivi de la voix chantée [4] ; élaborer une adaptation en-ligne de la source d’information de phonème à un nouveau chanteur [5] ; L’algorithme développé pourra être incorporé dans le logiciel de suivi de partition et d’accompagnement automatique Antescofo. (voir [6] pour une démonstration). Une poursuite des travaux en thèse sera envisagée.

Bibliographie

[1] A. Cont, « A coupled duration-focused architecture for realtime music to score alignment », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 32, 2010, pp. 974-987.

[2] P. Cuvillier, A. Cont, « Coherent time-modeling for semi-markov models », submitted to IEEE International Conference on Acoustics, Speech, and Signal Processing, Florence, Italy, 2014.

[3] R. Gong, P. Cuvillier, N. Obin, A. Cont, « Real-Time Score Following for Singing Voice » submitted to IEEE International Conference on Acoustics, Speech, and Signal Processing, Brisbane, Australia, 2015.

[4] R. Lajugie, S. Arlot, F. Bach, « Large-Margin Metric Learning for Partitioning Problems », 2013

[5] A. Bietti, « Online learning for audio clustering and segmentation », Master thesis, 2014.

[6] http://repmus.ircam.fr/antescofo/videos