Master 2014 2015
Stages de la spécialité SAR
Représentation de la phase pour la conversion de voix


Site :Équipe PAROLE
Lieu :Inria Nancy - Grand Est
Encadrant : Joseph Di Martino et Emmanuel Vincent
Dates :du 01/03/2015 au 31/08/2015
Rémunération :gratification
Mots-clés : Parcours ATIAM : Traitement du signal

Description

La conversion de voix vise à modifier un signal de parole prononcé par un locuteur (source) de sorte à ce qu’il semble avoir été prononcé par un autre locuteur (cible). Pour cela, on représente le signal source par un modèle excitation-filtre, on traduit les paramètres de ce modèle dans l’espace du locuteur cible grâce à une transformation basée sur les mélanges de gaussiennes [1,2] ou la factorisation matricielle parcimonieuse [3], et on resynthétise le signal à partir des paramètres transformés.

La majorité des techniques existantes sont basés sur la représentation STRAIGHT [4], qui modélise le signal d’excitation par sa hauteur. Cette représentation est insuffisante pour une bonne qualité de resynthèse en pratique. La technique ISE2D [5] se démarque en représentant le signal d’excitation par son spectre de puissance, qui permet une meilleure estimation du spectre de puissance de la voix après conversion. La représentation du spectre de phase reste cependant un problème ouvert important pour obtenir une qualité parfaite.

Ce stage vise à étudier une représentation du spectre de phase issue de la recherche en séparation de sources audio [6]. Les résultats obtenus seront évalués sur les corpus français Idiologos [7] (200 locuteurs) ou le corpus anglais CMU ARCTIC [8] (4 locuteurs). Un corpus anglais complémentaire pourra être collecté auprès de quelques locuteurs.

Profil recherché : Master 2 en traitement du signal ou en informatique. Expérience de programmation en Matlab, Python/SciPy, ou C/C++.

Pour candidater, envoyer un CV, une lettre de motivation, et le relevé de notes de master 1 à joseph.di-martino@loria.fr et emmanuel.vincent@inria.fr.

Bibliographie

[1] Y. Stylianou, O. Cappé, and É. Moulines, “Continuous probabilistic transform for voice conversion”, IEEE Transactions on Speech and Audio Processing, 6(2):131-141, 1998.

[2] T. Toda, A. Black, and K. Tokuda, "Voice conversion based on maximum likelihood estimation of spectral parameter trajectory", IEEE Transactions on Audio, Speech, and Language Processing, 15(8):2222-2235, 2007.

[3] R. Aihara, R. Takashima, T. Takiguchi, and Y. Ariki, "A preliminary demonstration of exemplar-based voice conversion for articulation disorders using an individuality-preserving dictionary", EURASIP Journal on Audio, Speech and Music Processing, 2014:5, 2014.

[4] H. Kawahara, I. Masuda-Katsuse, and A. de Cheveigné, "Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based f0 extraction", Speech Communication, 27:187-207, 1999.

[5] A. Werghi, J. Di Martino, and S. Ben Jebara, "On the use of an iterative estimation of continuous probabilistic transforms for voice conversion", in Proc. 5th International Symposium on I/V Communications and Mobile Network (ISVC), pp. 1-4, 2010.

[6] P. Mowlaee and R. Saeidi, "On phase importance in parameter estimation in single-channel speech enhancement", in Proc. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 7462-7466, 2013.

[7] E. Pinto, D. Charlet, H. François, D. Mostefa, O. Boëffard, D. Fohr, O. Mella, F. Bimbot, K. Choukri, Y. Philip, and F. Charpentier, "Development of new telephone speech databases for French : the NEOLOGOS Project", in Proc. 4th International Conference on Language Resources and Evaluation (LREC), 2004.

[8] J. Kominek and A. Black, "CMU ARCTIC databases for speech synthesis", Technical Report, Carnegie Mellon University, 2003.