Master 2014 2015
Stages de la spécialité SAR
Réseaux de neurones profonds pour l’estimation robuste de la fréquence fondamentale


Site :Équipe PAROLE
Lieu :Inria Nancy - Grand Est
Encadrant : Vincent Colotte et Emmanuel Vincent
Dates :du 01/03/2015 au 31/08/2015
Rémunération :gratification
Mots-clés : Parcours ATIAM : Traitement du signal

Description

La fréquence fondamentale est une caractéristique essentielle de la parole. Elle véhicule des informations sur le sens global de la phrase (mise en relief, assertion, ou interrogation), sur l’état émotionnel du locuteur, et même sur le sens des mots dans certaines langues (mandarin, vietnamien, zoulou...).

Les techniques classiques d’estimation de la fréquence fondamentale sont basées sur le cepstre ou sur l’auto-corrélation du signal [1,2]. Elles fonctionnement bien en environnenement calme, mais leur performance diminue dans les situations où la parole est superposée à un bruit [3].

Ce stage vise à concevoir une technique d’estimation de la fréquence fondamentale robuste au bruit basée sur les réseaux de neurones profonds [4], qui constituent aujourd’hui l’état de l’art sur de nombreuses tâches de traitement du signal. L’usage des réseaux de neurones profonds pour l’estimation de la fréquence fondamentale a été évalué dans [5] en utilisant le spectre de puissance à court terme du signal comme entrée. Nous proposons d’exploiter une nouvelle représentation du spectre de phase [6] en entrée afin de dépasser cet état de l’art.

L’apprentissage et le test de la technique développée seront effectués sur un corpus de parole avec vérité terrain acquise par laryngographe [7]. La parole sera superposée à différentes sortes et niveaux de bruit correspondant à des situations réelles rencontrées par les ingénieurs du son.

Profil recherché : Master 2 en traitement du signal, informatique, ou apprentissage. Expérience de programmation en Matlab, Python/SciPy, ou C/C++.

Pour candidater, envoyer un CV, une lettre de motivation, et le relevé de notes de master 1 à vincent.colotte@loria.fr et emmanuel.vincent@inria.fr.

Bibliographie

[1] A.M. Noll, "Cepstrum pitch determination", Journal of the Acoustical Society of America, 41(2):293-309, 1967.

[2] A. de Cheveigné and H. Kawahara, "YIN, a fundamental frequency estimator for speech and music", Journal of the Acoustical Society of America, 111:1917, 2002.

[3] I. Luengo, I. Saratxaga, E. Navas, I. Hernáez, J. Sanchez, and I. Sainz, "Evaluation of pitch detection algorithms under real conditions", in Proc. 2007 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), vol. 4, pp. 1057-1060, 2007.

[4] L. Deng and D. Yu, Deep learning : methods and applications, Now Publishers, 2014.

[5] K. Han and D.L. Wang, "Neural network based pitch tracking in very noisy speech", IEEE/ACM Transactions on Audio, Speech, and Language Processing, 22(12):2158-2168, 2014.

[6] P. Mowlaee and R. Saeidi, "On phase importance in parameter estimation in single-channel speech enhancement", in Proc. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 7462-7466, 2013.

[7] G. Pirker, M. Wohlmayr, S. Petrik, and F. Pernkopf, "A pitch tracking corpus with evaluation on multipitch tracking scenario", in Proc. Interspeech, pp. 1509-1512, 2011. Online : http://www.spsc.tugraz.at/tools