Master 2013 2014
Stages de la spécialité SAR
Séparation source-filtre en modèle tout-pôle pour l’analyse/synthèse de la voix


Site :Ircam
Lieu :Equipe Analyse/Synthèse - IRCAM-CNRS UMR 9912-UPMC, 1 place Igor Stravinsky 75004 Paris
Encadrant : Thomas Hélie (merci de me contacter à thomas.helie@ircam.fr) avec la collaboration de T. Hézard et de B. Doval
Dates :01/03/2014-31/08/2014
Rémunération :oui
Mots-clés : Parcours ATIAM : Acoustique, Parcours ATIAM : Traitement du signal

Description

* Contexte

Une représentation simplifiée du signal vocal est fournie par une source de débit glottique filtrée par un filtre vocal [Fan60]. Plusieurs modèles de source, filtre et plusieurs méthodes de séparation existent. Deux solutions récentes sont proposées dans [Deg10,Dru11a]. Une troisième méthode plus récente est proposée dans [Hez13]. Cette dernière méthode exploite une représentation de la source par modèle tout-pôle anti-causal (inspiré du modèle CALM [DDH03]) et du filtre par modèle tout-pôle causal (modèle AR). La méthode de séparation s’appuie sur une maximisation de vraissemblance appliquée au cepstre complexe [RS11].

Un calcul numérique du cepstre complexe (fondé sur [PF81,RR87]) qui assure l’analyticité du logarithme de la transformée en z sur sa couronne de convergence est proposé : l’intérêt est que : (a) ce calcul est exact, (b) peu couteux, (c) il assure la transformation de la convolution (domaine temporel) en somme (domaine quéfrentiel), et surtout (d) il sépare naturellement les compsantes causales et anti-causales.

La méthode permet alors de retrouver de façon exacte l’intégralité des paramètres du modèle (instant de fermeture glottique (GCI), pôles et gain) dans le cas d’une impulsion glottique isolée.

* Travail demandé :

Dans ce stage, on propose d’étendre la méthode au cas de signaux quasi-périodiques et d’améliorer sa robustesse aux bruits afin de l’appliquer au cas de signaux réels.

On introduira pour cela un modèle stochastique paramétrique simple de train d’implusions, qui viendra exciter le filtre tout-pôle décrit précédemment. Les paramètres (périodicité et amplitudes moyennes, variances) seront l’objet d’un travail d’estimation.

La méthode obtenue sera d’abord testée et affinée sur des signaux de synthèse maîtrisés. Sa robustesse sera caractérisée et comparée aux méthodes de l’état de l’art.

Elle sera ensuite utilisée pour analyser des signaux réels pour tester sa pertinence dans le cadre de transformations et resynthèse (toujours en comparaison avec les méthodes de l’état de l’art).

* Compétences requises

- Traitement du signal numérique (transformées de Fourier, en z)
- Connaissance des logiciels Matlab et Maple.
- Familiarité avec les méthodes d’optimisation classiques (moindres carrés, etc) et à maximum de vraissemblance

Bibliographie

[Fan60] G. Fant. Acoustic Theory of Speech Production. Mouton, The Hague, 1960.

[Deg10] G. Degottex. Glottal source and vocal-tract separation. PhD thesis, 2010.

[Dru11a] T. Drugman. Advances in Glottal Analysis and its Applications. Phd thesis, University of Mons, 2011.

[Hez13] T. Hézard, Production de la voix : exploration, modèles et analyse/synthèse. Thèse en Signal, Image, Parole, Télécoms. Université Pierre et Marie Curie, 2013.

[DDH03] Boris Doval, Christophe D’Alessandro, and Nathalie Henrich. The voice source as a causal/anticausal linear filter. In Voice Quality : Functions, Analysis and Synthesis VOQUAL’03, pages 16-20, 2003.

[RS11] L Rabiner and R Schafer. Theory and applications of digital speech processing. Pearson Education, 2011.

[PF81] A. Polydoros and Adly T. Fam. The differential cepstrum : definition and properties. In Proceedings of IEEE International Symposium on Circuits and Systems, volume 1, pages 77-80, 1981.

[RR87] G.R. Reddy and V.V. Rao. On the computation of complex cepstrum through differential cepstrum. Signal Processing, 13(1):79-83, 1987.