Master 2013 2014
Stages de la spécialité SAR
Analyse et Synthèse de la Qualité Vocale : la Voix Craquée


Site :Analyse et Synthèse des Sons - IRCAM
Lieu :Analyse et Synthèse des Sons - IRCAM
Encadrant : Nicolas Obin Stefan Huber Axel Roebel
Dates :01/03/2011 au 31/07/11
Rémunération : 400€ (rémunération légale)
Mots-clés : Parcours ATIAM : Traitement du signal

Description

L’objectif de ce stage est l’analyse et la synthèse de la qualité vocale - et notamment du craquement dans la voix (vocal fry).

La voix craquée est une qualité vocale (voix soufflée, craquée, rauque, etc…) qui se caractérise par des irrégularités locales de vibration des cordes vocales (période/amplitude). La voix craquée est couramment observée dans la voix (acteurs professionnels, mais également dans la voix de personnes de tous les jours : voix de personnes âgées, voix pathologiques, voir mode chez les jeunes femmes aux Etats-Unis : http://www.huffingtonpost.com/tag/v...), et constitue un enjeu majeur en synthèse et transformation de la voix.

Le stage couvrira quatre parties : 1) l’étude de la littérature concernant la physiologie, la détection, et la synthèse de la voix craquée ; 2) le développement d’algorithmes pour l’analyse et la détection de la voix craquée ; 3) l’analyse et modélisation de la voix craquée ; 4) la proposition, l’implémentation et l’évaluation des méthodes de synthèse de la voix craquée, et ou des méthodes pour la transformation de la voix modale en voix craquée.

Le stage s’appuiera sur les connaissances de l’équipe Analyse et Synthèse des Sons sur la modélisation statistique en synthèse et transformation de la voix, et sur un nouveau moteur de synthèse paramétrique de la voix qui rend possible la synchronisation temporelle de la synthèse sur les périodes de vibrations des cordes vocales.

Bibliographie

[Blomgren et al 1998], M Blomgren, Y. chen, M. L. Ng, H. R. Gilbert ; Acoustic, aerodynamic, physiologic, and perceptual properties of modal and vocal fry registers, JASA, Vol 103, no 5, pp.2649-, 1998.

[Drugman et al. 2013] Thomas Drugman, John Kane, Tuoma Raitio, and Christer Gobl. PREDICTION OF CREAKY VOICE FROM CONTEXTUAL FACTORS, ICASSP, 2013.

[Drugman et al. 2012] Thomas Drugman, John Kane, and Christer Gobl. Modeling the Creaky Excitation for Parametric Speech Synthesis, Interspeech, 2012, Portland, Oregon.

[Locos et Bonada 2004] Alex Loscos and Jordi Bonada. Emulating Rough and Growl Voice in Spectral Domain, DAFx 2004, Naples, Italy.

[Degottex et al 2013] G. Degottex, P. Lanchantin, A. Roebel and X. Rodet ; Mixed source model and its adapted vocal tract filter estimate for voice transformation and synthesis. . Speech Communication, 55(2):278-294, 2013.