Master 2017 2018
Stages de la spécialité SAR
Conversion de l’émotion de la voix par réseaux de neurones récurrents


Site : Trac-Conversion de l’émotion de la voix par réseaux de neurones récurrents
Lieu : Ircam, équipe analyse et synthèse des sons
Encadrant : Nicolas Obin
Dates :01/02/2018 au 30/07/18
Rémunération : 550€ / mois
Mots-clés : Parcours ATIAM : Acoustique, Parcours ATIAM : Traitement du signal

Description

Contexte :

La voix constitue souvent le seul lien « humain » entre l’homme et la machine : la voix de synthèse, par sa « persona », insuffle une « âme » à la machine, et l’humanise. La synthèse vocale est aujourd’hui un enjeu majeur du monde numérique : des assistants vocaux et des robots compagnons dans le domaine de l’assistance personnalisée (cf. Google WaveNet, Van den Oord, 2016). Néanmoins, la synthèse de la parole se limite à des voix relativement neutres et standardisées pour des applications précises et des scénarios d’interactions souvent à but purement informatifs (smartphones, GPS, annonces, etc...), avec un timbre « clair » et une prosodie « normée » . Aujourd’hui, on sait modifier les caractéristiques de bas niveau de la voix (la hauteur, les durées, et le « timbre ») de manière extrêmement réaliste, et même en « temps-réel » à la sortie d’un microphone (par exemple, ircamTools TRAX). En revanche, il existe encore un vide de connaissances pour modifier des caractéristiques de plus haut niveau, comme l’expressivité. En particulier, pour modéliser la prosodie de la voix : c’est-à-dire l’évolution dynamique et cohérente des hauteurs, intensités, durées, et de la qualité vocale (Beller, 2009 ; Veaux 2011 ; Aihara, 2012 ) et récemment à partir de réseaux de neurones, (Luo, 2016).

Objectifs :

L’objectif du stage est d’implémenter un algorithme de conversion de l’émotion de la voix de l’Ircam, par extension des travaux précédemment réalisés dans (Veaux 2011 ). Les travaux de recherche comprendront :

  • La modélisation de la prosodie de la voix par réseaux de neurones, à partir d’architectures RNN (Sun, 2015), GAN (Goodfellow, 2014) et de transfer learning (Deng, 2013).
  • L’implémentation de transformations permettant de modifier de manière cohérente la prosodie d’un signal vocal
  • La mise en place d’expériences perceptives pour valider la qualité des conversions d’émotions réalisées

Le stage s’appuiera sur les connaissances actuelles en analyse/synthèse de la voix et en synthèse et transformation de la voix de l’équipe Analyse et Synthèse des Sons à l’Ircam. Les problèmes abordés pendant le stage seront sélectionnés en début du stage après une phase d’orientation et une étude bibliographique.

Bibliographie

[Aihara, 2012] R. Aihara, R. Takashima, T. Takiguchi, Y. Ariki, GMM-Based Emotional Voice Conversion Using Spectrum and Prosody Features, American Journal of Signal Processing, 2(5) : 134-138, 2012. [Beller, 2009] G. Beller. “Analyse et modèle génératif de l’expressivité. Application à la parole et à l’interprétation musicale », PhD. thesis, Ircam, 2009. [Deng, 2013] J. Deng, Z. Zhang, E. Marchi, B. Schuller. Sparse Autoencoder-based Feature Transfer Learning for Speech Emotion Recognition, Humaine Association Conference on Affective Computing and Intelligent Interaction (ACII), 2013. [Goodfellow, 2014] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, Y. Bengio. Generative Adversarial Networks, Advances in neural information processing systems, 2014. [Luo, 2016] Z. Luo, J. Chen, T. Nakashika, T. Takiguchi, Y. Ariki, Emotional Voice Conversion Using Neural Networks with Different Temporal Scales of F0 based on Wavelet Transform, ISCA Speech Synthesis Workshop, 2016. [Obin, 2015] N. Obin, C. Veaux, P. Lanchantin, Exploiting Alternatives for Text-To-Speech Synthesis : From Machine to Human. Springer Berlin Heidelberg. Speech Prosody in Speech Synthesis : Modeling and Generation of Prosody for High Quality and Flexible Speech Synthesis, pp.189- 202, 2015. [Schröder, 2009] M. Schrôder. Expressive Speech Synthesis : Past, Present, and Possible Futures. in Affective Information Processing, J. Tao and T. Tan, Eds. Springer, 2009, pp. 111– 126. [Sun, 2015] L. Sun, S. Kang, K. Li, and H. Meng. “Voice conversion using deep Bidirectional Long Short-Term Memory based Recurrent Neural Networks”, IEEE International Conference on Audio, Speech, and Language Processing (ICASSP), 2015. [Tao, 2006] Jianhua Tao, Yongguo Kang, and Aijun Li. Prosody Conversion From Neutral Speech to Emotional Speech . IEEE Transactions on Audio, Speech, and Language Processing, Vol. 14 (4), 2006. [Van den Oord, 2016] A. van den Oord et al., WaveNet : A generative model for raw audio, Proceedings of Interspeech, San Francisco, 2016 (https:// deepmind.com/blog/wavenet- generative-model-raw-audio/). [Veaux, 2011] C. Veaux, X. Rodet, “ Intonation Conversion from Neutral to Expressive Speech”, Interspeech , Florence, Italy, p. 2765-2768, 2011.