Master 2014 2015
Stages de la spécialité SAR
Traitement pour le rendu naturel de la voix d’un robot humanoïde


Site :Equipe MAGIC
Lieu :GIPSA-Lab - Grenoble
Encadrant : Gérard Bailly, DR CNRS Laurent Girin, Prf INP
Dates :du 15/2/2015 au 30/6/2015
Rémunération :436€/mois
Mots-clés : Master SAR, autre qu’ATIAM, Parcours ATIAM : Acoustique, Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Description

L’équipe MAGIC de GIPSA-lab vient de se doter d’un robot humanoïde à la pointe de l’état de l’art : le robot iCub développé par l’IIT de Gênes. Si les aspects mécatroniques sont impressionnants (52 degrés de liberté, fluidité des mouvements, expressivité du robot), ce robot est actuellement muni d’une intelligence qui reste rudimentaire. L’objectif général des recherches menées à MAGIC est de rendre ce robot humanoïde capable d’interagir de façon naturelle avec des humains. Pour ceci, il faut d’abord doter le robot de capacités de communication de bas et moyen niveaux : audition, analyse de scène visuelle et auditive, reconnaissance automatique et synthèse de la parole, analyse et synthèse des gestes (en particulier des gestes co-verbaux pour la communication), etc. Il faut ensuite modéliser un ensemble complexe de boucles de perception/action opérant à divers niveaux de compréhension de la situation d’interaction. Sujet Dans ce stage, on s’intéresse à la qualité de la synthèse vocale réalisée par le robot. Le robot de GIPSA, baptisé Nina, est une version « customisée » de l’iCub : parmi les 30 exemplaires réalisés et vendus dans le monde, Nina est le seul possédant une tête munie d’une mâchoire et de lèvres articulées, contrôlables en fonction du contenu du signal de parole (voir Figures). Il n’est toutefois pas encore capable de véritablement parler : il n’a pas de langue, et le signal de parole est obtenu par synthèse vocale par concaténation et est émis par un haut-parleur placé dans la bouche. Une conséquence importante est que la qualité de ce signal de parole perçue par un interlocuteur humain est relativement faible : on sent que le signal provient d’un haut-parleur. L’objectif de ce stage est de développer, implémenter dans le robot, et évaluer une technique de rehaussement de la qualité du signal de parole perçu par un interlocuteur de Nina. Le principe général est d’identifier le canal entre le signal que le robot doit émettre et le signal perçu par l’auditeur, et corriger les éléments non naturels de ce canal : essentiellement l’effet de la chaîne d’enregistrement et de restitution du signal, principalement le haut-parleur, et celui des articulateurs du robot (si on veut que le signal sonne comme avec des articulateurs naturels). Une des difficultés est donc que l’égalisation du signal dépendra de facteurs dynamiques et devra être adaptative, contrôlée en fonction des mouvements du robot. De plus, ceux-ci ne sont pas forcément toujours parfaitement synchronisés avec le contenu du signal. Enfin, les éléments naturels du canal (le chemin physique entre les lèvres de Nina et les oreilles de l’auditeur) devront être préservés. Ce travail comportera une partie expérimentale, avec la mise en place d’un dispositif d’enregistrements de signaux pour se munir d’une base de données adaptée au problème à traiter. Et il comportera une partie méthodologique avec le développement de techniques de traitement du signal de parole, avec des aspects filtrage/égalisation, des aspects Machine Learning / techniques de mapping (pour l’apprentissage automatique des paramètres contrôlant l’égalisation), et des aspects de programmation en temps réel et d’interfaçage avec le middleware du robot (pour le fonctionnement effectif de l’algorithme sur le robot). Thématiques abordées : Traitement du Signal, Traitement de la Parole, Robotique, Machine Learning, Capture de Signaux, Programmation Temps-Réel. Compétences informatiques requises : Linux, Matlab, C/C++.

Bibliographie

Ince, G., K. Nakadai, T. Rodemann, H. Tsujino and J. Imura (2010). Multi-talker speech recognition under ego-motion noise using Missing Feature Theory. IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Taipei, Taiwan : 982 - 987.