Master 2014 2015
Stages de la spécialité SAR
Modèle de perception multimodale active pour le suivi de conversations multipartites par un robot humanoïde


Site :Equipe MAGIC
Lieu :GIPSA-Lab - Grenoble
Encadrant : Gérard Bailly, DR CNRS Laurent Girin, Prf INP
Dates :du 15/2/2015 au 30/6/2015
Rémunération :436€/mois
Mots-clés : Parcours ATIAM : Acoustique, Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Description

Contexte L’objectif général de ces recherches est de développer un robot humanoïde capable de copier le comportement humain : le robot doit montrer qu’il est attentif à la scène dans laquelle il est plongé par un comportement verbal et gestuel approprié, imitant le comportement d’un tuteur humain placé dans des situations similaires. Le robot humanoïde que l’on se propose d’équiper de ces capacités cognitives est Nina, un iCub conçu par l’IIT de Gênes et doté d’une mâchoire et de lèvres articulées. Dans le cadre de ce stage, on s’intéresse au suivi de conversations. On cherche à doter le robot de mouvements de tête et des yeux adéquats, afin qu’il semble suivre une conversation impliquant divers interlocuteurs placés en face de lui. Sujet Le sujet de stage comporte trois tâches essentielles : 1. Recueil de données et modélisation de la perception binaurale. On cherchera à établir la correspondance entre localisation d’une source sonore et orientation de la tête par apprentissage automatique. Pour ceci, on recueillera un corpus où une source connue (haut-parleur) émettra des sons en divers lieux et sera perçue avec diverses orientations de la tête. Un modèle de régression inverse (Deleforge and Horaud 2012) sera alors établi entre perception acoustique et localisation des sources sonores. 2. Intégration audiovisuelle. On couplera ce dispositif à un dispositif de détection de visages à l’état de l’art de manière à créer une carte de saillance audiovisuelle (Sheikhi and Odobez 2012 ; Cid, Manso et al. 2012) où les sources audiovisuelles seront identifiées par les yeux mobiles du robot et mémorisées. 3. Perception active. Lors de son stage de M1 EEA (U. Montpellier 2) au 2me semestre 2013, Tommy Detoisien (Detoisien 2013) a développé un système original permettant d’enregistrer la parole, le regard et les mouvements de tête de sujets prêtant attention à un ensemble de 5 clones parlants disposés en demi-cercle autour d’eux. ces données montrent que les mouvements de tête et des yeux sont déphasés et dépendent de la position courante et des mouvements précédemment effectués. On implémentera une version simplifiée de ce modèle. 4. Evaluation. On évaluera la capacité du modèle à suivre des conversations de manière naturelle. On comparera notamment la sensibilité des sujets au paramétrage (retard, interaction tête/regard) du modèle d’attention implémenté. Thématiques abordées dans le stage · Capture de mouvement, oculométrie · Modélisation statistique Compétences requises · Notions de statistique, maîtrise de Matlab

Bibliographie

Cid, F., L. J. Manso, L. Calderita, A. Sánchez and P. Núñez (2012). "Engaging human-to-robot attention using conversational gestures and lip-synchronization." Journal of Physical Agents 6(1) : 3-10. Deleforge, A. and R. P. Horaud (2012). The cocktail party robot : Sound source separation and localisation with an active binaural head. IEEE/ACM International Conference on Human Robot Interaction, Boston, MA : 431-438. Detoisien, R. (2013). "Modèle d’attention pour le suivi de conversations multi-parties par un robot humanoïde." Master 1 de Robotique, Université de Montpellier. Montpellier : 34 pages. Sheikhi, S. and J.-M. Odobez (2012). Investigating the midline effect for visual focus of attention recognition. International Conference on Multimodal Interaction (ICMI), Santa Monica, CA.