Master 2013 2014
Stages de la spécialité SAR
Analyse dynamique des descripteurs multimodaux pour la modélisation des attitudes sociales


Site :Analyse dynamique des descripteurs multimodaux pour la modélisation des attitudes sociales
Lieu :Télécom ParisTech 37 rue Dareau 75014 Paris
Encadrant : Kevin Bailly          Chloé Clavel                 Gaël Richard         
Dates :5 mois
Rémunération :400 € /mois env.
Mots-clés : Parcours ATIAM : Traitement du signal

Description

Cadre du stage : Le stage se déroulera entre l’équipe Greta de Telecom­ParisTech         et l’ISIR de l’UPMC et s’inscrit dans le cadre du projet Sense (SigNaux Socio            Emotionnel) du Labex Smart (Axe thématique : Les interfaces et l’interaction de            l’humain avec des environnements numériques et des mondes physiques distants.)          Ce projet s’intéresse aux signaux sociaux émotionnels échangés lors d’une          interaction, et couvre l’intégralité de la chaîne de traitement, allant de la capture des           signaux (vidéo, audio, neurologiques et physiologique) jusqu’à leur exploitation     (agent virtuel, interaction musicale, groupe de personnes) en passant par leur           interprétation et modélisation. Le stage se concentrera dans ce projet plus        spécifiquement sur la modélisation des attitudes sociales dans les interactions de           l’humain avec un agent virtuel. Il pourra se poursuivre sur une thèse dans le cadre      du projet Sense.

Sujet du stage : Le domaine de l’Affective computing ou de l’informatique affective est un domaine            en plein essor qui intervient dans de nombreuses applications, allant de l’indexation      multimedia (e.g. identifier les séquences vidéos à fort contenu émotionnel) à la mise            en place de jeux sérieux ou Serious Games. Pour cette dernière application,         notamment, il s’agit de prendre en compte les comportements socio­affectifs dans           l’interaction du tuteur virtuel avec l’utilisateur apprenant. L’un des enjeux de         l’Affective computing est de doter la machine des capacités de compréhension des            comportements humains. Les informations disponibles sont les signaux acquis par          le système via des capteurs (image, son, capteurs physiologiques). Les données           manipulées sont donc de très bas niveau : les échantillons sonores ou encore les        pixels des images. Entre ces données bas niveau et leur interprétation, le fossé            sémantique est particulièrement difficile à franchir lorsque l’on cherche à analyser           des informations telles que les comportements socio­affectifs de l’humain. De          nombreuses études ont été réalisées sur la reconnaissance multimodale d’émotions          [1] ou sur l’analyse des interactions sociales lors des meetings à partir d’indices             non verbaux [2].Ce stage a pour objectif l’analyse des descripteurs visuels (nous nous focaliserons            sur les expressions faciales) et audio (prosodiques et linguistiques) qui caractérisent           les attitudes sociales (dominance et appréciation) et notamment l’analyse de          l’ordonnancement des signaux issus des différentes modalités. L’enjeu à terme sera        d’intégrer ces descripteurs dans un modèle de génération des attitudes sociales           chez un agent conversationnel animé.

Tâches : La première partie de stage sera consacrée à l’état de l’art sur l’analyse multimodale        des attitudes sociales (ex : dominance) lors d’interaction humain/humain ou         humain/agent. Il s’agira d’identifier les méthodes et les corpus existants. La           seconde partie du stage portera sur la mise en œuvre de méthodes d’analyse        multimodale de corpus audiovisuel existant [3] incluant la sélection de descripteurs           et le développement de méthodes d’apprentissage automatique.

 Profil du candidat Etudiant en dernière année d’un master recherche ou d’une Grande École. Compétences recherchées : • Reconnaissance des formes / Apprentissage statistique • Traitement du signal et des images • Programmation C/C++/Java et Matlab

Pour candidater

Merci d’envoyer par mail (chloe.clavel@telecom­paristech.fr, kevin.bailly@upmc.fr      ) les informations suivantes : • CV • Lettre de motivation

Bibliographie

Références : [1] B Schuller, M Lang, and G Rigoll. Multimodal emotion recognition in audiovisual communication. In ICME, pages 745–748. IEEE, 2002. [2] Steve Renals, Hervé Bourlard, Jean Carletta, and Andrei Popescu­Belis. Multimodal Signal Processing : Human Interactions in Meetings. Cambridge University Press, New York, NY, USA, 1st edition, 2012. [3] Sun, X., Lichtenauer, J., Valstar, M., Nijholt, A., & Pantic, M. (2011). A              multimodal database for mimicry analysis. In Affective Computing and Intelligent          Interaction (pp. 367­376). Springer Berlin Heidelberg.