Master 2011 2012
animat
Sujets de projet
Cette page contient la liste des sujets proposés.
ATTENTION : pour chaque sujet, un enseignant référent est indiqué et il vous est fortement recommandé de le contacter. Son rôle est de vous conseiller en début de projet. Il peut, éventuellement, répondre à une ou deux questions pendant le projet, cependant ce n’est pas un encadrant au sens strict du terme.
Les sujets doivent être réalisés par binôme. Dès que votre choix est fait, envoyez un mail à stephane point doncieux - at - upmc point fr. Les sujet ne seront attribués qu’une seule fois, priorité étant donnée aux premiers ayant effectué la demande.
Un certain nombre d’articles traient d’expériences robotique. Vous êtes invité à les reproduire en simulation. Vous trouverez ici une liste de simulateurs, en particulier :
Il existe également des simulateurs physiques "génériques", permettant de gérer des robots plus complexes :
Attention, nous n’assurons pas le support de ces différents outils !
Horaire et lieu des soutenances
Les soutenances auront lieu le 23 mars 2012 dans la salle H20 de la pyramide de l’ISIR à partir de 13h.
- 13:00 The misbehavior of value and the discipline of the will Simon Bourigault et Maroua Hammami
- 13:25 Modèle d’actor-critic à base de réseau d’Elman Corentin Deluce et Nicolas Depierreux
- 13:50 Evolution of Neural Architecture Fitting Environmental Dynamics Thierry PAULIN
- 14:10 Hierarchically organized behavior and its neural foundations : A reinforcement-learning perspective Matthieu Hourbracq
- 14:45 Basic cycles, utility and opportunism in self-sufficient robots Rabearijao Stéphane
- 15:05 Sustaining Behavioral Diversity in NEAT Marie LAXENAIRE Ludmilla Tajtelbom
- 15:30 An adaptive Robot motivational system Xuwen YE Xue LIU
- 15:55 Supervised and Evolutionary Learning of Echo State Networks Elie Guàrdia Sebaoun - Emmanuel Hadoux
- 16:35 Neuroevolution strategies for episodic reinforcement learning Alexandre Bury et Olivier Goudet
- 17:00 Incremental Structure Learning in Factored MDPs with Continuous States and Actions Joseph M’BIMBI-BENE
- 17:20 Spontaneous Evolution of Structural Modularity in Robot Neural Network Controllers Alexandra Tudor
Sujets affectés
- "The misbehavior of value and the discipline of the will" Simon Bourigault et Maroua Hammami
- "Incremental Structure Learning in Factored MDPs with Continuous States and Actions" Joseph M’BIMBI-BENE
- "Exploiting open-endedness to solve problems through the search for novelty" Khaled Nasroune
- "Neuroevolution strategies for episodic reinforcement learning" Alexandre Bury et Olivier Goudet
- "Supervised and Evolutionary Learning of Echo State Networks", Elie Guàrdia Sebaoun - Emmanuel Hadoux
- "An adaptive Robot motivational system", Xuwen YE Xue LIU
- "Sustaining Behavioral Diversity in NEAT" Marie LAXENAIRE Ludmilla Tajtelbom
- "Basic cycles, utility and opportunism in self-sufficient robots" Rabearijao Stéphane
- "Hierarchically organized behavior and its neural foundations : A reinforcement-learning perspective", Matthieu Hourbracq
- "Evolution of Neural Architecture Fitting Environmental Dynamics" Thierry PAULIN
- "Modèle d’actor-critic à base de réseau d’Elman" Corentin Deluce et Nicolas Depierreux
- "Spontaneous Evolution of Structural Modularity in Robot Neural Network Controllers" Alexandra Tudor
Sujets proposés
Les référents sont donnés par leurs initiales :
- DF pour David Filliat (david point filliat at ensta-paristech.fr)
- AA pour Angélo Arléo
- BG pour Benoît Girard
- SD pour Stéphane Doncieux
- JBM pour Jean-Baptiste Mouret
- OS pour Olivier Sigaud
- MK pour Mehdi Khamassi
pour tous ces derniers, l’email est prenom.nom@upmc.fr
Les articles peuvent être trouvés facilement sur internet pour la plupart. En cas de difficulté, contacter le référent.
Navigation & Cartographie
- BG A model of hippocampally dependent navigation, using the temporal difference learning rule, Foster Morris Dayan. Hippocampus Volume 10, Issue 1, pages 1–16, 2000
- DF Using coloured snapshots for short-range guidance in mobile robots.Gourichon, S., Meyer, J.-A., and Pirim, P. (2002). International Journal of Robotics and Automation, 17(4):154-162. Un système de déplacement guidé par la vision, inspiré des abeilles.
- DF Markov Localization for Mobile Robots in Dynamic Environments Dieter Fox,Wolfram Burgard, Sebastian Thrun . Journal of Artificial Intelligence Research 11 (1999), pp. 391-427. Une méthode de localisation utilisant le filtrage bayésien, similaire, mais dans une structure plus simple, à celle de Filliat.
- DF Bekris, K.E. ; Argyros, A.A. ; Kavraki, L.E. Angle-Based Methods for Mobile Robot Navigation : Reaching the Entire PlaneProceedings of The IEEE International Conference on Robotics and Automation (ICRA), IEEE Press, New Orleans, LA, p.2373—2378 (2004) : Méthode de navigation basée sur les angles, type Cartwright et Collett en un peu plus complexe qui permet de gérer les cas dans lesquel Cartwright et Collett ne fonctionne pas.
Sélection de l’action
- BG Basic cycles, utility and opportunism in self-sufficient robots (1997), McFarland, D. and Spier, E., Robotics and Autonomous Systems, 20:179—190 (http://www.informatics.sussex.ac.uk...) ; Possibly Optimal Decision-Making under Self-sufficiency and Autonomy (1997), Spier, E. and McFarland, D., Journal of Theoretical Biology, 189(3):317—331 (http://www.informatics.sussex.ac.uk...). Modèle inspiré de considérations éthologiques pour la sélection de l’action, dont l’efficacité est testée dans une tâche de survie basique à deux resources indépendantes.
- BG An Adaptive Robot Motivational System (2006), Konidaris, G. and Barto, A., LNCS, Springer, 4095:346. (http://www-all.cs.umass.edu/pubs/20...). Proposition de modification d’un mécanisme d’apprentissage par renforcement pour une sélection de l’action prenant en compte une estimation de la disponibilité des resources dans l’environnement, évalué dans la tâche de survie de Spier et McFarland.
- BG A Basal ganglia inspired model of action selection evaluated in a robotic survival task Girard, B., Cuzin, V., Guillot, A., Gurney, K.N. and Prescott T.J. (2003) Journal of Integrative Neuroscience, 2(2), 179-200. Descriptif : "Evaluation de l’efficacité d’un modèle de sélection de l’action neuromimétique dans une tâche de survie minimale, comparaison avec un mécanisme de sélection élémentaire de type "winner-takes-all". Le modèle est celui des ganglions de la base -un ensemble de noyaux sous-corticaux interconnectés commun à l’ensemble des vertébrés et impliqué dans des processus de sélection- développé par Gurney, Prescott et Redgrave. L’expérience réalisée avec un robot Lego peut être simulée très simplement avec, par exemple, "Player/Stage"."
Evolution & Neurosciences
- BG A distributed model of the saccade system : simulations of temporally perturbed saccades using position and velocity feedback , K. Arai, S. Das, E. L. Keller, E. Aiyoshi. Neural Networks Volume 12, Issue 10, December 1999, Pages 1359-1375
- BG Distributed Action Selection by a Brainstem Neural Substrate : An Embodied Evaluation Humphries, M. and Prescott, T. (2006) From Animals to Animats : Simulation of Adaptive Behavior 2006 (SAB06), p199-210. Descriptif : "La formation réticulée médiale (mRF), un circuit ancien du tronc cérébral préservé au cours de l’évolution, semble constituer un proto-système de sélection de l’action, antérieur à l’apparition des ganglions de la base. Ce travail de Humphries et Prescott étudie l’optimisation par algorithme génétique d’un modèle de mRF dans le but de permettre à un animat de survivre dans une tâche minimale de survie similaire à celle proposée dans (Girard et al., 2003)". Article non disponible en ligne, à demander à benoit.girard _AT_ isir.fr .
Apprentissage
- MK Dayan, Niv, Seymour and Daw, and is titled “The misbehavior of value and the discipline of the will” (in Neural Networks 2006). Il s’agit de reprogrammer le modèle proposer et de le simuler pour essayer d’obtenir les mêmes résultats que les auteurs sur les deux expériences étudiées : an omission schedule and a maze navigation task. Etudier la sensibilité aux paramètres du modèle et discuter des limites de ce type d’approche pour reproduire de tels phénomènes comportementaux. Dans un deuxième temps, il s’agira de simuler la tâche du labyrinthe en partant de zéro, sans que l’agent ne connaisse à l’avance une politique pour résoudre la tâche. Il faut donc simuler le modèle en incluant l’apprentissage. Etudier l’influence des paramètres, particulièrement omega et mu, sur la proportion du temps que l’agent passe, à différents stages au cours de l’apprentissage, à être attiré par un but ou par l’autre. Chercher si des solutions de type meta-learning (variation dynamique de paramètres comme omega ou mu) pourrait permettre au modèle de mieux fonctionner et d’être plus adaptatif. L’article n’est pas disponible en ligne, le demander à l’encadrant.
- OS Midbrain dopamine neurons encode decisions for future action. Morris, G., Nevet, A., Arkadir, D., Vaadia, E. & Bergman, H. Nat. Neurosci. 9, 1057–1063 (2006). http://scholar.google.fr/scholar?cl...
- OS Tonic dopamine : opportunity costs and the control of response vigor. Yael Niv & Nathaniel D. Daw & Daphna Joel & Peter Dayan, Psychopharmacology, 2007 DOI 10.1007/s00213-006-0502-4 http://scholar.google.fr/scholar?cl...
- MK J. Tani and S. Nolfi : "Learning to perceive the world as articulated : an approach for hierarchical learning in sensory-motor systems", Proc. 5th Int. Conf. on Simulation of Adaptive Behavior, (Eds) R. Pfeifer, B. Blumberg, J.A. Meyer and S.W. Wilson, MA : The MIT Press, pp.270-279. The revised version is in Neural Networks, Vol.12, pp.1131-1141, 1999. (http://www.bdc.brain.riken.go.jp/ t...) This paper shows how continuous sensory-motor flow can be segmented into hierarchically organized chunks through anticipatory learning of local mixture of RNN experts with multiple levels. The study addresses the issue of how compositional representation can emerge solely through row sensory-motor experiences using a localist neural network model.
- OS Incremental Structure Learning in Factored MDPs with Continuous States and Actions (2009)
- OS Modèle d’actor-critic à base de réseau d’Elman : On implémentera pour le discuter le modèle décrit dans l’article ci-dessous, qui utilise un réseau d’Elman pour modéliser un apprentissage par renforcement model-free dans un schéma actor-critic en présence d’états cachés : http://www.ieor.berkeley.edu/People...
- MK Botvinick, Niv et Barto (2008) Hierarchically organized behavior and its neural foundations : A reinforcement-learning perspective. L’idée étant de reproduire le labyrinthe à 4 chambres utilisé dans l’article, de faire un modèle Actor-Critic (AC) simple qui permette à l’agent d’apprendre à rejoindre la zone but, et de comparer ça avec un AC doté d’ "options". Ces dernières permettent de considérer comme une macro-action (ou une "routine") une séquence d’actions (dans le cas du labyrinthe, cela correspond à des déplacements d’un endroit à un autre), au lieu de devoir refaire un choix d’action après chacun des mouvements de la séquence. Cette méthode des options est sensée apporter une meilleure performance à l’algorithme d’apprentissage. Un des buts de ce projet est de pouvoir reproduire les résultats et de les représenter différemment de ce que montre l’article. Ce dernier montre une comparaison des courbes d’apprentissage entre AC et AC+option tout en excluant le temps nécessaire au préalable pour l’apprentissage des options. Il s’agit donc de faire des courbes d’apprentissage, à partir de vos résultats, incluant l’acquisition des options, pour voir si la performance est toujours meilleure. Tout le paragraphe de l’article qui fait le lien entre l’algorithme et les parties du cerveau qui pourraient être impliquées n’est pas nécessaire à étudier.
- OS Konidaris, G.,Barto, A. Autonomous Shaping : Knowledge Transfer in Reinforcement Learning, ICML ’06 Proceedings of the 23rd international conference on Machine learning : http://www-anw.cs.umass.edu/pubs/20...
- OS Konidaris, G., Barto, A. Efficient Skill Learning using Abstraction Selection Proceedings of the Twenty First International Joint Conference on Artificial Intelligence 2009
- MK Dopamine neurons encode the better option in rats deciding between differently delayed or sized rewards, Matthew R Roesch, Donna J Calu & Geoffrey Schoenbaum, Nature Neuroscience 10, 1615 - 1624 (2007) http://hopf.cns.nyu.edu/events/spf/...
Evolution
- SD Joel Lehman and Kenneth O. Stanley (2011) Evolving a Diversity of Virtual Creatures through Novelty Search and Local Competition In : Proceedings of the Genetic and Evolutionary Computation Conference (GECCO 2011). New York,NY:ACMhttp://eplex.cs.ucf.edu/publication.... L’expérience présentée dans cet article nécessiterait un travail trop conséquent. Il sera donc demandé de tester l’algorithme proposé sur une expérience plus simple.
- JBM Spontaneous Evolution of Structural Modularity in Robot Neural Network Controllers. 2011 Genetic and Evolutionary Computation Conference (GECCO 2011), Dublin, IR. http://www.cs.uvm.edu/ jbongard/pap...
- JBM A Hypercube-Based encoding for evolving Large-Scale neural network KO Stanley, DB D’Ambrosio, J Gauci - Artificial Life, 2009 - MIT Press
- JBM Exploiting open-endedness to solve problems through the search for novelty J Lehman, KO Stanley.
- JBM Evolution of Neural Architecture Fitting Environmental Dynamics G Capi, K Doya - Adaptive Behavior, 2005 - adb.sagepub.com Article.
- JBM Specialization Can Drive the Evolution of Modularity , Espinosa-Soto, C and Wagner, A http://www.ploscompbiol.org/article...
- SD Supervised and evolutionary learning of echo state networks. F. Jiang, Berry H., et M. Schoenauer. 10th International Conference on Parallel Problem Solving From Nature, PPSN-2008.
- SD Faustino Gomez (2009). Sustaining Diversity using Behavioral Information Distance. In Proceedings of the Genetic and Evolutionary Computation Conference (GECCO-09, Montreal), pp 113-120.
- SD Moriguchi, H., Honiden, S. 2010. Sustaining behavioral diversity in NEAT, Proceedings of the 12th annual conference on Genetic and evolutionary computation GECCO’10 http://honiden-lab.ex.nii.ac.jp/ hm...
- SD Delarboulas, P., Sebag, M., Schoenauer, M. Open-Ended Evolutionary Robotics : an Information Theoretic Approach Lecture Notes in Computer Science, 2011, Volume 6238/2011, 334-343, PPSN XI http://arxiv.org/pdf/1006.4959
- JBM Heidrich-Meisner, V., Igel, C. 2009 Hoeffding and Bernstein Races for Selecting Policies in Evolutionary Direct Policy Search. ICML ’09 Proceedings of the 26th Annual International Conference on Machine Learning http://www.machinelearning.org/arch...
- JBM Heidrich-Meisner, V., Igel, C. Neuroevolution strategies for episodic reinforcement learning J. Algorithms 64 (2009) 152–168 http://axon.cs.byu.edu/Dan/778/pape...
- Valid CSS 2.1
- Valid XHTML Basic 1.1
- Triple-A conformance Web Content Accessibility Guidelines 2.0
-
Calculé le 21 mai 2013 à 12h27min
par DidacSPIP
Université Pierre et Marie Curie - Mobile OK
- SPIP