Master 2013 2014
Stages de la spécialité SAR
Détection de fautes dans les nuages informatiques


Site :Equipe REGAL (Inria / LIP6)
Lieu :Equipe REGAL / LIP6
Encadrant : Luciana Arantes, Pierre Sens, Julien Sopena (Prénom.Nom@lip6.fr)
Dates :1/4/2014 au 31/8/2013
Rémunération :Gratification standard
Mots-clés : Parcours SAR autre qu’ATIAM, recherche

Description

Contexte

Les nuages informatiques fournissent aux applications des ressources (processeur, mémoire, disque) à la demande en masquant leur localisation physique. Ils sont par nature hautement dynamiques (élastiques) : les machines virtuelles encapsulant les applications peuvent être allouées ou déplacées en fonction des pics de charge, pour satisfaire des contrats de qualité de services (SLA) ou encore pour économiser de l’énergie.

Objectif

L’objectif de ce stage est d’étudier des algorithmes distribués adaptés à la dynamique des nuages. Nous étudierons plus particulièrement les détecteurs de fautes qui sont connus pour être une des briques de base fondamentales aux problèmes d’accord distribués. Les détecteurs de fautes (FD pour failure detectors) ont été introduits par Chandra et Toueg [1] pour contourner le résultat d’impossibilité de Fischer-Lynch-Paterson qui montre qu’il est impossible de réaliser un consensus distribué déterministe dans un système asynchrone sujet aux fautes. Il existe de nombreuses implémentations de FD [2,3]. La plupart d’entres elles ne sont pas adaptées aux nuages pour les raisons suivantes : (1) elles ne passent pas à l’échelle, (2) elles supposent une topologie de réseau fixée et connue, (3) elles ne prennent pas en compte les SLA. Les algorithmes de détection de fautes doivent alors être repensés.

Ce stage propose de concevoir et évaluer un nouvel algorithme pour détecter la faute de machines virtuelles dans les nuages. Nous équipe a proposé dans le passé un détecteur adapté aux Grilles de calcul [3]. Ce détecteur prend en compte la topologie physique de la grille pour optimiser les échanges de message de détection (heartbeat). Dans le contexte des nuages, l’algorithme de détection doit s’adapter à une topologie inconnue. Il faut fournir un algorithme auto-adaptatif optimisant les échanges de messages entre machines virtuelles et assurant les contraintes de qualité de services exprimées par les applications (en termes de temps de détection et de nombre d’erreurs). L’algorithme proposé sera évalué sur la plate-forme nationale Grid’5000 et des environnements de clouds (Amazon EC2).

Bibliographie

[1] Chandra, T., Toueg, S. : Unreliable failure detectors for reliable distributed systems. Journal of the ACM 43(2) (March 1996) 225–267

[2] Joshua B. Leners, Hao Wu, Wei-Lun Hung , Marcos K. Aguilera, Michael Walfish . Detecting failures in distributed systems with the FALCON spy network, 23rd ACM Symposium on Operating Systems Principles, October, 2011.

[3] M. Bertier, O. Marin, P. Sens. Performance analys of hierrachical failure detector. Proc. of the International Conference on Dependable Systems and Networks (DSN’03) San Fransisco, USA, Juin, 2003 (IEEE Society Press)