Master 2014 2015
Stages de la spécialité SAR
Big Data Mining : analyse de séries temporelles massives avec Spark


Lieu :Le stage se déroulera au sein du groupe SOAD (Statistique et Outils d’Aide à la Décision), département ICAME d’EDF Lab Clamart, 1 avenue du Général De Gaulle, 92141 Clamart.
Encadrant : Christophe Salperwyck <prénom.nom - AT - edf.fr>
Dates :Début entre février et mai pour 5 à 6 mois
Rémunération :prévue, à définir selon profil
Mots-clés : Master SAR, autre qu’ATIAM

Description

Contexte

EDF développe plusieurs outils de visualisation / classification de courbes de charge. Parmi ceux-ci CourboTree groupe les courbes similaires à l’aide d’un arbre de décision. Ce logiciel a été initialement développé sans parallélisation des traitements. Afin de préparer le Groupe EDF à la capitalisation de l’analyse de données massives, une version parallélisée de CourboTree a été développée à EDF Lab Clamart sur une partie du spectre fonctionnelle.

Détails sur le logiciel CourboTree

CourboTree est un outil permettant de construire des typologies de clients en termes de courbes de charge via une technique de classification supervisée de courbes. Le principe consiste plus précisément à construire un arbre (binaire) de régression multivariée défini par divisions successives d’une population d’individus représentés par des courbes d’une part (variable à expliquer), et des variables descriptives de ces courbes d’autre part (variables explicatives). Les divisions de la population se font sur les variables explicatives de manière à ce que les classes obtenues soient homogènes en termes de courbes. L’intérêt de cette approche est qu’elle permet de définir conjointement les classes et la caractérisation de celles-ci avec des règles d’affectation claires et facilement interprétables des individus aux classes.

L’objectif de la technique d’arbre binaire de régression est de prédire la valeur d’une variable quantitative en fonction d’un ensemble de variables explicatives de nature quelconque. La construction de l’arbre binaire s’effectue par partitionnement récursif de l’ensemble d’apprentissage. Comparées aux techniques d’arbre de segmentation, les spécificités de la méthode sont, d’une part, de prédire pour un individu sa courbe de charge en fonction du nœud terminal (feuille) dans lequel il tombe. Cette valeur peut par exemple être égale à la moyenne des valeurs observées dans la feuille. D’autre part, le critère de coupure de l’arbre est défini comme une minimisation de la variance intra-groupe des variables relatives à la courbe de charge. Dans le cas où l’on s’intéresse non pas à une seule variable à expliquer mais à un ensemble de variables à expliquer (cas multidimensionnel), la méthode d’arbre de régression est dite multivariée.

Pour répondre au double objectif de classification et d’estimation des courbes, la technique d’arbre de régression multivarié est nécessaire. La classification des courbes s’effectue alors d’un point de vue multivarié. Pour un échantillon donné, chaque individu est décrit par une courbe et par un ensemble de variables explicatives. Dans le contexte multivarié, la construction de l’arbre est similaire à celle des méthodes AID et CART. La seule différence réside dans le choix du critère de coupure qui est celui de l’inertie calculée sur les composantes des courbes. L’application CourboTree fournit une classification des courbes de l’échantillon. Elle permet également de définir les règles d’affectation d’une courbe à tout nouvel individu selon ses valeurs observées sur les variables explicatives.

Objectif du stage Les objectifs de ce stage sont :
-  Prendre connaissance des approches existantes (lecture de papiers scientifiques, rapports techniques) et élaborer un état de l’art ;
-  continuer le développement de la version parallélisée de CourboTree en lui ajoutant les fonctionnalités manquantes ;
-  Préparer une base de code commune entre les deux versions afin d’éviter au maximum un double développement des outils entre les deux versions ;
-  Tester, évaluer et valider la nouvelle version au travers de différentes expérimentations menées sur des données réelles ou artificielles ;
-  Rédiger un rapport de stage.

Profil recherché
-  stagiaire BAC+5 en informatique : école d’ingénieur ou université
-  curieux(/se), ingénieux(/se) et motivé(e) pour le domaine de la recherche appliquée
-  programmation objet (Java, Scala), environnements Eclipse ou IntelliJ, tests unitaires, tests d’intégration
-  des notions en statistiques / exploration de données (data mining) est un plus

Référence http://www.modulad.fr/archives/nume...