Master 2013 2014
psar
Fée (proj. Sorbonne@Univ.) : metacloud & very-very-big-data


Site :Trac-Fée (proj. Sorbonne@Univ.) : metacloud & very-very-big-data
Lieu :Jussieu
Encadrant : B.Folliot en coopération avec le Muséum d'Histoire Naturelle
Dates :standard


Description

PSAR 2014 B. Folliot Stage pour 2-4 étudiants

Lors des journées Convergence@Sorbonne Universités (9 octobre 2013, à l’Université Pierre & Marie Curie), il est apparu qu’il y avait un manque flagrant de coopération et de collaboration des différentes branches scientifiques liées aux Sciences de l’Environnement. Pourtant, chaque branche récolte des données partielles, complémentaires aux autres branches ou pouvant être obtenues à partir des données récoltées par d’autres. Cela induit un travail parfois inutile (redondant), peut biaiser les résultats, et rend difficile une vision à plus ou moins long terme de la gestion de ces données pour les sciences participatives sont aujourd’hui un succès scientifique et médiatique. Plus de 10 000 observateurs déposent chaque année des données. Ce succès a généré une forte attente, aussi bien de la part des participants que du grand public, d’outils et méthodes d’analyse et de traitement des données permettant de simuler des scénarios ou réaliser des prévisions variées en exploitant les données collectées par tous les observateurs.

La satisfaction de cette attente légitime est confrontée à trois problèmes. L’analyse de données en écologie a atteint un tel niveau de complexité qu’elle est très difficilement accessible au plus grand nombre. Compte tenu de la diversité des demandes, la mise à disposition des outils d’analyses requiert d’importantes ressources de calcul et de stockage pour réaliser efficacement les analyses (simulations, prévisions) attendues et partager toutes les données dérivées générées. Enfin, l’hétérogénéité des sites, des formats, ainsi que des bases de données où sont enregistrées les données collectées rend difficile l’accès à ces mêmes données et ne facilite pas les collaborations entre observateurs.

Ce projet vise à automatiser et unifier les consultations des données des sciences participatives. D’un point de vue utilisateur, le projet vise à termes à proposer des services d’analyse et de prédiction. D’un point de vue système, le projet vise d’une part à développer des modules flexibles d’extraction de données accessible via un « portail » de consultation et de restitution des données ; d’autre part la définition de modèles de fédération et de coopération de clouds capables de répondre efficacement aux besoins (gestion de gros volumes de données, simulations à grande échelle, etc) d’un service des données des sciences participatives.