Master 2012 2013
Stages de la spécialité SAR
Gestion de provenance XML dans la plate-forme répartie WebLab


Site :LIP6 BD
Lieu :Laboratoire LIP6, équipe Bases de Données
Encadrant : Camelia Constantin, Bernd Amann
Dates :du 01/04/2013 au 30/09/2013
Rémunération :436 euros/mois
Mots-clés : Parcours SAR autre qu’ATIAM, recherche, Parcours SAR, aussi pour STL


Warning: Illegal string offset 'id_auteur' in /dsk/www-master/html/2012/ecrire/public/assembler.php(625) : eval()'d code on line 3
Cliquer ici pour vous authentifier


Warning: Illegal string offset 'statut' in /dsk/www-master/html/2012/ecrire/public/assembler.php(625) : eval()'d code on line 1

Warning: Illegal string offset 'id_auteur' in /dsk/www-master/html/2012/ecrire/public/assembler.php(625) : eval()'d code on line 2

Description

La plate-forme répartie WebLab (http://weblab-project.org/) permet de définir de chaînes de traitements des données multimédia à l’aide d’une orchestration de services Web. On peut ainsi extraire des informations des données Web (pdf, vidéo, audio, etc), les stocker sous format XML et RDF et les interroger en XQuery ou SPARQL. Chaque service de la chaîne d’une composition de services traite et produit des documents XML.

Dans ce contexte, nous avons défini un modèle de provenance (article disponible à la demande), qui permet de connaître pour un fragment XML, sa provenance, c’est à dire les services et les données qu’ils ont utilisées pour le produire. Cette connaissance permet d’identifier ultérieurement d’éventuelles problèmes d’exécution ou de trouver des erreurs générées par les services impliqués dans son traitement, et également de déduire une notion de qualité des services et des données. Nous avons également développé une architecture (article disponible à la demande) qui permet de tracer l’exécution des services et d’enregistrer certaines méta-données liées à l’exécution de services dans un workflow (temps d’exécution, date d’exécution, liens d’enchaînement d’exécutions de services ) dans une base de connaissances. Ces méta-données sont exprimées en utilisant l’ontologie PROV (http://www.w3.org/TR/prov-o/). Les requêtes des provenance sont ensuite traduites en requêtes SPARQL sur un entrepôt RDF.

Un problème lié à la gestion de la provenance est la taille des méta-données qui doivent être stockées, le temps nécessaire pour les enregistrer et l’efficacité des requêtes de provenance. Les prochaines étapes que nous envisageons sont les suivantes : (i) étudier différentes possibilités de générer ces méta-données (pendant l’exécution de services ou à la demande, lors des requêtes de provenance) et comparer les coûts des différentes possibilités de stockage. (ii) définition d’un langage d’interrogation de provenance et l’étude des différentes possibilités d’interrogation. Dans un premier temps, nous allons évaluer ces requêtes en utilisant le graphe de provenance pré-calculé et ensuite, nous allons également étudier les possibilités d’optimisation en utilisant des techniques de ré-écriture des requêtes en utilisant des vues.

Travail à effectuer :

- état de l’art sur les modèles de provenance, les stockage de provenance, les langages d’interrogation, et la ré-écriture des requêtes en utilisant des vues
- choix de stockage, définition du langage des requêtes et des stratégies d’évaluation
- implantation et expérimentation avec des données générées par différents workflows réels (déjà définis dans WebLab) ou artificiellement