Introduction
La généralisation des capteurs et des équipements mobiles, les programmes scientifiques, par exemple en astronomie, biologie, physique et agriculture, ainsi que le développement à grande échelle des réseaux sociaux ont conduit à l’émergence du phénomène « Big Data ». Ce phénomène se traduit par un accroissement sans précédent du volume, de la complexité, de la vitesse d’acquisition et de la variabilité des données. Celles-ci constituent l’entrée, ou la matière première, d’une chaîne de traitements complexes dont les principales phases sont :
- la collecte, le nettoyage, l’intégration et l’annotation structurale et/ou fonctionnelle des données,
- le stockage, l’indexation et l’interrogation des données,
- l’analyse et l’interprétation des données pour en dériver de la connaissance, et
- l’exploitation des connaissances dérivées pour une prise de décision rationnelle.
Les objectifs du projet AUDACE 2015
Le projet AUDACE 2015 constitue la première demande d’équipements structurants dans le cadre du défi AUDACE. Son premier objectif était de poser les fondations des infrastructures matérielles notamment en termes de réseau et d’équipements du datacenter de l’Université Clermont Auvergne (UCA par la suite). Son deuxième objectif était d’acquérir les ressources de calcul et de stockage pertinentes au démarrage d’une architecture multiprocesseurs à mémoire partagée et d’un cloud de calcul et de stockage.
Les principaux résultats attendus étaient les suivants :
- le développement des infrastructures communes intégrées au mésocentre régional, notamment le réseau pour accéder aux ressources installées au datacenter de l’UCA et l’infrastructure des équipements d’hébergement dans le datacenter.
- Le démarrage d’une architecture multiprocesseurs à mémoire partagée et d’un cloud de calcul et de stockage. Les équipements achetés constituent un point de départ suffisant pour démarrer une véritable offre de services aux communautés scientifiques utilisatrices du mésocentre. Ils seront complétés dans les années suivantes pour accompagner la montée en puissance des besoins des utilisateurs
- Le lancement de thématiques de recherche originales dans le domaine des données géoréférencées et de la bioinformatique
- Un soutien à la structuration du site dans le domaine de la bioinformatique par la mise à disposition de ressources et de services mutualisés
- La poursuite d’une activité de recherche originale et déjà reconnue dans le domaine de l’astronomie grand champ
Bilan de l’acquisition des matériels
Pour atteindre les objectifs du projet AUDACE 2015, les équipements suivants ont été acquis :
- à l’automne 2015, une première infrastructure de stockage et de calcul pour l’expérimentation scientifique a été acquise, installée et déployée par le Laboratoire d’Informatique et de Modélisation des Systèmes. Constituée de 13 machines physiques (5 noeuds de calcul, 3 nœuds de stockage, 5 machines de gestion de l’infrastructure), cette plate-forme propose un catalogue de services d’ingénierie et d’expérimentation scientifique à grande échelle particulièrement ciblé sur les besoins de l’astronomie grand champ. Baptisée Galactica, elle offre à la communauté de recherche en Science des Données une infrastructure de stockage et de calcul d’envergure, flexible et configurable selon les besoins spécifiques des expérimentations.
- L’équipement d’hébergement du datacenter de l’UCA a été renforcé grâce à une extension de l’infrastructure de routage centrale pour un montant de 79782,30 euros, d’une extension de l’infrastructure de commutation centrale pour un montant de 42637,20 euros et d’une extension de l’infrastructure de réseau déportée, pour un montant de 40148,81 euros. Des composants réseau (lien Datacenter-LPC) pour un montant de 43967 euros et des équipements de datacenter pour des montants de 71818 et 4919 euros sont venus compléter la montée en puissance du datacenter de l’UCA
- Un calculateur multiprocesseurs à mémoire partagée a été acquis pour un montant de 400507,36 euros avec des ressources de stockage associées pour un montant de 25100 euros.
- Les premiers éléments du cloud de production et de stockage ont été acquis pour un montant de 48293 euros au mois d’Avril 2016 pour faire une maquette. L’ensemble des équipements restants ont été acquis au mois de décembre 2017 pour un montant de 338791,20 euros.
Impact du projet
Le projet AUDACE 2015 apporte les ressources informatiques nécessaires au développement de l’offre de services pour les communautés scientifiques du site au Mésocentre.
L’effet de levier du projet est considérable en termes de ressources informatiques mais aussi en termes de structuration du site. Ainsi, le Mésocentre Clermont-Auvergne a été créé en avril 2015 pour fournir un environnement scientifique et technique propice au calcul haute performance. Il constitue le cadre pour la gestion mutualisée de l‘ensemble des équipements acquis au titre du projet AUDACE 2015. Grâce au soutien de l’ensemble des acteurs académiques de la recherche du site clermontois et notamment de l’université Clermont-Auvergne, il a bénéficié de trois recrutements d’ingénieurs permanents depuis 2015 pour l’administration des ressources et le support aux utilisateurs, dont un dédié à la bioinformatique.
Adossée aux ressources du projet AUDACE, la Plate-forme Auvergne Bio-informatique est depuis 2016 membre du réseau de l’Institut Français de Bioinformatique, adossée au PRABI de Lyon.
Les ressources du projet AUDACE 2015 sont nécessaires à l’exploitation des données collectées sur les sites environnementaux équipés de capteurs et mis en réseau grâce au projet commun ConnecSens présenté en 2016 par des défis AUDACE et SYMBIOSE. Elles sont utilisées pour l’étude du rôle des ARN non codants dans la réponse de cellules eucaryotes à des stress variés dans le cadre du projet commun ICARES présenté en 2017 par les défis EPICURE et AUDACE.
Activités de recherche
Trois thèses financées sur le projet ont démarré avec succès à l’automne 2015.
Développement d’outils dédiés à la reconstruction de génomes de microorganismes à partir des données de séquençage haut-débit
Démarrée au 1/11/2015, la thèse de Kevin Grenouil porte sur l’étude du patrimoine génétique des micro organismes qui peuplent tout type d’écosystème. Néanmoins, face au déluge de données produites par ces approches dites de métagénomique, la reconstruction des génomes des individus d’un ou plusieurs métagénomes, pour appréhender le fonctionnement biologique des écosystèmes complexes, représente un enjeu majeur de la bio-informatique. Il est ainsi nécessaire de développer des méthodes de novo afin de minimiser les biais induits par les connaissances a priori. Ces méthodes, dites de binnning, consistent à établir le profil des fragments de génomes issus des métagénomes selon leur composition en nucléotides et/ou leur abondance au sein d’un ou plusieurs métagénomes pour les regrouper.
Le travail utilise les ressources acquises dans le cadre du projet AUDACE pour exécuter un ensemble de logiciels bioinformatiques, notamment pour l’assemblage de séquences métagénomiques, la manipulation des fichiers de données biologiques et le traitement de ces données.
Production scientifique :
- Poster pour JOBIM 2016 :
- Gravouil K., Antoine V., Hochart C., Debroas D., Pailloux M., Peyretaillade Eric. Unsupervised binning of metagenomic sequences : review, benchmark and challenges. (Soumission en cours dans la revue Briefings in bioinformatics)
Gestion des données manquantes dans les grands entrepôts de données géo référencées (EDS) : Application aux données agricoles
Démarrée au 01/11/2015, la thèse de Nestor Koueya sous l’encadrement de Sandro Bimonte (TCSF), Libo Ren (CRCGM), Engelbert Mephu Nguifo (LIMOS) étudie la problématique des données manquantes. Malgré la quantité croissante de données disponibles et l’émergence du Big Data, cette problématique reste très répandue et nécessite une approche particulière puisqu’ignorer les données manquantes peut entraîner, outre une perte de précision, de forts biais dans les modèles. Ainsi, l’objectif de cette thèse est de proposer une approche de gestion des données manquantes dans les EDS en prenant en compte de gros volumes (Big Data), à ce jour disponibles grâce aux nouveaux moyens d’acquisition (données du Web, réseaux de capteurs, etc.).
Production scientifique
- Koueya N., Bimonte S., Ren L., Mephu Nguifo E., 2016. Imputation of Missing Values in Data Warehouse : A Generic Approach of Integration of Aggregation Constraints. International Workshop on Information Search, Integration, and Personalization (ISIP).
- Koueya N., 2016. Imputation des données manquantes dans les Entrepôts de données multi-granulaires. Dans Rencontres doctorales BDA, du 15 au 18 Novembre, Futuroscope, Poitiers - France.
- Koueya N., Bimonte S., Mephu Nguifo E., 2014. Une nouvelle approche d’estimation pour les entrepôts de données multi-granulaires incomplètes. In EDA 2014, vol. RNTI-B-10, pp.129-144.
Optimisation de requêtes en présence des UDFs dans les systèmes d’intégration de grandes masses de données
Dirigé par E. Gangler (LPC) et F. Toumani (LIMOS), le travail de recherche de Chao Zhang démarré au 1/11/2015 s’inscrit dans le contexte du projet PetaSky qui vise à étudier les problèmes liés à la gestion, l’analyse et l’exploration des grandes masses de données scientifiques issues d’observations astronomiques grand champ.
Il porte sur l’étude de l’optimisation des requêtes en présence de fonctions définies par l’utilisateur (UDF) dans le contexte d’une approche d’intégration d’information.
Production scientifique
- Chao Zhang, Symmetric and Asymmetric Aggregate Function in Massively Parallel Computing, Proceedings of the VLDB 2017 PhD Workshop, Munich, Allemagne.
- Chao Zhang, Emmanuel Gangler, Efficient computation of aggregate functions in large scale data processing frameworks, Lightning talk, XLDB’2017, Clermont-Ferrand, France.
- Chao Zhang, Symmetric and Asymmetric Aggregate Function in Massively Parallel Computing, Articles doctorants, BDA’2017, Nancy, France.
Autres publications sur le thème de la thèse :
- A.Mesmoudi, M-S Hacid, F. Toumani : Benchmarking SQL on MapReduce systems using large astronomy databases. Distributed and Parallel Databases Journal 34(3) : 347-378 (2016).
- A.Belghoul, M. Baiou, R. Ciucanu, F. Toumani : Optimizing Communication Time via Middleware Tuning, Conférence BDA 2017, Nancy, France.
- NR Stancioiu, L Nourine, JM Petit, VM Scuturici, D Fouchez, E Gangler, P. Gris : Discovering Injective Mapping Between Relations in Astrophysics Databases. Workshop ISIP 2016, Pages 18-32, Springer CCIS, Volume 760
Remerciements
Ce projet n’aurait pas pu être possible sans le soutien de :