Type de contrat : Contrat à durée déterminée
Niveau de qualification requis : Diplôme d’études supérieures ou équivalent
Fonction : Doctorat
Contexte
Environnement financier et de travail.
Cette thèse sera hébergée par Inria (équipe Myriads, Rennes Bretagne Atlantique) et sera financée par Inria. Ce sous-projet s’inscrit dans le cadre collaboratif Inria-OVH. Ainsi, les travaux seront menés en étroite collaboration avec OVH. En fait, nous prévoyons de valider les résultats du projet en utilisant plusieurs services de données d’OVH, y compris les services de sauvegarde et le service de médias, etc.
Le doctorant sera encadré par :
- Shadi Ibrahim, membre de l’équipe Myriads à Rennes
- Guillaume Pierre, responsable de l’équipe Myriads à Rennes
- Jean-François Smigielski, Ingénieur Logiciel spécialisé en Block Storage, OVHcloud
- Romain De Joux, Responsable Technique Stockage Objet, OVHcloud
Des visites et rencontres entre le candidat retenu et les encadrants seront organisées, ainsi que des rencontres avec les autres membres du cadre collaboratif Inria-OVH.
Mission
Contexte
La quantité de données observée depuis le monde connaît une croissance exponentielle, atteignant 64,2 zettaoctets en 2020. Pour répondre à la demande sans cesse croissante de ressources informatiques pour stocker et traiter le Big Data, les grands fournisseurs de cloud ont équipé leurs infrastructures de millions de serveurs gourmands en énergie répartis sur plusieurs centres de données physiquement séparés. Il en résulte une augmentation considérable de l’énergie consommée pour faire fonctionner ces centres de données. Cependant, comme les données et l’échelle des centres de données sont en augmentation, la consommation d’énergie continuera d’être une préoccupation majeure dans le Cloud. Il est donc important de rendre la gestion des données dans le cloud économe en énergie.
Les données sont généralement répliquées pour garantir une disponibilité et des performances élevées (en dirigeant les utilisateurs vers la réplique la plus proche). Cependant, la réplication s’accompagne de coûts élevés en termes d’espace de stockage à terme, d’utilisation du réseau et de performances lors de l’écriture des données. Cela se traduit également par une forte consommation d’énergie [1], notamment pour stocker et transférer des données.
Récemment, nous avons été témoins de progrès dans les performances des schémas de réduction et de protection tels que le codage d’effacement (EC), la déduplication, la compression, etc. Ainsi, des efforts récents ont été consacrés à étudier le potentiel de remplacement de la réplication par le codage d’effacement pour réduire le coût des données. stockage tout en conservant de bonnes performances. Par exemple, EC est maintenant utilisé dans les systèmes d’analyse de données [2, 3] et les systèmes de stockage en mémoire sur des données mises en cache (à chaud) [4]. Bien que les avantages existent, l’EC pose de nouveaux défis, notamment le coût d’accès, la consommation d’énergie (encodage, décodage, etc.), la disponibilité des données et la perte de données. De plus, lors de l’adoption de l’EC, nous devons prendre en considération les exigences de fréquence et de performance des données qui varient en fonction de l’âge et du type de données, de l’heure d’accès, des applications et des utilisateurs.
Les références
[1] Yacine Taleb, Shadi Ibrahim, Gabriel Antoniu et Toni Cortes : Caractérisation des performances et de l’efficacité énergétique du système de stockage ramcloud. En 2017 IEEE 37th International Conference on Distributed Computing Systems (ICDCS), pages 1488–1498, 2017.
[2] Jad Darrous et Shadi Ibrahim : Comprendre les performances des codes d’effacement dans le système de fichiers distribué hadoop. Dans Actes de l’atelier sur les défis et les opportunités des systèmes de stockage efficaces et performants (CHEOPS ’22). Pages 24–32, 2022.
[3] Jad Darrous, Shadi Ibrahim et Christian Perez : Est-il temps de revisiter le codage d’effacement dans les clusters intensifs en données ? En 2019 IEEE 27th International Symposium on Modeling, Analysis, and Simulation of Computer and Telecommunication Systems (MASCOTS), pages 165–178, 2019.
[4] KV Rashmi, Mosharaf Chowdhury, Jack Kosaian, Ion Stoica et Kannan Ramchandran : EC-cache : mise en cache de cluster à charge équilibrée et à faible latence avec codage d’effacement en ligne. Dans Actes de la 12e conférence USENIX sur la conception et la mise en œuvre des systèmes d’exploitation (OSDI’16).
Activités principales
Cette thèse de doctorat abordera le problème de l’amélioration de l’efficacité énergétique des services Big Data en explorant les schémas de réduction et de protection des données (c’est-à-dire les codes d’effacement). Cette recherche devrait apporter des contributions innovantes sur les aspects suivants :
- Dans un premier temps, nous devons profiler et classer les applications en fonction de leurs objectifs (énergie, performances, durabilité, etc.), de leurs schémas d’accès et de leurs modes de déploiement ; et étudier et modéliser les performances, la consommation énergétique et la perte de données des applications sous EC et réplication ;
- Les données sont de tailles différentes et ont des températures (fréquence d’accès) différentes. Par conséquent, un schéma hybride (utilisant la réplication et EC) est plus pratique pour les données hétérogènes (par exemple, EC peut ne pas être le meilleur choix pour les petits fichiers). est essentiel pour évaluer le coût de la transformation des données entre la réplication et l’EC lorsque des schémas hybrides sont utilisés ;
- Sur la base des modèles de performance et du modèle de coût, nous proposerons des stratégies innovantes de placement et de récupération de données pour optimiser les performances et la consommation d’énergie d’EC qui prennent en considération l’emplacement des performances souhaitées par les utilisateurs, la disponibilité de matériel à haut débit et la disponibilité de sources d’énergie verte.
Compétences
- Un excellent Master en informatique ou équivalent
- Solide connaissance des systèmes distribués
- Connaissance des systèmes de stockage et de fichiers distribués
- Solides compétences en programmation (C/C++, Python)
- Une expérience de travail dans les domaines de la gestion du Big Data, du Cloud Computing et de l’analyse de données est un avantage
- Très bonnes capacités de communication en anglais oral et écrit
Ensemble d’avantages sociaux
- Repas subventionnés
- Remboursement partiel des frais de transport en commun
- Congés : 7 semaines de congés annuels + 10 jours supplémentaires de RTT (réduction légale du temps de travail) + possibilité de congés exceptionnels (enfants malades, déménagement…)
- Possibilité de télétravail (après 6 mois d’emploi) et organisation flexible des horaires de travail
- Matériel professionnel disponible (visioconférence, prêt de matériel informatique, etc.)
- Événements et activités sociaux, culturels et sportifs
- Accès à la formation professionnelle
- Couverture sociale
Informations générales
- Thème/Domaine : Systèmes Distribués et middleware
Système & Réseaux (BAP E) - Ville : Rennes
- Centre Inria : Centre Inria de l’Université de Rennes
- Date de début : 2023-10-01
- Durée du contrat : 3 ans
- Date limite pour postuler : 2023-08-20
Contacts
- Equipe Inria : MYRIADS
- Directeur de thèse :
Ibrahim Shadi / Shadi.Ibrahim@inria.fr
À propos d’Inria
Inria est l’institut national de recherche français dédié aux sciences et technologies du numérique. Elle emploie 2 600 personnes. Ses 200 équipes-projets agiles, généralement co-animées avec des partenaires académiques, regroupent plus de 3 500 scientifiques et ingénieurs œuvrant pour répondre aux enjeux du numérique, souvent à l’interface avec d’autres disciplines. L’Institut emploie également de nombreux talents dans plus de quarante métiers différents. 900 personnels d’appui à la recherche contribuent à l’élaboration et au développement de projets scientifiques et entrepreneuriaux à rayonnement mondial.
Instruction pour postuler
Défense Sécurité :
Ce poste est susceptible d’être situé en zone réglementée (ZRR), telle que définie par le décret n°2011-1425 relatif à la protection du potentiel scientifique et technique national (PPST). L’autorisation d’entrer en zone est accordée par le directeur de l’unité, après décision ministérielle favorable, tel que défini dans l’arrêté du 3 juillet 2012 relatif au PPST. Une décision ministérielle défavorable à l’égard d’un poste situé dans une ZRR entraînerait l’annulation de la nomination.
Politique de recrutement :
Dans le cadre de sa politique de diversité, tous les postes d’Inria sont accessibles aux personnes en situation de handicap.
Attention : vous devez saisir votre adresse e-mail afin d’enregistrer votre candidature auprès d’Inria. Les candidatures doivent être déposées en ligne sur le site Inria. Le traitement des candidatures envoyées par d’autres canaux n’est pas garanti.
Características del Puesto
Categoría de Puesto | Doctorat |