- Organisation/Entreprise
-
Ecole Nationale Supérieure des Mines de Saint Etienne
- Domaine de recherche
-
Autre
- Profil de chercheur
-
Chercheur de première étape (R1)
- Pays
-
France
- Date limite d’inscription
- Type de contrat
-
Temporaire
- Statut du travail
-
À temps plein
- Heures par semaine
-
40
- Date de début de l’offre
- Le poste est-il financé par le programme-cadre de recherche de l’UE ?
-
Non financé par un programme de l’UE
- L’emploi est-il lié au poste du personnel au sein d’une infrastructure de recherche ?
-
Non
Description de l’offre
Environnement de travail:
L’Institut Mines-Télécom (IMT) est le 1er groupe public de grandes écoles de France. Composé de huit écoles publiques et de deux écoles affiliées, l’IMT construit un riche écosystème de partenariats académiques et industriels dédiés à l’enseignement supérieur, à la recherche et au développement économique.
IMT accorde un rôle central à la souveraineté et à la sobriété numériques dans sa stratégie, réalisée via les activités de sa communauté scientifique Data&AI ciblant, entre autres, l’IA durable. Cet axe stratégique a conduit l’IMT à rejoindre le réseau d’excellence ENFIELD, qui structure la recherche d’une trentaine de partenaires européens dans le cadre d’une IA fiable et verte ( European Lighthouse to Manifest Trustworthy and Green AI , voir https://www.enfield-project.eu / ). Mines Saint-Étienne, l’une des huit Grandes Écoles de l’IMT, ouvre un poste de post-doc pour renforcer sa présence à ENFIELD.
Mines Saint-Étienne mène des recherches sur l’IA durable sous l’angle du coût de calcul de l’apprentissage automatique et de l’évaluation du cycle de vie des systèmes d’IA.
Défis scientifiques :
Les modèles de langage et autres modèles fondamentaux basés sur des réseaux de neurones profonds sont devenus omniprésents en quelques années. Cependant, déjà après l’introduction de l’architecture Transformer dans la littérature, la question de leur coût de calcul s’est posée. Leurs grandes capacités de généralisation proviennent principalement du fait qu’ils possèdent un grand nombre de paramètres configurables, par rapport à leurs prédécesseurs. Pourtant, on peut observer empiriquement que les progrès réalisés depuis 2012 en matière d’apprentissage automatique se sont accompagnés d’une croissance exponentielle du coût de calcul nécessaire à la formation d’un modèle.
L’adoption croissante des réseaux de neurones dans les systèmes d’information pose la question de la durabilité de l’IA au regard de notre environnement. À son tour, contrôler le coût de calcul de l’IA nécessite des indicateurs solides pour prendre des décisions avant la phase de conception de tout système d’information. L’écoconception logicielle impose par exemple de justifier que toute solution à coût informatique/environnemental élevé répond à un besoin spécifique et ne peut être remplacée par une solution moins coûteuse.
Pourtant, il n’existe actuellement aucun indicateur a priori lié au coût de calcul d’un modèle d’apprentissage automatique. De nombreuses dimensions entrent en jeu, notamment la quantité de données d’entraînement, la complexité du modèle ou encore les performances matérielles. Certaines de ces dimensions sont disponibles en ligne : Hugging Face, par exemple, publie des fiches modèles qui indiquent le nombre de paramètres pouvant être entraînés par le modèle, les données d’entraînement qui ont été utilisées et, parfois, une estimation de la consommation d’énergie pendant l’entraînement. Cependant, une carte modèle ne fournit aucune information une fois le modèle formé (c’est-à-dire au moment de l’inférence).
Les pratiques actuelles en IA nécessitent le développement d’un indicateur de coût de calcul adapté à l’éco-conception. Cet indicateur pourra être évalué sur les différents modèles développés par les partenaires d’ENFIELD, ainsi que les membres de la communauté scientifique Data&AI de l’IMT.
Missions principales :
La mission principale du post-doc sera de concevoir une approche d’analyse statique pour estimer le coût de calcul d’un modèle d’apprentissage automatique implémenté avec une bibliothèque de tenseurs telle que PyTorch, TensorFlow ou NumPy. L’approche devra prendre en compte plusieurs dimensions, notamment la taille des données, la taille du modèle et les caractéristiques matérielles telles que la taille de la mémoire et le nombre de cœurs parallèles.
Le post-doc aura également pour mission d’animer les échanges scientifiques entre les partenaires d’ENFIELD, structurés dans une matrice composée de piliers ( Green AI , Adaptive AI , Human -Centric AI et Trustworthy AI ) et de domaines d’application ( Energy , Healthcare , Manufacturing et Space ). Chaque pilier et chaque domaine d’application est associé à un groupe de travail qui doit se coordonner avec d’autres groupes de travail.
Activités principales :
Le post-doc comprend les activités suivantes :
- Revue des modèles disponibles sur Hugging Face, des modèles développés à l’IMT et des modèles développés par les partenaires ENFIELD,
- Conception d’un indicateur de coût de calcul pour ces modèles (par exemple un certain nombre de FLOP),
- Développement d’un outil d’analyse statique pour calculer des estimations à partir du code (ex : à partir des fonctions PyTorch)
- Participation au groupe de travail ENFIELD
- Participation aux activités organisées par la communauté scientifique Data&AI de l’IMT
Profil:
Compétences, connaissances :
- Doctorat en IA, mathématiques appliquées ou génie logiciel
Les conditions de travail:
- Contrat public de 18 mois (salaire standardisé selon expérience)
- Débutant vers juillet-septembre 2024
- À temps plein
- Basé à Saint-Étienne
- 49 jours de vacances
- Travail à distance partiel autorisé
Exigences
- Domaine de recherche
- Autre
- niveau d’éducation
- Doctorat ou équivalent
- Doctorat en IA, mathématiques appliquées ou génie logiciel
- Langues
- FRANÇAIS
- Niveau
- Bien
Où postuler
- Site web
Job Features
Job Category | Postdoctoral |