Informations sur l’emploi
- Organisation/Entreprise
-
Ecole Nationale Supérieure des Mines de Saint Etienne
- Domaine de recherche
-
Autre
- Profil de chercheur
-
Chercheur de première étape (R1)
- Pays
-
France
- Date limite d’inscription
- Type de contrat
-
Temporaire
- Statut du travail
-
À temps plein
- Heures par semaine
-
40
- Date de début de l’offre
- Le poste est-il financé par le programme-cadre de recherche de l’UE ?
-
Non financé par un programme de l’UE
- L’emploi est-il lié au poste du personnel au sein d’une infrastructure de recherche ?
-
Non
Description de l’offre
Contexte:
L’institut Fayol de Mines Saint-Étienne et le Laboratoire d’Informatique, Modélisation et Optimisation des Systèmes (LIMOS, UMR 6158) ouvre un poste de doctorat en représentation des connaissances et apprentissage automatique, pour travailler à l’intersection des technologies numériques et du développement durable.
La proposition de thèse vise à trouver des alternatives aux Large Language Models (LLM), caractérisés par un nombre élevé de paramètres entraînables et/ou un nombre élevé de tokens dans leur corpus de formation. L’utilisation des LLM s’accompagne donc de coûts énergétiques élevés, tant dans les phases de formation que d’inférence, et d’un manque de transparence sur le contenu généré. L’objectif de la thèse est de montrer que les Knowledge Graphs tels que Dbpedia, BabelNet ou ConceptNet peuvent être une solution à ces deux problèmes. Ils ont déjà été utilisés dans des tâches de réponse à des questions, malgré leur incomplétude notable sur la physique naïve (raisonnement spatio-temporel de base). Le caractère incomplet d’un Knowledge Graph peut cependant être comblé par l’apprentissage de représentations vectorielles des principaux concepts du graphe (son ontologie fondamentale), dont les propriétés géométriques restent sémantiquement interprétables.
Mission:
L’objectif de la thèse est de développer une méthode pour entraîner des représentations vectorielles de concepts à faible coût et produire un modèle de langage pré-entraîné à partir de DBpedia (ou similaire). Le modèle pré-entraîné serait ensuite utilisé pour un raisonnement spatio-temporel dans une application industrielle, afin de prouver l’utilité de telles représentations.
Activités:
La recherche sera menée à travers la gestion de la bibliographie, la conception et l’exécution d’expériences (sur des clusters de calcul), la rédaction et la présentation des résultats. Au cours du doctorat, le candidat devra gérer de gros volumes de données, utiliser des ressources de calcul sur des CPU/GPU dédiés et développer du code à l’aide de bibliothèques d’apprentissage automatique telles que PyTorch. Ils devront également appliquer des méthodes d’analyse du cycle de vie pour mesurer l’impact environnemental d’un calcul.
Le doctorant peut également participer à l’organisation d’ateliers doctoraux ou d’écoles d’été (avec chercheurs invités) et assister aux nombreuses manifestations scientifiques organisées entre les membres de l’institut Fayol ou du LIMOS.
Exigences
- Domaine de recherche
- Autre
- niveau d’éducation
- Master ou équivalent
Compétences techniques et cursus :
- Master ou équivalent, dans les domaines de l’informatique, de la science des données ou des mathématiques appliquées
- Connaissances préalables en :
- apprentissage automatique et/ou traitement du langage naturel
- logiques formelles et/org Web sémantique
- (grandes) bases de données relationnelles et/ou bases de données graphiques
Autres compétences:
- Anglais écrit et parlé (rédaction de rapports techniques et présentations orales)
- résolution de problèmes pratiques
- capacité à généraliser et à formaliser (mathématiquement)
- autonomie, initiative et curiosité intellectuelle
- Langues
- ANGLAIS
- Niveau
- Bien
- Langues
- FRANÇAIS
- Niveau
- Bien
Informations Complémentaires
- Site Web pour plus de détails sur le travail
Características del Puesto
Categoría de Puesto | Doctorat |