- Organisation/Entreprise
-
Inria
- Domaine de recherche
-
L’informatique
- Profil de chercheur
-
Chercheur reconnu (R2)
- Pays
-
France
- Date limite d’inscription
- Type de contrat
-
À définir
- Statut du travail
-
À temps plein
- Heures par semaine
-
À définir
- Le poste est-il financé par le programme-cadre de recherche de l’UE ?
-
Non financé par un programme de l’UE
- L’emploi est-il lié au poste du personnel au sein d’une infrastructure de recherche ?
-
Non
Description de l’offre
Contexte et atouts du poste
Objectif
Optimiser la formation et l’inférence des réseaux de neurones modernes pour créer des modèles d’IA à grande échelle pour la science. Développer des approches théoriques et les logiciels correspondants.
Des déplacements réguliers sont-ils prévus pour ce poste ?
Visites de courte durée de conférences et de laboratoires collaboratifs. L’équipe s’engage notamment dans une étroite collaboration avec Caltech dans le cadre de l’Associated Team ELF.
Mission confiée
Contexte de la Recherche Scientifique :
La disponibilité sans précédent des données, des calculs et des algorithmes a permis une nouvelle ère dans l’IA, comme en témoignent des avancées telles que les transformateurs et les LLM, les modèles de diffusion, etc., conduisant à des applications révolutionnaires telles que ChatGPT, l’IA générative et l’IA pour la recherche scientifique. Cependant, toutes ces applications partagent un défi commun : elles ne cessent de croître, ce qui rend les modèles de formation plus difficiles. Cela peut constituer un goulot d’étranglement pour l’avancement de la science, tant à l’échelle industrielle que pour les petites équipes de recherche qui n’ont peut-être pas accès à une très grande infrastructure de formation. Bien qu’il existe déjà une série de techniques efficaces (par exemple, voir l’aperçu [2]), les plus récentes reposent toujours sur des réglages manuels d’hyperparamètres ou manquent d’optimisation conjointe automatique des approches orthogonales (par exemple, pipeline et rematérialisation avancée).
Description du travail:
Concernant la phase de formation, un groupe de méthodes propose des techniques de parallélisation avancées, telles que le parallélisme modèle et pipelined, pour lesquelles les membres de Topal ont déjà contribué [1, 3, 4]. Ils sont utilisés pour diviser les modèles entre les appareils. Un autre groupe de méthodes considère les optimiseurs efficaces. Par exemple, l’optimiseur ZeRO propose un partitionnement état/gradients de l’optimiseur pour réduire l’empreinte mémoire lors de l’étape d’optimisation. De plus, pour réduire l’allocation de mémoire requise par GPU, des techniques de déchargement et de point de contrôle (ou de rematérialisation) peuvent être utilisées. Le déchargement vers le processeur permet d’économiser de la mémoire au prix d’une surcharge sur les communications, tandis que le point de contrôle d’activation recalcule des parties du graphe de calcul lorsqu’il est appliqué, économisant ainsi de la mémoire au prix d’une surcharge sur les calculs. Tous les types de techniques peuvent être combinés pour obtenir un meilleur débit. Des articles récents envisagent une combinaison de parallélisme de pipeline avec des techniques de points de contrôle d’activation [5, 6].
Un point important est que les algorithmes avec une complexité temps/mémoire théoriquement meilleure dans la pratique pourraient fournir moins d’avantages que ce que l’on pourrait attendre des dérivations analytiques. La raison en est la surcharge causée par le matériel spécifique que nous utilisons pour former ou exécuter des réseaux neuronaux. Pour rendre les algorithmes d’apprentissage profond efficaces dans la vie réelle, il est important de combiner l’optimisation logicielle et matérielle lors de la création de nouveaux algorithmes d’apprentissage profond.
Au cours de la thèse, nous prévoyons de proposer de nouvelles approches pour améliorer l’efficacité (mémoire/temps/coûts de communication) de la formation et de l’inférence des réseaux neuronaux. En particulier, en trouvant le meilleur calendrier d’exécution du modèle qui permet d’utiliser différents types de techniques, y compris, mais sans s’y limiter, les parallélismes, la rematérialisation, le déchargement et les calculs à faible débit. Parallèlement à la contribution théorique dans le domaine, un logiciel sera développé pour optimiser automatiquement la formation et l’inférence des architectures modernes d’apprentissage profond.
Les applications potentielles incluront, sans s’y limiter, la vision par ordinateur, le traitement du langage naturel, le climat, etc.
Les références:
[1] Zhao, X., Le Hellard, T., Eyraud-Dubois, L., Gusak, J. & Beaumont, O. (2023). Rockmate : un outil de rematérialisation efficace, rapide, automatique et générique dans PyTorch. Actes de la 40e Conférence internationale sur l’apprentissage automatique
[2] Gusak, J., Cherniuk, D., Shilova, A., Katrutsa, A., Bershatsky, D., Zhao, X., Eyraud-Dubois, L., Shlyazhko , O., Dimitrov, D., Oseledets, I. et Beaumont, O. (juillet 2022). Enquête sur la formation aux réseaux neuronaux à grande échelle. Dans IJCAI-ECAI 2022-31e Conférence conjointe internationale sur l’intelligence artificielle (pp. 5494-5501). Organisation des conférences internationales conjointes sur l’intelligence artificielle.
[3] Beaumont, O., Eyraud-Dubois, L., Shilova, A. et Zhao, X. (2022). Stratégies de déchargement de poids pour la formation de grands modèles DNN.
[4] Beaumont, O., Eyraud-Dubois, L. et Shilova, A. (2021). Combinaison efficace de rematérialisation et de déchargement pour les DNS de formation. Avancées dans les systèmes de traitement de l’information neuronale, 34, 23844-23857.
[5] Smith, S., Patwary, M., Norick, B., LeGresley, P., Rajbhandari, S., Casper, J., Liu, Z., Prabhumoye, S., Zerveas, G., Korthikanti, V. et Zhang, E., 2022. Utilisation de deepspeed et de mégatron pour entraîner le mégatron-turing nlg 530b, un modèle de langage génératif à grande échelle. Préimpression arXiv arXiv:2201.11990.
[6] Li, S. et Hoefler, T. (novembre 2021). Chimère : entraîner efficacement des réseaux de neurones à grande échelle avec des pipelines bidirectionnels. Dans Actes de la Conférence internationale sur le calcul, les réseaux, le stockage et l’analyse haute performance (pp. 1-14).
Principales activités
Activités:
- Implémentez différentes techniques pour une formation et une inférence multi-GPU efficaces.
- Proposition de nouvelles approches pour un apprentissage profond efficace (basées sur le pipeline, le checkpointing, le déchargement et d’autres techniques d’optimisation).
- Développement de logiciels pour optimiser automatiquement la formation et l’inférence des architectures modernes de deep learning.
- Réalisez des expériences avec des réseaux de neurones modernes, notamment des modèles de type GPT et des opérateurs neuronaux. Les applications potentielles incluront, sans s’y limiter, la vision par ordinateur, le traitement du langage naturel, le climat, etc.
- Analysez les performances des modèles à l’aide d’outils de profilage.
- Rédiger des articles scientifiques
- Collaborer avec des collègues Topal en Europe et aux États-Unis
Compétences
Compétences techniques et niveau requis :
- Bonnes connaissances en Machine Learning et Deep Learning
- Connaissances de base en algèbre linéaire, optimisation, théorie des probabilités, calcul
- Expérience avec Python, PyTorch, LaTeX, Linux, Git (sera un plus : Docker, Singularity, Slurm)
Langues : Anglais
Avantages
- Repas subventionnés
- Remboursement partiel des frais de transports en commun
- Possibilité de télétravail et organisation flexible des horaires de travail
- Matériel professionnel à disposition (visioconférence, prêt de matériel informatique, etc.)
- Événements et activités sociales, culturelles et sportives
- Accès à la formation professionnelle
- Couverture sociale
Rémunération
- 2100€ / mois (avant taxes) pendant les 2 premières années,
- 2190€ / mois (avant taxes) la troisième année.
Exigences
Où postuler
- Site web
Características del Puesto
Categoría de Puesto | Doctorat |