Chercheur - Apprentissage par renforcement

- Edmonton, Alberta
- Markham, Ontario
- Montréal , Québec
+2 plus
8dce5

Description de l'offre d'emploi

Huawei Canada a une ouverture pour un contrat immédiate de 12 mois pour un Chercheur - Apprentissage par renforcement.

À propos de l'équipe :

Fondé en 2012, le laboratoire Noah's Ark est devenu une organisation de recherche de premier plan avec des réalisations notables dans le milieu universitaire et industriel. La mission du laboratoire se concentre sur l'avancement de l'intelligence artificielle et des domaines connexes pour bénéficier à l'entreprise et à la société. Animé par des projets impactants à long terme, l'objectif est d'améliorer la recherche de pointe tout en intégrant des innovations dans les produits et services de l'entreprise, y compris les LLM, le RL, le NLP, la vision par ordinateur, la théorie de l'IA et la conduite autonome.

À propos du poste :

Permettre aux grands modèles de langage (LLMs) d'apprendre de l'expérience, de l'interaction et des retours de l'environnement, allant au-delà du simple ajustement statique vers une amélioration continue, agente et autonome.
Paradigmes post-entraînement des LLM (par ex., RLHF, GRPO, méthodes sans récompense, etc.).
Apprentissage par renforcement agissant pour les LLM utilisant des outils et basés sur la navigation, formés dans des environnements interactifs.
Évaluation et benchmarking agissants, y compris la conception de tâches de raisonnement vérifiables à plusieurs tours.
Votre travail consistera à mettre en œuvre et évaluer de nouveaux pipelines d'entraînement et d'évaluation pour les LLM améliorés par le raisonnement et les agents utilisant des outils, à mettre à l'échelle les expériences sur de grands clusters GPU, et à contribuer à des idées scientifiques et publications dans ce domaine émergent.

Pré-requis du poste

Profil du candidat idéal :

Doctorat en informatique ou domaines connexes ou master avec une expérience comparable.
Solide base en apprentissage profond, y compris des architectures telles que les Transformers et des techniques d'optimisation pour les grands modèles.
Expérience pratique ou de recherche en apprentissage par renforcement, en auto-apprentissage supervisé ou en ajustement de modèles de langage.
Dossier de recherche prouvé en IA avec au moins un article en tant que premier auteur dans des lieux de premier plan, tels que NeurIPS, ICML, ICLR, CVPR, ICCV, ECCV, ICRA.
Maîtrise de Python et expérience avec PyTorch, DeepSpeed, Megatron et d'autres cadres d'entraînement distribué.
Familiarité avec les pipelines post-entraînement des LLM (RLHF, GRPO/PPO, SFT, LoRA, MoE, etc.) est un atout.
Expérience en apprentissage par renforcement multi-agent, agents utilisant des outils / navigateur/codage, est un atout.
Solides compétences en communication et rédaction ; enthousiasme pour la recherche ouverte et la résolution collaborative de problèmes.

L'utilisation du genre masculin a été adoptée afin de faciliter la lecture et n'a aucune intention discriminatoire.

Huawei vise à soutenir un environnement de travail en français pour ses employés au Québec. Nous avons pris des mesures pour éviter d'exiger une langue autre que le français pour ce poste. Cependant, la maîtrise de l'anglais est essentielle pour ce rôle pour les raisons suivantes :

La personne sera appelée à communiquer régulièrement avec des collègues à l'extérieur du Québec, où l'anglais est la principale langue utilisée pour la communication entre les bureaux. De plus, la nature des tâches relatives à ce poste, qui relève d’un domaine hautement spécialisé en intelligence artificielle, exige aussi la connaissance de l’anglais.

Chercheur - Apprentissage par renforcement

Description de l'offre d'emploi

Pré-requis du poste

C'est fait !