À la fin du cours, les étudiant(e)s seront capables de :
Comprendre et implémenter les principaux algorithmes d'apprentissage par renforcement (Q-Learning, DQN, PPO, SAC).
Appliquer le RL sur des environnements simples et complexes (exemple en robotique et jeux vidéos).
Réfléchir aux défis liés à l'exploration/exploitation, à la convergence, et à l'implémentation pratique.
Créer un agent RL pour un jeu vidéo afin de faire le lien avec la SAÉ au S10, en définissant les objectifs, les récompenses, et les contraintes.
Bloc 1 : Introduction générale & bases théoriques (6h)
Bloc 2 : Approfondissements des méthodes et algorithmes (6h) => Collaboration sur des sujets avancés et variés : PPO, SAC, Actor-Critic, etc.
Bloc 3 : Mise en pratique – TP/Projets guidés et créatifs (12h) => Utilisation d'environnements RL, focus sur résolution de problèmes et créativité des étudiants.
1. Introduction au RL
Théorie :
Introduction à l’apprentissage par renforcement (RL).
Concepts clés : agent, environnement, actions, états, récompenses.
Exemples d’applications concrètes.
TP (Pratique & Créatif) :
Prise en main d’OpenAI Gymnasium (environnements simples comme CartPole).
Manipulation d’environnements et observation des actions/récompenses.
2. Formalisation mathématique du RL
Théorie :
Modèle du Processus de Décision Markovien (MDP).
Notions de Value Function et Q-Function.
Introduction à l’équation de Bellman.
TP :
Implémentation d’un algorithme naïf pour évaluer une politique fixe sur un environnement simple.
3. Programmation dynamique (Value Iteration)
Théorie :
Algorithmes de Value Iteration et Policy Iteration.
Exemple avec récompenses et transitions connues.
TP :
Implémentation de Value Iteration sur un problème MDP simple (grille 2D).
4. Exploration et exploitation
Théorie :
Stratégies d’exploration : epsilon-greedy, exploration vs exploitation.
Présentation des algorithmes basés sur le Q-learning tabulaire.
TP :
Implémentation de Q-learning tabulaire sur un environnement simple (FrozenLake, Gymnasium).
5. Application du Q-Learning
Théorie :
Exemple de convergence du Q-learning.
Limites des méthodes tabulaires dans les environnements complexes.
TP :
Expérimentation sur le paramétrage du Q-learning (tests sur les valeurs de epsilon).
6. RL avec fonctions d’approximation (DQN)
Théorie :
Présentation du Deep Q-Learning (DQN).
Passage des méthodes tabulaires aux réseaux de neurones.
TP :
Implémentation d’un DQN avec Stable-Baselines3 sur un environnement comme LunarLander.
7. Projet intermédiaire : Jeux vidéo simples
Théorie :
Introduction aux environnements personnalisés pour jeux vidéo.
Exemples d’environnements RL (Super Mario RL, jeux 2D).
TP :
Découverte d’environnements type gym-retro ou création d’un environnement personnalisé (Pygame, Unity).
8. Les approches basées politiques (Policy Gradient)
Théorie :
Différences entre les approches value-based et policy-based.
Introduction aux Policy Gradients et à la régularisation.
TP :
Test d’un policy network simple avec un environnement Gymnasium.
9. PPO : Proximal Policy Optimization
Théorie :
Théorie du PPO : ratio de probabilité, clipping.
Avantages et applications par rapport aux autres méthodes.
TP :
Implémentation d’un agent PPO avec Stable-Baselines3 sur BipedalWalker.
10. SAC : Soft Actor-Critic
Théorie :
Notion d’entropie en RL.
Algorithme SAC : exploration par maximisation de l’entropie.
TP :
Implémentation d’un agent SAC pour un problème d’actions continues (MuJoCo ou PyBullet).
11. TP créatif : Développement d’un agent RL pour un jeu vidéo
Théorie :
Synthèse des méthodes vues : DQN, PPO, SAC.
Définition des objectifs et contraintes du projet créatif.
TP :
Développement d’un agent RL pour un jeu simple (plateforme 2D, Flappy Bird, gym-retro).
12. Restitution et soutenances
Théorie :
Bilan des méthodes d’apprentissage par renforcement.
Réflexion sur les perspectives et limites du RL.
TP :
Soutenances : présentation des projets RL, résultats, performances et défis rencontrés.