IA par renforcement

Objectifs

À la fin du cours, les étudiant(e)s seront capables de :

Comprendre et implémenter les principaux algorithmes d'apprentissage par renforcement (Q-Learning, DQN, PPO, SAC).
Appliquer le RL sur des environnements simples et complexes (exemple en robotique et jeux vidéos).
Réfléchir aux défis liés à l'exploration/exploitation, à la convergence, et à l'implémentation pratique.
Créer un agent RL pour un jeu vidéo afin de faire le lien avec la SAÉ au S10, en définissant les objectifs, les récompenses, et les contraintes.

Plan du cours

Bloc 1 : Introduction générale & bases théoriques (6h)
Bloc 2 : Approfondissements des méthodes et algorithmes (6h) => Collaboration sur des sujets avancés et variés : PPO, SAC, Actor-Critic, etc.
Bloc 3 : Mise en pratique – TP/Projets guidés et créatifs (12h) => Utilisation d'environnements RL, focus sur résolution de problèmes et créativité des étudiants.

Description des TP

1. Introduction au RL

Théorie :

Introduction à l’apprentissage par renforcement (RL).
Concepts clés : agent, environnement, actions, états, récompenses.
Exemples d’applications concrètes.

TP (Pratique & Créatif) :
Prise en main d’OpenAI Gymnasium (environnements simples comme CartPole).
Manipulation d’environnements et observation des actions/récompenses.

2. Formalisation mathématique du RL

Théorie :

Modèle du Processus de Décision Markovien (MDP).
Notions de Value Function et Q-Function.
Introduction à l’équation de Bellman.

TP :
Implémentation d’un algorithme naïf pour évaluer une politique fixe sur un environnement simple.

3. Programmation dynamique (Value Iteration)

Théorie :

Algorithmes de Value Iteration et Policy Iteration.
Exemple avec récompenses et transitions connues.

TP :
Implémentation de Value Iteration sur un problème MDP simple (grille 2D).

4. Exploration et exploitation

Théorie :

Stratégies d’exploration : epsilon-greedy, exploration vs exploitation.
Présentation des algorithmes basés sur le Q-learning tabulaire.

TP :
Implémentation de Q-learning tabulaire sur un environnement simple (FrozenLake, Gymnasium).

5. Application du Q-Learning

Théorie :

Exemple de convergence du Q-learning.
Limites des méthodes tabulaires dans les environnements complexes.

TP :
Expérimentation sur le paramétrage du Q-learning (tests sur les valeurs de epsilon).

6. RL avec fonctions d’approximation (DQN)

Théorie :

Présentation du Deep Q-Learning (DQN).
Passage des méthodes tabulaires aux réseaux de neurones.

TP :
Implémentation d’un DQN avec Stable-Baselines3 sur un environnement comme LunarLander.

7. Projet intermédiaire : Jeux vidéo simples

Théorie :

Introduction aux environnements personnalisés pour jeux vidéo.
Exemples d’environnements RL (Super Mario RL, jeux 2D).

TP :
Découverte d’environnements type gym-retro ou création d’un environnement personnalisé (Pygame, Unity).

8. Les approches basées politiques (Policy Gradient)

Théorie :

Différences entre les approches value-based et policy-based.
Introduction aux Policy Gradients et à la régularisation.

TP :
Test d’un policy network simple avec un environnement Gymnasium.

9. PPO : Proximal Policy Optimization

Théorie :

Théorie du PPO : ratio de probabilité, clipping.
Avantages et applications par rapport aux autres méthodes.

TP :
Implémentation d’un agent PPO avec Stable-Baselines3 sur BipedalWalker.

10. SAC : Soft Actor-Critic

Théorie :

Notion d’entropie en RL.
Algorithme SAC : exploration par maximisation de l’entropie.

TP :
Implémentation d’un agent SAC pour un problème d’actions continues (MuJoCo ou PyBullet).

11. TP créatif : Développement d’un agent RL pour un jeu vidéo

Théorie :

Synthèse des méthodes vues : DQN, PPO, SAC.
Définition des objectifs et contraintes du projet créatif.

TP :
Développement d’un agent RL pour un jeu simple (plateforme 2D, Flappy Bird, gym-retro).

12. Restitution et soutenances

Théorie :

Bilan des méthodes d’apprentissage par renforcement.
Réflexion sur les perspectives et limites du RL.

TP :
Soutenances : présentation des projets RL, résultats, performances et défis rencontrés.

IA par renforcement

Objectifs

Plan du cours

Description des TP

Connaissances requises

RSE (Responsabilité Sociale et Environnementale)

Bibliographie