IA par renforcement

Objectifs

À la fin du cours, les étudiants seront capables de :

Comprendre et implémenter les principaux algorithmes d'apprentissage par renforcement (Q-Learning, DQN, PPO, SAC).
Appliquer le RL sur des environnements simples et complexes (exemple en robotique).
Réfléchir aux défis liés à l'exploration/exploitation, à la convergence, et à l'implémentation pratique.
Créer un agent RL pour un jeu vidéo dans le cadre d'une SAÉ, en définissant les objectifs, les récompenses, et les contraintes.

Plan du cours

Structure du cours

Bloc 1 : Introduction générale & bases théoriques (6h)
Bloc 2 : Approfondissements des méthodes et algorithmes (6h) => Collaboration sur des sujets avancés et variés : PPO, SAC, Actor-Critic, etc.
Bloc 3 : Mise en pratique – TP/Projets guidés et créatifs (12h) => Utilisation d'environnements RL, focus sur résolution de problèmes et créativité des étudiants.

---

Bloc 1 : Introduction générale & bases théoriques (6h)

Objectifs :
- Donner une culture générale du RL
- Introduire les concepts clés avec des exemples simples.
- Familiariser les étudiants avec la formalisation mathématique (MDP, équations de Bellman, Value/Q functions).

Contenu :
1. Introduction au RL
- Applications du RL (robots, jeux, économie, IA).
- Place du RL dans le Machine Learning.
2. Bases théoriques
- MDP (Markov Decision Process).
- Formalisation des états, actions, récompenses, transitions.
- Value iteration et programmation dynamique.
3. Algorithmes de base
- Value iteration et la fonction de valeur
- Présentation du Q-learning tabulaire.
4. Panorama des approches modernes
- RL avec ou sans modèle.
- Approches V/Q vs. policy-based.
- On-policy/off-policy.
- Aperçu du DQN (Deep Q-Learning).

---

Bloc 2 : Approfondissements des méthodes et algorithmes (6h)

Objectifs :
- Introduire des méthodes avancées
- Lier les méthodes théoriques à des cas concrets (ex. robotique).
- Permettre aux étudiants de découvrir des algorithmes comme PPO, SAC et Actor-Critic.

Contenu proposé :
1. Approches policy-based et Actor-Critic
- Policy Gradient Methods(PGM) : concepts et intuition.
- Algorithme PPO (Proximal Policy Optimization) : structure, fonctionnement, avantages.
- Actor-Critic : séparation politique/valeur.
2. Méthodes off-policy avancées
- SAC (Soft Actor-Critic) : RL robuste et échantillonnage efficace.
- Comparaison PPO/SAC dans des environnements variés.
3. Choix d’algorithmes et implémentation
- Comment choisir une méthode selon le problème ?
- Présentation des frameworks : Gymnasium, Stable-Baselines3.
4. Applications en robotique (si besoin)
- Exemples concrets de PPO/SAC sur des environnements de robots.

---

Bloc 3 : Mise en pratique – TP et projets (12h)

Objectifs :
- Développer des compétences pratiques en programmation RL.
- Apprendre à adapter des méthodes à des nouveaux environnements
- Encourager la réflexion critique face à l'abondance d'exemples/code existants.

Description des TP

1. TP 1 : Q-learning tabulaire sur Gymnasium (3h)
- Exemple classique : résolution de GridWorld.
- Étendre à un environnement avec des états continus simplifiés.

2. TP 2 : DQN – Application aux environnements non triviaux(3h)
- Implémentation d’un DQN sur un environnement Gymnasium "customisé".
- Exemple : résolution d’un jeu comme CartPole puis adaptation à un problème maison.

3. TP 3 : Exploration de PPO/SAC pour la robotique (3h)
- Exploration guidée d’un projet PPO/SAC sur un bras robotisé ou un robot mobile.
- Environnement via PyBullet ou autres simulateurs.

4. TP 4 : Résolution créative d’un problème RL (3h)
- Projet libre par groupes :
- Les étudiants choisissent un nouveau problème (ex. Jeux vidéos, etc.).
- Objectif : définir l’environnement, choisir un algorithme, expérimenter et analyser.

Connaissances requises

Cours d'Apprentissage Automatique de FISA2

Cours de Deep Learning de FISA3

RSE (Responsabilité Sociale et Environnementale)

Bibliographie

Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction (2nd ed.). The MIT Press.
Francois-Lavet, Henderson, Islam et Bellemare, « An Introduction to Deep Reinforcement Learning », Foundations and Trends in Machine Learning, vol. 11, nos 3–4,‎ 2018, p. 219–354
Le, Ngan; Rathour, Vidhiwar Singh; Yamazaki, Kashu; Luu, Khoa; Savvides, Marios (2022-04-01). "Deep reinforcement learning in computer vision: a comprehensive survey". Artificial Intelligence Review. 55 (4): 2733–2819.