Programmation dynamique

Introduction sur les processus aléatoires et les processus de décision séquentielle sous incertitudes.

Chaînes de Markov à temps discret : probabilités en régime transitoire, classification des états, probabilités en régime stationnaire, temps moyen avant absorption, probabilité d'absorption
Chaînes de Markov avec récompenses
Processus de décision markovien
Apprentissage par renforcement

A remplir

A remplir

Baynat (2000). La théorie des files d'attente: des chaînes de Markov aux réseaux à forme produit. Hermès.

Sutton et Barto (2018). Reinforcement learning: An introduction. MIT press.

Bertsekas (2011). Dynamic programming and optimal control 3rd edition, volume 2. Athena Scientific.