Introduction sur les processus aléatoires et les processus de décision séquentielle sous incertitudes.
Plan du cours
Chaînes de Markov à temps discret : probabilités en régime transitoire, classification des états, probabilités en régime stationnaire, temps moyen avant absorption, probabilité d'absorption
Chaînes de Markov avec récompenses
Processus de décision markovien
Apprentissage par renforcement
Description des TP
A remplir
Connaissances requises
A remplir
RSE (Responsabilité Sociale et Environnementale)
Bibliographie
Baynat (2000). La théorie des files d'attente: des chaînes de Markov aux réseaux à forme produit. Hermès.
Sutton et Barto (2018). Reinforcement learning: An introduction. MIT press.
Bertsekas (2011). Dynamic programming and optimal control 3rd edition, volume 2. Athena Scientific.