Adaptive Pure Exploration in Markov Decision Processes and Bandits

Cette thèse s’intéresse aux problèmes d’exploration pure dans les Processus de Décision Markoviens (PDM) et les Bandits Multi-Bras. Ces problèmes ont surtout été étudiés dans une optique "pire-des-cas". L’objet de cette thèse est d’aller au-delà de ce cadre pessimiste en approfondissant no...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
1. Verfasser:	Al Marjani, Aymen
Format:	Dissertation
Sprache:	eng
Schlagworte:	Apprentissage par Renforcement Best Policy Identification Exploration pure Exploration sans récompense Identification de la meilleure politique Markov Decision Processes Processus de Décision Markoviens Pure Exploration Reinforcement Learning Reward-Free Exploration
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Schreiben Sie den ersten Kommentar!