Adaptive Pure Exploration in Markov Decision Processes and Bandits

Cette thèse s’intéresse aux problèmes d’exploration pure dans les Processus de Décision Markoviens (PDM) et les Bandits Multi-Bras. Ces problèmes ont surtout été étudiés dans une optique "pire-des-cas". L’objet de cette thèse est d’aller au-delà de ce cadre pessimiste en approfondissant no...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
1. Verfasser:	Al Marjani, Aymen
Format:	Dissertation
Sprache:	eng
Schlagworte:	Apprentissage par Renforcement Best Policy Identification Exploration pure Exploration sans récompense Identification de la meilleure politique Markov Decision Processes Processus de Décision Markoviens Pure Exploration Reinforcement Learning Reward-Free Exploration
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

container_end_page
container_issue
container_start_page
container_title
container_volume
creator	Al Marjani, Aymen
description	Cette thèse s’intéresse aux problèmes d’exploration pure dans les Processus de Décision Markoviens (PDM) et les Bandits Multi-Bras. Ces problèmes ont surtout été étudiés dans une optique "pire-des-cas". L’objet de cette thèse est d’aller au-delà de ce cadre pessimiste en approfondissant notre compréhension de la complexité "spécifique à l’instance", c’est-à-dire du nombre d’observations dont un algorithme adaptatif aurait besoin pour accomplir une tâche d’exploration pure dans un PDM qui n’est pas nécessairement difficile. Premièrement, nous étudions le problème d’identification de la meilleure politique (en anglais "Best Policy Identification" ou BPI) dans un PDM. En s’inspirant de travaux existants dans le cas particulier des bandits, nous démontrons une borne inférieure sur la complexité des algorithmes de BPI dans un PDM escompté. Ensuite nous proposons un algorithme inspiré par cette borne et qui explore les paires d’état-action du PDM proportionnellement aux fréquences optimales dictées par la borne. Nous démontrons que et algorithme est, à un facteur 2 près, asymptotiquement optimal.Dans un deuxième temps, nous développons une approche d’exploration plus directe qui permet de collecter n’importe quel nombre souhaité d’observations depuis n’importe quelles paires d’état-action dans un PDM épisodique, tout en utilisant un nombre minimal d’épisodes. Nous verrons que pour un bon choix du nombre d’observations, une telle stratégie peut être employée pour résoudre le problème de BPI mais aussi celui de l’exploration sans récompense ("Reward-Free Exploration" en anglais). Ceci donne lieu à des algorithmes admettant des bornes plus fines sur leur complexité, qui dépendent notamment du PDM que l’on souhaite résoudre. Finalement, à travers le problème d’identification de l’ensemble des bras ε-optimaux dans un bandit multi-bras, nous explorons une méthode alternative pour prouver des bornes inférieures dans les problèmes d’exploration pure. Nous illustrons certains cas où les bornes obtenues ainsi sont plus fines que celles prouvées via la méthode classique. This thesis studies pure exploration problems in Markov Decision Processes (MDP) and Multi-Armed Bandits. These problems have mainly been studied in a “worst-case” perspective. Our aim is to go beyond this pessimistic framework by deepening our understanding of the “problem-dependent” sample complexity, i.e., of the number of observations that an \emph{adaptive} algorithm would need to accomplish a pure ex
format	Dissertation
fullrecord	<record><control><sourceid>abes_RS3</sourceid><recordid>TN_cdi_abes_theses_2023ENSL0095</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>2023ENSL0095</sourcerecordid><originalsourceid>FETCH-abes_theses_2023ENSL00953</originalsourceid><addsrcrecordid>eNrjZHByTEksKMksS1UIKC1KVXCtKMjJL0osyczPU8jMU_BNLMrOL1NwSU3OLAYJBRTlJ6cWF6cWKyTmpSg4AYnMkmIeBta0xJziVF4ozc0g7-Ya4uyhm5iUWhxfkpEKVB9vZGBk7OoX7GNgYGlqTFgFAD8sMEg</addsrcrecordid><sourcetype>Open Access Repository</sourcetype><iscdi>true</iscdi><recordtype>dissertation</recordtype></control><display><type>dissertation</type><title>Adaptive Pure Exploration in Markov Decision Processes and Bandits</title><source>Theses.fr</source><creator>Al Marjani, Aymen</creator><creatorcontrib>Al Marjani, Aymen</creatorcontrib><description>Cette thèse s’intéresse aux problèmes d’exploration pure dans les Processus de Décision Markoviens (PDM) et les Bandits Multi-Bras. Ces problèmes ont surtout été étudiés dans une optique "pire-des-cas". L’objet de cette thèse est d’aller au-delà de ce cadre pessimiste en approfondissant notre compréhension de la complexité "spécifique à l’instance", c’est-à-dire du nombre d’observations dont un algorithme adaptatif aurait besoin pour accomplir une tâche d’exploration pure dans un PDM qui n’est pas nécessairement difficile. Premièrement, nous étudions le problème d’identification de la meilleure politique (en anglais "Best Policy Identification" ou BPI) dans un PDM. En s’inspirant de travaux existants dans le cas particulier des bandits, nous démontrons une borne inférieure sur la complexité des algorithmes de BPI dans un PDM escompté. Ensuite nous proposons un algorithme inspiré par cette borne et qui explore les paires d’état-action du PDM proportionnellement aux fréquences optimales dictées par la borne. Nous démontrons que et algorithme est, à un facteur 2 près, asymptotiquement optimal.Dans un deuxième temps, nous développons une approche d’exploration plus directe qui permet de collecter n’importe quel nombre souhaité d’observations depuis n’importe quelles paires d’état-action dans un PDM épisodique, tout en utilisant un nombre minimal d’épisodes. Nous verrons que pour un bon choix du nombre d’observations, une telle stratégie peut être employée pour résoudre le problème de BPI mais aussi celui de l’exploration sans récompense ("Reward-Free Exploration" en anglais). Ceci donne lieu à des algorithmes admettant des bornes plus fines sur leur complexité, qui dépendent notamment du PDM que l’on souhaite résoudre. Finalement, à travers le problème d’identification de l’ensemble des bras ε-optimaux dans un bandit multi-bras, nous explorons une méthode alternative pour prouver des bornes inférieures dans les problèmes d’exploration pure. Nous illustrons certains cas où les bornes obtenues ainsi sont plus fines que celles prouvées via la méthode classique. This thesis studies pure exploration problems in Markov Decision Processes (MDP) and Multi-Armed Bandits. These problems have mainly been studied in a “worst-case” perspective. Our aim is to go beyond this pessimistic framework by deepening our understanding of the “problem-dependent” sample complexity, i.e., of the number of observations that an \emph{adaptive} algorithm would need to accomplish a pure exploration task in an MDP that is not necessarily difficult.First, we study the problem of “Best Policy Identification” (BPI) in a infinite-horizon discounted MDP. Drawing inspiration from existing work in the particular case of bandits, we derive a lower bound on the sample complexity of fixed-confidence BPI algorithms. Then we propose Navigate-and-Stop, an algorithm that explores the state-action pairs of the MDP proportionally to the optimal frequencies dictated by the bound. We prove that this algorithm is, within a factor of 2, asymptotically optimal.In a second part, we develop a more direct exploration approach which allows to collect any desired number of observations from any state-action pairs in an episodic MDP, while using a minimal number of episodes. We will see that for a good choice of the number of observations, such a strategy can be used to solve the problem of BPI but also that of Reward-Free Exploration (RFE). This leads to algorithms that enjoy tighter bounds on their sample complexity, which depend in particular on the MDP that the algorithm is facing.Finally, through the problem of All-S\epsilonS-Best-Arms-Identification in a multi-armed bandit, we explore an alternative method to prove lower bounds on the sample complexity for pure exploration problems. Notably, we illustrate certain cases where the bounds obtained in this way are tighter than those proven via the classical method.</description><language>eng</language><subject>Apprentissage par Renforcement ; Best Policy Identification ; Exploration pure ; Exploration sans récompense ; Identification de la meilleure politique ; Markov Decision Processes ; Processus de Décision Markoviens ; Pure Exploration ; Reinforcement Learning ; Reward-Free Exploration</subject><creationdate>2023</creationdate><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><link.rule.ids>230,311,780,885,26981</link.rule.ids><linktorsrc>$$Uhttps://www.theses.fr/2023ENSL0095/document$$EView_record_in_ABES$$FView_record_in_$$GABES$$Hfree_for_read</linktorsrc></links><search><creatorcontrib>Al Marjani, Aymen</creatorcontrib><title>Adaptive Pure Exploration in Markov Decision Processes and Bandits</title><description>Cette thèse s’intéresse aux problèmes d’exploration pure dans les Processus de Décision Markoviens (PDM) et les Bandits Multi-Bras. Ces problèmes ont surtout été étudiés dans une optique "pire-des-cas". L’objet de cette thèse est d’aller au-delà de ce cadre pessimiste en approfondissant notre compréhension de la complexité "spécifique à l’instance", c’est-à-dire du nombre d’observations dont un algorithme adaptatif aurait besoin pour accomplir une tâche d’exploration pure dans un PDM qui n’est pas nécessairement difficile. Premièrement, nous étudions le problème d’identification de la meilleure politique (en anglais "Best Policy Identification" ou BPI) dans un PDM. En s’inspirant de travaux existants dans le cas particulier des bandits, nous démontrons une borne inférieure sur la complexité des algorithmes de BPI dans un PDM escompté. Ensuite nous proposons un algorithme inspiré par cette borne et qui explore les paires d’état-action du PDM proportionnellement aux fréquences optimales dictées par la borne. Nous démontrons que et algorithme est, à un facteur 2 près, asymptotiquement optimal.Dans un deuxième temps, nous développons une approche d’exploration plus directe qui permet de collecter n’importe quel nombre souhaité d’observations depuis n’importe quelles paires d’état-action dans un PDM épisodique, tout en utilisant un nombre minimal d’épisodes. Nous verrons que pour un bon choix du nombre d’observations, une telle stratégie peut être employée pour résoudre le problème de BPI mais aussi celui de l’exploration sans récompense ("Reward-Free Exploration" en anglais). Ceci donne lieu à des algorithmes admettant des bornes plus fines sur leur complexité, qui dépendent notamment du PDM que l’on souhaite résoudre. Finalement, à travers le problème d’identification de l’ensemble des bras ε-optimaux dans un bandit multi-bras, nous explorons une méthode alternative pour prouver des bornes inférieures dans les problèmes d’exploration pure. Nous illustrons certains cas où les bornes obtenues ainsi sont plus fines que celles prouvées via la méthode classique. This thesis studies pure exploration problems in Markov Decision Processes (MDP) and Multi-Armed Bandits. These problems have mainly been studied in a “worst-case” perspective. Our aim is to go beyond this pessimistic framework by deepening our understanding of the “problem-dependent” sample complexity, i.e., of the number of observations that an \emph{adaptive} algorithm would need to accomplish a pure exploration task in an MDP that is not necessarily difficult.First, we study the problem of “Best Policy Identification” (BPI) in a infinite-horizon discounted MDP. Drawing inspiration from existing work in the particular case of bandits, we derive a lower bound on the sample complexity of fixed-confidence BPI algorithms. Then we propose Navigate-and-Stop, an algorithm that explores the state-action pairs of the MDP proportionally to the optimal frequencies dictated by the bound. We prove that this algorithm is, within a factor of 2, asymptotically optimal.In a second part, we develop a more direct exploration approach which allows to collect any desired number of observations from any state-action pairs in an episodic MDP, while using a minimal number of episodes. We will see that for a good choice of the number of observations, such a strategy can be used to solve the problem of BPI but also that of Reward-Free Exploration (RFE). This leads to algorithms that enjoy tighter bounds on their sample complexity, which depend in particular on the MDP that the algorithm is facing.Finally, through the problem of All-S\epsilonS-Best-Arms-Identification in a multi-armed bandit, we explore an alternative method to prove lower bounds on the sample complexity for pure exploration problems. Notably, we illustrate certain cases where the bounds obtained in this way are tighter than those proven via the classical method.</description><subject>Apprentissage par Renforcement</subject><subject>Best Policy Identification</subject><subject>Exploration pure</subject><subject>Exploration sans récompense</subject><subject>Identification de la meilleure politique</subject><subject>Markov Decision Processes</subject><subject>Processus de Décision Markoviens</subject><subject>Pure Exploration</subject><subject>Reinforcement Learning</subject><subject>Reward-Free Exploration</subject><fulltext>true</fulltext><rsrctype>dissertation</rsrctype><creationdate>2023</creationdate><recordtype>dissertation</recordtype><sourceid>RS3</sourceid><recordid>eNrjZHByTEksKMksS1UIKC1KVXCtKMjJL0osyczPU8jMU_BNLMrOL1NwSU3OLAYJBRTlJ6cWF6cWKyTmpSg4AYnMkmIeBta0xJziVF4ozc0g7-Ya4uyhm5iUWhxfkpEKVB9vZGBk7OoX7GNgYGlqTFgFAD8sMEg</recordid><startdate>20231206</startdate><enddate>20231206</enddate><creator>Al Marjani, Aymen</creator><scope>AOWWY</scope><scope>RS3</scope><scope>~IT</scope></search><sort><creationdate>20231206</creationdate><title>Adaptive Pure Exploration in Markov Decision Processes and Bandits</title><author>Al Marjani, Aymen</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-abes_theses_2023ENSL00953</frbrgroupid><rsrctype>dissertations</rsrctype><prefilter>dissertations</prefilter><language>eng</language><creationdate>2023</creationdate><topic>Apprentissage par Renforcement</topic><topic>Best Policy Identification</topic><topic>Exploration pure</topic><topic>Exploration sans récompense</topic><topic>Identification de la meilleure politique</topic><topic>Markov Decision Processes</topic><topic>Processus de Décision Markoviens</topic><topic>Pure Exploration</topic><topic>Reinforcement Learning</topic><topic>Reward-Free Exploration</topic><toplevel>online_resources</toplevel><creatorcontrib>Al Marjani, Aymen</creatorcontrib><collection>Theses.fr (Open Access)</collection><collection>Theses.fr</collection><collection>Thèses.fr</collection></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext_linktorsrc</fulltext></delivery><addata><au>Al Marjani, Aymen</au><format>dissertation</format><genre>dissertation</genre><ristype>THES</ristype><btitle>Adaptive Pure Exploration in Markov Decision Processes and Bandits</btitle><date>2023-12-06</date><risdate>2023</risdate><abstract>Cette thèse s’intéresse aux problèmes d’exploration pure dans les Processus de Décision Markoviens (PDM) et les Bandits Multi-Bras. Ces problèmes ont surtout été étudiés dans une optique "pire-des-cas". L’objet de cette thèse est d’aller au-delà de ce cadre pessimiste en approfondissant notre compréhension de la complexité "spécifique à l’instance", c’est-à-dire du nombre d’observations dont un algorithme adaptatif aurait besoin pour accomplir une tâche d’exploration pure dans un PDM qui n’est pas nécessairement difficile. Premièrement, nous étudions le problème d’identification de la meilleure politique (en anglais "Best Policy Identification" ou BPI) dans un PDM. En s’inspirant de travaux existants dans le cas particulier des bandits, nous démontrons une borne inférieure sur la complexité des algorithmes de BPI dans un PDM escompté. Ensuite nous proposons un algorithme inspiré par cette borne et qui explore les paires d’état-action du PDM proportionnellement aux fréquences optimales dictées par la borne. Nous démontrons que et algorithme est, à un facteur 2 près, asymptotiquement optimal.Dans un deuxième temps, nous développons une approche d’exploration plus directe qui permet de collecter n’importe quel nombre souhaité d’observations depuis n’importe quelles paires d’état-action dans un PDM épisodique, tout en utilisant un nombre minimal d’épisodes. Nous verrons que pour un bon choix du nombre d’observations, une telle stratégie peut être employée pour résoudre le problème de BPI mais aussi celui de l’exploration sans récompense ("Reward-Free Exploration" en anglais). Ceci donne lieu à des algorithmes admettant des bornes plus fines sur leur complexité, qui dépendent notamment du PDM que l’on souhaite résoudre. Finalement, à travers le problème d’identification de l’ensemble des bras ε-optimaux dans un bandit multi-bras, nous explorons une méthode alternative pour prouver des bornes inférieures dans les problèmes d’exploration pure. Nous illustrons certains cas où les bornes obtenues ainsi sont plus fines que celles prouvées via la méthode classique. This thesis studies pure exploration problems in Markov Decision Processes (MDP) and Multi-Armed Bandits. These problems have mainly been studied in a “worst-case” perspective. Our aim is to go beyond this pessimistic framework by deepening our understanding of the “problem-dependent” sample complexity, i.e., of the number of observations that an \emph{adaptive} algorithm would need to accomplish a pure exploration task in an MDP that is not necessarily difficult.First, we study the problem of “Best Policy Identification” (BPI) in a infinite-horizon discounted MDP. Drawing inspiration from existing work in the particular case of bandits, we derive a lower bound on the sample complexity of fixed-confidence BPI algorithms. Then we propose Navigate-and-Stop, an algorithm that explores the state-action pairs of the MDP proportionally to the optimal frequencies dictated by the bound. We prove that this algorithm is, within a factor of 2, asymptotically optimal.In a second part, we develop a more direct exploration approach which allows to collect any desired number of observations from any state-action pairs in an episodic MDP, while using a minimal number of episodes. We will see that for a good choice of the number of observations, such a strategy can be used to solve the problem of BPI but also that of Reward-Free Exploration (RFE). This leads to algorithms that enjoy tighter bounds on their sample complexity, which depend in particular on the MDP that the algorithm is facing.Finally, through the problem of All-S\epsilonS-Best-Arms-Identification in a multi-armed bandit, we explore an alternative method to prove lower bounds on the sample complexity for pure exploration problems. Notably, we illustrate certain cases where the bounds obtained in this way are tighter than those proven via the classical method.</abstract><oa>free_for_read</oa></addata></record>
fulltext	fulltext_linktorsrc
identifier
ispartof
issn
language	eng
recordid	cdi_abes_theses_2023ENSL0095
source	Theses.fr
subjects	Apprentissage par Renforcement Best Policy Identification Exploration pure Exploration sans récompense Identification de la meilleure politique Markov Decision Processes Processus de Décision Markoviens Pure Exploration Reinforcement Learning Reward-Free Exploration
title	Adaptive Pure Exploration in Markov Decision Processes and Bandits
url	https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-04T18%3A55%3A53IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-abes_RS3&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&rft.genre=dissertation&rft.btitle=Adaptive%20Pure%20Exploration%20in%20Markov%20Decision%20Processes%20and%20Bandits&rft.au=Al%20Marjani,%20Aymen&rft.date=2023-12-06&rft_id=info:doi/&rft_dat=%3Cabes_RS3%3E2023ENSL0095%3C/abes_RS3%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rfr_iscdi=true