Off-Policy Risk Assessment in Markov Decision Processes

Addressing such diverse ends as safety alignment with human preferences, and the efficiency of learning, a growing line of reinforcement learning research focuses on risk functionals that depend on the entire distribution of returns. Recent work on \emph{off-policy risk assessment} (OPRA) for contex...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	arXiv.org 2022-09
Hauptverfasser:	Huang, Audrey, Liu Leqi, Zachary Chase Lipton, Azizzadenesheli, Kamyar
Format:	Artikel
Sprache:	eng
Schlagworte:	Estimates Estimators Importance sampling Learning Lower bounds Markov analysis Markov processes Minimax technique Risk assessment
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Schreiben Sie den ersten Kommentar!