ROBUST REINFORCEMENT LEARNING FOR CONTINUOUS CONTROL WITH MODEL MISSPECIFICATION

Methods, systems, and apparatus, including computer programs encoded on computer storage media, for training a policy neural network having policy parameters. One of the methods includes sampling a mini-batch comprising one or more observation - action - reward tuples generated as a result of intera...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: ABDOLMALEKI, Abbas, MANN, Timothy Arthur, RIEDMILLER, Martin, JEONG, Rae Chan, LEVINE, Nir, MANKOWITZ, Daniel J, HESTER, Todd Andrew, SPRINGENBERG, Jost Tobias
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Methods, systems, and apparatus, including computer programs encoded on computer storage media, for training a policy neural network having policy parameters. One of the methods includes sampling a mini-batch comprising one or more observation - action - reward tuples generated as a result of interactions of a first agent with a first environment; determining an update to current values of the Q network parameters by minimizing a robust entropy-regularized temporal difference (TD) error that accounts for possible perturbations of the states of the first environment represented by the observations in the observation - action - reward tuples; and determining, using the Q-value neural network, an update to the policy network parameters using the sampled mini-batch of observation - action - reward tuples. L'invention concerne des procédés, des systèmes et un appareillage, incluant des programmes informatiques codés sur des supports de stockage informatique, destinés à entraîner un réseau neuronal de politique doté de paramètres de politique. Un des procédés comprend les étapes consistant à échantillonner un mini-lot comportant un ou plusieurs uplets observation-action-récompense générés du fait d'interactions d'un premier agent avec un premier environnement; à déterminer une mise à jour de valeurs actuelles des paramètres Q de réseau en minimisant une erreur de différence temporelle (TD) régularisée par entropie robuste qui tient compte de perturbations possibles des états du premier environnement représentés par les observations dans les uplets observation-action-récompense; et à déterminer, à l'aide du réseau neuronal à valeurs Q, une mise à jour des paramètres de réseau de politique à l'aide du mini-lot échantillonné d'uplets observation-action-récompense.