ROBUST REINFORCEMENT LEARNING FOR CONTINUOUS CONTROL WITH MODEL MISSPECIFICATION
Methods, systems, and apparatus, including computer programs encoded on computer storage media, for training a policy neural network having policy parameters. One of the methods includes sampling a mini-batch comprising one or more observation - action - reward tuples generated as a result of intera...
Gespeichert in:
Hauptverfasser: | , , , , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Methods, systems, and apparatus, including computer programs encoded on computer storage media, for training a policy neural network having policy parameters. One of the methods includes sampling a mini-batch comprising one or more observation - action - reward tuples generated as a result of interactions of a first agent with a first environment; determining an update to current values of the Q network parameters by minimizing a robust entropy-regularized temporal difference (TD) error that accounts for possible perturbations of the states of the first environment represented by the observations in the observation - action - reward tuples; and determining, using the Q-value neural network, an update to the policy network parameters using the sampled mini-batch of observation - action - reward tuples.
L'invention concerne des procédés, des systèmes et un appareillage, incluant des programmes informatiques codés sur des supports de stockage informatique, destinés à entraîner un réseau neuronal de politique doté de paramètres de politique. Un des procédés comprend les étapes consistant à échantillonner un mini-lot comportant un ou plusieurs uplets observation-action-récompense générés du fait d'interactions d'un premier agent avec un premier environnement; à déterminer une mise à jour de valeurs actuelles des paramètres Q de réseau en minimisant une erreur de différence temporelle (TD) régularisée par entropie robuste qui tient compte de perturbations possibles des états du premier environnement représentés par les observations dans les uplets observation-action-récompense; et à déterminer, à l'aide du réseau neuronal à valeurs Q, une mise à jour des paramètres de réseau de politique à l'aide du mini-lot échantillonné d'uplets observation-action-récompense. |
---|