RETRIEVAL AUGMENTED REINFORCEMENT LEARNING

Methods, systems, and apparatus, including computer programs encoded on computer storage media, for controlling a reinforcement learning agent in an environment to perform a task using a retrieval-augmented action selection process. One of the methods includes receiving a current observation charact...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: BANINO, Andrea, BADIA, Adrià Puigdomènech, LILLICRAP, Timothy Paul, OSINDERO, Simon, KE, Nan, FRIESEN, Abram Luke, WEBER, Theophane Guillaume, BLUNDELL, Charles, GOYAL, Anirudh
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Methods, systems, and apparatus, including computer programs encoded on computer storage media, for controlling a reinforcement learning agent in an environment to perform a task using a retrieval-augmented action selection process. One of the methods includes receiving a current observation characterizing a current state of the environment; processing an encoder network input comprising the current observation to determine a policy neural network hidden state that corresponds to the current observation; maintaining a plurality of trajectories generated as a result of the reinforcement learning agent interacting with the environment; selecting one or more trajectories from the plurality of trajectories; updating the policy neural network hidden state using update data determined from the one or more selected trajectories; and processing the updated hidden state using a policy neural network to generate a policy output that specifies an action to be performed by the agent in response to the current observation. Procédés, systèmes et appareils comprenant des programmes informatiques codés sur des supports de stockage informatiques, permettant de commander un agent d'apprentissage par renforcement dans un environnement pour effectuer une tâche à l'aide d'un processus de sélection d'action augmenté par récupération. L'un des procédés consiste à recevoir une observation actuelle caractérisant un état actuel de l'environnement ; à traiter une entrée de réseau de codeur comportant l'observation actuelle pour déterminer un état caché de réseau neuronal de politique qui correspond à l'observation actuelle ; à maintenir une pluralité de trajectoires générées à la suite de l'interaction de l'agent d'apprentissage par renforcement avec l'environnement ; à sélectionner une ou plusieurs trajectoires parmi la pluralité de trajectoires ; à mettre à jour l'état caché de réseau neuronal de politique à l'aide de données de mise à jour déterminées à partir de la ou des trajectoires sélectionnées ; et à traiter l'état caché mis à jour à l'aide d'un réseau neuronal de politique pour générer une sortie de politique qui spécifie une action à effectuer par l'agent en réponse à l'observation actuelle.