LEARNING ENVIRONMENT REPRESENTATIONS FOR AGENT CONTROL USING PREDICTIONS OF BOOTSTRAPPED LATENTS

Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for training an environment representation neural network of a reinforcement learning system controls an agent to perform a given task. In one aspect, the method includes: receiving a current observati...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: MUNOS, Remi, GRILL, Jean-Bastien François Laurent, GUO, Zhaohan, AZAR, Mohammad Gheshlaghi, ALTCHÉ, Florent, PIOT, Bilal, PIRES, Bernardo Avila
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for training an environment representation neural network of a reinforcement learning system controls an agent to perform a given task. In one aspect, the method includes: receiving a current observation input and a future observation input; generating, from the future observation input, a future latent representation of the future state of the environment; processing, using the environment representation neural network, to generate a current internal representation of the current state of the environment; generating, from the current internal representation, a predicted future latent representation; evaluating an objective function measuring a difference between the future latent representation and the predicted future latent representation; and determining, based on a determined gradient of the objective function, an update to the current values of the environment representation parameters. Procédés, systèmes et appareil, comprenant des programmes informatiques codés sur un support de stockage informatique, pour entraîner un réseau neuronal de représentation d'environnement d'un système d'apprentissage par renforcement, commandant à un agent d'effectuer une tâche donnée. Selon un aspect, le procédé consiste à : recevoir une entrée d'observation actuelle et une entrée d'observation future ; générer, à partir de l'entrée d'observation future, une représentation latente future de l'état futur de l'environnement ; traiter, en utilisant le réseau neuronal de représentation d'environnement, pour générer une représentation interne actuelle de l'état actuel de l'environnement ; générer, à partir de la représentation interne actuelle, une représentation latente future prédite ; évaluer une fonction objective mesurant une différence entre la représentation latente future et la représentation latente future prédite ; et déterminer, sur la base d'un gradient déterminé de la fonction objective, une mise à jour des valeurs actuelles des paramètres de représentation d'environnement.