TRAINING ACTION SELECTION NEURAL NETWORKS USING HINDSIGHT MODELLING

A reinforcement learning method and system that selects actions to be performed by a reinforcement learning agent interacting with an environment. A causal model is implemented by a hindsight model neural network and trained using hindsight i.e. using future environment state trajectories. As the me...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: BUESING, Lars, VIOLA, Fabio, GUEZ, Arthur Clement, HEESS, Nicolas Manfred Otto, WEBER, Theophane Guillaume
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A reinforcement learning method and system that selects actions to be performed by a reinforcement learning agent interacting with an environment. A causal model is implemented by a hindsight model neural network and trained using hindsight i.e. using future environment state trajectories. As the method and system does not have access to this future information when selecting an action, the hindsight model neural network is used to train a model neural network which is conditioned on data from current observations, which learns to predict an output of the hindsight model neural network. La présente invention concerne un procédé et un système d'apprentissage de renforcement qui sélectionne des actions à effectuer par un agent d'apprentissage de renforcement interagissant avec un environnement. Un modèle causal est mis en œuvre par un réseau neuronal de modèle après coup et formé à l'aide d'un élément après coup, c'est-à-dire à l'aide de futures trajectoires d'état d'environnement. Au fur et à mesure que le procédé et le système n'ont pas accès à ces informations futures lors de la sélection d'une action, le réseau neuronal de modèle après coup est utilisé pour former un réseau neuronal de modèle qui est conditionné sur des données à partir d'observations actuelles, qui apprend à prédire une sortie du réseau neuronal de modèle après coup.