CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

Methods, systems, and apparatus, including computer programs encoded on computer storage media, for training an actor neural network used to select actions to be performed by an agent interacting with an environment. One of the methods includes obtaining a minibatch of experience tuples; and updatin...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: WIERSTRA, DANIEL PIETER, HUNT, JONATHAN JAMES, LILLICRAP, TIMOTHY PAUL, PRITZEL, ALEXANDER, HEESS, NICOLAS MANFRED OTTO, SILVER, DAVID, EREZ, TOM, TASSA, YUVAL
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Methods, systems, and apparatus, including computer programs encoded on computer storage media, for training an actor neural network used to select actions to be performed by an agent interacting with an environment. One of the methods includes obtaining a minibatch of experience tuples; and updating current values of the parameters of the actor neural network, comprising: for each experience tuple in the minibatch: processing the training observation and the training action in the experience tuple using a critic neural network to determine a neural network output for the experience tuple, and determining a target neural network output for the experience tuple; updating current values of the parameters of the critic neural network using errors between the target neural network outputs and the neural network outputs; and updating the current values of the parameters of the actor neural network using the critic neural network. L'invention concerne des procédés, des systèmes et un appareil, y compris des programmes informatiques codés sur des supports de stockage informatique, pour entraîner un réseau neuronal acteur servant à sélectionner les actions devant être mises en oeuvre par un agent interagissant avec un environnement. L'un des procédés consiste à obtenir un minilot de n-uplets d'expérience ; et à mettre à jour les valeurs actuelles des paramètres du réseau neuronal acteur, y compris traiter, pour chaque n-uplet d'expérience du minilot, l'observation d'entraînement et l'action d'entraînement dans le n-uplet d'expérience à l'aide d'un réseau neuronal critique afin de déterminer un résultat de réseau neuronal pour le n-uplet d'expérience, et déterminer un résultat de réseau neuronal cible pour le n-uplet d'expérience ; à mettre à jour les valeurs actuelles des paramètres du réseau neuronal critique à l'aide d'erreurs entre les résultats du réseau neuronal cible et les résultats du réseau neuronal ; et à mettre à jour les valeurs actuelles des paramètres du réseau neuronal acteur au moyen du réseau neuronal critique.