IMITATION LEARNING USING A GENERATIVE PREDECESSOR NEURAL NETWORK
Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for training an action selection policy neural network. In one aspect, a method comprises: obtaining an expert observation; processing the expert observation using a generative neural network system to...
Gespeichert in:
Hauptverfasser: | , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for training an action selection policy neural network. In one aspect, a method comprises: obtaining an expert observation; processing the expert observation using a generative neural network system to generate a given observation - given action pair, wherein the generative neural network system has been trained to be more likely to generate a particular observation - particular action pair if performing the particular action in response to the particular observation is more likely to result in the environment later reaching the state characterized by a target observation; processing the given observation using the action selection policy neural network to generate a given action score for the given action; and adjusting the current values of the action selection policy neural network parameters to increase the given action score for the given action.
L'invention concerne des procédés, des systèmes et des appareils, y compris des programmes informatiques codés sur un support de stockage informatique, pour entraîner un réseau neuronal de politique de sélection d'action. Selon un aspect, un procédé comprend : l'obtention d'une observation expert ; le traitement de l'observation expert à l'aide d'un système de réseau neuronal génératif pour générer une paire observation donnée - action donnée, le système de réseau neuronal génératif ayant été entraîné de façon à être plus susceptible de générer une paire observation particulière - action particulière si la réalisation de l'action particulière en réponse à l'observation particulière est plus susceptible de conduire au fait que l'environnement atteigne plus tard l'état caractérisé par une observation cible ; le traitement de l'observation donnée à l'aide du réseau neuronal de politique de sélection d'action pour générer un score d'action donnée pour l'action donnée ; et l'ajustement des valeurs actuelles des paramètres du réseau neuronal de politique de sélection d'action pour augmenter le score d'action donnée pour l'action donnée. |
---|