OFF-LINE LEARNING FOR ROBOT CONTROL USING A REWARD PREDICTION MODEL
Methods, systems, and apparatus, including computer programs encoded on computer storage media, for off-line learning using a reward prediction model. One of the methods includes obtaining robot experience data; training, on a first subset of the robot experience data, a reward prediction model that...
Gespeichert in:
Hauptverfasser: | , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Methods, systems, and apparatus, including computer programs encoded on computer storage media, for off-line learning using a reward prediction model. One of the methods includes obtaining robot experience data; training, on a first subset of the robot experience data, a reward prediction model that receives a reward input comprising an input observation and generates as output a reward prediction that is a prediction of a task-specific reward for the particular task that should be assigned to the input observation; processing experiences in the robot experience data using the trained reward prediction model to generate a respective reward prediction for each of the processed experiences; and training a policy neural network on (i) the processed experiences and (ii) the respective reward predictions for the processed experiences.
L'invention concerne des procédés, des systèmes et un appareil, incluant des programmes informatiques codés sur des supports de stockage informatiques, pour un apprentissage hors ligne utilisant un modèle de prédiction de récompense. L'un des procédés consiste à obtenir des données d'expérience de robot ; à entraîner, sur un premier sous-ensemble des données d'expérience de robot, un modèle de prédiction de récompense qui reçoit une entrée de récompense comprenant une observation d'entrée et génère en sortie une prédiction de récompense qui est une prédiction d'une récompense spécifique à une tâche pour la tâche particulière qui devrait être attribuée à l'observation d'entrée ; à traiter les expériences dans les données d'expérience de robot à l'aide du modèle de prédiction de récompense entraîné pour générer une prédiction de récompense respective pour chacune des expériences traitées ; et à former un réseau neuronal de politique sur (i) les expériences traitées et (ii) les prédictions de récompense respectives pour les expériences traitées. |
---|