DATA-DRIVEN ROBOT CONTROL
Methods, systems, and apparatus, including computer programs encoded on computer storage media, for data-driven robotic control. One of the methods includes maintaining robot experience data; obtaining annotation data; training, on the annotation data, a reward model; generating task-specific traini...
Gespeichert in:
Hauptverfasser: | , , , , , , , , , , , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Methods, systems, and apparatus, including computer programs encoded on computer storage media, for data-driven robotic control. One of the methods includes maintaining robot experience data; obtaining annotation data; training, on the annotation data, a reward model; generating task-specific training data for the particular task, comprising, for each experience in a second subset of the experiences in the robot experience data: processing the observation in the experience using the trained reward model to generate a reward prediction, and associating the reward prediction with the experience; and training a policy neural network on the task-specific training data for the particular task, wherein the policy neural network is configured to receive a network input comprising an observation and to generate a policy output that defines a control policy for a robot performing the particular task.
La présente invention concerne des procédés, des systèmes et des appareils, comprenant des programmes informatiques codés sur des supports de stockage informatique, pour une commande robotique basée sur des données. L'un des procédés comprend le maintien des données d'expérience de robot ; 'obtention de données d'annotation ; l'entraînement, sur les données d'annotation, d'un modèle de récompense ; la génération de données d'apprentissage spécifiques à une tâche pour la tâche particulière, comprenant, pour chaque expérience dans un second sous-ensemble des expériences dans les données d'expérience de robot : le traitement de l'observation dans l'expérience à l'aide du modèle de récompense entraîné pour générer une prédiction de récompense, et l'association de la prédiction de récompense à l'expérience ; et l'entraînement d'un réseau neuronal de politique sur les données d'apprentissage spécifiques à une tâche pour la tâche particulière, le réseau neuronal de politique étant conçu pour recevoir une entrée de réseau comprenant une observation et pour générer une sortie de politique qui définit une politique de commande pour un robot effectuant la tâche particulière. |
---|