IMITATION LEARNING USING SHAPED REWARDS
Systems and methods, implemented as computer programs on one or more computers in one or more locations, for learning to control an agent to perform a task. The method involves training a policy neural network on demonstration actions that perform the task to obtain an initial, cloned action selecti...
Gespeichert in:
Hauptverfasser: | , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Systems and methods, implemented as computer programs on one or more computers in one or more locations, for learning to control an agent to perform a task. The method involves training a policy neural network on demonstration actions that perform the task to obtain an initial, cloned action selection policy, determining a shaped reward using the cloned policy, then using the shaped reward to fine tune the policy neural network. The system can transition smoothly between learning to copy actions of a task demonstrated by an agent such as a human expert, and refining the learned actions. The system can also learn to recover gracefully when outside a distribution of actions of the demonstrating agent.
L'invention concerne des systèmes et des procédés, mis en œuvre sous forme de programmes d'ordinateur sur un ou plusieurs ordinateurs dans un ou plusieurs emplacements, pour apprendre à commander un agent pour effectuer une tâche. Le procédé consiste à entraîner un réseau neuronal de politique sur des actions de démonstration qui effectuent la tâche pour obtenir une politique de sélection d'action clonée initiale, à déterminer une récompense façonnée à l'aide de la politique clonée, puis à utiliser la récompense façonnée pour ajuster finement le réseau neuronal de politique. Le système peut effectuer une transition sans à-coups entre l'apprentissage pour copier des actions d'une tâche démontrée par un agent tel qu'un expert humain et l'affinement des actions apprises. Le système peut également apprendre à récupérer de manière progressive lorsqu'il se trouve à l'extérieur d'une distribution d'actions de l'agent de démonstration. |
---|