LEARNING A DIVERSE COLLECTION OF ACTION SELECTION POLICIES BY COMPETITIVE EXCLUSION
Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for training a collection of policy neural networks to select actions to be performed by an agent interacting with an environment to accomplish a task. In one aspect, a method comprises training the co...
Gespeichert in:
Hauptverfasser: | , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for training a collection of policy neural networks to select actions to be performed by an agent interacting with an environment to accomplish a task. In one aspect, a method comprises training the collection of policy neural networks by, for each episode of a plurality of episodes: designating, from the collection of policy networks (i) a target network and (ii) differentiated policy neural networks; controlling the agent using the target network; receiving task rewards that define a metric of performance on the task by the agent as controlled by the target network; training the target network using the task rewards; and training each differentiated network using modified rewards that encourage an increase in a measure of differentiation between the differentiated network and the target network.
La présente invention concerne des procédés, des systèmes et un appareil, comprenant des programmes d'ordinateur codés sur un support de stockage informatique, pour apprendre une collection de réseaux neuronaux de politique afin de sélectionner des actions devant être effectuées par un agent interagissant avec un environnement pour accomplir une tâche. Selon un aspect, un procédé consiste à apprendre la collection de réseaux neuronaux de politique en, pour chaque épisode d'une pluralité d'épisodes : désignant, à partir de la collection de réseaux de politique, (i) un réseau cible et (ii) des réseaux neuronaux de politique différenciés ; commandant l'agent à l'aide du réseau cible ; recevant des récompenses de tâche qui définissent une métrique de performances sur la tâche par l'agent tel que commandé par le réseau cible ; apprenant le réseau cible à l'aide des récompenses de tâche ; et apprenant chaque réseau différencié à l'aide de récompenses modifiées qui encouragent une augmentation d'une mesure de différenciation entre le réseau différencié et le réseau cible. |
---|