CONTROLLING AGENTS USING RELATIVE VARIATIONAL INTRINSIC CONTROL

Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for training a policy neural network for use in controlling an agent using relative variational intrinsic control. In one aspect, a method includes: selecting a skill from a set of skills; generating a...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: BAUMLI, Kate Alexandra, WARDE-FARLEY, David Constantine Patrick, MNIH, Volodymyr, HANSEN, Steven Stenberg
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for training a policy neural network for use in controlling an agent using relative variational intrinsic control. In one aspect, a method includes: selecting a skill from a set of skills; generating a trajectory by controlling the agent using the policy neural network while the policy neural network is conditioned on the selected skill; processing an initial observation and a last observation using a relative discriminator neural network to generate a relative score; processing the last observation using an absolute discriminator neural network to generate an absolute score; generating a reward for the trajectory from the absolute score corresponding to the selected skill and the relative score corresponding to the selected skill; and training the policy neural network on the reward for the trajectory. Procédés, systèmes et appareils, y compris des programmes informatiques codés sur un support de stockage informatique, permettant de former un réseau de neurones de politique destiné à être utilisé lors de la commande d'un agent à l'aide d'une commande intrinsèque variationnelle relative. Selon un aspect, un procédé consiste : à sélectionner une compétence parmi un ensemble de compétences ; à générer une trajectoire par la commande de l'agent à l'aide du réseau de neurones de politique tandis que le réseau de neurones de politique est conditionné sur la compétence sélectionnée ; à traiter une observation initiale et une dernière observation à l'aide d'un réseau de neurones discriminateur relatif pour générer un score relatif ; à traiter la dernière observation à l'aide d'un réseau de neurones discriminateur absolu pour générer un score absolu ; à générer une récompense de la trajectoire à partir du score absolu correspondant à la compétence sélectionnée et du score relatif correspondant à la compétence sélectionnée ; et à former le réseau de neurones de politique sur la récompense de la trajectoire.