GENERATING IMPLICIT PLANS FOR ACCOMPLISHING GOALS IN AN ENVIRONMENT USING ATTENTION OPERATIONS OVER PLANNING EMBEDDINGS

Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for selecting actions to be performed by an agent interacting with an environment to accomplish a goal. In one aspect, a method comprises: generating a respective planning embedding corresponding to ea...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: FAULKNER, Ryan, RITTER, Samuel, RAPOSO, David Nunes
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for selecting actions to be performed by an agent interacting with an environment to accomplish a goal. In one aspect, a method comprises: generating a respective planning embedding corresponding to each of multiple experience tuples in an external memory, wherein each experience tuple characterizes interaction of the agent with the environment at a respective previous time step; processing the planning embeddings using a planning neural network to generate an implicit plan for accomplishing the goal; and selecting the action to be performed by the agent at the time step using the implicit plan. L'invention concerne des procédés, des systèmes et un appareil, y compris des programmes informatiques codés sur un support de stockage informatique, permettant de sélectionner des actions devant être réalisées par un agent interagissant avec un environnement pour réaliser un objectif. Selon un aspect, un procédé comprenant : la génération d'une intégration de planification respective correspondant à chacun de multiples tuples d'expérience dans une mémoire externe, chaque tuple d'expérience caractérisant l'interaction de l'agent avec l'environnement à une étape précédente respective ; le traitement des intégrations de planification à l'aide d'un réseau neuronal de planification pour générer un plan implicite pour réaliser l'objectif ; et la sélection de l'action à effectuer par l'agent à l'étape temporelle à l'aide du plan implicite.