TRAINING AN UNSUPERVISED MEMORY-BASED PREDICTION SYSTEM TO LEARN COMPRESSED REPRESENTATIONS OF AN ENVIRONMENT
Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for training a memory-based prediction system configured to receive an input observation characterizing a state of an environment interacted with by an agent and to process the input observation and da...
Gespeichert in:
Hauptverfasser: | , , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for training a memory-based prediction system configured to receive an input observation characterizing a state of an environment interacted with by an agent and to process the input observation and data read from a memory to update data stored in the memory and to generate a latent representation of the state of the environment. The method comprises: for each of a plurality of time steps: processing an observation for the time step and data read from the memory to: (i) update the data stored in the memory, and (ii) generate a latent representation of the current state of the environment as of the time step; and generating a predicted return that will be received by the agent as a result of interactions with the environment after the observation for the time step is received.
La présente invention concerne des procédés, des systèmes et un appareil, incluant des programmes d'ordinateur codés sur un support de stockage informatique, pour l'entraînement d'un système de prédiction à base de mémoire configuré pour recevoir une observation d'entrée caractérisant un état d'un environnement avec lequel un agent a interagi et pour traiter l'observation d'entrée et des données lues dans une mémoire pour mettre à jour des données stockées dans la mémoire et pour générer une représentation latente de l'état de l'environnement. Le procédé comprend, pour chaque étape d'une pluralité d'étapes temporelles : le traitement d'une observation pour l'étape temporelle et de données lues dans la mémoire pour (i) mettre à jour les données stockées dans la mémoire, et (ii) générer une représentation latente de l'état actuel de l'environnement depuis l'étape temporelle ; et la génération d'un renvoi prédit qui est reçu par l'agent en tant que résultat d'interactions avec l'environnement après que l'observation pour l'étape temporelle est reçue. |
---|