MODEL-FREE CONTROL FOR REINFORCEMENT LEARNING AGENTS
Methods, systems, and apparatus for selecting actions to be performed by an agent interacting with an environment. One method includes maintaining return data that maps each observation-action pair to a respective return, the action in each observation-action pair being an action that was performed...
Gespeichert in:
Hauptverfasser: | , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Methods, systems, and apparatus for selecting actions to be performed by an agent interacting with an environment. One method includes maintaining return data that maps each observation-action pair to a respective return, the action in each observation-action pair being an action that was performed by the agent in response to the observation in the observation-action pair and the respective return mapped to by each of the observation-action pairs being a return that resulted from the agent performing the action in the observation-action pair; receiving a current observation; determining whether the current observation matches any observation identified in the return data; and in response to determining that the current observation matches a first observation identified in the return data, selecting an action to be performed by the agent using the returns mapped to by observation-action pairs in the return data that include the first observation.
L'invention concerne des procédés, des systèmes et un appareil permettant de sélectionner des actions à effectuer par un agent interagissant avec un environnement. Un procédé consiste à maintenir des données de retour qui mettent en correspondance chaque paire observation-action avec un retour respectif, l'action de la paire observation-action étant une action qui a été effectuée par l'agent en réponse à l'observation de la paire observation-action et le retour respectif mis en correspondance par chacune des paires observation-action étant un retour qui résulte du fait que l'agent a effectué l'action de la paire observation-action; recevoir une observation courante; déterminer si l'observation courante correspond à une observation identifiée dans les données de retour; et, en réponse à la détermination du fait que l'observation courante correspond à une première observation identifiée dans les données de retour, sélectionner une action à effectuer par l'agent en utilisant les retours qui ont été mis en correspondance par les paires observation-action dans les données de retour et qui contiennent la première observation. |
---|