PLANNING FOR AGENT CONTROL USING RESTART-AUGMENTED LOOK-AHEAD SEARCH
Methods, systems, and apparatus, including computer programs encoded on computer storage media, for selecting, from a set of actions, actions to be performed by an agent interacting with an environment to cause the agent to perform a task. One of the methods includes receiving a current observation...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Methods, systems, and apparatus, including computer programs encoded on computer storage media, for selecting, from a set of actions, actions to be performed by an agent interacting with an environment to cause the agent to perform a task. One of the methods includes receiving a current observation characterizing a current environment state of the environment, selecting an action to be performed by the agent in response to the current observation by performing multiple iterations of outer look ahead search, wherein performing the multiple iterations of outer look ahead search comprises, in each outer look ahead search iteration: determining a proper subset of the possible future states of the environment; determining that one or more inner look ahead search commencement criteria are satisfied; and in response, performing an inner look ahead search of the proper subset of the possible future states of the environment.
Procédés, systèmes et appareil, y compris programmes informatiques codés sur un support de stockage informatique, pour la sélection, à partir d'un ensemble d'actions, d'actions devant être exécutées par un agent interagissant avec un environnement pour amener l'agent à exécuter une tâche. L'un des procédés comprend la réception d'une observation actuelle caractérisant un état d'environnement actuel de l'environnement, la sélection d'une action devant être exécutée par l'agent en réponse à l'observation actuelle par exécution de multiples itérations de recherche anticipée externe, l'exécution des multiples itérations de recherche anticipée externe comprenant, dans chaque itération de recherche anticipée externe : la détermination d'un sous-ensemble approprié des états futurs possibles de l'environnement; la détermination qu'un ou plusieurs critères de commencement de recherche d'anticipation interne sont satisfaits; et en réponse, l'exécution d'une recherche anticipée interne du sous-ensemble approprié des états futurs possibles de l'environnement. |
---|