METHODS AND APPARATUS FOR MANAGING A SYSTEM THAT CONTROLS AN ENVIRONMENT
A computer implemented method (100) is disclosed for managing a system controlling an environment is that is operable to perform a task. The method comprises providing, to a plurality of Agents, a representation of a current state of the environment (110), wherein the plurality of Agents comprises a...
Gespeichert in:
Hauptverfasser: | , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | A computer implemented method (100) is disclosed for managing a system controlling an environment is that is operable to perform a task. The method comprises providing, to a plurality of Agents, a representation of a current state of the environment (110), wherein the plurality of Agents comprises a Learning Agent operable to implement a Reinforcement Learning model for selecting actions to be executed on the environment, and a plurality of Baseline Agents, each Baseline Agent operable to implement a policy for selecting actions to be executed on the environment, wherein each policy implemented by a Baseline Agent satisfies a criterion with respect to performance of the task (110a). The method further comprises receiving, from the Learning Agent, a candidate Learning Agent action for execution on the environment, and, from the plurality of Baseline Agents, a plurality of candidate Baseline Agent actions for execution on the environment (120), generating an environment action on the basis of the candidate Learning Agent action and the plurality of candidate Baseline Agent actions (130), and providing the environment action to the system for execution on the environment.
Est divulgué un procédé mis en œuvre par ordinateur (100) pour la gestion d'un système contrôlant un environnement et utilisable pour réaliser une tâche. Le procédé comprend les étapes consistant à fournir, à une pluralité d'agents, une représentation d'un état actuel de l'environnement (110), la pluralité d'agents comprenant un agent d'apprentissage utilisable pour implémenter un modèle d'apprentissage par renforcement (AR), en vue de sélectionner des actions à exécuter dans l'environnement et une pluralité d'agents de base, chaque agent de base étant utilisable pour implémenter une politique de sélection d'actions à exécuter dans l'environnement, chaque politique étant implémentée par un agent de base répondant à un critère par rapport à la réalisation de la tâche (110a). Le procédé consiste en outre à recevoir, de l'agent d'apprentissage, une action d'agent d'apprentissage candidate pour exécution dans l'environnement et, de la pluralité d'agents de base, une pluralité d'actions d'agents de base candidates pour exécution dans l'environnement (120) ; à générer une action environnementale en fonction de l'action candidate d'agent d'apprentissage et de la pluralité d'actions candidates d'agents de base (130) et à fournir l'action environnementale au système pour l'exécuter dans l'environneme |
---|