SYSTEMS AND METHODS FOR JOINT INTER- AND INTRA-SLICE ORCHESTRATION USING REINFORCEMENT LEARNING

A multilevel reinforcement learning (RL) system includes a first reinforcement learning orchestrator (RLO) that operates a first RL process on an environment, and a second RLO that operates a second RL process on the environment. The second RLO generates a low level (LL) action to be performed on th...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: HARALDSON, Johan, SHOKRI GHADIKOLAEI, Hossein, GANJALIZADEH, Milad, PETROVA, Marina
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A multilevel reinforcement learning (RL) system includes a first reinforcement learning orchestrator (RLO) that operates a first RL process on an environment, and a second RLO that operates a second RL process on the environment. The second RLO generates a low level (LL) action to be performed on the environment according to a LL policy based on a LL state and a LL reward that are observed from the environment. The first RLO generates a high level (HL) action to be performed on the environment according to a HL policy based on a HL state and a HL reward that are observed from the environment and based on the LL state and a plurality of LL rewards. L'invention concerne un système d'apprentissage par renforcement (RL) multiniveau comprenant un premier orchestrateur d'apprentissage par renforcement (RLO) qui fait fonctionner un premier processus RL sur un environnement, et un deuxième RLO qui fait fonctionner un deuxième processus RL sur l'environnement. Le deuxième RLO génère une action de bas niveau (LL) à effectuer sur l'environnement selon une politique LL sur la base d'un état LL et d'une récompense LL qui sont observés à partir de l'environnement. Le premier RLO génère une action de haut niveau (HL) à effectuer sur l'environnement selon une politique HL sur la base d'un état HL et d'une récompense HL qui sont observés à partir de l'environnement et sur la base de l'état LL et d'une pluralité de récompenses LL.