DISTRIBUTED REINFORCEMENT LEARNING SYSTEM, AND DISTRIBUTED REINFORCEMENT LEARNING METHOD

The objective of the present invention is to provide a novel distributed reinforcement learning system. An embodiment of the present disclosure relates to a distributed reinforcement learning system which includes a replay buffer group for storing experience data to be used in reinforcement learning...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: FUJITA, Yasuhiro, UENISHI, Kota
Format: Patent
Sprache:eng ; fre ; jpn
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The objective of the present invention is to provide a novel distributed reinforcement learning system. An embodiment of the present disclosure relates to a distributed reinforcement learning system which includes a replay buffer group for storing experience data to be used in reinforcement learning, a learner device group for training a model on the basis of the experience data, and an actor device for acquiring the experience data using the model that has been trained by the learner device group, wherein each replay buffer stores mutually different experience data and is associated with one or more learner devices of the learner device group. L'objectif de la présente invention est de fournir un nouveau système d'apprentissage de renforcement distribué. À cet effet, selon un mode de réalisation, la présente divulgation concerne un système d'apprentissage de renforcement distribué qui comprend un groupe de mémoires tampon de relecture permettant de stocker des données d'expérience à utiliser dans l'apprentissage de renforcement, un groupe de dispositifs d'apprentissage permettant d'entraîner un modèle sur la base des données d'expérience, et un dispositif acteur permettant d'acquérir les données d'expérience à l'aide du modèle qui a été entraîné par le groupe de dispositifs d'apprentissage, chaque mémoire tampon de relecture stockant des données d'expérience mutuellement différentes et étant associée à un ou plusieurs dispositifs d'apprentissage du groupe de dispositifs d'apprentissage. 新規な分散強化学習システムを提供することである。本開示の一態様は、強化学習に用いられる経験データを格納するReplayバッファ群と、前記経験データに基づいてモデルを訓練するLearner装置群と、前記Learner装置群によって訓練されたモデルを用いて前記経験データを取得するActor装置と、を有し、各Replayバッファは、互いに異なる経験データを格納し、前記Learner装置群の1つ以上のLearner装置と関連付けられる、分散強化学習システムに関する。