DEVICE AND METHOD FOR CONTROLLING AUTOMATIC DRIVING ROBOT

The purpose of the present invention is to reduce a learning time period when actual test is performed on a device and a method for controlling an automatic driving robot. This device for controlling an automatic driving robot, which is mounted on a vehicle for causing the vehicle to travel, perform...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: NATSU, Yukiya, YOSHIDA, Kento, KANAZASHI, Yasuhiro, HAMAGAMI, Tomoki
Format: Patent
Sprache:eng ; fre ; jpn
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The purpose of the present invention is to reduce a learning time period when actual test is performed on a device and a method for controlling an automatic driving robot. This device for controlling an automatic driving robot, which is mounted on a vehicle for causing the vehicle to travel, performs control of the automatic driving robot to travel at an instructed vehicle speed that has been determined. The device is provided with a calculation unit that outputs operation of the vehicle by training using a reinforcement learning algorithm. The operation of the vehicle is performed by a hierarchical structure of policies comprising a plurality of sub-policies that are shared by a plurality of vehicles and a main policy that is specialized for a target vehicle by mixing the plurality of sub-policies and that is obtained by an MCP method or an MLSH method. Le but de la présente invention est de réduire une période d'apprentissage lorsqu'un test réel est réalisé sur un dispositif et un procédé de commande d'un robot d'entraînement automatique. Le présent dispositif de commande d'un robot d'entraînement automatique, qui est monté sur un véhicule afin de provoquer le déplacement du véhicule, effectue une commande du déplacement du robot d'entraînement automatique à une vitesse de véhicule commandée ayant été déterminée. Le dispositif est pourvu d'une unité de calcul qui émet en sortie le fonctionnement du véhicule par apprentissage à l'aide d'un algorithme d'apprentissage par renforcement. Le fonctionnement du véhicule est effectué par une structure hiérarchique de politiques comprenant une pluralité de sous-politiques partagées par une pluralité de véhicules et une politique principale spécialisée pour un véhicule cible par le mélange de la pluralité de sous-politiques et qui est obtenue par un procédé MCP ou un procédé MLSH. 自動操縦ロボットの制御装置及び制御方法の実試験時の学習時間を短くすることを目的として、車両に搭載されて該車両を走行させる自動操縦ロボットを該車両が規定された指令車速に従って走行するように制御する、該自動操縦ロボットの制御装置が、強化学習アルゴリズムに基づいた学習により車両の操作を出力する演算部を備え、該車両の操作は、複数の車両間で共通の複数の副方策と、MCP法又はMLSH法によって得られる、前記複数の副方策が混合されて対象車両に特化された主方策と、により構成される階層構造の方策により行われる。