ENVIRONMENT NAVIGATION USING REINFORCEMENT LEARNING

To improve training of an action selection policy NN (neural network).SOLUTION: A method of training an action selection policy for use in selecting actions to be performed by an agent navigating through an environment to accomplish one or more goals comprises the steps of: receiving an observation...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	MISHA MAN RAY DENIL, FABIO VIOLA, HUBERT JOSEF SOYER, RAIA THAIS HADSELL, RAZVAN PASCANU, ANDREW JAMES BALLARD, ANDREA BANINO, SUDARSHAN KUMARAN, LAURENT SIFRE, ROSTISLAV GOROSHIN, PIOTR WOJCIECH MIROWSKI, KORAY KAVUKCUOGLU
Format:	Patent
Sprache:	eng ; jpn
Schlagworte:	CALCULATING COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS COMPUTING COUNTING PHYSICS
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	To improve training of an action selection policy NN (neural network).SOLUTION: A method of training an action selection policy for use in selecting actions to be performed by an agent navigating through an environment to accomplish one or more goals comprises the steps of: receiving an observation image characterizing a current state of the environment; processing an input comprising the observation image to generate an action selection output using the action selection policy NN; processing an intermediate output generated by the action selection policy NN to predict a value of a feature of a geometry of the environment using a geometry-prediction NN when in the current state; and inversely propagating a gradient of a geometry-based auxiliary loss into the action selection policy NN to determine a geometry-based auxiliary update for current values of network parameters.SELECTED DRAWING: Figure 2 【課題】行動選択ポリシーＮＮ（ニューラルネットワーク）のトレーニングを向上させる。【解決手段】1つまたは複数の目標を達成するために環境をナビゲートするエージェントによって実行されるべき行動を選択する際に使用するための行動選択ポリシーをトレーニングする方法であって、環境の現在の状態を特徴付ける観測画像を受信するステップと、行動選択ポリシーＮＮを使用して、行動選択出力を生成するために、観測画像を含む入力を処理するステップと、ジオメトリ予測ＮＮを使用して、現在の状態にあるとき、環境のジオメトリの特徴の値を予測するために、行動選択ポリシーＮＮによって生成された中間出力を処理するステップと、ネットワークパラメータの現在値についてのジオメトリベースの補助更新を決定するために、ジオメトリベースの補助損失の勾配を行動選択ポリシーＮＮに逆伝搬するステップと、を含む。【選択図】図２