ENVIRONMENT NAVIGATION USING REINFORCEMENT LEARNING
To improve training of an action selection policy NN (neural network).SOLUTION: A method of training an action selection policy for use in selecting actions to be performed by an agent navigating through an environment to accomplish one or more goals comprises the steps of: receiving an observation...
Gespeichert in:
Hauptverfasser: | , , , , , , , , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; jpn |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | To improve training of an action selection policy NN (neural network).SOLUTION: A method of training an action selection policy for use in selecting actions to be performed by an agent navigating through an environment to accomplish one or more goals comprises the steps of: receiving an observation image characterizing a current state of the environment; processing an input comprising the observation image to generate an action selection output using the action selection policy NN; processing an intermediate output generated by the action selection policy NN to predict a value of a feature of a geometry of the environment using a geometry-prediction NN when in the current state; and inversely propagating a gradient of a geometry-based auxiliary loss into the action selection policy NN to determine a geometry-based auxiliary update for current values of network parameters.SELECTED DRAWING: Figure 2
【課題】行動選択ポリシーNN(ニューラルネットワーク)のトレーニングを向上させる。【解決手段】1つまたは複数の目標を達成するために環境をナビゲートするエージェントによって実行されるべき行動を選択する際に使用するための行動選択ポリシーをトレーニングする方法であって、環境の現在の状態を特徴付ける観測画像を受信するステップと、行動選択ポリシーNNを使用して、行動選択出力を生成するために、観測画像を含む入力を処理するステップと、ジオメトリ予測NNを使用して、現在の状態にあるとき、環境のジオメトリの特徴の値を予測するために、行動選択ポリシーNNによって生成された中間出力を処理するステップと、ネットワークパラメータの現在値についてのジオメトリベースの補助更新を決定するために、ジオメトリベースの補助損失の勾配を行動選択ポリシーNNに逆伝搬するステップと、を含む。【選択図】図2 |
---|