모델 없는 강화 학습을 위한 스택형 컨볼루션 장단기 메모리
환경과 상호 작용하는 에이전트를 제어하기 위한 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램을 포함하는 방법, 시스템 및 장치가 개시된다. 방법 중 하나는 관측의 표현을 획득하는 단계와; 복수의 컨볼루션 LSTM 신경망 계층을 포함하는 컨볼루션 장단기 메모리(LSTM) 신경망을 사용하여 표현을 처리하는 단계와; 액션 선택 입력을 수신하고 그 액션 선택 입력을 처리하여 시간 단계에서 에이전트에 의해 수행될 액션을 정의하는 액션 선택 출력을 생성하도록 구성된 액션 선택 신경망을 사용하여 시간 단계에 대한 최종 LSTM 은닉 상태 출력을...
Gespeichert in:
Hauptverfasser: | , , , |
---|---|
Format: | Patent |
Sprache: | kor |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | 환경과 상호 작용하는 에이전트를 제어하기 위한 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램을 포함하는 방법, 시스템 및 장치가 개시된다. 방법 중 하나는 관측의 표현을 획득하는 단계와; 복수의 컨볼루션 LSTM 신경망 계층을 포함하는 컨볼루션 장단기 메모리(LSTM) 신경망을 사용하여 표현을 처리하는 단계와; 액션 선택 입력을 수신하고 그 액션 선택 입력을 처리하여 시간 단계에서 에이전트에 의해 수행될 액션을 정의하는 액션 선택 출력을 생성하도록 구성된 액션 선택 신경망을 사용하여 시간 단계에 대한 최종 LSTM 은닉 상태 출력을 포함하는 액션 선택 입력을 처리하는 단계와; 액션 선택 출력으로부터, 액션 선택 정책에 따라 시간 단계에서 에이전트에 의해 수행될 액션을 선택하는 단계와; 그리고 선택된 액션을 에이전트가 수행하도록 하는 단계를 포함한다.
Methods, systems, and apparatus, including computer programs encoded on computer storage media, for controlling an agent interacting with an environment. One of the methods includes obtaining a representation of an observation; processing the representation using a convolutional long short-term memory (LSTM) neural network comprising a plurality of convolutional LSTM neural network layers; processing an action selection input comprising the final LSTM hidden state output for the time step using an action selection neural network that is configured to receive the action selection input and to process the action selection input to generate an action selection output that defines an action to be performed by the agent at the time step; selecting, from the action selection output, the action to be performed by the agent at the time step in accordance with an action selection policy; and causing the agent to perform the selected action. |
---|