보상 예측 모델을 사용하여 로봇 제어를 위한 오프라인 학습

보상 예측 모델을 사용하는 오프라인 학습을 위해, 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램 포함하는, 방법, 시스템 및 장치가 개시된다. 방법 중 하나는 로봇 경험 데이터를 획득하고; 로봇 경험 데이터의 제1 서브세트에 대해, 입력 관측치를 포함하는 보상 입력을 수신하고 그리고 입력 관측치에 할당되어야 하는 특정 태스크에 대한 태스크 특정 보상의 예측인 보상 예측을 출력으로서 생성하는 보상 예측 모델을 훈련시키고; 훈련된 보상 예측 모델을 사용하여 로봇 경험 데이터에서 경험치들을 프로세싱하여 프로세싱된 경험치들 각각에 대한 각각...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: ZOLNA KONRAD, REED SCOTT ELLISON
Format: Patent
Sprache:kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!