보상 예측 모델을 사용하여 로봇 제어를 위한 오프라인 학습
보상 예측 모델을 사용하는 오프라인 학습을 위해, 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램 포함하는, 방법, 시스템 및 장치가 개시된다. 방법 중 하나는 로봇 경험 데이터를 획득하고; 로봇 경험 데이터의 제1 서브세트에 대해, 입력 관측치를 포함하는 보상 입력을 수신하고 그리고 입력 관측치에 할당되어야 하는 특정 태스크에 대한 태스크 특정 보상의 예측인 보상 예측을 출력으로서 생성하는 보상 예측 모델을 훈련시키고; 훈련된 보상 예측 모델을 사용하여 로봇 경험 데이터에서 경험치들을 프로세싱하여 프로세싱된 경험치들 각각에 대한 각각...
Gespeichert in:
Hauptverfasser: | , |
---|---|
Format: | Patent |
Sprache: | kor |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Schreiben Sie den ersten Kommentar!