METHOD AND SYSTEM FOR QUANTILE RESTRICED REINFORCEMENT LEARNING

위험한 상황의 확률을 제한하는 분위수 제한 강화학습 방법 및 그 시스템이 개시된다. 분위수 제한 강화학습 시스템은, 정책을 이용하여 주어진 환경과 상호 작용하여 데이터 샘플을 수집하는 데이터 샘플 수집부; 및 최근 수집된 데이터 샘플을 이용하여 누적 비용의 임계 확률에 대한 제한 조건과 필요충분조건인 누적 비용의 확률 분포에 대한 분위수 제한 조건을 만족시키도록 상기 정책을 학습하는 정책 학습부를 포함한다. 이에 따라, 분위수 및 누적 비용 확률 변수의 확률 분포 함수를 예측하여 고정된 정책으로부터 추가 비용을 계산하므로써, 누적...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: SUNG YOUNG CHUL, PARK JONG EUI, JUNG WHI YOUNG, CHO MYUNG SIK
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:위험한 상황의 확률을 제한하는 분위수 제한 강화학습 방법 및 그 시스템이 개시된다. 분위수 제한 강화학습 시스템은, 정책을 이용하여 주어진 환경과 상호 작용하여 데이터 샘플을 수집하는 데이터 샘플 수집부; 및 최근 수집된 데이터 샘플을 이용하여 누적 비용의 임계 확률에 대한 제한 조건과 필요충분조건인 누적 비용의 확률 분포에 대한 분위수 제한 조건을 만족시키도록 상기 정책을 학습하는 정책 학습부를 포함한다. 이에 따라, 분위수 및 누적 비용 확률 변수의 확률 분포 함수를 예측하여 고정된 정책으로부터 추가 비용을 계산하므로써, 누적 비용의 임계 확률에 대한 제한 조건과 필요충분조건인 누적 비용의 확률 분포에 대한 분위수 제한 조건을 만족시킬 수 있어 위험한 상황의 확률을 제한할 수 있다.