복합 시스템들의 제어를 위한 무작위화된 강화 학습
복합 시스템(50)을 제어하는 방법(10a; 10b) 및 방법(10a; 10b)에 의해 제어되는 가스 터빈(50)이 제공된다. 방법(10a; 10b)은, 트레이닝 데이터(40)를 제공하는 단계(11) -이 트레이닝 데이터(40)는, 시스템(50)의 상태 공간(S)의 적어도 일부를 표현함-; 시스템(50)에 대한 일반 제어 목적(32) 및 대응하는 설정점(33)을 설정하는 단계(12); 및 예상 총 보상을 최대화하는, 시스템(50)에 대한 제어 정책을 위해, 강화 학습을 사용하여 상태 공간(S)을 탐색하는 단계(13)를 포함한다. 예...
Gespeichert in:
Hauptverfasser: | , , , , |
---|---|
Format: | Patent |
Sprache: | kor |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | 복합 시스템(50)을 제어하는 방법(10a; 10b) 및 방법(10a; 10b)에 의해 제어되는 가스 터빈(50)이 제공된다. 방법(10a; 10b)은, 트레이닝 데이터(40)를 제공하는 단계(11) -이 트레이닝 데이터(40)는, 시스템(50)의 상태 공간(S)의 적어도 일부를 표현함-; 시스템(50)에 대한 일반 제어 목적(32) 및 대응하는 설정점(33)을 설정하는 단계(12); 및 예상 총 보상을 최대화하는, 시스템(50)에 대한 제어 정책을 위해, 강화 학습을 사용하여 상태 공간(S)을 탐색하는 단계(13)를 포함한다. 예상 총 보상은, 대응하는 설정점(33)으로부터 일반 제어 목적(32)의 무작위화된 편차(31)에 따라 좌우된다.
A method of controlling a complex system and a gas turbine being controlled by the method are provided. The method comprises providing training data, which training data represents at least a portion of a state space of the system; setting a generic control objective for the system and a corresponding set point; and exploring the state space, using Reinforcement Learning, for a control policy for the system which maximizes an expected total reward. The expected total reward depends on a randomized deviation of the generic control objective from the corresponding set point. |
---|