Geglättete Belohnungssystemübertragung für Bestärkende Actor-Critic-Lernmodelle
Verfahren und Systeme zum Glätten des Übergangs von Belohnungssystemen oder Datensätzen für bestärkende Actor-Critic-Lernmodelle. Ein bestärkendes Modell wie ein Actor-Critic-Modell wird auf einem ersten Datensatz und einem ersten Belohnungssystem trainiert. Die Gewichtungen des Actor-Modells und de...
Gespeichert in:
Hauptverfasser: | , , |
---|---|
Format: | Patent |
Sprache: | ger |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Verfahren und Systeme zum Glätten des Übergangs von Belohnungssystemen oder Datensätzen für bestärkende Actor-Critic-Lernmodelle. Ein bestärkendes Modell wie ein Actor-Critic-Modell wird auf einem ersten Datensatz und einem ersten Belohnungssystem trainiert. Die Gewichtungen des Actor-Modells und des Critic-Modells sind eingefroren. Während diese Gewichtungen eingefroren sind, wird eine affine Transformationsschicht an eine abschließende Schicht des Critic-Modells angehängt und die affine Transformationsschicht wird mit einem zweiten Datensatz und einem zweiten Belohnungssystem trainiert, um eine Gewichtung der abschließenden Schicht des Critic-Modells anzupassen. Dann werden die Gewichtungen des Critic-Modells aufgetaut, wodurch die angepasste Gewichtung der abschließenden Schicht des Critic-Modells implementiert werden kann. Das Modell des bestärkenden Lernens wird auf dem zweiten Datensatz und dem zweiten Belohnungssystem neutrainiert, zunächst nur mit aufgetauten Critic-Gewichtungen und dann mit aufgetauten Actor- und Critic-Gewichtungen.
Methods and systems for smoothening the transition of reward systems or datasets for actor-critic reinforcement learning models. A reinforcement model such as an actor-critic model is trained on a first dataset and a first reward system. The weights of the actor model and the critic model are frozen. While these weights are frozen, an affine transformation layer is attached to a final layer of the critic model, and the affine transformation layer is trained with a second dataset and a second reward system in order to adjust a weight of the final layer of the critic model. Then, the weights of the critic model are unfrozen which allows the adjusted weight of the final layer of the critic model to be implemented. The reinforcement learning model is retrained on the second dataset and second reward system, first with just the critic weights unfrozen, and then with both actor and critic weights unfrozen. |
---|