Merkmalsextraktor für ein neuronales Netzwerk für Actor-Critic-Reinforcement-Learning-Modelle

Es sind Systeme und Verfahren zum Optimieren des Ladens einer Fahrzeugbatterie offenbart. Unter Verwendung eines oder mehrerer elektronischer Batteriesensoren werden beobachtbare Batteriezustandsdaten bezüglich des Ladens der Batterie bestimmt. Ein Merkmalsextraktor für ein neuronales Netzwerk extra...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: Thompson, Jeffrey Keating, Evans, Jared, Kroener, Christoph
Format: Patent
Sprache:ger
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Es sind Systeme und Verfahren zum Optimieren des Ladens einer Fahrzeugbatterie offenbart. Unter Verwendung eines oder mehrerer elektronischer Batteriesensoren werden beobachtbare Batteriezustandsdaten bezüglich des Ladens der Batterie bestimmt. Ein Merkmalsextraktor für ein neuronales Netzwerk extrahiert Merkmale aus vorhergehenden Fahrzeugbatteriezustandsinformationen. Ein Reinforcement-Learning-Modell, wie etwa ein Actor-Critic-Modell, schließt ein Actor-Modell, das zum Erzeugen einer Ausgabe ausgelegt ist, die mit einem Ladebefehl zum Laden der Batterie assoziiert ist, und ein Critic-Modell ein, das zum Ausgeben einer vorhergesagten Belohnung ausgelegt ist. Das Reinforcement-Learning-Modell wird basierend auf den Fahrzeugbatteriezustandsinformationen und den extrahierten Merkmalen trainiert. Dies beinhaltet das Aktualisieren von Gewichtungen des Actor-Modells, um die durch das Critic-Modell ausgegebene vorhergesagte Belohnung zu maximieren, und das Aktualisieren von Gewichtungen des Merkmalsextraktors und von Gewichtungen des Critic-Modells, um eine Differenz zwischen der vorhergesagten Belohnung und gesundheitszustandsbasierten Belohnungen, die vom Laden der Batterie empfangen werden, zu minimieren. Verborgene Batteriezustandsinformationen werden basierend auf den extrahierten Merkmalen approximiert. Systems and methods of optimizing a charging of a vehicle battery are disclosed. Using one or more electronic battery sensors, observable battery state data is determined regarding the charging of the battery. A neural network feature extractor extracts features from preceding vehicle battery state information. A reinforcement learning model, such as an actor-critic model, includes an actor model configured to produce an output associated with a charge command to charge the battery, and a critic model configured to output a predicted reward. The reinforcement learning model is trained based on the vehicle battery state information and the extracted features. This includes updating weights of the actor model to maximize the predicted reward output by the critic model, and updating weights of the feature extractor and weights of the critic model to minimize a difference between the predicted reward and health-based rewards received from charging the battery. Hidden battery state information is approximated based on the extracted features.