SYSTEME UND VERFAHREN ZUM ERZEUGEN VON INSTRUKTIONEN ZUM BEFAHREN VON KREUZUNGEN MIT AUTONOMEN FAHRZEUGEN

Es werden Systeme und Verfahren angegeben, um Instruktionen für ein Fahrzeug zu erzeugen, eine signallose Kreuzung zu befahren. Das Verfahren kann enthalten: Erzeugen eines erwarteten Returns über eine Sequenz von Aktionen des Fahrzeugs; Bestimmen einer optimalen Politik durch Auswahl einer Aktion m...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: Isele, David, Fujimura, Kikuo, Cosgun, Akansel, Subramanian, Kaushik, Rahimi, Gholamreza
Format: Patent
Sprache:ger
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Es werden Systeme und Verfahren angegeben, um Instruktionen für ein Fahrzeug zu erzeugen, eine signallose Kreuzung zu befahren. Das Verfahren kann enthalten: Erzeugen eines erwarteten Returns über eine Sequenz von Aktionen des Fahrzeugs; Bestimmen einer optimalen Politik durch Auswahl einer Aktion mit einem maximalen Wert für das Fahrzeug; Ausführen von dynamischem Frame Skipping, um das Erlernen einer wiederholten Aktion des Fahrzeugs zu beschleunigen; Priorisieren einer Erfahrungswiederholung unter Verwendung eines Erfahrungswiederholungspuffers, um Korrelationen zwischen sequenziellen Schritten des Fahrzeugs zu brechen; Erzeugen einer Mehrzahl von Zustand-Aktion-Darstellungen basierend auf dem erwarteten Return, der optimalen Politik, dem dynamischen Frame Skipping und/oder der priorisierten Erfahrungswiederholung; Erzeugen der Instruktionen zum Befahren der signallosen Kreuzung basierend auf der Mehrzahl von Zustand-Aktion-Darstellungen; und Senden der Instruktionen zum Befahren der signallosen Kreuzung zu dem Fahrzeug derart, dass das Fahrzeug die Instruktionen ausführt, um die signallose Kreuzung zu befahren. Systems and methods for generating instructions for a vehicle to navigate an unsignaled intersection are provided. The method may include: generating an expected return over a sequence of actions of the vehicle; determining an optimal policy by selecting an action with a maximum value for the vehicle; executing dynamic frame skipping to expedite learning a repeated action of the vehicle; prioritize an experience replay by utilizing an experience replay buffer to break correlations between sequential steps of the vehicle; generate a plurality of state-action representations based on at least one of the expected return, the optimal policy, the dynamic frame skipping, or the prioritized experience replay; generate the instructions for navigating the unsignaled intersection based on the plurality of state-action representations; and transmit the instructions for navigating the unsignaled intersection to the vehicle such that the vehicle executes the instructions to navigate the unsignaled intersection.