Objektaufmerksamkeitsnetz
Ein Computer, der einen Prozessor und einen Speicher beinhaltet, kann zukünftige Status eines oder mehrerer sich bewegender Objekte durch Folgendes vorhersagen: Erlangen einer Vielzahl von Videoeinzelbildern mit einem Sensor, der in einer Vorrichtung beinhaltet ist, Eingeben der Vielzahl von Videoei...
Gespeichert in:
Hauptverfasser: | , , , , |
---|---|
Format: | Patent |
Sprache: | ger |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Ein Computer, der einen Prozessor und einen Speicher beinhaltet, kann zukünftige Status eines oder mehrerer sich bewegender Objekte durch Folgendes vorhersagen: Erlangen einer Vielzahl von Videoeinzelbildern mit einem Sensor, der in einer Vorrichtung beinhaltet ist, Eingeben der Vielzahl von Videoeinzelbildern in ein erstes tiefes neuronales Netz, um ein oder mehrere Objekte, die in der Vielzahl von Videoeinzelbildern beinhaltet sind, zu bestimmen, und Eingeben der Objekte in ein zweites tiefes neuronales Netz, um Objektmerkmale und Vollbildmerkmale zu bestimmen. Der Computer kann ferner die Objektmerkmale und die Vollbildmerkmale in ein drittes tiefes neuronales Netz eingeben, um räumliche Aufmerksamkeitsgewichtungen für die Objektmerkmale und die Vollbildmerkmale zu bestimmen, die Objektmerkmale und die Vollbildmerkmale in ein viertes tiefes neuronales Netz eingeben, um zeitliche Aufmerksamkeitsgewichtungen für die Objektmerkmale und die Vollbildmerkmale zu bestimmen, und die Objektmerkmale, die Vollbildmerkmale, die räumlichen Aufmerksamkeitsgewichtungen und die zeitlichen Aufmerksamkeitsgewichtungen in ein fünftes tiefes neuronales Netz eingeben, um Vorhersagen bezüglich des einen oder der mehreren Objekte, die in der Vielzahl von Videoeinzelbildern beinhaltet sind, zu bestimmen.
A computer that includes a processor and a memory can predict future status of one or more moving objects by acquiring a plurality of video frames with a sensor included in a device, inputting the plurality of video frames to a first deep neural network to determine one or more objects included in the plurality of video frames, and inputting the objects to a second deep neural network to determine object features and full frame features. The computer can further input the object features and full frame features to a third deep neural network to determine spatial attention weights for the object features and full frame features, input the object features and full frame features to a fourth deep neural network to determine temporal attention weights for the object features and full frame features, and input the object features, full frame features, spatial attention weights and temporal attention weights to a fifth deep neural network to determine predictions regarding the one or more objects included the plurality of video frames. |
---|