GENERIEREN VON KÜNSTLICHEM VIDEO MIT GEÄNDERTER DOMÄNE

Ein Computer beinhaltet einen Prozessor und einen Speicher und auf dem Speicher sind Anweisungen gespeichert, die durch den Prozessor zu Folgendem ausführbar sind: Empfangen eines Eingabevideos einer Szene und von Audiodaten, die dem Eingabevideo zugeordnet sind, wobei sich das Eingabevideo in einer...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Perincherry, Akhil, Chand, Arpita
Format:	Patent
Sprache:	ger
Schlagworte:	CALCULATING COMPUTING COUNTING PHYSICS
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	Ein Computer beinhaltet einen Prozessor und einen Speicher und auf dem Speicher sind Anweisungen gespeichert, die durch den Prozessor zu Folgendem ausführbar sind: Empfangen eines Eingabevideos einer Szene und von Audiodaten, die dem Eingabevideo zugeordnet sind, wobei sich das Eingabevideo in einer ersten Domäne befindet; Ausführen eines Codierers, um das Eingabevideo und die Audiodaten einem latenten Vektor in einem niedrigerdimensionalen latenten Raum zuzuweisen; und Ausführen eines Generators, um ein Ausgabevideo der Szene aus dem latenten Vektor zu generieren, wobei sich das Ausgabevideo in einer zweiten Domäne befindet. Der Codierer und der Generator sind trainiert, um eine zeitliche Konsistenz zwischen dem Eingabevideo und dem Ausgabevideo unter Verwendung der Audiodaten aufrechtzuerhalten. A computer includes a processor and a memory, and the memory stores instructions executable by the processor to receive an input video of a scene and audio data associated with the input video, the input video being in a first domain; execute an encoder to map the input video and the audio data to a latent vector in a lower-dimensional latent space; and execute a generator to generate an output video of the scene from the latent vector, the output video being in a second domain. The encoder and the generator are trained to maintain temporal consistency between the input video and the output video by using the audio data.