Triple Multimodal Cyclic Fusion and Self-Adaptive Balancing for Video Q&A Systems
Performance of Video Question and Answer (VQA) systems relies on capturing key information of both visual images and natural language in the context to generate relevant questions’ answers. However, traditional linear combinations of multimodal features focus only on shallow feature interactions, fa...
Gespeichert in:
Veröffentlicht in: | Computers, materials & continua materials & continua, 2022-01, Vol.73 (3), p.6407 |
---|---|
Hauptverfasser: | , , , , |
Format: | Artikel |
Sprache: | eng |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Schreiben Sie den ersten Kommentar!