Visionary: vision-aware enhancement with reminding scenes generated by captions via multimodal transformer for embodied referring expression

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	The Visual computer 2024-05
Hauptverfasser:	Yuan, Zhengwu, Tang, Peixian, Sang, Xinguang, Zhang, Fan, Zhang, Zheqi
Format:	Artikel
Sprache:	eng
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!