GME: Improving Universal Multimodal Retrieval by Multimodal LLMs

Universal Multimodal Retrieval (UMR) aims to enable search across various modalities using a unified model, where queries and candidates can consist of pure text, images, or a combination of both. Previous work has attempted to adopt multimodal large language models (MLLMs) to realize UMR using only...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: Zhang, Xin, Zhang, Yanzhao, Xie, Wen, Li, Mingxin, Dai, Ziqi, Long, Dingkun, Xie, Pengjun, Zhang, Meishan, Li, Wenjie, Zhang, Min
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!