-
1
-
2
-
3
-
4
-
5
-
6
-
7
-
8
-
9
-
10
-
11
-
12
-
13
-
14
-
15
-
16
-
17
-
18
Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
Veröffentlicht in arXiv.org
VolltextArtikel -
19
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding
Veröffentlicht in arXiv.org
VolltextArtikel -
20
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
Veröffentlicht in arXiv.org
VolltextArtikel