-
1
-
2
-
3
-
4
-
5
-
6
-
7
-
8
-
9
-
10
-
11
-
12
-
13
-
14
-
15
TAP-VL: Text Layout-Aware Pre-training for Enriched Vision-Language Models
Veröffentlicht in arXiv.org
VolltextArtikel -
16
Question Aware Vision Transformer for Multimodal Reasoning
Veröffentlicht in arXiv.org
VolltextArtikel -
17
CLIPTER: Looking at the Bigger Picture in Scene Text Recognition
Veröffentlicht in arXiv.org
VolltextArtikel -
18