-
1
-
2
-
3
-
4
-
5
-
6
-
7
-
8
-
9
CLIP with Quality Captions: A Strong Pretraining for Vision Tasks
Veröffentlicht in arXiv.org
VolltextArtikel -
10
-
11
MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training
Veröffentlicht in arXiv.org
VolltextArtikel -
12
-
13
FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization
Veröffentlicht in arXiv.org
VolltextArtikel -
14
SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding
Veröffentlicht in arXiv.org
VolltextArtikel -
15
Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum
Veröffentlicht in arXiv.org
VolltextArtikel -
16
-
17
Instance-Level Task Parameters: A Robust Multi-task Weighting Framework
Veröffentlicht in arXiv.org
VolltextArtikel -
18
-
19
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
Veröffentlicht in arXiv.org
VolltextArtikel -
20
Forward Compatible Training for Large-Scale Embedding Retrieval Systems
Veröffentlicht in arXiv.org
VolltextArtikel