-
1
-
2
-
3
-
4
-
5
-
6
-
7
-
8
-
9
Do Lessons from Metric Learning Generalize to Image-Caption Retrieval?
Veröffentlicht in arXiv.org
VolltextArtikel -
10
-
11
Demonstrating and Reducing Shortcuts in Vision-Language Representation Learning
Veröffentlicht in arXiv.org
VolltextArtikel -
12
-
13
-
14
-
15
-
16
Approximate Nearest Neighbour Phrase Mining for Contextual Speech Recognition
Veröffentlicht in arXiv.org
VolltextArtikel -
17
Bidirectional Scene Text Recognition with a Single Decoder
Veröffentlicht in arXiv.org
VolltextArtikel -
18
-
19
Conditional Image Generation and Manipulation for User-Specified Content
Veröffentlicht in arXiv.org
VolltextArtikel -
20
Extending CLIP for Category-to-image Retrieval in E-commerce
Veröffentlicht in arXiv.org
VolltextArtikel