-
1
-
2
Model-Based Robot Imitation with Future Image Similarity
Veröffentlicht in International journal of computer vision
VolltextArtikel -
3
-
4
-
5
-
6
-
7
-
8
-
9
-
10
Joint Adaptive Representations for Image-Language Learning
Veröffentlicht in arXiv.org
VolltextArtikel -
11
Diversifying Joint Vision-Language Tokenization Learning
Veröffentlicht in arXiv.org
VolltextArtikel -
12
-
13
Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning
Veröffentlicht in arXiv.org
VolltextArtikel -
14
Compound Tokens: Channel Fusion for Vision-Language Representation Learning
Veröffentlicht in arXiv.org
VolltextArtikel -
15
-
16
Pre-training image-language transformers for open-vocabulary tasks
Veröffentlicht in arXiv.org
VolltextArtikel -
17
-
18
Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning
Veröffentlicht in arXiv.org
VolltextArtikel -
19
-
20