-
1
MAIN: Multi-Attention Instance Network for video segmentation
Veröffentlicht in Computer vision and image understanding
VolltextArtikel -
2
-
3
-
4
-
5
-
6
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models
Veröffentlicht in arXiv.org
VolltextArtikel -
7
-
8
-
9
-
10
-
11
-
12
-
13
MAAS: Multi-modal Assignation for Active Speaker Detection
Veröffentlicht in arXiv.org
VolltextArtikel -
14
MovieCuts: A New Dataset and Benchmark for Cut Type Recognition
Veröffentlicht in arXiv.org
VolltextArtikel -
15
-
16
vCLIMB: A Novel Video Class Incremental Learning Benchmark
Veröffentlicht in arXiv.org
VolltextArtikel -
17
MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions
Veröffentlicht in arXiv.org
VolltextArtikel -
18
-
19
-
20