-
1
-
2
-
3
-
4
-
5
-
6
-
7
-
8
Evaluating the Robustness to Instructions of Large Language Models
Veröffentlicht in arXiv.org
VolltextArtikel -
9
-
10
GenAI Arena: An Open Evaluation Platform for Generative Models
Veröffentlicht in arXiv.org
VolltextArtikel -
11
-
12
-
13
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
Veröffentlicht in arXiv.org
VolltextArtikel -
14
EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models
Veröffentlicht in arXiv.org
VolltextArtikel -
15
MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks
Veröffentlicht in arXiv.org
VolltextArtikel -
16
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
Veröffentlicht in arXiv.org
VolltextArtikel -
17
-
18
A Comprehensive Study of Knowledge Editing for Large Language Models
Veröffentlicht in arXiv.org
VolltextArtikel -
19
II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models
Veröffentlicht in arXiv.org
VolltextArtikel -
20