-
1
-
2
-
3
-
4
-
5
TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs
Veröffentlicht in arXiv.org
VolltextArtikel -
6
Mitigating Gender Bias in Code Large Language Models via Model Editing
Veröffentlicht in arXiv.org
VolltextArtikel -
7
UNO Arena for Evaluating Sequential Decision-Making Capability of Large Language Models
Veröffentlicht in arXiv.org
VolltextArtikel -
8
Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging
Veröffentlicht in arXiv.org
VolltextArtikel -
9