Multiple-Choice Questions are Efficient and Robust LLM Evaluators

We present GSM-MC, a multiple-choice (MC) dataset constructed by collecting answers and incorrect predictions on GSM8K from 60 open-source models. Through extensive experiments, we show that LLMs' performance on the MC version of this popular benchmark is strongly correlated with their performa...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	arXiv.org 2024-06
Hauptverfasser:	Zhang, Ziyin, Jiang, Zhaokun, Xu, Lizhen, Hao, Hongkun, Wang, Rui
Format:	Artikel
Sprache:	eng
Schlagworte:	Benchmarks Datasets Robustness
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Schreiben Sie den ersten Kommentar!