Evaluating LLM Reasoning in the Operations Research Domain with ORQA

In this paper, we introduce and apply Operations Research Question Answering (ORQA), a new benchmark designed to assess the generalization capabilities of Large Language Models (LLMs) in the specialized technical domain of Operations Research (OR). This benchmark evaluates whether LLMs can emulate t...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	arXiv.org 2024-12
Hauptverfasser:	Mostajabdaveh, Mahdi, Yu, Timothy T, Samarendra Chandan Bindu Dash, Ramamonjison, Rindranirina, Jabo, Serge Byusa, Carenini, Giuseppe, Zhou, Zirui, Zhang, Yong
Format:	Artikel
Sprache:	eng
Schlagworte:	Benchmarks Datasets Large language models Optimization Reasoning
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Schreiben Sie den ersten Kommentar!