Language Model Preference Evaluation with Multiple Weak Evaluators

Despite the remarkable success of Large Language Models (LLMs), evaluating their outputs' quality regarding preference remains a critical challenge. Existing works usually leverage a powerful LLM (e.g., GPT4) as the judge for comparing LLMs' output pairwisely, yet such model-based evaluato...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	arXiv.org 2024-10
Hauptverfasser:	Hu, Zhengyu, Zhang, Jieyu, Xiong, Zhihan, Ratner, Alexander, Xiong, Hui, Krishna, Ranjay
Format:	Artikel
Sprache:	eng
Schlagworte:	Graphs Large language models Noise reduction Performance evaluation
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Schreiben Sie den ersten Kommentar!