MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering

Large language models (LLM) have achieved impressive performance on medical question-answering benchmarks. However, high benchmark accuracy does not imply that the performance generalizes to real-world clinical settings. Medical question-answering benchmarks rely on assumptions consistent with quant...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	arXiv.org 2024-06
Hauptverfasser:	Ness, Robert Osazuwa, Matton, Katie, Helm, Hayden, Zhang, Sheng, Bajwa, Junaid, Priebe, Carey E, Horvitz, Eric
Format:	Artikel
Sprache:	eng
Schlagworte:	Benchmarks Large language models Permutations Questions
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Schreiben Sie den ersten Kommentar!