Aligning Crowd Feedback via Distributional Preference Reward Modeling

Deep Reinforcement Learning is widely used for aligning Large Language Models (LLM) with human preference. However, the conventional reward modelling has predominantly depended on human annotations provided by a select cohort of individuals. Such dependence may unintentionally result in models that...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	arXiv.org 2024-02
Hauptverfasser:	Li, Dexun, Zhang, Cong, Dong, Kuicai, Derrick Goh Xin Deik, Tang, Ruiming, Liu, Yong
Format:	Artikel
Sprache:	eng
Schlagworte:	Annotations Large language models Preferences Probability distribution functions
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Schreiben Sie den ersten Kommentar!