Generalization Analogies: A Testbed for Generalizing AI Oversight to Hard-To-Measure Domains

As AI systems become more intelligent and their behavior becomes more challenging to assess, they may learn to game the flaws of human feedback instead of genuinely striving to follow instructions; however, this risk can be mitigated by controlling how LLMs generalize human feedback to situations wh...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	arXiv.org 2023-12
Hauptverfasser:	Clymer, Joshua, Baker, Garrett, Subramani, Rohan, Wang, Sam
Format:	Artikel
Sprache:	eng
Schlagworte:	Analogies Feedback
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Schreiben Sie den ersten Kommentar!