-
1
-
2
-
3
-
4
-
5
-
6
-
7
-
8
-
9
Argumentative Reward Learning: Reasoning About Human Preferences
Veröffentlicht in arXiv.org
VolltextArtikel -
10
Honesty Is the Best Policy: Defining and Mitigating AI Deception
Veröffentlicht in arXiv.org
VolltextArtikel -
11
-
12
AI Sandbagging: Language Models can Strategically Underperform on Evaluations
Veröffentlicht in arXiv.org
VolltextArtikel -
13
The Reasons that Agents Act: Intention and Instrumental Goals
Veröffentlicht in arXiv.org
VolltextArtikel