-
1
-
2
-
3
-
4
-
5
The Two-Hop Curse: LLMs trained on A->B, B->C fail to learn A-->C
Veröffentlicht in arXiv.org
VolltextArtikel -
6
Large Language Models can Strategically Deceive their Users when Put Under Pressure
Veröffentlicht in arXiv.org
VolltextArtikel -
7
-
8
-
9
-
10
-
11
-
12
Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack
Veröffentlicht in arXiv.org
VolltextArtikel -
13
The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"
Veröffentlicht in arXiv.org
VolltextArtikel -
14
Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs
Veröffentlicht in arXiv.org
VolltextArtikel -
15
Taken out of context: On measuring situational awareness in LLMs
Veröffentlicht in arXiv.org
VolltextArtikel -
16