-
1
-
2
-
3
-
4
-
5
-
6
-
7
-
8
-
9
-
10
Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols
Veröffentlicht in arXiv.org
VolltextArtikel -
11
AI Control: Improving Safety Despite Intentional Subversion
Veröffentlicht in arXiv.org
VolltextArtikel -
12
Language models are better than humans at next-token prediction
Veröffentlicht in arXiv.org
VolltextArtikel -
13
-
14
-
15
-
16
-
17
-
18
-
19
Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small
Veröffentlicht in arXiv.org
VolltextArtikel -
20