-
1
-
2
-
3
-
4
-
5
Extending Activation Steering to Broad Skills and Multiple Behaviours
Veröffentlicht in arXiv.org
VolltextArtikel -
6
Evaluating Shutdown Avoidance of Language Models in Textual Scenarios
Veröffentlicht in arXiv.org
VolltextArtikel -
7
AI Sandbagging: Language Models can Strategically Underperform on Evaluations
Veröffentlicht in arXiv.org
VolltextArtikel -
8
Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models
Veröffentlicht in arXiv.org
VolltextArtikel