Suchergebnisse - van der Weij, Teun | OPAC THWS

1

Extending Activation Steering to Broad Skills and Multiple Behaviours von van der Weij, Teun, Poesio, Massimo, Schoots, Nandi

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
2

Evaluating Shutdown Avoidance of Language Models in Textual Scenarios von van der Weij, Teun, Lermen, Simon, lang, Leon

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
3

AI Sandbagging: Language Models can Strategically Underperform on Evaluations von van der Weij, Teun, Hofstätter, Felix, Jaffe, Ollie, Brown, Samuel F, Ward, Francis Rhys

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
4

Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models von Tice, Cameron, Kreer, Philipp Alexander, Helm-Burger, Nathan, Shahani, Prithviraj Singh, Ryzhenkov, Fedor, Haimes, Jacob, Hofstätter, Felix, van der Weij, Teun

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
5

Extending Activation Steering to Broad Skills and Multiple Behaviours von Teun van der Weij, Poesio, Massimo, Nandi Schoots

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
6

Evaluating Shutdown Avoidance of Language Models in Textual Scenarios von Teun van der Weij, Lermen, Simon, lang, Leon

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
7

AI Sandbagging: Language Models can Strategically Underperform on Evaluations von Teun van der Weij, Hofstätter, Felix, Jaffe, Ollie, Brown, Samuel F, Ward, Francis Rhys

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
8

Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models von Tice, Cameron, Kreer, Philipp Alexander, Helm-Burger, Nathan, Prithviraj Singh Shahani, Ryzhenkov, Fedor, Haimes, Jacob, Hofstätter, Felix, Teun van der Weij

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in: