Suchergebnisse - Balesni, Mikita

1

The Two-Hop Curse: LLMs trained on A->B, B->C fail to learn A-->C von Balesni, Mikita, Korbak, Tomek, Evans, Owain

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
2

Large Language Models can Strategically Deceive their Users when Put Under Pressure von Scheurer, Jérémy, Balesni, Mikita, Hobbhahn, Marius

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
3

Controlling Steering with Energy-Based Models von Balesni, Mikita, Tampuu, Ardi, Matiisen, Tambet

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
4

Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack von McKee-Reid, Leo, Sträter, Christoph, Martinez, Maria Angelica, Needham, Joe, Balesni, Mikita

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
5

The Two-Hop Curse: LLMs trained on A->B, B->C fail to learn A-->C von Mikita Balesni, Korbak, Tomek, Evans, Owain

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
6

Large Language Models can Strategically Deceive their Users when Put Under Pressure von Scheurer, Jérémy, Mikita Balesni, Hobbhahn, Marius

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
7

The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A" von Berglund, Lukas, Tong, Meg, Kaufmann, Max, Balesni, Mikita, Stickland, Asa Cooper, Korbak, Tomasz, Evans, Owain

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
8

Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs von Laine, Rudolf, Chughtai, Bilal, Betley, Jan, Hariharan, Kaivalya, Scheurer, Jeremy, Balesni, Mikita, Hobbhahn, Marius, Meinke, Alexander, Evans, Owain

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
9

Taken out of context: On measuring situational awareness in LLMs von Berglund, Lukas, Stickland, Asa Cooper, Balesni, Mikita, Kaufmann, Max, Tong, Meg, Korbak, Tomasz, Kokotajlo, Daniel, Evans, Owain

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
10

Controlling Steering with Energy-Based Models von Mikita Balesni, Ardi Tampuu, Matiisen, Tambet

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
11

Towards evaluations-based safety cases for AI scheming von Balesni, Mikita, Hobbhahn, Marius, Lindner, David, Meinke, Alexander, Korbak, Tomek, Clymer, Joshua, Shlegeris, Buck, Scheurer, Jérémy, Stix, Charlotte, Shah, Rusheb, Goldowsky-Dill, Nicholas, Braun, Dan, Chughtai, Bilal, Evans, Owain, Kokotajlo, Daniel, Bushnaq, Lucius

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
12

Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack von McKee-Reid, Leo, Sträter, Christoph, Martinez, Maria Angelica, Needham, Joe, Mikita Balesni

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
13

The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A" von Berglund, Lukas, Tong, Meg, Kaufmann, Max, Mikita Balesni, Asa Cooper Stickland, Korbak, Tomasz, Evans, Owain

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
14

Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs von Laine, Rudolf, Chughtai, Bilal, Betley, Jan, Hariharan, Kaivalya, Scheurer, Jeremy, Mikita Balesni, Hobbhahn, Marius, Meinke, Alexander, Evans, Owain

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
15

Taken out of context: On measuring situational awareness in LLMs von Berglund, Lukas, Asa Cooper Stickland, Mikita Balesni, Kaufmann, Max, Tong, Meg, Korbak, Tomasz, Kokotajlo, Daniel, Evans, Owain

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
16

Towards evaluations-based safety cases for AI scheming von Mikita Balesni, Hobbhahn, Marius, Lindner, David, Meinke, Alexander, Korbak, Tomek, Clymer, Joshua, Buck Shlegeris, Scheurer, Jérémy, Stix, Charlotte, Shah, Rusheb, Goldowsky-Dill, Nicholas, Braun, Dan, Chughtai, Bilal, Evans, Owain, Kokotajlo, Daniel, Bushnaq, Lucius

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:

The Two-Hop Curse: LLMs trained on A->B, B->C fail to learn A-->C von Balesni, Mikita, Korbak, Tomek, Evans, Owain

Large Language Models can Strategically Deceive their Users when Put Under Pressure von Scheurer, Jérémy, Balesni, Mikita, Hobbhahn, Marius

Controlling Steering with Energy-Based Models von Balesni, Mikita, Tampuu, Ardi, Matiisen, Tambet

Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack von McKee-Reid, Leo, Sträter, Christoph, Martinez, Maria Angelica, Needham, Joe, Balesni, Mikita

The Two-Hop Curse: LLMs trained on A->B, B->C fail to learn A-->C von Mikita Balesni, Korbak, Tomek, Evans, Owain

Large Language Models can Strategically Deceive their Users when Put Under Pressure von Scheurer, Jérémy, Mikita Balesni, Hobbhahn, Marius

The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A" von Berglund, Lukas, Tong, Meg, Kaufmann, Max, Balesni, Mikita, Stickland, Asa Cooper, Korbak, Tomasz, Evans, Owain

Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs von Laine, Rudolf, Chughtai, Bilal, Betley, Jan, Hariharan, Kaivalya, Scheurer, Jeremy, Balesni, Mikita, Hobbhahn, Marius, Meinke, Alexander, Evans, Owain

Taken out of context: On measuring situational awareness in LLMs von Berglund, Lukas, Stickland, Asa Cooper, Balesni, Mikita, Kaufmann, Max, Tong, Meg, Korbak, Tomasz, Kokotajlo, Daniel, Evans, Owain

Controlling Steering with Energy-Based Models von Mikita Balesni, Ardi Tampuu, Matiisen, Tambet

Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack von McKee-Reid, Leo, Sträter, Christoph, Martinez, Maria Angelica, Needham, Joe, Mikita Balesni

The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A" von Berglund, Lukas, Tong, Meg, Kaufmann, Max, Mikita Balesni, Asa Cooper Stickland, Korbak, Tomasz, Evans, Owain

Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs von Laine, Rudolf, Chughtai, Bilal, Betley, Jan, Hariharan, Kaivalya, Scheurer, Jeremy, Mikita Balesni, Hobbhahn, Marius, Meinke, Alexander, Evans, Owain

Taken out of context: On measuring situational awareness in LLMs von Berglund, Lukas, Asa Cooper Stickland, Mikita Balesni, Kaufmann, Max, Tong, Meg, Korbak, Tomasz, Kokotajlo, Daniel, Evans, Owain

Suchwerkzeuge:

Treffer weiter einschränken

Eingrenzen

Format

Zeitschriftentitel

Schlagworte

Erscheinungsjahr

Quelle