Suchergebnisse - Shlegeris, Buck

1

Generalized Wick Decompositions von MacLeod, Chris, Nitishinskaya, Evgenia, Shlegeris, Buck

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
2

Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols von Griffin, Charlie, Thomson, Louis, Shlegeris, Buck, Abate, Alessandro

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
3

AI Control: Improving Safety Despite Intentional Subversion von Greenblatt, Ryan, Shlegeris, Buck, Sachan, Kshitij, Roger, Fabien

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
4

Benchmarks for Detecting Measurement Tampering von Roger, Fabien, Greenblatt, Ryan, Nadeau, Max, Shlegeris, Buck, Thomas, Nate

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
5

Language models are better than humans at next-token prediction von Shlegeris, Buck, Roger, Fabien, Chan, Lawrence, McLean, Euan

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
6

Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small von Wang, Kevin, Variengien, Alexandre, Conmy, Arthur, Shlegeris, Buck, Steinhardt, Jacob

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
7

Generalized Wick Decompositions von MacLeod, Chris, Nitishinskaya, Evgenia, Buck Shlegeris

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
8

Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats von Wen, Jiaxin, Hebbar, Vivek, Larson, Caleb, Bhatt, Aryan, Radhakrishnan, Ansh, Sharma, Mrinank, Sleight, Henry, Feng, Shi, He, He, Perez, Ethan, Shlegeris, Buck, Khan, Akbir

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
9

Polysemanticity and Capacity in Neural Networks von Scherlis, Adam, Sachan, Kshitij, Jermyn, Adam S, Benton, Joe, Shlegeris, Buck

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
10

Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols von Griffin, Charlie, Thomson, Louis, Buck Shlegeris, Abate, Alessandro

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
11

AI Control: Improving Safety Despite Intentional Subversion von Greenblatt, Ryan, Buck Shlegeris, Sachan, Kshitij, Fabien, Roger

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
12

Language models are better than humans at next-token prediction von Buck Shlegeris, Fabien, Roger, Chan, Lawrence, McLean, Euan

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
13

Supervising strong learners by amplifying weak experts von Christiano, Paul, Shlegeris, Buck, Amodei, Dario

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
14

Towards evaluations-based safety cases for AI scheming von Balesni, Mikita, Hobbhahn, Marius, Lindner, David, Meinke, Alexander, Korbak, Tomek, Clymer, Joshua, Shlegeris, Buck, Scheurer, Jérémy, Stix, Charlotte, Shah, Rusheb, Goldowsky-Dill, Nicholas, Braun, Dan, Chughtai, Bilal, Evans, Owain, Kokotajlo, Daniel, Bushnaq, Lucius

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
15

Sabotage Evaluations for Frontier Models von Benton, Joe, Wagner, Misha, Christiansen, Eric, Anil, Cem, Perez, Ethan, Srivastav, Jai, Durmus, Esin, Ganguli, Deep, Kravec, Shauna, Shlegeris, Buck, Kaplan, Jared, Karnofsky, Holden, Hubinger, Evan, Grosse, Roger, Bowman, Samuel R, Duvenaud, David

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
16

Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models von Denison, Carson, MacDiarmid, Monte, Barez, Fazl, Duvenaud, David, Kravec, Shauna, Marks, Samuel, Schiefer, Nicholas, Soklaski, Ryan, Tamkin, Alex, Kaplan, Jared, Shlegeris, Buck, Bowman, Samuel R, Perez, Ethan, Hubinger, Evan

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
17

Benchmarks for Detecting Measurement Tampering von Fabien, Roger, Greenblatt, Ryan, Nadeau, Max, Buck Shlegeris, Thomas, Nate

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
18

Adversarial Training for High-Stakes Reliability von Ziegler, Daniel M, Nix, Seraphina, Chan, Lawrence, Bauman, Tim, Schmidt-Nielsen, Peter, Lin, Tao, Scherlis, Adam, Nabeshima, Noa, Weinstein-Raun, Ben, de Haas, Daniel, Shlegeris, Buck, Thomas, Nate

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
19

Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small von Wang, Kevin, Variengien, Alexandre, Conmy, Arthur, Buck Shlegeris, Steinhardt, Jacob

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
20

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training von Hubinger, Evan, Denison, Carson, Mu, Jesse, Lambert, Mike, Tong, Meg, MacDiarmid, Monte, Lanham, Tamera, Ziegler, Daniel M, Maxwell, Tim, Cheng, Newton, Jermyn, Adam, Askell, Amanda, Radhakrishnan, Ansh, Anil, Cem, Duvenaud, David, Ganguli, Deep, Barez, Fazl, Clark, Jack, Ndousse, Kamal, Sachan, Kshitij, Sellitto, Michael, Sharma, Mrinank, DasSarma, Nova, Grosse, Roger, Kravec, Shauna, Bai, Yuntao, Witten, Zachary, Favaro, Marina, Brauner, Jan, Karnofsky, Holden, Christiano, Paul, Bowman, Samuel R, Graham, Logan, Kaplan, Jared, Mindermann, Sören, Greenblatt, Ryan, Shlegeris, Buck, Schiefer, Nicholas, Perez, Ethan

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:

Generalized Wick Decompositions von MacLeod, Chris, Nitishinskaya, Evgenia, Shlegeris, Buck

Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols von Griffin, Charlie, Thomson, Louis, Shlegeris, Buck, Abate, Alessandro

AI Control: Improving Safety Despite Intentional Subversion von Greenblatt, Ryan, Shlegeris, Buck, Sachan, Kshitij, Roger, Fabien

Benchmarks for Detecting Measurement Tampering von Roger, Fabien, Greenblatt, Ryan, Nadeau, Max, Shlegeris, Buck, Thomas, Nate

Language models are better than humans at next-token prediction von Shlegeris, Buck, Roger, Fabien, Chan, Lawrence, McLean, Euan

Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small von Wang, Kevin, Variengien, Alexandre, Conmy, Arthur, Shlegeris, Buck, Steinhardt, Jacob

Generalized Wick Decompositions von MacLeod, Chris, Nitishinskaya, Evgenia, Buck Shlegeris

Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats von Wen, Jiaxin, Hebbar, Vivek, Larson, Caleb, Bhatt, Aryan, Radhakrishnan, Ansh, Sharma, Mrinank, Sleight, Henry, Feng, Shi, He, He, Perez, Ethan, Shlegeris, Buck, Khan, Akbir

Polysemanticity and Capacity in Neural Networks von Scherlis, Adam, Sachan, Kshitij, Jermyn, Adam S, Benton, Joe, Shlegeris, Buck

Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols von Griffin, Charlie, Thomson, Louis, Buck Shlegeris, Abate, Alessandro

AI Control: Improving Safety Despite Intentional Subversion von Greenblatt, Ryan, Buck Shlegeris, Sachan, Kshitij, Fabien, Roger

Language models are better than humans at next-token prediction von Buck Shlegeris, Fabien, Roger, Chan, Lawrence, McLean, Euan

Supervising strong learners by amplifying weak experts von Christiano, Paul, Shlegeris, Buck, Amodei, Dario

Sabotage Evaluations for Frontier Models von Benton, Joe, Wagner, Misha, Christiansen, Eric, Anil, Cem, Perez, Ethan, Srivastav, Jai, Durmus, Esin, Ganguli, Deep, Kravec, Shauna, Shlegeris, Buck, Kaplan, Jared, Karnofsky, Holden, Hubinger, Evan, Grosse, Roger, Bowman, Samuel R, Duvenaud, David

Benchmarks for Detecting Measurement Tampering von Fabien, Roger, Greenblatt, Ryan, Nadeau, Max, Buck Shlegeris, Thomas, Nate

Adversarial Training for High-Stakes Reliability von Ziegler, Daniel M, Nix, Seraphina, Chan, Lawrence, Bauman, Tim, Schmidt-Nielsen, Peter, Lin, Tao, Scherlis, Adam, Nabeshima, Noa, Weinstein-Raun, Ben, de Haas, Daniel, Shlegeris, Buck, Thomas, Nate

Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small von Wang, Kevin, Variengien, Alexandre, Conmy, Arthur, Buck Shlegeris, Steinhardt, Jacob

Suchwerkzeuge:

Treffer weiter einschränken

Eingrenzen

Format

Zeitschriftentitel

Schlagworte

Erscheinungsjahr

Quelle