Suchergebnisse - Ward, Francis Rhys | OPAC THWS

1

An Assurance Case Pattern for the Interpretability of Machine Learning in Safety-Critical Systems von Ward, Francis Rhys, Habli, Ibrahim

Volltext
Buchkapitel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
2

Argumentative Reward Learning: Reasoning About Human Preferences von Ward, Francis Rhys, Belardinelli, Francesco, Toni, Francesca

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
3

Honesty Is the Best Policy: Defining and Mitigating AI Deception von Ward, Francis Rhys, Belardinelli, Francesco, Toni, Francesca, Everitt, Tom

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
4

An Assurance Case Pattern for the Interpretability of Machine Learning in Safety-Critical Systems von Ward, Francis Rhys, Habli, Ibrahim

Volltext bestellen

Tagungsbericht

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
5

Experiments with Detecting and Mitigating AI Deception von Sahbane, Ismail, Ward, Francis Rhys, Åslund, C Henrik

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
6

AI Sandbagging: Language Models can Strategically Underperform on Evaluations von van der Weij, Teun, Hofstätter, Felix, Jaffe, Ollie, Brown, Samuel F, Ward, Francis Rhys

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
7

The Reasons that Agents Act: Intention and Instrumental Goals von Ward, Francis Rhys, MacDermott, Matt, Belardinelli, Francesco, Toni, Francesca, Everitt, Tom

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
8

Evaluating Language Model Character Traits von Ward, Francis Rhys, Yang, Zejia, Jackson, Alex, Brown, Randy, Smith, Chandler, Colverd, Grace, Thomson, Louis, Douglas, Raymond, Bartak, Patrik, Rowan, Andrew

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
9

Argumentative Reward Learning: Reasoning About Human Preferences von Ward, Francis Rhys, Belardinelli, Francesco, Toni, Francesca

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
10

Honesty Is the Best Policy: Defining and Mitigating AI Deception von Ward, Francis Rhys, Belardinelli, Francesco, Toni, Francesca, Everitt, Tom

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
11

Experiments with Detecting and Mitigating AI Deception von Ismail Sahbane, Ward, Francis Rhys, Åslund, C Henrik

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
12

AI Sandbagging: Language Models can Strategically Underperform on Evaluations von Teun van der Weij, Hofstätter, Felix, Jaffe, Ollie, Brown, Samuel F, Ward, Francis Rhys

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
13

The Reasons that Agents Act: Intention and Instrumental Goals von Ward, Francis Rhys, MacDermott, Matt, Belardinelli, Francesco, Toni, Francesca, Everitt, Tom

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in: