Suchergebnisse - Cideron, Geoffrey | OPAC THWS

1

Diversity-Rewarded CFG Distillation von Cideron, Geoffrey, Agostinelli, Andrea, Ferret, Johan, Girgin, Sertan, Elie, Romuald, Bachem, Olivier, Perrin, Sarah, Ramé, Alexandre

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
2

WARM: On the Benefits of Weight Averaged Reward Models von Ramé, Alexandre, Vieillard, Nino, Hussenot, Léonard, Dadashi, Robert, Cideron, Geoffrey, Bachem, Olivier, Ferret, Johan

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
3

vec2text with Round-Trip Translations von Cideron, Geoffrey, Girgin, Sertan, Raichuk, Anton, Pietquin, Olivier, Bachem, Olivier, Hussenot, Léonard

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
4

Get Back Here: Robust Imitation by Return-to-Distribution Planning von Cideron, Geoffrey, Tabanpour, Baruch, Curi, Sebastian, Girgin, Sertan, Hussenot, Leonard, Dulac-Arnold, Gabriel, Geist, Matthieu, Pietquin, Olivier, Dadashi, Robert

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
5

MusicRL: Aligning Music Generation to Human Preferences von Cideron, Geoffrey, Girgin, Sertan, Verzetti, Mauro, Vincent, Damien, Kastelic, Matej, Borsos, Zalán, McWilliams, Brian, Ungureanu, Victor, Bachem, Olivier, Pietquin, Olivier, Geist, Matthieu, Hussenot, Léonard, Zeghidour, Neil, Agostinelli, Andrea

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
6

Conditional Language Policy: A General Framework for Steerable Multi-Objective Finetuning von Wang, Kaiwen, Kidambi, Rahul, Sullivan, Ryan, Agarwal, Alekh, Dann, Christoph, Michi, Andrea, Gelmi, Marco, Li, Yunxuan, Gupta, Raghav, Dubey, Avinava, Ramé, Alexandre, Ferret, Johan, Cideron, Geoffrey, Hou, Le, Yu, Hongkun, Ahmed, Amr, Mehta, Aranyak, Hussenot, Léonard, Bachem, Olivier, Leurent, Edouard

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
7

BOND: Aligning LLMs with Best-of-N Distillation von Sessa, Pier Giuseppe, Dadashi, Robert, Hussenot, Léonard, Ferret, Johan, Vieillard, Nino, Ramé, Alexandre, Shariari, Bobak, Perrin, Sarah, Friesen, Abe, Cideron, Geoffrey, Girgin, Sertan, Stanczyk, Piotr, Michi, Andrea, Sinopalnikov, Danila, Ramos, Sabela, Héliou, Amélie, Severyn, Aliaksei, Hoffman, Matt, Momchev, Nikola, Bachem, Olivier

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
8

Diversity Policy Gradient for Sample Efficient Quality-Diversity Optimization von Pierrot, Thomas, Macé, Valentin, Chalumeau, Félix, Flajolet, Arthur, Cideron, Geoffrey, Beguir, Karim, Cully, Antoine, Sigaud, Olivier, Perrin-Gilbert, Nicolas

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
9

HIGhER : Improving instruction following with Hindsight Generation for Experience Replay von Cideron, Geoffrey, Seurin, Mathieu, Strub, Florian, Pietquin, Olivier

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
10

Diversity-Rewarded CFG Distillation von Cideron, Geoffrey, Agostinelli, Andrea, Ferret, Johan, Girgin, Sertan, Elie, Romuald, Bachem, Olivier, Perrin, Sarah, Ramé, Alexandre

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
11

Factually Consistent Summarization via Reinforcement Learning with Textual Entailment Feedback von Roit, Paul, Ferret, Johan, Shani, Lior, Aharoni, Roee, Cideron, Geoffrey, Dadashi, Robert, Geist, Matthieu, Girgin, Sertan, Hussenot, Léonard, Keller, Orgad, Momchev, Nikola, Ramos, Sabela, Stanczyk, Piotr, Vieillard, Nino, Bachem, Olivier, Elidan, Gal, Hassidim, Avinatan, Pietquin, Olivier, Szpektor, Idan

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
12

WARM: On the Benefits of Weight Averaged Reward Models von Ramé, Alexandre, Vieillard, Nino, Léonard Hussenot, Dadashi, Robert, Cideron, Geoffrey, Bachem, Olivier, Ferret, Johan

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
13

HIGhER : Improving instruction following with Hindsight Generation for Experience Replay von Cideron, Geoffrey, Seurin, Mathieu, Strub, Florian, Pietquin, Olivier

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
14

vec2text with Round-Trip Translations von Cideron, Geoffrey, Girgin, Sertan, Raichuk, Anton, Pietquin, Olivier, Bachem, Olivier, Léonard Hussenot

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
15

Get Back Here: Robust Imitation by Return-to-Distribution Planning von Cideron, Geoffrey, Tabanpour, Baruch, Curi, Sebastian, Girgin, Sertan, Hussenot, Leonard, Dulac-Arnold, Gabriel, Geist, Matthieu, Pietquin, Olivier, Dadashi, Robert

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
16

MusicRL: Aligning Music Generation to Human Preferences von Cideron, Geoffrey, Girgin, Sertan, Verzetti, Mauro, Vincent, Damien, Kastelic, Matej, Borsos, Zalán, McWilliams, Brian, Ungureanu, Victor, Bachem, Olivier, Pietquin, Olivier, Geist, Matthieu, Léonard Hussenot, Zeghidour, Neil, Agostinelli, Andrea

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
17

Conditional Language Policy: A General Framework for Steerable Multi-Objective Finetuning von Wang, Kaiwen, Kidambi, Rahul, Sullivan, Ryan, Agarwal, Alekh, Dann, Christoph, Michi, Andrea, Gelmi, Marco, Li, Yunxuan, Gupta, Raghav, Dubey, Avinava, Ramé, Alexandre, Ferret, Johan, Cideron, Geoffrey, Hou, Le, Yu, Hongkun, Ahmed, Amr, Mehta, Aranyak, Léonard Hussenot, Bachem, Olivier, Leurent, Edouard

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
18

BOND: Aligning LLMs with Best-of-N Distillation von Sessa, Pier Giuseppe, Dadashi, Robert, Léonard Hussenot, Ferret, Johan, Vieillard, Nino, Ramé, Alexandre, Bobak Shariari, Perrin, Sarah, Friesen, Abe, Cideron, Geoffrey, Girgin, Sertan, Stanczyk, Piotr, Michi, Andrea, Sinopalnikov, Danila, Ramos, Sabela, Héliou, Amélie, Severyn, Aliaksei, Hoffman, Matt, Momchev, Nikola, Bachem, Olivier

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
19

Factually Consistent Summarization via Reinforcement Learning with Textual Entailment Feedback von Roit, Paul, Ferret, Johan, Shani, Lior, Aharoni, Roee, Cideron, Geoffrey, Dadashi, Robert, Geist, Matthieu, Girgin, Sertan, Léonard Hussenot, Keller, Orgad, Momchev, Nikola, Ramos, Sabela, Stanczyk, Piotr, Vieillard, Nino, Bachem, Olivier, Elidan, Gal, Hassidim, Avinatan, Pietquin, Olivier, Szpektor, Idan

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in: