Suchergebnisse - Kosson, Atli

1

Memory Efficient Mixed-Precision Optimizers von Lewandowski, Basile, Kosson, Atli

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
2

Multiplication-Free Transformer Training via Piecewise Affine Operations von Kosson, Atli, Jaggi, Martin

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
3

Analyzing & Reducing the Need for Learning Rate Warmup in GPT Training von Kosson, Atli, Messmer, Bettina, Jaggi, Martin

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
4

Ghost Noise for Regularizing Deep Neural Networks von Kosson, Atli, Fan, Dongyang, Jaggi, Martin

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
5

Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks von Kosson, Atli, Messmer, Bettina, Jaggi, Martin

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
6

Multiplication-Free Transformer Training via Piecewise Affine Operations von Kosson, Atli, Jaggi, Martin

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
7

Memory Efficient Mixed-Precision Optimizers von Lewandowski, Basile, Kosson, Atli

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
8

Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations von Hägele, Alexander, Bakouch, Elie, Kosson, Atli, Allal, Loubna Ben, Von Werra, Leandro, Jaggi, Martin

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
9

Analyzing & Reducing the Need for Learning Rate Warmup in GPT Training von Kosson, Atli, Messmer, Bettina, Jaggi, Martin

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
10

Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks von Kosson, Atli, Messmer, Bettina, Jaggi, Martin

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
11

Ghost Noise for Regularizing Deep Neural Networks von Kosson, Atli, Fan, Dongyang, Jaggi, Martin

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
12

Adaptive Braking for Mitigating Gradient Delay von Venigalla, Abhinav, Kosson, Atli, Chiley, Vitaliy, Köster, Urs

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
13

Pipelined Backpropagation at Scale: Training Large Models without Batches von Kosson, Atli, Chiley, Vitaliy, Venigalla, Abhinav, Hestness, Joel, Köster, Urs

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
14

SYSTEM AND METHOD FOR BRAINWAVE STIMULATION USING ALTERED NATURAL STIMULI von KOSSON, Atli, SVEINBJARNARSON, Bjarki Freyr, HOSKULDSSON, Sveinbjorn

Volltext bestellen

Patent

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
15

Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations von Hägele, Alexander, Bakouch, Elie, Kosson, Atli, Loubna Ben Allal, Leandro Von Werra, Jaggi, Martin

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
16

SYSTEM FOR BRAINWAVE STIMULATION USING ALTERED NATURAL STIMULI von KOSSON, Atli, SVEINBJARNARSON, Bjarki Freyr, HOSKULDSSON, Sveinbjorn

Volltext bestellen

Patent

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
17

Pipelined Backpropagation at Scale: Training Large Models without Batches von Kosson, Atli, Chiley, Vitaliy, Venigalla, Abhinav, Hestness, Joel, Köster, Urs

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
18

Online Normalization for Training Neural Networks von Chiley, Vitaliy, Sharapov, Ilya, Kosson, Atli, Koster, Urs, Reece, Ryan, de la Fuente, Sofia Samaniego, Subbiah, Vishal, James, Michael

Volltext bestellen

Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
19

Adaptive Braking for Mitigating Gradient Delay von Venigalla, Abhinav, Kosson, Atli, Chiley, Vitaliy, Köster, Urs

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:
20

Online Normalization for Training Neural Networks von Chiley, Vitaliy, Sharapov, Ilya, Kosson, Atli, Koster, Urs, Reece, Ryan, Sofia Samaniego de la Fuente, Subbiah, Vishal, James, Michael

Veröffentlicht in arXiv.org

Volltext
Artikel

In die Zwischenablage Aus der Zwischenablage entfernen
Zu den Favoriten

Gespeichert in:

Memory Efficient Mixed-Precision Optimizers von Lewandowski, Basile, Kosson, Atli

Multiplication-Free Transformer Training via Piecewise Affine Operations von Kosson, Atli, Jaggi, Martin

Analyzing & Reducing the Need for Learning Rate Warmup in GPT Training von Kosson, Atli, Messmer, Bettina, Jaggi, Martin

Ghost Noise for Regularizing Deep Neural Networks von Kosson, Atli, Fan, Dongyang, Jaggi, Martin

Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks von Kosson, Atli, Messmer, Bettina, Jaggi, Martin

Multiplication-Free Transformer Training via Piecewise Affine Operations von Kosson, Atli, Jaggi, Martin

Memory Efficient Mixed-Precision Optimizers von Lewandowski, Basile, Kosson, Atli

Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations von Hägele, Alexander, Bakouch, Elie, Kosson, Atli, Allal, Loubna Ben, Von Werra, Leandro, Jaggi, Martin

Analyzing & Reducing the Need for Learning Rate Warmup in GPT Training von Kosson, Atli, Messmer, Bettina, Jaggi, Martin

Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks von Kosson, Atli, Messmer, Bettina, Jaggi, Martin

Ghost Noise for Regularizing Deep Neural Networks von Kosson, Atli, Fan, Dongyang, Jaggi, Martin

Adaptive Braking for Mitigating Gradient Delay von Venigalla, Abhinav, Kosson, Atli, Chiley, Vitaliy, Köster, Urs

Pipelined Backpropagation at Scale: Training Large Models without Batches von Kosson, Atli, Chiley, Vitaliy, Venigalla, Abhinav, Hestness, Joel, Köster, Urs

SYSTEM AND METHOD FOR BRAINWAVE STIMULATION USING ALTERED NATURAL STIMULI von KOSSON, Atli, SVEINBJARNARSON, Bjarki Freyr, HOSKULDSSON, Sveinbjorn

Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations von Hägele, Alexander, Bakouch, Elie, Kosson, Atli, Loubna Ben Allal, Leandro Von Werra, Jaggi, Martin

SYSTEM FOR BRAINWAVE STIMULATION USING ALTERED NATURAL STIMULI von KOSSON, Atli, SVEINBJARNARSON, Bjarki Freyr, HOSKULDSSON, Sveinbjorn

Pipelined Backpropagation at Scale: Training Large Models without Batches von Kosson, Atli, Chiley, Vitaliy, Venigalla, Abhinav, Hestness, Joel, Köster, Urs

Online Normalization for Training Neural Networks von Chiley, Vitaliy, Sharapov, Ilya, Kosson, Atli, Koster, Urs, Reece, Ryan, de la Fuente, Sofia Samaniego, Subbiah, Vishal, James, Michael

Adaptive Braking for Mitigating Gradient Delay von Venigalla, Abhinav, Kosson, Atli, Chiley, Vitaliy, Köster, Urs

Online Normalization for Training Neural Networks von Chiley, Vitaliy, Sharapov, Ilya, Kosson, Atli, Koster, Urs, Reece, Ryan, Sofia Samaniego de la Fuente, Subbiah, Vishal, James, Michael

Suchwerkzeuge:

Treffer weiter einschränken

Eingrenzen

Format

Zeitschriftentitel

Schlagworte

Erscheinungsjahr

Quelle