-
1
-
2
-
3
-
4
-
5
-
6
Multiplication-Free Transformer Training via Piecewise Affine Operations
Veröffentlicht in arXiv.org
VolltextArtikel -
7
-
8
-
9
Analyzing & Reducing the Need for Learning Rate Warmup in GPT Training
Veröffentlicht in arXiv.org
VolltextArtikel -
10
Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks
Veröffentlicht in arXiv.org
VolltextArtikel -
11
-
12
-
13
-
14
-
15
Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations
Veröffentlicht in arXiv.org
VolltextArtikel -
16
-
17
Pipelined Backpropagation at Scale: Training Large Models without Batches
Veröffentlicht in arXiv.org
VolltextArtikel -
18
-
19
-
20