-
1
-
2
-
3
-
4
-
5
-
6
-
7
Lessons on Parameter Sharing across Layers in Transformers
Veröffentlicht in arXiv.org
VolltextArtikel -
8
-
9
-
10
-
11
-
12
Rethinking Perturbations in Encoder-Decoders for Fast Training
Veröffentlicht in arXiv.org
VolltextArtikel -
13
-
14
-
15
Spike No More: Stabilizing the Pre-training of Large Language Models
Veröffentlicht in arXiv.org
VolltextArtikel -
16
-
17
-
18
-
19
-
20