-
1
Scalable Data Ablation Approximations for Language Models through Modular Training and Merging
Veröffentlicht in arXiv.org
VolltextArtikel -
2
-
3
-
4
-
5
-
6
-
7
-
8
-
9
-
10
-
11
Establishing Task Scaling Laws via Compute-Efficient Model Ladders
Veröffentlicht in arXiv.org
VolltextArtikel -
12
-
13
-
14
-
15
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
Veröffentlicht in arXiv.org
VolltextArtikel -
16
-
17
Disentangling Factors of Variation with Cycle-Consistent Variational Auto-Encoders
Veröffentlicht in arXiv.org
VolltextArtikel