-
1
A Hybrid Tensor-Expert-Data Parallelism Approach to Optimize Mixture-of-Experts Training
Veröffentlicht in arXiv.org
VolltextArtikel -
2
Optimizing CNNs on Multicores for Scalability, Performance and Goodput
Veröffentlicht in Operating systems review
VolltextArtikel -
3
-
4
-
5
-
6
-
7
-
8
-
9
-
10
-
11
-
12
Flexible Hardware Acceleration for Instruction-Grain Lifeguards
Veröffentlicht in IEEE MICRO
VolltextArtikel -
13
-
14
-
15
-
16
Domino: Eliminating Communication in LLM Training via Generic Tensor Slicing and Overlapping
Veröffentlicht in arXiv.org
VolltextArtikel -
17
-
18
-
19
FastPersist: Accelerating Model Checkpointing in Deep Learning
Veröffentlicht in arXiv.org
VolltextArtikel -
20