-
1
-
2
-
3
-
4
-
5
-
6
-
7
-
8
-
9
RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval
Veröffentlicht in arXiv.org
VolltextArtikel -
10
-
11
-
12
-
13
Gradient Descent Maximizes the Margin of Homogeneous Neural Networks
Veröffentlicht in arXiv.org
VolltextArtikel -
14
-
15
On the SDEs and Scaling Rules for Adaptive Gradient Algorithms
Veröffentlicht in arXiv.org
VolltextArtikel -
16
-
17
The Marginal Value of Momentum for Small Learning Rate SGD
Veröffentlicht in arXiv.org
VolltextArtikel -
18
A Quadratic Synchronization Rule for Distributed Deep Learning
Veröffentlicht in arXiv.org
VolltextArtikel -
19
Why (and When) does Local SGD Generalize Better than SGD?
Veröffentlicht in arXiv.org
VolltextArtikel -
20
New Definitions and Evaluations for Saliency Methods: Staying Intrinsic, Complete and Sound
Veröffentlicht in arXiv.org
VolltextArtikel