-
1
-
2
-
3
-
4
-
5
-
6
-
7
-
8
-
9
-
10
SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration
Veröffentlicht in arXiv.org
VolltextArtikel -
11
-
12
-
13
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training
Veröffentlicht in arXiv.org
VolltextArtikel -
14
SimLayerKV: A Simple Framework for Layer-Level KV Cache Reduction
Veröffentlicht in arXiv.org
VolltextArtikel -
15
When Attention Sink Emerges in Language Models: An Empirical View
Veröffentlicht in arXiv.org
VolltextArtikel -
16
Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation
Veröffentlicht in arXiv.org
VolltextArtikel -
17
-
18
-
19
Efficient Inference for Large Language Model-based Generative Recommendation
Veröffentlicht in arXiv.org
VolltextArtikel -
20