-
1
-
2
-
3
-
4
-
5
-
6
-
7
-
8
-
9
-
10
-
11
PLAID: An Efficient Engine for Late Interaction Retrieval
Veröffentlicht in arXiv.org
VolltextArtikel -
12
DistIR: An Intermediate Representation and Simulator for Efficient Neural Network Distribution
Veröffentlicht in arXiv.org
VolltextArtikel -
13
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs
Veröffentlicht in arXiv.org
VolltextArtikel -
14
ALTO: An Efficient Network Orchestrator for Compound AI Systems
Veröffentlicht in arXiv.org
VolltextArtikel -
15
Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP
Veröffentlicht in arXiv.org
VolltextArtikel -
16
UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers
Veröffentlicht in arXiv.org
VolltextArtikel -
17
ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction
Veröffentlicht in arXiv.org
VolltextArtikel -
18
Heterogeneity-Aware Cluster Scheduling Policies for Deep Learning Workloads
Veröffentlicht in arXiv.org
VolltextArtikel -
19
-
20