-
1
Forecasting AI progress: A research agenda
Veröffentlicht in Technological forecasting & social change
VolltextArtikel -
2
-
3
-
4
-
5
-
6
-
7
-
8
Don't Label Twice: Quantity Beats Quality when Comparing Binary Classifiers on a Budget
Veröffentlicht in arXiv.org
VolltextArtikel -
9
-
10
-
11
-
12
Measuring Progress in Deep Reinforcement Learning Sample Efficiency
Veröffentlicht in arXiv.org
VolltextArtikel -
13
-
14
Training on the Test Task Confounds Evaluation and Emergence
Veröffentlicht in arXiv.org
VolltextArtikel -
15
Limits to scalable evaluation at the frontier: LLM as Judge won't beat twice the data
Veröffentlicht in arXiv.org
VolltextArtikel -
16
-
17
Challenging the Validity of Personality Tests for Large Language Models
Veröffentlicht in arXiv.org
VolltextArtikel -
18
Incentivizing Honesty among Competitors in Collaborative Learning and Optimization
Veröffentlicht in arXiv.org
VolltextArtikel -
19
-
20
Human-Guided Fair Classification for Natural Language Processing
Veröffentlicht in arXiv.org
VolltextArtikel