-
1
-
2
-
3
-
4
-
5
-
6
-
7
Dissecting Language Models: Machine Unlearning via Selective Pruning
Veröffentlicht in arXiv.org
VolltextArtikel -
8
-
9
Low-Entropy Latent Variables Hurt Out-of-Distribution Performance
Veröffentlicht in arXiv.org
VolltextArtikel -
10
-
11
-
12
-
13
-
14
Training Neural Networks for Modularity aids Interpretability
Veröffentlicht in arXiv.org
VolltextArtikel -
15
Learning to Communicate with Strangers via Channel Randomisation Methods
Veröffentlicht in arXiv.org
VolltextArtikel -
16
Extending Activation Steering to Broad Skills and Multiple Behaviours
Veröffentlicht in arXiv.org
VolltextArtikel -
17
-
18
Improving Activation Steering in Language Models with Mean-Centring
Veröffentlicht in arXiv.org
VolltextArtikel -
19
Comparing Optimization Targets for Contrast-Consistent Search
Veröffentlicht in arXiv.org
VolltextArtikel -
20
A theory of representation learning gives a deep generalisation of kernel methods
Veröffentlicht in arXiv.org
VolltextArtikel