-
1
-
2
-
3
-
4
-
5
-
6
The Polyhedral Model of Nonlinear Loops
Veröffentlicht in ACM transactions on architecture and code optimization
VolltextArtikel -
7
-
8
-
9
-
10
-
11
-
12
TDC: Towards Extremely Efficient CNNs on GPUs via Hardware-Aware Tucker Decomposition
Veröffentlicht in arXiv.org
VolltextArtikel -
13
-
14
Efficient distributed algorithms for Convolutional Neural Networks
Veröffentlicht in arXiv.org
VolltextArtikel -
15
Analytical Characterization and Design Space Exploration for Optimization of CNNs
Veröffentlicht in arXiv.org
VolltextArtikel -
16
-
17
-
18
GPU code optimization using abstract kernel emulation and sensitivity analysis
Veröffentlicht in SIGPLAN notices
VolltextArtikel -
19
Performance modeling for GPUs using abstract kernel emulation
Veröffentlicht in SIGPLAN notices
VolltextArtikel -
20
PL-NMF: Parallel Locality-Optimized Non-negative Matrix Factorization
Veröffentlicht in arXiv.org
VolltextArtikel