Numerical reproducibility for the parallel reduction on multi- and many-core architectures

•A parallel algorithm to compute correctly-rounded floating-point sums•Highly-optimized implementations for modern CPUs, GPUs and Xeon Phi•As fast as memory bandwidth allows for large sums with moderate dynamic range•Scales well with the problem size and resources used on a cluster of compute nodes...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Parallel computing 2015-11, Vol.49, p.83-97
Hauptverfasser: Collange, Caroline, Defour, David, Graillat, Stef, Iakymchuk, Roman
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!