FloatX: A C ++ Library for Customized Floating-Point Arithmetic

We present FloatX (Float eXtended), a C ++ framework to investigate the effect of leveraging customized floating-point formats in numerical applications. FloatX formats are based on binary IEEE 754 with smaller significand and exponent bit counts specified by the user. Among other properties, FloatX...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:ACM transactions on mathematical software 2019-12, Vol.45 (4), p.1-23
Hauptverfasser: Flegar, Goran, Scheidegger, Florian, Novaković, Vedran, Mariani, Giovani, Tomás, Andrés E., Malossi, A. Cristiano I., Quintana-Ortí, Enrique S.
Format: Artikel
Sprache:eng
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!