Portabilität der binären Serialisierung von double - /float-Typ in C++

Den C++ - standard behandelt nicht die zugrunde liegenden layout von float-und double-Typen, nur der Bereich der Werte, die Sie repräsentieren sollten. (Dies gilt auch für signed-Typen, ist es zwei s Kompliment oder etwas anderes)

Meine Frage ist: Was sind die Methoden zum serialisieren/Deserialisieren von POD-Typen wie double und float in portabler Art und Weise? Im moment scheint es der einzige Weg, dies zu tun ist, um den dargestellten Wert buchstäblich(wie in "123.456"), Die ieee754-layout für die Doppel ist nicht standard auf allen Architekturen.

Wenn Sie brauchen, file-storage, im HDF5 oder NetCDF sehr helfen.
Gute Frage.

InformationsquelleAutor | 2011-01-19

c++double ieee-754 portability serialization

28

Brian "Beej Jorgensen" Halle, gibt in seinem Guide to Network Programming code zu packen float (resp. double) zu uint32_t (resp. uint64_t) in der Lage sein, um sicher zu übertragen es über das Netzwerk zwischen zwei Maschinen, die können nicht beide Stimmen auf Ihre Darstellung. Es hat einige Einschränkungen, vor allem ist es nicht support-NaN und infinity.

Hier ist seine Verpackung-Funktion:
```
#define pack754_32(f) (pack754((f), 32, 8))
#define pack754_64(f) (pack754((f), 64, 11))

uint64_t pack754(long double f, unsigned bits, unsigned expbits)
{
    long double fnorm;
    int shift;
    long long sign, exp, significand;
    unsigned significandbits = bits - expbits - 1; //-1 for sign bit

    if (f == 0.0) return 0; //get this special case out of the way

    //check sign and begin normalization
    if (f < 0) { sign = 1; fnorm = -f; }
    else { sign = 0; fnorm = f; }

    //get the normalized form of f and track the exponent
    shift = 0;
    while(fnorm >= 2.0) { fnorm /= 2.0; shift++; }
    while(fnorm < 1.0) { fnorm *= 2.0; shift--; }
    fnorm = fnorm - 1.0;

    //calculate the binary form (non-float) of the significand data
    significand = fnorm * ((1LL<<significandbits) + 0.5f);

    //get the biased exponent
    exp = shift + ((1<<(expbits-1)) - 1); //shift + bias

    //return the final answer
    return (sign<<(bits-1)) | (exp<<(bits-expbits-1)) | significand;
}
```
- es sollte nicht schwer zu gehören NaN, infinity und denormalisierte zahlen, wenn Sie Sie benötigen. Darüber hinaus eignet sich dieser code ist public domain, das macht es eine gute Antwort.
- Würde ein frexp-basierten Ansatz werden durchweg schneller als die wiederholte floating point division / Multiplikation? frexp gibt Sie exp und fnorm in einem einzigen Aufruf. Beachten Sie IEEE-754 double 11 bits Wert des Exponenten, so konnte man die Aufteilung / multipying von 2 mehrere hundert mal.
- Was wäre ein frexp-basierten Ansatz so Aussehen wie in dieser situation? Ich habe Mühe mit floating-point-Serialisierung jetzt, und während die frexp Ansatz scheint interessant, ich kann nicht herausfinden, wie konvertiert man die Mantisse (das ist zwischen 0,5 und 1) zu der Reihe von bits repräsentieren die Mantisse in IEEE float oder double. Gibt es eine effiziente und portable Weg, das zu tun?
- Kann jemand expain mir, wie significand = fnorm * ((1LL<<significandbits) + 0.5f); dies funktioniert?
InformationsquelleAutor Sylvain Defresne
6

Was ist falsch mit einem für Menschen lesbaren format.

Es hat ein paar Vorteile gegenüber Binär:
- Es ist lesbar
- Es tragbar
- Es macht support wirklich einfach
  
  (wie können Sie den Benutzer auffordern, zu betrachten, es in Ihrem Lieblings-editor auch word)
- Es ist einfach zu befestigen
  
  (oder passen Sie die Dateien manuell in Fehler-Situationen)
Nachteil:
- Es ist nicht kompakt
  
  Wenn dies ein echtes problem, Sie können immer zip.
- Kann es etwas langsamer sein, zu extrahieren/generieren
  
  Hinweis: ein binäres format, eventuell muss normalisiert werden (siehe htonl())
Ausgabe ein double mit voller Genauigkeit:
```
double v = 2.20;
std::cout << std::setprecision(std::numeric_limits<double>::digits) << v;
```
OK. Ich bin nicht überzeugt, dass ist genau, präzise. Es kann verlieren an Präzision.
- Weiterer Nachteil: Es ist nicht präzise. Die Bedeutung dieser kann stark variieren zwischen den Anwendungen.
- Hoff: In welcher Weise ist es nicht präzise ist? Wenn Sie bei der Ausgabe den Wert mit Präzision und das Ziel wird die gleiche Präzision, dann verlieren Sie nichts. Wenn das Ziel nicht die gleiche Präzision, dann alle Wetten sind aus, aber es ist kein Verlust, zwischen diesem und einem binären format.
- +1, auch wenn es andere Nachteile: es ist teurer zu generieren/analysieren --wird nur auf die Leistung in Anwendungen, die hauptsächlich schreiben/Lesen von Daten, aber immer noch. Größe wirkt es auch, und zip-ping wird die Leistung schlechter sogar... Noch eine gute Lösung in fast alle realen Welt Fällen zu 99,9% der Zeit.
- Wörtliche Darstellung ist sehr langsam zu entschlüsseln, ich arbeite an einem system, dass die Prozesse sehr, sehr großen Zeit-Serie und der kompakt, präzise und high-speed-decodable Darstellungen sind ein muss - Portabilität ist wichtig.
- Hm. Ich glaube nicht, dass ich jemals miterlebt habe ein Formatierungs-Funktion, die konfiguriert werden können, zu schreiben, die alle die Genauigkeit für floating-point-Zahl. Wenn es existiert, dann ist es natürlich kein Verlust. Also mein Anliegen ist irgendwie im Zusammenhang mit "Es ist nicht kompakt"-Nachteil: Sie enden mit einem trade-off zwischen einer überschaubaren Darstellung und eine präzise ein. (Wieder, die Bedeutung der diese variieren zwischen den Anwendungen)
- Ah, numeric_limits. Leider ist es immer noch Präzision Verlust mit der Nutzung dieser für einige Ausnahmefälle. Siehe codepad.org/WbACWihl
- Hoff: Behoben.
- Sie können die Ausgabe der exakten double-Wert mit %a printf-Umwandlung. Obwohl die Ausgabe notexactly lesbar ist.
- Nicht sicher, ob das funktioniert. codepad.org/7c4isgCS
- es ist eine POSIX-Anforderung. opengroup.org/onlinepubs/000095399/functions/printf.html
- Was du also sagst ist, dass es nicht an windows oder der aktuellen C++ - standard.
- Ich muss gestehen, Linux und g++ verwöhnte mich. 🙂
- Für 4 bytes, die Sie speichern können, genau die 4 Zeichen in lesbarer form (17.3- das ist es.). Vergleichen Sie die Genauigkeit und den Wertebereich, den Sie bekommen können, mit den gleichen 4 Byte-ieee-float-format.
InformationsquelleAutor Martin York

Werfen Sie einen Blick auf die (alte) gtypes.h-Datei-Implementierung in glib-2 - es beinhaltet folgende Leistungen:

#if G_BYTE_ORDER == G_LITTLE_ENDIAN
union _GFloatIEEE754
{
  gfloat v_float;
  struct {
    guint mantissa : 23;
    guint biased_exponent : 8;
    guint sign : 1;
  } mpn;
};
union _GDoubleIEEE754
{
  gdouble v_double;
  struct {
    guint mantissa_low : 32;
    guint mantissa_high : 20;
    guint biased_exponent : 11;
    guint sign : 1;
  } mpn;
};
#elif G_BYTE_ORDER == G_BIG_ENDIAN
union _GFloatIEEE754
{
  gfloat v_float;
  struct {
    guint sign : 1;
    guint biased_exponent : 8;
    guint mantissa : 23;
  } mpn;
};
union _GDoubleIEEE754
{
  gdouble v_double;
  struct {
    guint sign : 1;
    guint biased_exponent : 11;
    guint mantissa_high : 20;
    guint mantissa_low : 32;
  } mpn;
};
#else /* !G_LITTLE_ENDIAN && !G_BIG_ENDIAN */
#error unknown ENDIAN type
#endif /* !G_LITTLE_ENDIAN && !G_BIG_ENDIAN */

glib link

InformationsquelleAutor user1016736

4

Schreiben Sie einfach die binary IEEE754 Darstellung auf der Festplatte, und dokumentieren Ihre storage-format (zusammen mit endianness). Dann ist es bis zur Umsetzung zu konvertieren, das in seiner internen Darstellung, wenn nötig.

InformationsquelleAutor TonyK
2

Erstellen Sie eine entsprechende serializer/de-serializer-Schnittstelle für das schreiben/Lesen.

Kann das interface dann haben mehrere Implementierungen und Sie können testen Sie Ihre Möglichkeiten.

Wie gesagt, offensichtliche Möglichkeiten wären:
- IEEE754 die schreibt /liest die Binär-chunk, wenn direkt unterstützt durch die Architektur oder analysiert, die, wenn nicht unterstützt durch die Architektur
- Text: immer Bedürfnisse zu analysieren.
- Was Sie sonst noch denken kann.
Denken Sie daran - sobald Sie diese Ebene ist, können Sie beginnen immer mit IEEE754 wenn Sie nur die Plattformen, die dieses format verwenden intern. Auf diese Weise werden Sie den zusätzlichen Aufwand nur, wenn Sie brauchen, um Unterstützung für eine andere Plattform! Nicht tun Arbeit, die Sie nicht haben, um.

InformationsquelleAutor Tobias Langner
1

Sollten Sie konvertieren Sie Sie in ein format, das Sie immer in der Lage sein zu verwenden, um zu erstellen Ihre floats/doubles.

Dies könnte die Verwendung eines string-Darstellung oder, wenn Sie etwas brauchen, das nimmt weniger Platz, stellen Ihre Nummer im ieee754 (oder jedes andere format, das Sie wählen) und dann analysieren es, als würden Sie mit einer Schnur.
- Gibt es irgendwelche Bibliotheken, die ein Doppel-und konvertieren in ein spezifisches binäres format? im moment alles, was wir tun, ist schreiben den in-memory-layout auf der Festplatte, die ist ok, aber in einer heterogenen Umgebung ist es nicht ganz so gut.
- Ich denke, es gibt einige, aber ich kenne keine, sorry.
InformationsquelleAutor peoro
0

Ich denke, dass die Antwort "hängt" sich auf, was Sie für Ihre bestimmte Anwendung und es ist perfomance-Profil ist.

Lassen Sie uns sagen, Sie haben ein low-latency Marktdaten-Umgebung, dann mit strings ist ehrlich gesagt bescheuert. Wenn die Informationen, die Sie vermitteln, ist Preise, dann verdoppelt sich (und binäre Darstellung von Ihnen) sind wirklich schwierig, mit zu arbeiten. Wo, wie, wenn Sie nicht wirklich über Leistung, und was Sie wollen, ist die Sichtbarkeit (Speicherung, übertragung), Saiten sind ein Idealer Kandidat.

Ich würde eigentlich entscheiden Sie sich für Integrale Mantisse/exponent Darstellung von floats/doubles - d.h. bei der frühesten Gelegenheit, umwandeln der float/double zu einem paar von ganzen zahlen und dann übertragen. Sie müssen dann nur noch Gedanken über die Portabilität von Integer-zahlen und auch diverse Routinen (wie die hton() Routinen zu behandeln Konvertierungen für Sie). Auch speichern alles in Ihrer weitesten verbreitete Plattform, das endian Typ (zum Beispiel, wenn Sie nur mit linux, was ist dann der Punkt der Speicherung von Sachen in big-endian?)
- Markt Daten ist ein schlechtes Beispiel: abrufen von Marktdaten ist in der Regel teurer als der Analyse einer Reihe von Zeichenfolgen. Es kommt auf Ihre Technik, aber in der Regel, solche Dinge werden in einer Datenbank gespeichert.
- eh? Ich glaube, Sie können mich missverstanden haben, wenn ich spreche, low-latency-Umgebungen, ich spreche nicht über historische Daten, die in DBs, aber trading-Umgebungen, in denen jede Millisekunde zählt - in diesen, tun Sie wirklich wollen, um zusätzliche Verzögerung in der string-Konvertierungs-Routinen? atoi(), scanf(), sprintf(), was vergleichsweise langsam...
- Ich denke, Sie sollten kaufen, schnellere hardware dann (ie. schneller Speicher). String-Verarbeitung ist sehr schnell CPU-Weise, viel schneller als das abrufen der string aus dem Speicher...
- haha... man kann werfen mehr hardware auf das problem, aber es wird nicht Weggehen, müssen Sie nur das unvermeidliche hinauszuzögern... also, wenn Sie nicht Prozess, eine Zeichenfolge, die Sie dann nicht haben, um es zu Holen, ich würde sagen, das ist eine riesige Einsparung, dann... 😉
- Konvertierung eines string in einen double-hundert mal langsamer als die Arithmetik mit doubles auf vielen Systemen. Wenn Sie sitzen auf dem Rand von dem, was ist und ist nicht rechnerisch möglich, die Verwendung von string-Darstellungen könnten leicht schieben.
InformationsquelleAutor Nim
0

Den SQLite4 verwendet ein neues format zur Speicherung von doubles und floats
- Es arbeitet zuverlässig und konsequent, auch auf Plattformen, die fehlende Unterstützung für IEEE-754 binary64 floating-point-zahlen.
- Währung Berechnungen kann normalerweise getan werden, genau und ohne Rundung gestrichen.
- Keine signierten oder nicht signierten 64-bit-Ganzzahl dargestellt werden kann, genau.
- Die floating-point-Bereich und die Genauigkeit höher als IEEE 754 binary64 floating-point-zahlen.
- Positiv und negativ unendlich und NaN (not-a-Number) definierten Darstellungen.
Quellen:

https://sqlite.org/src4/doc/trunk/www/design.wiki

https://sqlite.org/src4/doc/trunk/www/decimal.wiki

InformationsquelleAutor Bernardo Ramos
0

Fand diesen alten thread. Eine Lösung, die löst ein fairer deal der Fälle fehlt - fixed point, vorbei an ganzen zahlen, die mit einem bekannten Skalierungsfaktor mithilfe der integrierten wirft in jedem Ende. Also, Sie müssen nicht die Mühe mit den zugrunde liegenden floating-point-Darstellung überhaupt nicht.

Gibt es natürlich auch Nachteile. Diese Lösung setzt Voraus, Sie kann eine Feste Skalierung und immer noch sowohl die Bandbreite und Auflösung benötigt, für die bestimmte Anwendung. Außerdem konvertieren Sie von Ihrem floating-point zu fixed-point bei der Serialisierung Ende und wieder zurück konvertieren bei der Deserialisierung, die Einführung von zwei Rundungsfehler.
Doch im Laufe der Jahre, die ich gefunden habe Fixpunkt ist genug für meine Bedürfnisse in fast allen Fällen, und es ist Recht schnell zu.

Ein typischer Fall für fester Punkt wäre Kommunikationsprotokollen für embedded-Systeme oder andere Geräte.

InformationsquelleAutor J Lind

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.