Wie Sie sich richtig zu normalisieren, eine floating-point-Wert in C++?

Vielleicht verstehe ich nicht die IEEE754-standard, der viel, aber da eine Reihe von floating-point-Werte float oder double zum Beispiel :

56.543f 3238.124124f 121.3f ...

sind Sie in der Lage, konvertieren Sie Sie in Werten von 0 zu 1, so dass Sie zu normalisieren, indem Sie einen entsprechenden gemeinsamen Faktor und zu überlegen, was ist der maximale Wert und der minimale Wert in der Menge.

Nun mein Punkt ist, dass in dieser Verwandlung, ich brauche eine viel höhere Präzision für die Ziel -, die reicht von 0 zu 1 wenn im Vergleich zu der Genauigkeit, die ich brauche, in den ersten ein, vor allem, wenn die Werte in der ersten Reihe sind für ein breites Spektrum von numerischen Werten ( wirklich große und sehr kleine Werte ).

Wie die float oder die double ( oder die IEEE-754-standard, wenn Sie möchten ) geben kann, mit dieser situation umzugehen, während die Bereitstellung von mehr Präzision für die zweite Gruppe von Werten zu wissen, dass ich im Grunde nicht brauchen einen ganzzahligen Teil ?

Oder er damit nicht zurechtkommt und ich brauche festen Punkt Mathematik mit einem ganz anderen Typ ?

beachten Sie, dass ieee-floats sind nicht zwingend in c++
Gibt es compiler, die nicht implementieren IEEE 754? Oder besser gesagt, die modernen CPU-Architekturen nicht umsetzen?
Es ist normalerweise nicht der compiler, das ist die hardware. Kann ich derzeit denke, ist, VAX.
SSE-Implementierungen unterstützen FTZ (Flush to zero) und DAZ (Denormals sind null) Optimierungen, die nicht konform zu IEEE 754. Je nach compiler/CRT-dies ist die Standardeinstellung.
Warum wollen Sie die Karte Werte auf [0, 1]? Wenn Sie möchten, dies zu tun für einige wahrgenommene Präzision Verbesserung, dann tun Sie es nicht, weil es wird nicht gewinnen Sie nichts. Wenn Sie tun es aus einem anderen Grund, dann sollten Sie erklären, dass, so dass wir verstehen können, wie es interagiert mit floating-point-Arithmetik.
nichts zu tun mit der Wahrnehmung, es geht um die algorithmen, die ich auf diese zahlen und die visuelle Darstellung von Ihnen zu ( die GUI meines Programms ), so dass ich im Grunde muss normalisierte zahlen.
in diesem Fall bezieht sich nicht auf Fehler, die wahrgenommen werden, die von einem viewer der Daten, sondern durch die Wahrnehmung des Fragestellers, dass es eine Steigerung in der Genauigkeit der Fließkomma-in das Intervall [0, 1] im Vergleich zu einigen anderen im Intervall [0, M].

InformationsquelleAutor user2485710 | 2013-12-09

c++double floating-point ieee-754

6

Floating-point-zahlen sind in einem format gespeichert, wie die wissenschaftliche notation. Intern, so richten Sie die führende 1 von der binären Darstellung an die Spitze der Mantisse. Jeder Wert wird durchgeführt mit der gleichen Anzahl von binären Ziffern für die Genauigkeit in relation zu seiner eigenen Größe.

Wenn Sie komprimieren Sie Ihre Satz von floating-point-Werte auf den Bereich 0..1, die nur Präzision Verlust, den Sie erhalten, wird wegen der Rundung, in der die verschiedenen Schritte des Prozesses.

Wenn Sie nur komprimieren, skalieren, verlieren Sie nur eine kleine Menge an Genauigkeit in der Nähe des LSBs der Mantisse (etwa 1 oder 2 ulp, wo ulp bedeutet "Einheiten der letzten Stelle).

Wenn Sie auch zu shift Ihre Daten, dann werden die Dinge komplizierter. Wenn Ihre Daten alle positiv, dann subtrahieren aus der kleinsten Zahl wird nicht nichts beschädigen. Aber, wenn Ihre Daten ist eine Mischung aus positiven und negativen Daten, dann einige Ihrer Werte nahe null leiden kann ein Verlust an Genauigkeit.

Wenn man die Arithmetik auf double Präzision, die Sie tragen werden 53 bit Genauigkeit durch die Berechnung. Wenn Ihre Genauigkeit muss passen innerhalb (was Sie wahrscheinlich tun wird), dann wirst du in Ordnung sein. Ansonsten, die genaue numerische Leistung hängt von der Verteilung der Daten.
- "aufgrund der Rundung," ja, sicher, aber ich habe auch bits im gegebenen floating-point-Typ, unbenutzt, also ich bin Rundung meiner normalisierte Werte, während die bits verschwenden, können Sie sehen, was ich meine ?
- Im IEEE 754 64-bit-Binärdatei, jedes Bitmuster aus 0 x 0 durch 0x3ff0_0000_0000_0000 stellt eine andere Zahl in [0,1], so verschwenden Sie weniger als 3 bits aus dem 64. Ich wäre mehr besorgt über die Rundung.
- Das sind 10 bits
InformationsquelleAutor Joe Z
3

Einzel-und Doppel-IEEE-floats haben ein format, bei dem die Exponenten und Bruch Teile haben Feste bit-Breite. So ist dies nicht möglich (d.h. Sie haben immer die ungenutzten bits, wenn Sie nur zum speichern von Werten zwischen 0 und 1). (Siehe: http://en.wikipedia.org/wiki/Single-precision_floating-point_format)

Sind Sie sicher, dass die 52-bit Breite Bruch Teil eines double nicht genau genug?

Edit: Wenn Sie die ganze Reihe von floating-format, Sie verlieren Präzision bei der Normalisierung der Werte. Die Rundungen können aus sein und genügend kleine Werte werden zu 0. Es sei denn, Sie wissen, dass dies ein problem ist, keine Sorge. Ansonsten muss man suchen, bis eine andere Lösung wie bereits in anderen Antworten.
- Das problem ist, zu wissen, wie groß ist der maximale Wert, und wie klein ist der kleinste Wert, wenn es genug Unterschied in Ihnen ist der 52-bit-Teil eines Doppel-könnte ein problem sein, ja. Dies ist der Grund, warum ich möchte nicht alle Abfälle etwas in der Art, so kann ich das beste aus diesen 64 bits.
- Ja könnte dies ein problem sein, wenn Sie eine so große Daten-Reihe und müssen nicht alle Daten verlieren. Ist dies der Fall? Sie können cplusplus.com/reference/limits/numeric_limits um zu überprüfen, ob Sie fallen unter minimum (=0). Eine floating point division fast immer Rundungsfehler.
InformationsquelleAutor Moberg
2

Wenn Sie haben eine Auswahl von doubles und Sie zu normalisieren, um zwischen 0.0 und 1.0 gibt es eine Reihe von Quellen der Präzision Verlust. Sie alle sind aber viel geringer als Sie vermuten.

Ersten, werden Sie einige verlieren, Präzision in der arithmetischen Operationen zu normalisieren, Sie als Rundung. Dieser ist relativ klein-ein bisschen oder so pro Betrieb-und in der Regel relativ random.

Zweiten, der exponent Komponente nicht mehr mit dem positiven Exponenten Möglichkeit.

Dritten, so sind alle Werte positiv, das Vorzeichen-bit wird auch verschwendet werden.

Her, wenn die input-Raum nicht enthalten, +inf oder -inf oder +NaN oder -NaN oder dergleichen, diejenigen, die code-Punkte werden auch verschwendet.

Aber zum größten Teil, Sie werden Abfälle über 3 bits von Informationen in einem 64-bit - double in Ihrer Normalisierung, von denen die Art der Sache, ist nahezu unumgänglich, wenn Sie sich mit der finite-bit-Breite Werte.

Alle 64-bit-fixed-point-Darstellung der Werte von 0 bis 1, wird weit weniger "Auswahl" als doubles. Ein double darstellen kann, etwas in der Größenordnung von 10^-300, während ein 64-bit-fixed-point-Darstellung enthält 1.0 nur gehen kann so niedrig wie 10^-19 oder so. (Die 64-bit-fixed-point Repräsentation darstellen kann 1 - 10^-19 als deutlich vom 1, während die double nicht, aber die 64-bit-fixed-point-Wert kann nicht alles darstellen, kleiner als 2^-64, während doubles kann).

Einige der oben genannten zahlen sind Näherungswerte und können abhängig von Runden/genaue format.

InformationsquelleAutor Yakk - Adam Nevraumont
2

Müssen binäre Gleitkommazahlen (mit einer impliziten führenden eine), ausgedrückt als
```
(1+fraction) * 2^exponent where fraction < 1
```
Einer division a/b ist:
```
a/b = (1+fraction(a)) / (1+fraction(b)) * 2^(exponent(a) - exponent(b))
```
Daher division/Multiplikation hat im wesentlichen ohne Verlust der Präzision.

Einer Subtraktion a-b ist:
```
a-b = (1+fraction(a)) * 2^(exponent(a) - (1+fraction(b)) * exponent(b))
```
Daher eine Subtraktion/Ergänzung möglicherweise ein Verlust an Präzision (groß - klein = groß=) !

Spannen einen Wert x im Bereich [min, max] auf [0, 1]
```
(x - min) / (max - min)
```
haben präzise Fragen, ob die Subtraktion hat einen Verlust der Genauigkeit.

Deine Frage zu beantworten:
Nichts ist, wählen Sie eine geeignete Darstellung (floating point, Fraktion, multi Präzision ...) für Ihre algorithmen und den erwarteten Daten.

InformationsquelleAutor
2

Für höhere Präzision, die Sie versuchen können,http://www.boost.org/doc/libs/1_55_0/libs/multiprecision/doc/html/boost_multiprecision/tut/floats.html.

Beachten Sie auch, dass für die numerische kritischen Operationen +,- gibt es spezielle algorithmen reduzieren die numerischen Fehler durch das Vorgestellte Algorithmus:

http://en.wikipedia.org/wiki/Kahan_summation_algorithm

InformationsquelleAutor Tobias

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.