Was ist der Unterschied zwischen NaN und Keine?

Lese ich zwei Spalten einer csv-Datei mit pandas readcsv() und dann die Zuordnung der Werte zu einem Wörterbuch. Die Spalten enthalten Zeichenfolgen aus zahlen und Buchstaben. Gelegentlich gibt es Fälle, in denen eine Zelle leer ist. Meiner Meinung nach, wird der Wert gelesen, der Wörterbuch-Eintrag sollte None sondern nan zugeordnet ist. Sicherlich None ist mehr beschreibend für eine leere Zelle als null-Wert, in der Erwägung, dass nan sagt nur, dass der ausgelesene Wert ist keine Zahl.

Ist mein Verständnis richtig ist, was IST der Unterschied zwischen None und nan? Warum ist nan zugewiesen statt None?

Auch mein Wörterbuch überprüfen Sie alle leeren Zellen mit numpy.isnan():

for k, v in my_dict.iteritems():
    if np.isnan(v):

Aber das gibt mir eine Fehlermeldung, dass ich nicht verwenden können, diese Prüfung für v. Ich denke, es ist, weil ein integer-oder float-variable und nicht ein string verwendet werden soll. Wenn dies wahr ist, wie kann ich überprüfen v für eine "leere Zelle"/nan Fall?

Der text qwerty ist keine Zahl.
Ich weiß, so sicher None wäre eine bessere Beschreibung der Wert eine leere Zelle.
meine Antwort beschreibt, dass

InformationsquelleAutor user1083734 | 2013-07-08

77

NaN wird als Platzhalter verwendet für fehlende Daten konsequent in pandas, die Konsistenz ist gut. Ich in der Regel Lesen/übersetzen NaN als "fehlt". Siehe auch die "die Arbeit mit fehlenden Daten' Abschnitt in der Dokumentation.

Wes schreibt in der Dokumentation die Entscheidung der NA-Vertretung":

Nach Jahren der Verwendung in der Produktion [NaN] bewährt hat sich, zumindest meiner Meinung nach, die beste Entscheidung, da der Stand der Dinge in NumPy und Python im Allgemeinen. Der spezielle Wert NaN (not-A-Number) wird verwendet überall als der NA-Wert, und es gibt API-Funktionen isnull und notnull die verwendet werden können, über die dtypes zu erkennen, NA-Werte.

...

So, ich habe mich entschieden die Pythonic "Praktikabilität beats purity" - Ansatz und gehandelt integer-NA-Fähigkeit für einen viel einfacheren Ansatz, der mit einem speziellen Wert in float-und Objekt-arrays zu bezeichnen, NA, und die Förderung der integer-arrays zu schwimmen, wenn NAs muss eingeführt werden.

Hinweis: die "gotcha", die Ganzzahl-Serie mit fehlenden Daten sind Verallgemeinerung zu schwimmt.

Meiner Meinung nach der Hauptgrund für die Verwendung NaN (über Keine), ist, dass es gespeichert werden kann, mit numpy ist dtype float64, eher als die weniger effizienten Objekt-dtype, sehen NA Typ promotions.
```
#  without forcing dtype it changes None to NaN!
s_bad = pd.Series([1, None], dtype=object)
s_good = pd.Series([1, np.nan])

In [13]: s_bad.dtype
Out[13]: dtype('O')

In [14]: s_good.dtype
Out[14]: dtype('float64')
```
Jeff Kommentare (unten):

np.nan ermöglicht vektorisierte Operationen; seine ein float-Wert, während None per definition, Kräfte, Objekt-Typ, der grundsätzlich deaktiviert alle Effizienz in numpy.

So wiederholen Sie 3 mal schnell: Objekt==schlecht, float==gut

Sagen, dass viele Operationen können heute noch genauso gut funktionieren mit Keiner vs-NaN (aber vielleicht nicht unterstützt, d.h. Sie können manchmal geben überraschende Ergebnisse):
```
In [15]: s_bad.sum()
Out[15]: 1

In [16]: s_good.sum()
Out[16]: 1.0
```
Die zweite Frage zu beantworten:

Sie sollten mit pd.isnull und pd.notnull testen für fehlende Daten (NaN).

nur das hinzufügen 2c hier....np.nan ermöglicht vektorisierte Operationen; seine ein float-Wert, während None per definition Kräfte object Art, und im Grunde deaktiviert alle Effizienz in numpy, so wiederholen Sie 3 mal schnell: object==bad, float==good
siehe auch: stackoverflow.com/a/19866269/1240268

InformationsquelleAutor Andy Hayden
15

NaN können verwendet werden als numerischer Wert auf mathematische Operationen, während None nicht (oder zumindest nicht sollte).

NaN ist ein numerischer Wert, wie definiert in IEEE 754 floating-point standard.
None ist ein internes Python-tipe (NoneType) und würde gerne noch mehr sein "nicht vorhanden" oder "leer" als "numerisch " ungültig" in diesem Zusammenhang.

Haupt - "symptom" ist, dass, wenn Sie, sagen wir, eine Durchschnittliche oder eine Summe auf ein array mit NaN, selbst einen einzigen, Sie bekommen NaN als Ergebnis...

In der anderen hand, Sie können nicht führen Sie mathematische Operationen mit None als Operanden.

So, je nach Fall könnten Sie None als ein Weg, zu sagen, Ihr Algorithmus nicht zu prüfen, ungültige oder nicht vorhandene Werte auf Berechnungen. Das würde bedeuten, dass der Algorithmus sollte jeder test Wert, um zu sehen, wenn es None.

Numpy hat einige Funktionen zu vermeiden, NaN-Werte zu kontaminieren Ihre Ergebnisse, wie nansum und nan_to_num zum Beispiel.

Ich Stimme dir zu Keiner sollte verwendet werden für nicht vorhandene Einträge, also warum df=pd.readcsv('file.csv') mir NaN Werte für die leeren Zellen und nicht None? So weit ich bin mir bewusst, pd.DataFrames sind nicht exklusiv für zahlen.
Gut, es ist wahrscheinlich eine design-Wahl. Ich nehme an, DataFrames und Serien haben eine dtype, so dass ungültige Werte dtype=float muss dargestellt werden durch numerische Werte, die NaN ist und None ist nicht (None ist NoneType).
Auch eine Menge Pandas Methoden haben eine na argument, die Sie entscheiden lassen, welchen Wert Sie verwenden, um zu ersetzen nicht Verfügbarer Werte
Ok, vielen Dank. Also ich bin nicht wirklich Lesen zahlen in mein DataFrame, aber strings aus zahlen und Buchstaben. Welche Art der Prüfung sollte ich verwenden zum erkennen von leeren Zellen? Eine überprüfung wie; wenn dtype==float: ??
Vielleicht buchen Sie eine Probe von Ihren CSV-Daten helfen würde. Ich kann mir vorstellen, dass, wenn es strings sind, dann dtype wäre, string für die ganze Spalte (Reihe). Aber vielleicht, wenn nicht jede Zeile muss die gleiche Anzahl von Spalten, die Sie am Ende mit nicht verfügbaren Daten. Ich denke, Sie haben zu prüfen.

InformationsquelleAutor heltonbiker
2

Die Funktion isnan() überprüft, um zu sehen, wenn etwas ist "not A Number" und gibt an, ob oder nicht eine variable ist eine Zahl, zum Beispiel isnan(2) würde false zurückgeben,

Die bedingte myVar is not None gibt an, ob die variable definiert ist

Ihre numpy-array verwendet isnan() denn es soll ein array von zahlen ist und es initialisiert alle Elemente des Arrays zu NaN diese Elemente werden als "leer"

Ich denke isnan(2) zurückkehren würde False, da 2 nicht ein NaN.
Auch numpy.empty nicht initialisieren von array-Werten zu NaN. Es geht einfach nicht initialisieren die Werte überhaupt.
idk, was ich dachte
Die richtige Prüfung für None-ness ist myVar is not None, nicht myVar != None.
Beachten Sie, dass np.isnan() ist nicht implementiert, für string-Variablen, so dass, wenn Sie übergeben einen string, es wird Abstürzen. Besser pd.isnull die funktioniert auch mit strings.

InformationsquelleAutor Stephan
-3

NaN stants für NICHT eine Reihe.

None stehen könnten für alle.

InformationsquelleAutor diegoaguilar

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.