Versuchen, drop von NaN indizierten Zeile in dataframe

Ich bin mit python 2.7.3 und Pandas version 0.12.0.

Möchte ich drop die Zeile mit der NaN-index, so dass ich nur noch gültig site_id Werte.

print df.head()
            special_name
site_id
NaN          Banana
OMG          Apple

df.drop(df.index[0])

TypeError: 'NoneType' object is not iterable

Wenn ich versuche ein Drop einer Auswahl, wie diese:

df.drop(df.index[0:1])

Bekomme ich diesen Fehler:

AttributeError: 'DataFrame' object has no attribute 'special_name'

InformationsquelleAutor Alison S | 2013-10-29

15

Habe ich herausgefunden, dass der einfachste Weg ist, um den index zurücksetzen, löschen Sie NaN und setzen Sie dann den index erneut.
```
In [26]: dfA.reset_index()
Out[26]: 
  index special_name
0   NaN        Apple
1   OMG       Banana

In [30]: df = dfA.reset_index().dropna().set_index('index')

In [31]: df
Out[31]: 
      special_name
index             
OMG         Banana
```
- df.loc[df.index.dropna()] funktioniert in den aktuellen Versionen.
- Dies wird drop-Zeilen, die einen null-Wert in JEDER Zeile, nicht nur den index. Ich würde empfehlen, mit @timdiels Antwort statt.
InformationsquelleAutor TomAugspurger
26

Mit pandas version >= 0.20.0 können Sie:

df[df.index.notnull()]

Mit älteren Versionen:

df[pandas.notnull(df.index)]

Um es zu brechen:

notnull erzeugt ein boolean-Maske, z.B. [False, False, True], wo Wahre bezeichnet den Wert an der entsprechenden Stelle null ist (numpy.nan oder None). Wir wählen dann die Zeilen, deren index entspricht, um einen true-Wert in der Maske durch die Verwendung df[boolean_mask].
- Sollte das nicht sein, notnull() anstelle von isnull()?
- Ja, behoben, vielen Dank.
- Ist das gleiche wie df[df.index.notnull()]
- Dank Pietro Battiston und Null für die neuesten und besten beantworten.
InformationsquelleAutor timdiels
2

Getestet, zu arbeiten :

df.reset_index(inplace=True)

df.drop(df[df['index'].isnull()].index, inplace=True)

, Wie ich überprüfte die oben

Repliziert die Tabelle in der ursprünglichen Frage der Verwendung
df=pd.DataFrame(data=['Banana', 'Apple'], index=[np.nan, 'OMG'],columns=['Special_name'])

dann geben Sie die beiden obigen code-Zeilen, die ich versuche zu erklären in der menschlichen Sprache unter:
- 1. Zeile setzt den index zu zahlen, und das NaN ist jetzt in einer Spalte, benannt nach dem ursprünglichen Namen des index (der'index' im obigen Beispiel, es wurde kein name angegeben) - pandas tut dies automatisch mit der reset_index () - Befehl.
- 2. Zeile von der innersten Klammern: df[df['index'].isnull()] Filter Zeilen für die Spalte mit dem Namen 'index' zeigt 'NaN' - Werte mit isnull () - Befehl. .index verwendet, um eine eindeutige index-Objekt zeigt auf allen 'index'=NaN-Zeilen in die df.drop( im äußersten Teil des Ausdrucks.
nb: getestet mit dem obigen Befehl, um die Arbeit auf mehrere NaN-Werte in einer Spalte

Mit Python 3.5.1 , Pandas 0.17.1 via Anaconda-Paket 32bits

InformationsquelleAutor Mrumble

Keiner der Antworten gearbeitet 100% für mich. Hier ist was funktioniert:

In [26]: print df
Out[26]:            
          site_id      special_name
0         OMG          Apple
1         NaN          Banana
2         RLY          Orange


In [27]: df.dropna(inplace=True)
Out[27]:            
          site_id      special_name
0         OMG          Apple
2         RLY          Orange

In [28]: df.reset_index(inplace=True)
Out[28]:            
          index     site_id      special_name
0         0         OMG          Apple
1         2         RLY          Orange

In [29]: df.drop('index', axis='columns', inplace=True)
Out[29]:             
          site_id      special_name
0         OMG          Apple
1         RLY          Orange

InformationsquelleAutor Joakim

1

Als der pandas 0.19, Indexes zu tun haben .notnull() Methode, so die Antwort von timdiels kann vereinfacht werden zu:
```
df[df.index.notnull()]
```
ich denke das ist (derzeit) die einfachste, die Sie bekommen können.

InformationsquelleAutor Pietro Battiston
1

Edit: das folgende gilt wohl nur für MultiIndexs, und ist in jedem Fall wurde durch die neue df.index.isnull() - Funktion (siehe andere Antworten). Ich lasse diese Antwort nur für das historische Interesse.

Für Menschen, die zu dieser jetzt, kann man das direkt tun, ohne reindexing, indem Sie sich auf die Tatsache, dass NaNs im index vertreten sein wird mit dem label -1. Also:
```
df = dfA[dfA.index.labels!=-1]
```
Sogar besser, Pandas>0.16.1, man kann mit drop (), um dies zu tun inplace, ohne Sie zu kopieren:
```
dfA.drop(labels=[-1], level='index', inplace=True)
```
NB: Es ist ein bisschen irreführend, dass der index-Ebene heißt "index": es würde in der Regel etwas mehr verwenden-spezifische wie "Datum" oder "experimental_run'..
- Funktioniert nicht in den pandas-0.17.0. Index hat keine labels Attribut, Das vorgeschlagene drop führt zu AssertionError: axis must be a MultiIndex.
- Was ist, wenn meine index hat sowohl NaN Werte und -1 Werte?
- Der obige code verweist auf die labels des index und nicht der index direkt: NaN Werte im index vertreten sind, von -1 im labels. Ich glaube nicht, dass die labels Attribut kann je enthalten NaN.
- vielen Dank für die Kommentar - könnte gut der Fall sein, dass dies nicht funktioniert ohne MultiIndex. In jedem Fall denke ich, es ist eine veraltete Antwort nun, dass pandas eine df.index.notnull() Funktion. Ich lasse es stehen für das historische Interesse.
InformationsquelleAutor Robert Muil

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

, Wie ich überprüfte die oben