bedingte Zeile Lesen der csv in pandas

Habe ich große csvs wo bin ich nur daran interessiert, eine Teilmenge der Zeilen. In bestimmten, würde ich mag zu Lesen, in all den Zeilen, die auftreten, bevor eine bestimmte Bedingung erfüllt ist.

Zum Beispiel, wenn read_csv würde die Ausbeute der dataframe:

     A    B      C
1   34   3.20   'b'
2   24   9.21   'b'
3   34   3.32   'c'
4   24   24.3   'c'
5   35   1.12   'a'
... 
1e9 42   2.15   'd'

gibt es eine Möglichkeit, Lesen Sie alle Zeilen in der csv-bis Spalte B größer als 10 ist. In dem obigen Beispiel, würde ich mag zu Lesen, in:

     A    B      C
1   34   3.20   'b'
2   24   9.21   'b'
3   34   3.32   'c'
4   24   24.3   'c'

Ich wissen, wie ich werfen diese Zeilen habe ich einmal gelesen das dataframe, aber an diesem Punkt, ich habe schon alle, dass die Berechnung des Lesens. Ich habe keinen Zugriff auf den index der letzten Zeile vor dem Einlesen der csv-Datei (keine skipfooter bitte)

Ich glaube nicht, dass es eine einfache Möglichkeit, dies zu tun in der Pandas-API. Sie wahrscheinlich nur noch zum brechen aus csv, greifen die Zeilen ein zu einer Zeit, Sachen, die Sie in eine Liste von Listen, stoppen sobald Sie die Letzte Zeile, die Sie möchten, und erstellen Sie dann eine DataFrame aus, die resultierende Liste von Listen.
Sie konnte Lesen die csv in Stücke schneiden und nur angehängt, wenn die Teilmenge erfüllt Ihre Bedingung

InformationsquelleAutor eretmochelys | 2015-01-30

Du Lesen könntest die csv in Stücke schneiden. Da pd.read_csv zurück einen iterator, wenn die chunksize parameter angegeben ist, können Sie itertools.takewhile zu Lesen, dass nur so viele Stücke, wie Sie benötigen, ohne Lesen der gesamten Datei.

import itertools as IT
import pandas as pd

chunksize = 10 ** 5
chunks = pd.read_csv(filename, chunksize=chunksize, header=None)
chunks = IT.takewhile(lambda chunk: chunk['B'].iloc[-1] < 10, chunks)
df = pd.concat(chunks)
mask = df['B'] < 10
df = df.loc[mask]

Oder, um zu vermeiden, dass die Verwendung df.loc[mask] zu entfernen unerwünschte Zeilen aus der letzten chunk, vielleicht eine sauberere Lösung wäre, um eine benutzerdefinierte generator:

import itertools as IT
import pandas as pd

def valid(chunks):
    for chunk in chunks:
        mask = chunk['B'] < 10
        if mask.all():
            yield chunk
        else:
            yield chunk.loc[mask]
            break

chunksize = 10 ** 5
chunks = pd.read_csv(filename, chunksize=chunksize, header=None)
df = pd.concat(valid(chunks))

Meinst du chunk.ix[-1, 'B']?
Danke, du hast Recht. Auch chunk.ix[-1, 'B'] zurückkehren würde der falsche Wert, wenn chunk's index enthalten -1 als Wert.

InformationsquelleAutor unutbu

0

Ich würde gehen den einfachen Weg beschrieben hier:

http://pandas.pydata.org/pandas-docs/stable/indexing.html#boolean-indexing
```
df[df['B'] > 10]
```
InformationsquelleAutor joanwa

Können Sie die integrierte-in csv Modul zur Berechnung der entsprechenden Zeilennummer. Dann nutzen Sie pd.read_csv mit der nrows argument:

from io import StringIO
import pandas as pd
import csv, copy

mycsv = StringIO(""" A      B     C
34   3.20   'b'
24   9.21   'b'
34   3.32   'c'
24   24.3   'c'
35   1.12   'a'""")

mycsv2 = copy.copy(mycsv)  # copying StringIO object [for demonstration purposes]

with mycsv as fin:
    reader = csv.reader(fin, delimiter=' ', skipinitialspace=True)
    header = next(reader)
    counter = next(idx for idx, row in enumerate(reader) if float(row[1]) > 10)

df = pd.read_csv(mycsv2, delim_whitespace=True, nrows=counter+1)

print(df)

    A      B    C
0  34   3.20  'b'
1  24   9.21  'b'
2  34   3.32  'c'
3  24  24.30  'c'

InformationsquelleAutor jpp

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.