Python pandas DataFrame aus der ersten und letzten Zeile der csv

All -

Ich bin auf der Suche zum erstellen eines pandas DataFrame aus nur die ersten und letzten Zeilen einer sehr großen csv. Der Zweck dieser übung ist es, in der Lage sein, um leicht greifen einige Attribute aus dem ersten und letzten Einträge in diesen csv-Dateien. Ich habe kein problem, greift die erste Zeile der csv-Verwendung:

pd.read_csv(filename, nrows=1)

Habe ich auch kein problem, greifen Sie in der letzten Zeile einer text-Datei in verschiedenen weisen, wie:

with open(filename) as f:
    last_line = f.readlines()[-1]

Jedoch, diese beiden Dinge in einem einzigen DataFrame hat mich geworfen, für eine Schleife. Jede Einsicht in das, wie am besten, um dieses Ziel zu erreichen?

BEARBEITEN HINWEIS: ich versuche, um diese Aufgabe ohne das laden aller Daten in einem einzigen DataFrame zuerst wie ich bin den Umgang mit ziemlich großen (>15MM Zeilen) csv-Dateien.

Dank!

können Sie zeigen die Schritte, die Sie unternommen haben, versuchen Sie diese zwei Dinge in einer einzigen DataFrame? und was ist der Fehler, den Sie haben
der erste Schnipsel erfolgreich greift die erste Zeile und setzt es in ein DataFrame. Das zweite snippet schnappt sich die Letzte Zeile, aber es fehlt-Header, so bin ich nicht in der Lage, erstellen Sie ein neues DataFrame und verwenden Sie eine einfache Verkettung zu verbinden.

InformationsquelleAutor wrcobb | 2014-11-07

7

Verwenden Sie einfach head und tail und concat. Sie können sogar passen Sie die Anzahl der Zeilen.
```
import pandas as pd

df = pd.read_csv("flu.csv")
top = df.head(1)
bottom = df.tail(1)
concatenated = pd.concat([top,bottom])

print concatenated
```
Ergebnis:
```
           Date  Cases
0      9/1/2014     45
121  12/31/2014     97
```
Einstellen head und tail zu nehmen, die in 5 Zeilen von oben und 10 von unten...
```
           Date  Cases
0      9/1/2014     45
1      9/2/2014    104
2      9/3/2014     47
3      9/4/2014    108
4      9/5/2014     49
112  12/22/2014     30
113  12/23/2014     81
114  12/24/2014     99
115  12/25/2014     85
116  12/26/2014     55
117  12/27/2014     91
118  12/28/2014     68
119  12/29/2014    109
120  12/30/2014     55
121  12/31/2014     97
```
Ein möglicher Ansatz, die verwendet werden können, wenn Sie nicht wollen, zu laden, die gesamte CSV-Datei als ein dataframe ist, Sie zu verarbeiten, als CSVs allein. Der folgende code ist ähnlich zu Ihrem Ansatz.
```
import pandas as pd
import csv

top = pd.read_csv("flu.csv", nrows=1)
headers = top.columns.values

with open("flu.csv", "r") as f, open("flu2.csv","w") as g:
    last_line = f.readlines()[-1].strip().split(",")
    c = csv.writer(g)
    c.writerow(headers)
    c.writerow(last_line)

bottom = pd.read_csv("flu2.csv")
concatenated = pd.concat([top, bottom])
concatenated.reset_index(inplace=True, drop=True)

print concatenated
```
Ergebnis ist das gleiche, außer für die index. Getestet gegen eine million Zeilen und bearbeitet wurde in einem von einem zweiten.
```
        Date  Cases
0   9/1/2014     45
1  7/25/4885     99
[Finished in 0.9s]
```
~~Wie skaliert werden, gegenüber 15 Millionen Zeilen, vielleicht ist das dein Ballspiel jetzt.~~
Also beschloss ich, testen Sie gegen genau 15,728,626 Zeilen und die Ergebnisse scheinen gut genug.
```
        Date  Cases
0   9/1/2014     45
1  7/25/4885     99
[Finished in 3.3s]
```
- Vielen Dank für Ihre Antwort, irgendwelche Gedanken auf, wie dies zu tun, ohne zuerst laden Sie die gesamte Datei in einem DataFrame? Ich hätte mehr explizit in meinem post, aber diese sind sehr groß (15MM Zeile plus) csv-Dateien, so bin ich versucht zu vermeiden, laden Sie den gesamten Datenbestand. Ich werde Bearbeiten meine Frage, wie gut.
- Ist die Anzahl der Zeilen konstant oder verändert es?
- die Anzahl der Zeilen ist nicht konstant. Ich zähle schon die Gesamtzahl der Zeilen in der analysierten Datei an anderer Stelle in meinem script, so dass ich zu tun haben, dass der Datenpunkt zur Verfügung.
- wenn Sie die Anzahl der Zeilen wissen, Lesen Sie die erste Zeile, dann haben die anderen Lesen, die verwendet skiprows=n zu Lesen, die Letzte Zeile. Dann pd.concat (), um Sie zusammenzubringen.
- Was @JDLong sagte. Mögliche Nachteile sind, dass Sie noch haben, um das Problem zu beheben von Kopf-und möglich-str-int-Verkettung von Problemen.
- Siehe mein edit oben, wenn es in der Lage zu skalieren, um Ihre Anforderung.
- Das ist großartig - die bearbeitete Lösung ist viel effizienter als meine alte Lösung für das laden der gesamten Daten in einem DataFrame. Danke!
- Zugegeben, ich war etwas überrascht, dass dieser schneller war als nur das wissen, die Zählung vor der Zeit und mit skiprows. Scheint, manchmal ist es wirklich gut zu fallen, zurück zum guten alten standard-library-Module. Viel Glück!
- Oh, eine Frage der Referenz, was ist Ihre Laufzeit für 15 Millionen Zeilen? Wie viele Spalten sind es, wie gut? Nur zum Spaß, ich möchte wissen, wie es skaliert. Ich bin überrascht, dass von 1 bis 15 Millionen Euro, die Laufzeit gerade erhöhte 200%.
- meine Laufzeit war richtig, in 2 Minuten - diese Dateien haben in der Regel 60-70 Spalten (in diesem Fall 66), so sind Sie ziemlich groß und alle um Sie herum. Dieses vergleicht mit etwa 20 Minuten, wenn ich geladen, das gesamte set in einen DataFrame, WENN es würde schon laufen, bevor er ein Speicherfehler. Diese Methode ist viel schneller und viel weniger ein Ressourcenfresser.
- Das ist eine massive Verbesserung. Nun stellt sich die Frage, ob mit genau den gleichen Ansatz für top verbessern würde die Zeit mehr. Jedoch, mir scheint, ich habe irgendwo gelesen, dass nrows Stoppt das Lesen nach der Anzahl der Zeilen erreicht ist, so kann es optimiert werden gut genug, um zu Lesen von oben.
InformationsquelleAutor Jerome Montino

Also die Art und Weise, dies zu tun, ohne zu Lesen in die ganze Datei in Python erste ist, greifen die erste Zeile, dann Durchlaufen Sie die Datei in der letzten Zeile. Dann nutzen Sie StringIO zu saugen, Sie in Pandas. Vielleicht so etwas wie dieses:

import pandas as pd
import StringIO

with open('tst.csv') as f:
    first_line = f.readline()
    for line in f:
        pass #iterate to the end
    last_line = line

mydf = pd.DataFrame()
mydf = mydf.append(pd.read_csv(StringIO.StringIO(first_line), header=None))
mydf = mydf.append(pd.read_csv(StringIO.StringIO(last_line), header=None))

InformationsquelleAutor JD Long

2

Du willst diese Antwort https://stackoverflow.com/a/18603065/4226476 - nicht die akzeptierte Antwort, aber die beste, denn Sie sucht rückwärts nach dem ersten newline anstatt zu raten.

Dann wickeln Sie die zwei Linien in einem StringIO:
```
from cStringIO import StringIO
import pandas as pd

# grab the lines as per first-and-last-line question
truncated_input = StringIO(the_two_lines)
truncated_input.seek(0) # need to rewind
df = pd.read_csv(truncated_input)
```
- ich denke, Sie müssen eine Kopfzeile=kein auf die read_csv. Ansonsten pandas zu behandeln, wird die Zeile als Kopfzeile.
- (... oder nehmen Sie die ersten beiden Zeilen und die Letzte...)
InformationsquelleAutor allen-smithee

Dies ist die beste Lösung, die ich gefunden

import pandas as pd

count=len(open(filename).readlines()) 

df=pd.read_csv(filename, skiprows=range(2,count-1), header=0)

InformationsquelleAutor Stefan Manole

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.