Fehler tokenisierung von Daten. C error: out of memory pandas python, große csv-Datei

Ich habe eine große csv-Datei von 3,5 gehen und ich es Lesen wollen mit pandas.

Dies ist mein code:

import pandas as pd
tp = pd.read_csv('train_2011_2012_2013.csv', sep=';', iterator=True, chunksize=20000000, low_memory = False)
df = pd.concat(tp, ignore_index=True)

Bekomme ich diesen Fehler:

pandas/parser.pyx in pandas.parser.TextReader.read (pandas/parser.c:8771)()

pandas/parser.pyx in pandas.parser.TextReader._read_rows (pandas/parser.c:9731)()

pandas/parser.pyx in pandas.parser.TextReader._tokenize_rows (pandas/parser.c:9602)()

pandas/parser.pyx in pandas.parser.raise_parser_error (pandas/parser.c:23325)()

CParserError: Error tokenizing data. C error: out of 

Die Kapazität von meinem ram 8 Go.

was ist nur pd.read_csv('train_2011_2012_2013.csv', sep=';') ?
Neben anderen Vorschlägen, Sie sollten auch angeben dtypes.
mein computer es nicht unterstützen
Noobie, die Antwort oben ist mit noch mehr Speicher, da Sie be-ein Stück, und anfügen an mylist (erstellen einer zweiten Kopie der Daten). Sie sollten das Lesen in einem Stück , verarbeiten, speichern das Ergebnis , dann Lesen Sie weiter im nächsten chunk. Auch die Einstellung "dtype" für Spalten reduzieren Speicher.

InformationsquelleAutor Amal Kostali Targhi | 2016-12-23

Schreibe einen Kommentar