Fehler tokenisierung von Daten. C error: out of memory pandas python, große csv-Datei

Ich habe eine große csv-Datei von 3,5 gehen und ich es Lesen wollen mit pandas.

Dies ist mein code:

import pandas as pd
tp = pd.read_csv('train_2011_2012_2013.csv', sep=';', iterator=True, chunksize=20000000, low_memory = False)
df = pd.concat(tp, ignore_index=True)

Bekomme ich diesen Fehler:

pandas/parser.pyx in pandas.parser.TextReader.read (pandas/parser.c:8771)()

pandas/parser.pyx in pandas.parser.TextReader._read_rows (pandas/parser.c:9731)()

pandas/parser.pyx in pandas.parser.TextReader._tokenize_rows (pandas/parser.c:9602)()

pandas/parser.pyx in pandas.parser.raise_parser_error (pandas/parser.c:23325)()

CParserError: Error tokenizing data. C error: out of

Die Kapazität von meinem ram 8 Go.

was ist nur pd.read_csv('train_2011_2012_2013.csv', sep=';') ?
Neben anderen Vorschlägen, Sie sollten auch angeben dtypes.
mein computer es nicht unterstützen
Noobie, die Antwort oben ist mit noch mehr Speicher, da Sie be-ein Stück, und anfügen an mylist (erstellen einer zweiten Kopie der Daten). Sie sollten das Lesen in einem Stück , verarbeiten, speichern das Ergebnis , dann Lesen Sie weiter im nächsten chunk. Auch die Einstellung "dtype" für Spalten reduzieren Speicher.

InformationsquelleAutor Amal Kostali Targhi | 2016-12-23

6

versuchen, diese bro:
```
mylist = []

for chunk in  pd.read_csv('train_2011_2012_2013.csv', sep=';', chunksize=20000):
    mylist.append(chunk)

big_data = pd.concat(mylist, axis= 0)
del mylist
```
Vielen Dank für deine Hilfe, aber es ist ein Fehler in big_data = pd.concat(mylist, axis=0) = np.leer(out_shape, dtype=dtype, order='F') 929 anderes: --> 930 out = np.leer(out_shape, dtype=dtype) 931 932 func = _get_take_nd_function(arr.ndim, arr.dtype, aus.dtype, axis=Achse, MemoryError:
Geladen 3G CVS erfolgreich! Danke!

InformationsquelleAutor ℕʘʘḆḽḘ
1

Können Sie versuchen, die Einstellung error_bad_lines = False beim aufrufen der csv-Datei, also
```
import pandas as pd
df = pd.read_csv('my_big_file.csv', error_bad_lines = False)
```
InformationsquelleAutor Dutse I
0

Dieser Fehler kann auch verursacht werden, durch die chunksize=20000000. Verringern, dass das Problem in meinem Fall.
In ℕʘʘḆḽḘ Lösung chunksize ist ebenfalls gesunken, die könnten, haben getan der trick.

Wenn es bereits eine Antwort in ℕʘʘḆḽḘ die Lösung dann einfach kommentieren diese. Keine Notwendigkeit, um es als Antwort.
Ich wollte das aber nicht genug Ruf. Wollte nur lassen Sie diese Informationen für zukünftige Referenz, ich habe es nicht gefunden, wenn ich war googeln für diesen Fehler

InformationsquelleAutor Justas

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.