Split große csv-Datei, indem Sie den Wert einer Spalte in python

Ich habe eine csv-große Datei, die ich nicht behandeln kann in Speicher mit python. Ich bin Aufspaltung es in mehrere Stücke nach der Gruppierung nach dem Wert einer bestimmten Spalte mit der folgenden Logik:

def splitDataFile(self, data_file):

    self.list_of_chunk_names = []
    csv_reader = csv.reader(open(data_file, "rb"), delimiter="|")
    columns = csv_reader.next()

    for key,rows in groupby(csv_reader, lambda row: (row[1])):
        file_name = "data_chunk"+str(key)+".csv"
        self.list_of_chunk_names.append(file_name)

        with open(file_name, "w") as output:
            output.write("|".join(columns)+"\n")
            for row in rows:
                output.write("|".join(row)+"\n")

    print "message: list of chunks ", self.list_of_chunk_names

    return

Die Logik ist, aber es ist langsam. Ich Frage mich, wie kann ich diese optimieren? Zum Beispiel mit pandas?

Bearbeiten

Weiteren Erklärung: ich bin nicht auf der Suche nach einer einfachen Aufteilung auf gleiche Größe Brocken (wie jeder mit 1000 Zeilen), die ich teilen möchten, indem Sie den Wert einer Spalte, das ist, warum ich bin mit groupby.

InformationsquelleAutor Mohamed Ali JAMAOUI | 2015-11-09

pandas python

Verwenden Sie diese Python 3 Programm:

 #!/usr/bin/env python3
 import binascii
 import csv
 import os.path
 import sys
 from tkinter.filedialog import askopenfilename, askdirectory
 from tkinter.simpledialog import askinteger

 def split_csv_file(f, dst_dir, keyfunc):
     csv_reader = csv.reader(f)
     csv_writers = {}
     for row in csv_reader:
         k = keyfunc(row)
         if k not in csv_writers:
             csv_writers[k] = csv.writer(open(os.path.join(dst_dir, k),
                                              mode='w', newline=''))
         csv_writers[k].writerow(row)

 def get_args_from_cli():
     input_filename = sys.argv[1]
     column = int(sys.argv[2])
     dst_dir = sys.argv[3]
     return (input_filename, column, dst_dir)

 def get_args_from_gui():
     input_filename = askopenfilename(
         filetypes=(('CSV', '.csv'),),
         title='Select CSV Input File')
     column = askinteger('Choose Table Column', 'Table column')
     dst_dir = askdirectory(title='Select Destination Directory')
     return (input_filename, column, dst_dir)

 if __name__ == '__main__':
     if len(sys.argv) == 1:
         input_filename, column, dst_dir = get_args_from_gui()
     elif len(sys.argv) == 4:
         input_filename, column, dst_dir = get_args_from_cli()
     else:
         raise Exception("Invalid number of arguments")
     with open(input_filename, mode='r', newline='') as f:
         split_csv_file(f, dst_dir, lambda r: r[column-1]+'.csv')
         # if the column has funky values resulting in invalid filenames
         # replace the line from above with:
         # split_csv_file(f, dst_dir, lambda r: binascii.b2a_hex(r[column-1].encode('utf-8')).decode('utf-8')+'.csv')

Speichern Sie es als split-csv.py und führen Sie es aus dem Explorer oder aus dem Befehl
Linie.

Zum Beispiel nach split superuser.csv basierend auf Spalte 1 und schreiben Sie die
output-Dateien unter dstdir verwenden:

 python split-csv.py data.csv 1 dstdir

Wenn man es ohne Argumente, ein Tkinter basierende GUI werden Sie aufgefordert,
wählen Sie die input-Datei, die Spalte (1-basierte index) und die
Ziel-Verzeichnis.

ref

InformationsquelleAutor BigOther

Werde ich mit sowas wie dem folgenden, wo ich bin der Iteration über die eindeutigen Werte der Spalte aufteilen, indem Sie, Sie zum filtern von Daten-chunks.

def splitWithPandas(data_file, split_by_column):
        values_to_split_by = pd.read_csv(data_file, delimiter="|", usecols=[split_by_column])
        values_to_split_by.drop_duplicates()
        values_to_split_by = pd.unique(values_to_split_by.values.ravel())

        for i in values_to_split_by:
            iter_csv = pd.read_csv(data_file, delimiter="|", chunksize=100000)
            df = pd.concat([chunk[chunk[split_by_column] == i] for chunk in iter_csv])
            df.to_csv("data_chunk_"+i, sep="|", index=False)

InformationsquelleAutor Mohamed Ali JAMAOUI

1

Ich vermuten, dass Ihr größter Engpass ist das öffnen und schließen einer Datei-handle jedes mal, wenn ein neuer block von Zeilen. Einen besseren Ansatz, solange die Anzahl der Dateien, die Sie schreiben, ist nicht zu groß, ist zu halten, alle Dateien öffnen. Hier ist ein überblick:
```
def splitDataFile(self, data_file):
    open_files = dict()
    input_file = open(data_file, "rb")
    try:
        ...
        csv_reader = csv.reader(input_file, ...)
        ...
        for key, rows in groupby(csv_reader, lambda row: (row[1])):
            ...
            try:
                output = open_files[key]
            except KeyError:
                output = open(file_name, "w")
            output.write(...)
            ...
    finally:
        for open_file in open_files.itervalues():
            open_file.close()
        input_file.close()
```
Natürlich, wenn man nur eine Gruppe mit einer beliebigen Taste, wird das nicht helfen. (Tatsächlich, es kann alles noch schlimmer machen, weil Sie wind-up-holding eine Reihe von Dateien zu öffnen unnötig.) Je mehr du in den wind schreiben, um eine einzelne Datei, desto mehr profitieren Sie bekommen von dieser änderung.

Kombinieren Sie diese mit den pandas, wenn Sie wollen, und das chunking-Funktionen read_csv oder read_table Griff der input-Verarbeitung.

InformationsquelleAutor David Z
1

Dann werden Sie wahrscheinlich die beste Leistung über den eingebauten chunking Funktionen der pandas (die chunksize keyword arg zu read_csv),

http://pandas.pydata.org/pandas-docs/version/0.16.2/generated/pandas.read_csv.html

Beispielsweise
```
reader = pd.read_table('my_data.csv', chunksize=4)
for chunk in reader:
  print(chunk)
```
EDIT:

Diesem vielleicht bekommen Sie irgendwo,
```
import pandas as pd

group_col_indx = 1
group_col = pd.read_csv('test.csv', usecols=[group_col_indx])
keys = group_col.iloc[:,0].unique()

for key in keys:
    df_list = []
    reader = pd.read_csv('test.csv', chunksize=2)
    for chunk in reader:
        good_rows = chunk[chunk.iloc[:,group_col_indx] == key]
        df_list.append(good_rows)
    df_key = pd.concat(df_list)
```
- Vielen Dank für das feedback. Ich bin nicht auf der Suche nach einfachen, gleiche-Anzahl der Zeilen chunking. Ich bin auf der Suche für splitting durch den Wert einer bestimmten Spalte in einer csv-Datei.
- Sie konnte tun und mit einer Schleife über die Blöcke für jede Spalte, die Sie gruppieren möchten. können Sie passen Sie die einzige Spalte, die Sie möchten, group_by in den Speicher (dies würde Ihnen erlauben, zu entdecken, die eindeutige Werte in der Spalte)?
- Ja, ich kann die Größe der einzelnen Spalte ich bin eine Gruppierung in den Speicher.
InformationsquelleAutor Gabriel

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.