Speicher Fehler mit openpyxl und große Daten zeichnet sich

Habe ich ein Skript geschrieben, das zu Lesen hat viel von excel-Dateien aus einem Ordner (rund 10.000). Dieses Skript lädt die excel-Datei (einige von Ihnen hat mehr als 2000 Zeilen) und liest eine Spalte count die Anzahl der Zeilen (Prüfung und so). Wenn die Anzahl der Zeilen ist nicht gleich einer gegebenen Zahl ist, schreibt er die Warnung im log.

Das problem kommt, wenn das Skript liest mehr als 1000 excel-Dateien. Es ist dann, wenn er wirft, Speicher-Fehler, und ich weiß nicht, wo das problem sein könnte. Vorher das Skript Lesen zwei csv-Datei mit 14.000 Zeilen und speichert Sie in einer Liste. Diese Listen enthalten eine identificator für die excel-Datei und die jeweilige Anzahl der Zeilen. Wenn die Anzahl der Zeilen ist nicht gleich der Anzahl der Zeilen der excel-Datei hat, schreibt er die Warnung. Könnte das problem sein, die Lektüre dieser Listen?

Ich bin mit openpyxl laden Sie die Arbeitsmappen, muss ich schließen Sie vor dem öffnen der nächsten?

Dies ist mein code:

# -*- coding: utf-8 -*-

import os
from openpyxl import Workbook
import glob
import time
import csv
from time import gmtime,strftime
from openpyxl import load_workbook

folder = ''
conditions = 0
a = 0
flight_error = 0
condition_error = 0
typical_flight_error = 0
SP_error = 0


cond_numbers = []
with open('Conditions.csv','rb') as csv_name:           # Abre el fichero csv donde estarán las equivalencias   
    csv_read = csv.reader(csv_name,delimiter='\t')

    for reads in csv_read:
        cond_numbers.append(reads)

flight_TF = []
with open('vuelo-TF.csv','rb') as vuelo_TF:
    csv_read = csv.reader(vuelo_TF,delimiter=';')

    for reads in csv_read:
        flight_TF.append(reads)


excel_files = glob.glob('*.xlsx')

for excel in excel_files:
    print "Leyendo excel: "+excel

    wb = load_workbook(excel)
    ws = wb.get_sheet_by_name('Control System')
    flight = ws.cell('A7').value
    typical_flight = ws.cell('B7').value
    a = 0

    for row in range(6,ws.get_highest_row()):
        conditions = conditions + 1


        value_flight = int(ws.cell(row=row,column=0).value)
        value_TF = ws.cell(row=row,column=1).value
        value_SP = int(ws.cell(row=row,column=4).value)

        if value_flight == '':
            break

        if value_flight != flight:
            flight_error = 1                # Si no todos los flight numbers dentro del vuelo son iguales

        if value_TF != typical_flight:
            typical_flight_error = 2            # Si no todos los typical flight dentro del vuelo son iguales

        if value_SP != 100:
            SP_error = 1



    for cond in cond_numbers:
        if int(flight) == int(cond[0]):
            conds = int(cond[1])
            if conds != int(conditions):
                condition_error = 1         # Si el número de condiciones no se corresponde con el esperado

    for vuelo_TF in flight_TF:
        if int(vuelo_TF[0]) == int(flight):
            TF = vuelo_TF[1]
            if typical_flight != TF:
                typical_flight_error = 1        # Si el vuelo no coincide con el respectivo typical flight

    if flight_error == 1:
        today = datetime.datetime.today()
        time = today.strftime(" %Y-%m-%d %H.%M.%S")
        log = open('log.txt','aw')
        message = time+':  Los flight numbers del vuelo '+str(flight)+' no coinciden.\n'
        log.write(message)
        log.close()
        flight_error = 0

    if condition_error == 1:
        today = datetime.datetime.today()
        time = today.strftime(" %Y-%m-%d %H.%M.%S")
        log = open('log.txt','aw')
        message = time+': El número de condiciones del vuelo '+str(flight)+' no coincide. Condiciones esperadas: '+str(int(conds))+'. Condiciones obtenidas: '+str(int(conditions))+'.\n'
        log.write(message)
        log.close()
        condition_error = 0

    if typical_flight_error == 1:
        today = datetime.datetime.today()
        time = today.strftime(" %Y-%m-%d %H.%M.%S")
        log = open('log.txt','aw')
        message = time+': El vuelo '+str(flight)+' no coincide con el typical flight. Typical flight respectivo: '+TF+'. Typical flight obtenido: '+typical_flight+'.\n'
        log.write(message)
        log.close() 
        typical_flight_error = 0

    if typical_flight_error == 2:
        today = datetime.datetime.today()
        time = today.strftime(" %Y-%m-%d %H.%M.%S")
        log = open('log.txt','aw')
        message = time+': Los typical flight del vuelo '+str(flight)+' no son todos iguales.\n'
        log.write(message)
        log.close()
        typical_flight_error = 0

    if SP_error == 1:
        today = datetime.datetime.today()
        time = today.strftime(" %Y-%m-%d %H.%M.%S")
        log = open('log.txt','aw')
        message = time+': Hay algún Step Percentage del vuelo '+str(flight)+' menor que 100.\n'
        log.write(message)
        log.close()
        SP_error = 0

    conditions = 0

Den if-Anweisungen die end-sind für die Prüfung und schriftlicher Warnung protokolliert.

Ich verwende windows xp mit 8 gb RAM und intel xeon w3505 (zwei cores, 2,53 GHz).

InformationsquelleAutor DavidRguez | 2014-02-19

10

Die default-Implementierung von openpyxl speichern alle zugegriffen Zellen in den Speicher. Ich schlage vor, Sie verwenden die Optimierte reader (link - https://openpyxl.readthedocs.org/en/latest/optimized.html) statt

Code:-
```
wb = load_workbook(file_path, use_iterators = True)
```
Beim laden einer Arbeitsmappe übergeben use_iterators = True. Dann auf das Blatt und Zellen, wie:
```
for row in sheet.iter_rows():
    for cell in row:
        cell_text = cell.value
```
Dies reduziert den Speicherbedarf um 5-10%

UPDATE: In der version 2.4.0 use_iterators = True option entfernt wird. In neueren Versionen openpyxl.writer.write_only.WriteOnlyWorksheet wird eingeführt, dumping große Mengen von Daten.
```
from openpyxl import Workbook
wb = Workbook(write_only=True)
ws = wb.create_sheet()

# now we'll fill it with 100 rows x 200 columns
for irow in range(100):
    ws.append(['%d' % i for i in range(200)])

# save the file
wb.save('new_big_file.xlsx') 
```
Nicht getestet, der code unten nur kopiert aus dem obigen link.

Dank @SdaliM für die Informationen.
- Diese option scheinbar nicht mehr existiert (openpyxl 2.4.1). Der link, den Sie erwähnen nicht eine solche option. Vielleicht kennen Sie einen Ersatz?
InformationsquelleAutor anuragal
2

Mit den letzten Versionen von openpyxl muss man laden und Lesen riesige Quell-Arbeitsmappe mit read_only=True argument, und create /write große Ziel-Arbeitsmappe mit write_only=True - Modus:

https://openpyxl.readthedocs.io/en/latest/optimized.html
- Und das problem, das diese nicht die Adresse ist, die ich brauche, um update eine große Arbeitsmappe mit einer großen Menge an zusätzlichen Daten. Ich kann es nicht machen, nur-Lesen oder nur-schreiben (was ich glaube, können Sie nur create eine neue Arbeitsmappe nicht aktualisieren).
- Schreiben Sie auf neue Arbeitsmappe, dann entfernen Sie die Quelle ein und benennen Sie die geschrieben dass man den gleichen Namen Quelldatei der Excel-Arbeitsmappe hat.
InformationsquelleAutor Dmitriy Sintsov

Als @anuragal sagte

openpyxl speichern alle zugegriffen Zellen in den Speicher

Anderen Weg, um dieses riesige problem mit dem Arbeitsspeicher, während die Schleife wird jede Zelle Teile und herrsche" -. Der Punkt ist, nach dem Lesen genug Zelle, speichern Sie die excel-von wb.save(), dann die letzten Werte werden aus dem Speicher entfernt werden.

checkPointLine = 100 # choose a better number in your case.

excel = openpyxl.load_workbook(excelPath,data_only= True)
ws = excel.active
readingLine = 1

for rowNum in range(readingLine,max_row):
    row = ws[rowNum]
    first = row[0]
    currentRow = first.row
    #doing the things to this line content then mark `isDirty = True`

    if currentRow%checkPointLine == 0:
        if isDirty:
            #write back only changed content
            excel.save(excelPath)
            isDirty = False
        excel = openpyxl.load_workbook(excelPath)
        ws = excel.active
    readingLine = first.row

InformationsquelleAutor sakiM

Dieser Ansatz für mich gearbeitet, kopieren von Daten aus einer SQLite-DB in die entsprechenden Arbeitsblätter für jede Tabelle Einige Tische haben > als 250.000 Zeilen und ich lief in einem Speicher-Fehler aus OpenPyXL. Der trick ist, um inkrementell speichern alle 100K Zeilen und dann die Arbeitsmappe erneut öffnen - dies scheint die Speichernutzung zu verringern. Ich tun etwas sehr ähnlich zu dem, was @sakiM ist dabei oben. Hier ist ein Teil von meinem code, der dies tut:

    row_num = 2   # row 1 previously populated with column names
    session = self.CreateDBSession()  # SQL Alchemy connection to SQLite
    for item in session.query(ormClass):
        col_num = 1
        for col_name in sorted(fieldsInDB):  # list of columns from the table being put into XL columns
            if col_name != "__mapper__":        # Something SQL Alchemy apparently adds...
                val = getattr(item, col_name)
                sheet.cell(row=row_num, column=col_num).value = val
                col_num += 1
        row_num += 1
        if row_num % self.MAX_ROW_CHUNK == 0:   # MAX_ROW_CHUNK = 100000 
            self.WriteChunk()

# Write this chunk and reload the workbook to work around OpenPyXL memory issues
def WriteChunk(self):
    print("Incremental save of %s" % self.XLSPath)
    self.SaveXLWorkbook()
    print("Reopening %s" % self.XLSPath)
    self.OpenXLWorkbook()

# Open the XL Workbook we are updating
def OpenXLWorkbook(self):
    if not self.workbook:
        self.workbook = openpyxl.load_workbook(self.XLSPath)
    return self.workbook

# Save the workbook
def SaveXLWorkbook(self):
    if self.workbook:
        self.workbook.save(self.XLSPath)
        self.workbook = None

Ich war nicht in der Lage zu verwenden, die write_only=True, da scheint nur in der Lage sein, um eine Arbeitsmappe zu erstellen, in diesem Fall, ich habe eine Arbeitsmappe mit einigen bestehenden Pivot-Tabellen und wollte in der Lage sein, die zugrunde liegenden Daten aktualisieren von SQLite. Es ist wirklich ein poor-mans-SQLite-Excel-DB-Anschluss, da diese sind ziemlich unausgereift und langsam. Ich fand, wenn ich write_only=Wahr, ich war nicht in der Lage, laden Sie die Arbeitsmappe schreiben Sie einfach eine neue ein, die Sinn macht. Ich habe nicht versucht, die Iteratoren Ansatz vorgeschlagen, anderswo, da dieser Ansatz funktioniert für mich.

InformationsquelleAutor Mike Kelly

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.