Python Finden, die höchste Zeile in einer bestimmten Spalte

Ich bin ganz neu in stackoverflow und vor kurzem gelernt, einige grundlegende Python. Dies ist das erste Zeit bin ich mit openpyxl. Bevor ich xlrd und xlsxwriter und ich habe es geschafft, einige nützliche Programme. Aber jetzt brauche ich eine .xlsx-reader&writer.

Gibt es eine Datei, die ich brauche zu Lesen und zu Bearbeiten mit Daten, die schon gespeichert im code. Nehmen wir an, die .xlsx hat fünf Spalten mit Daten: A, B, C, D, E. In Spalte A habe ich über 1000 Zeilen mit Daten. Auf Spalte D habe ich 150 Zeilen mit Daten.

Im Grunde genommen, ich möchte das Programm finden Sie in der letzten Zeile mit Daten auf einer bestimmten Spalte (sagen wir D). Dann schreiben Sie die gespeicherte variable data in die nächste verfügbare Zeile (Letzte Zeile + 1) in Spalte D.

Das problem ist, dass ich nicht verwenden können ws.get_highest_row() da gibt es die Zeile 1000 auf Spalte A.

Eigentlich, so weit dies alles, was ich habe:

data = 'xxx'
from openpyxl import load_workbook
wb = load_workbook('book.xlsx', use_iterators=True)
ws = wb.get_sheet_by_name('Sheet1')
last_row = ws.get_highest_row()

Offensichtlich überhaupt nicht funktioniert. last_row gibt 1000.

Haben Sie verwenden, um openpyxl oder konnte verwenden Sie eine andere Bibliothek? Dieses sieht wie es könnte ein job für pandas -, Python -, Daten Verarbeitungs-Bibliothek.
Alles wäre perfekt, aber die Datei, die ich arbeite, ist eine xlsx. Ich habe gelesen, dass openpyxl ist der einzige, der sowohl Lesen und schreiben.

InformationsquelleAutor egodial | 2015-07-03

Hier ist, wie es mit den Pandas.

Es ist einfach , um die letzten nicht-null-Zeile in Pandas mit last_valid_index.

Möglicherweise gibt es eine bessere Art und Weise zu schreiben, die daraus resultierende DataFrame zu Ihrem xlsx Datei aber laut der docs, diese sehr dumme Art und Weise ist, wie es ist getan in openpyxl.

Lassen Sie uns sagen, Sie sind, beginnend mit diesem einfachen Arbeitsblatt:

Python Finden, die höchste Zeile in einer bestimmten Spalte

Lassen Sie uns sagen, dass wir wollen xxx in Spalte C:

import openpyxl as xl
import pandas as pd

wb = xl.load_workbook('deleteme.xlsx')
ws = wb.get_sheet_by_name('Sheet1')
df = pd.read_excel('deleteme.xlsx')

def replace_first_null(df, col_name, value):
    """
    Replace the first null value in DataFrame df.`col_name`
    with `value`.
    """
    return_df = df.copy()
    idx = list(df.index)
    last_valid = df[col_name].last_valid_index()
    last_valid_row_number = idx.index(last_valid)
    # This next line has mixed number and string indexing
    # but it should be ok, since df is coming from an
    # Excel sheet and should have a consecutive index
    return_df.loc[last_valid_row_number + 1, col_name] = value
    return return_df

def write_df_to_worksheet(ws, df):
    """
    Write the values in df to the worksheet ws in place
    """
    for i, col in enumerate(replaced):
        for j, val in enumerate(replaced[col]):
            if not pd.isnull(val):
                # Python is zero indexed, so add one
                # (plus an extra one to take account
                #  of the header row!)
                ws.cell(row=j + 2, column=i + 1).value = val

# Here's the actual replacing happening
replaced = replace_first_null(df, 'C', 'xxx')
write_df_to_worksheet(ws, df)
wb.save('changed.xlsx')

sind die Ergebnisse in:

Python Finden, die höchste Zeile in einer bestimmten Spalte

Dieser code ist genial, @LondonRob !. Es hat eine etwas seltsame Verhalten mit den .xlsx, z.B. es blendet Spalten (viele von Ihnen). Warum? Auch ich bin versucht zu Bearbeiten, zwei Dinge, aber ich werde, um diesen code weiter zu machen: i) ich brauche den code zu finden, der Letzte Wert in C, write 'xxx' und, zum Beispiel, schreiben Sie auf der gleichen Zeile in den nächsten beiden Spalten 'yyy' und 'zzz' ii) so weit wie ich kann sehen, es hängt zu viel auf den Spalten-header. Es ist optimal, wenn es funktioniert mit der Spalte Ort oder einen index (das scheint ziemlich schwer zu tun).
Gerne helfen! Diese klingen wie neue Fragen auf mich zu. Erhalten Sie die am besten helfen, indem wir Sie GESONDERT auf diese Frage. Viel Glück!

InformationsquelleAutor LondonRob

2

Das problem ist, dass get_highest_row() setzt die Reihe Dimensionen Instanzen zu definieren, die maximale Zeile auf dem Blatt. RowDimension hat keine Informationen über die Spalten - das heißt, wir können nicht es verwenden, um Ihr problem zu lösen und haben es anders Herangehen.

Hier ist eine Art "hässlich" openpyxl-spezifische option, die aber nicht funktionieren würde, wenn use_iterators=True:
```
from openpyxl.utils import coordinate_from_string

def get_maximum_row(ws, column):
    return max(coordinate_from_string(cell)[-1]
               for cell in ws._cells if cell.startswith(column))
```
Verwendung:
```
print get_maximum_row(ws, "A")
print get_maximum_row(ws, "B")
print get_maximum_row(ws, "C")
print get_maximum_row(ws, "D")
```
Abgesehen von dieser, ich würde Folgen Sie der @LondonRob Vorschlag zum analysieren des Inhalts mit pandas und lassen Sie es die Arbeit machen.
- Ich Tat, gab es einen Versuch der Aktualisierung der wb = load_workbook('book.xlsx'). Allerdings habe ich diese Traceback (most recent call last): File "C:\xx.py", line 53, in <module> drucken get_maximum_row(ws, "A") - Datei "C:\xx.py", line 51, in get_maximum_row für Zelle in ws._cells wenn cell.startswith(Spalte)) - Datei "C:\xx.py", line 51, in <genexpr> " für die Zelle in ws._cells wenn cell.startswith(Spalte)) NameError: global name 'coordinate_from_string' ist nicht definiert
- Vielleicht kopierte ich etwas falsch hier, aber es gibt den gleichen Wert für jede Spalte. from openpyxl import load_workbook wb = load_workbook('libro.xlsx') ws = wb.get_sheet_by_name('Sheet1') from openpyxl.utils import coordinate_from_string def get_maximum_row(ws, column): return max(coordinate_from_string(cell)[-1] for cell in ws._cells if cell.startswith(column)) print get_maximum_row(ws, "A") print get_maximum_row(ws, "B") print get_maximum_row(ws, "C") print get_maximum_row(ws, "F") vielen Dank für die harte Arbeit mit diesem code!
InformationsquelleAutor alecxe
0

Wenn dies ist eine Einschränkung von openpyxl dann könnten Sie versuchen Sie die folgenden Ansätze:
- konvertieren Sie die Excel-Datei, csv-und mit der Python - csv Modul.
- entpacken Sie die Excel-Datei mit zipfile und navigieren Sie dann zu der "xl/worksheets" - Unterordner des unkomprimierte Datei, und dort findest du einen XML-Code für jede Ihrer Arbeitsblätter. Von dort aus könnten Sie analysieren und aktualisieren, mit BeautifulSoup oder lxml.
Den xslx Excel-format ist eine komprimierte (gezippte) Ordner-Baum von XML-Dateien. Finden Sie die Spezifikation hier.

InformationsquelleAutor Thane Plummer

Figur werde ich beginnen, die zurück zu der stackoverflow-Gemeinschaft. Alecxe ' s Lösung hat bei mir nicht funktioniert und ich wollte nicht zu verwenden, Pandas etc, so dass ich Tat dies, statt. Es wird überprüft ab Ende der Tabelle und gibt Sie der nächsten verfügbaren/leere Zeile in Spalte D.

def unassigned_row_in_column_D(): 
    ws_max_row = int(ws.max_row)
    cell_coord = 'D' + str(ws_max_row)
    while ws.cell(cell_coord).value == None:
        ws_max_row -= 1
        cell_coord = 'D' + str(ws_max_row)
    ws_max_row += 1
    return 'D' + str(ws_max_row)

#then add variable data = 'xxx' to that cell

ws.cell(unassigned_row_in_column_D()).value = data

InformationsquelleAutor Jimbo

0

alexce ' s Lösung hat bei mir nicht funktioniert. Es ist wahrscheinlich eine Frage der openpyxl version, ich bin auf 2.4.1, hier ist was funktionierte nach einem kleinen tweak:
```
def get_max_row_in_col(ws, column):
    return max([cell[0] for cell in ws._cells if cell[1] == column])
```
InformationsquelleAutor rbrtk

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.