pass openpyxl Daten pandas

Bin ich-Spaltung "vollständiger name" Felder "Vorname", Vorname" und "Nachname" Felder von Daten aus einer excel-Datei. Ich konnte nicht herausfinden, wie zu tun, dass in pandas, so wandte ich mich openpyxl. Ich habe die Variablen aufteilen, wie ich mir gewünscht hatte. Aber, da das hinzufügen von Spalten zu openpyxl für die neuen Felder ist nicht einfach, ich dachte, ich würde übergeben Sie die Werte an pandas.

Ich bin der Erzeugung der dataframe, die ich brauche, wenn ich den code ausführen, aber sobald ich den df zu ExcelWriter, nur die Letzte Zeile ist Hinzugefügt, um die Excel-Datei. Die Daten in den richtigen stellen, obwohl.

Hier der code:

for cellObj in range(2, sheet.max_row+1):
    #print cellObj
    id = sheet['A' + str(cellObj)].value
    fullname = sheet['B' + str(cellObj)].value.strip()
    namelist = fullname.split(' ')  
    for i in namelist:
        firstname = namelist[0]
        if len(namelist) == 2:
            lastname = namelist[1]
            middlename = ''
        elif len(namelist) == 3:
            middlename = namelist[1]
            lastname = namelist[2]
        elif len(namelist) == 4:
            middlename = namelist[1]
            lastname = namelist[2] + " " + namelist[3]
        if (namelist[1] == 'Del') | (namelist[1] == 'El') | (namelist[1] == 'Van'):
            middlename = ''
            lastname = namelist[1] + " " + namelist[2]
    df = pd.DataFrame({'personID':id,'lastName':lastname,'firstName':firstname,'middleName':middlename}, index=[id])

    writer = pd.ExcelWriter('output.xlsx')
    df.to_excel(writer,'Sheet1', columns=['ID','lastName','firstName','middleName'])
    writer.save()

Irgendwelche Ideen?

Dank

InformationsquelleAutor mattrweaver | 2016-04-15

2

Ein paar Dinge. Erstens, der code wird immer nur gehen, erhalten Sie eine Zeile, weil Sie die Werte überschreiben jedes mal geht es ein, wenn test. zum Beispiel,
```
  if len(namelist) == 2:
        lastname = namelist[1]
```
Diese weist einen string an die variable lastname. Sie sind nicht Anhängen an eine Liste, Sie sind nur die Zuweisung einer Zeichenfolge. Dann, wenn Sie Ihre dataframe,
df = pd.DataFrame({'personID':id,'lastName':lastname,... Ihr mit diesem Wert, so dass der dataframe wird immer nur halten Sie die Zeichenfolge. Sinn? Wenn Sie müssen dies tun, mit openpyexcel, versuchen Sie so etwas wie:
```
lastname = [] #create an empty list
if len(namelist) == 2:
    lastname.append(namelist[1]) #add the name to the list
```
Aber ich denke, dein Leben wird letztlich viel einfacher, wenn Sie nur herausfinden, wie dies mit den pandas. Es ist in der Tat ganz einfach. Probieren Sie etwas wie dieses:
```
import pandas as pd
#read excel
df = pd.read_excel('myInputFilename.xlsx', encoding = 'utf8')
#write to excel
df.to_excel('MyOutputFile.xlsx')
```
- Danke. Kann nicht glauben, dass ich vergessen zum Anhängen an eine Liste. Der Teil in pandas ich hatte Probleme mit war die Spaltung der name-Felder in 3, die leichter war, in openpyxl
InformationsquelleAutor Sam
2

FWIW openpyxl 2.4 macht es ziemlich einfach zu konvertieren alle oder einen Teil einer Excel-Tabelle, um ein Pandas Dataframe: ws.values ist ein iterator für alle, die Werte auf dem Blatt. Es hat auch einen neuen ws.iter_cols() Methode, die Ihnen erlauben, um zu arbeiten direkt mit den Spalten.

Es ist derzeit (April 2016) zur Verfügung, der als alpha-version und kann installiert werden, mit pip install -U --pre openpyxl

Würde der code dann Aussehen ein bisschen wie diesem:
```
sheet["B1"] = "firstName"
sheet["C1"] = "middleName"
sheet["D1"] = "lastName"

for row in sheet.iter_rows(min_row=2, max_col=2):
    id_cell, name = row

    fullname = name.value.strip()
    namelist = fullname.split()
    firstname = namelist[0]
    lastname = namelist[-1]
    middlename = ""
    if len(namelist) >= 3:
        middlename = namelist[1]
    if len(namelist) == 4:
        lastname = " ".join(namelist[-2:])
    if middlename in ('Del', 'El', 'Van', 'Da'):
        lastname = " ".join([middlename, lastname])
        middlename = None

    name.value = firstname
    name.offset(column=1).value = middlename
    name.offset(column=2).value = lastname

wb.save("output.xlsx")
```
- Ich hatte festgestellt, ws.Werte, aber es funktionierte nicht. Ich dachte, ich hätte die richtige version von openpxl, basiert aber auf deine Erklärung bin ich sicher, dass ich das gar nicht.
- Müssen Sie verwenden eine alpha-version der library zu bekommen ws.values aber wie der code zeigt, scheint es nicht notwendig, für Ihre Aufgabe.
- Ich aktualisiert openpyxl und ws verwendet.Werte, da dieser code wird Teil von anderen pandas-basierte code.
- Am besten überprüfen Sie bei Verwendung 2.4 alpha. Vielleicht wollen Sie auch das arbeiten mit einer Kasse. Siehe docs, wie das zu tun.
InformationsquelleAutor Charlie Clark

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.