Pandas Summe der Doppelten Parametern

Ich bin mit Pandas zu manipulieren, um eine csv-Datei mit mehreren Zeilen und Spalten, die wie folgt aussieht

Fullname     Amount     Date           Zip    State .....
John Joe        1        1/10/1900     55555    Confusion
Betty White     5         .             .       Alaska 
Bruce Wayne     10        .             .       Frustration
John Joe        20        .             .       .
Betty White     25        .             .       .

Ich möchte erstellen Sie eine neue Spalte mit dem Titel "Total" mit einer Summe von Betrag für jede person. (Identifiziert durch fullname und zip). Ich habe Schwierigkeiten bei der Suche nach der richtigen Lösung.

Let ' s just call my csv-import csvfile. Hier ist, was ich habe.

import Pandas
df = pandas.read_csv('csvfile.csv', header = 0) 
df.sort(['fullname'])

Ich glaube, ich habe zu verwenden, die iterrows zu tun, was ich will, als ein Objekt. Das problem mit Drop-Dubletten, ist, dass ich Sie verliere den Betrag oder die Menge kann unterschiedlich sein.

InformationsquelleAutor user2723240 | 2015-04-11

26

Ich denke, Sie wollen diese:
```
df['Total'] = df.groupby(['Fullname', 'Zip'])['Amount'].transform('sum')
```
So groupby Gruppe wird durch die Fullname und zip Spalten, als Sie erklärt habe, wir rufen Sie dann transform auf die Amount Spalte und berechnen Sie die Gesamtmenge durch die übergabe der string sum, dann kommt wieder eine Reihe mit dem index ausrichten, um die ursprüngliche df haben, können Sie anschließend löschen Sie die Duplikate danach. z.B.
```
new_df = df.drop_duplicates(subset=['Fullname', 'Zip'])
```
- Gibt es einen einfachen Weg, dies zu tun, wenn Fullname oder Zip könnte leer sein (Null/Nan)? Ich möchte zur Behandlung einer leeren Namen nur als weiteren eindeutigen Wert gruppiert werden.
- NaN nicht Gruppe korrekt müssten Sie füllen diese mit fillna vor der Gruppierung, leere Saiten sollten noch funktionieren aber
- Dies funktionierte wirklich gut für mich, Zusammenführung von search-query-logs wo ich aufgeräumt hatte, die Saiten und war Links mit einer Menge von Duplikaten.
InformationsquelleAutor EdChum - Reinstate Monica

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.