Kombinieren duplizierten Spalten innerhalb einer DataFrame

Wenn ich einen dataframe, die Spalten mit den gleichen Namen, gibt es eine Möglichkeit, verbinden die Spalten, die den gleichen Namen mit einer Art von Funktion (d.h. die Summe)?

Beispielsweise mit:

In [186]:

df["NY-WEB01"].head()
Out[186]:
                NY-WEB01    NY-WEB01
DateTime        
2012-10-18 16:00:00  5.6     2.8
2012-10-18 17:00:00  18.6    12.0
2012-10-18 18:00:00  18.4    12.0
2012-10-18 19:00:00  18.2    12.0
2012-10-18 20:00:00  19.2    12.0

Wie könnte ich Zusammenbruch der NY-WEB01 Spalten (es gibt eine Reihe von doppelten Spalten, nicht nur für NY-WEB01) durch die Summe jeder Zeile, wo die Spalte name ist der gleiche?

Ja, das ist Split-Anwenden-Kombinieren, wo Ihr die Aggregation-Funktion ist sum(). Dies ist eine sehr häufige Paradigma. Btw, du bist 'Aggregation' die Zeilen, nicht 'verschmelzen' Sie.
Auch hier bist du eigentlich das kombinieren der Zeilen, nicht Spalten. (Sie sind die Kombination von Zeilen basierend auf bestimmten Spalten mit dem gleichen Wert (nicht 'name')). Könnten Sie korrigieren möchten Ihre Titel.

InformationsquelleAutor Kyle Brandt | 2012-10-25

20

Ich glaube das tut, was Sie nach sind:
```
df.groupby(lambda x:x, axis=1).sum()
```
Alternativ zwischen 3% und 15% schneller, je nach Länge des df:
```
df.groupby(df.columns, axis=1).sum()
```
EDIT: so verlängern Sie diese über Summen, verwenden Sie .agg() (kurz für .aggregate()):
```
df.groupby(df.columns, axis=1).agg(numpy.max)
```
InformationsquelleAutor meteore

v0.20+ Antwort: `GroupBy` mit `level` und `axis` argument

Brauchen Sie nicht eine lambda hier auch nicht explizit Abfragen df.columns; groupby akzeptiert eine level argument können Sie angeben, in Verbindung mit der axis argument. Dieser Reiniger ist, IMO.

# Setup
np.random.seed(0)
df = pd.DataFrame(np.random.choice(50, (5, 5)), columns=list('AABBB'))
df

    A   A   B   B   B
0  44  47   0   3   3
1  39   9  19  21  36
2  23   6  24  24  12
3   1  38  39  23  46
4  24  17  37  25  13

df.groupby(level=0, axis=1).sum()

    A    B
0  91    6
1  48   76
2  29   60
3  39  108
4  41   75

Umgang `MultiIndex` Spalten

Einem anderen Fall zu beachten ist beim Umgang mit MultiIndex Spalten. Betrachten

df.columns = pd.MultiIndex.from_arrays([['one']*3 + ['two']*2, df.columns])
df
  one         two    
    A   A   B   B   B
0  44  47   0   3   3
1  39   9  19  21  36
2  23   6  24  24  12
3   1  38  39  23  46
4  24  17  37  25  13

Durchführen aggregation über die oberen Ebenen, verwenden Sie

df.groupby(level=1, axis=1).sum()

    A    B
0  91    6
1  48   76
2  29   60
3  39  108
4  41   75

oder, wenn die Aggregation pro oberen Ebene nur, verwenden

df.groupby(level=[0, 1], axis=1).sum()

  one     two
    A   B   B
0  91   0   6
1  48  19  57
2  29  24  36
3  39  39  69
4  41  37  38

Alternative Interpretation: Fallen Doppelte Spalten

Wenn Sie hierher gekommen auf der Suche, um herauszufinden, wie einfach doppelte Spalten (ohne Ausführung jeglicher aggregation), verwenden Sie Index.dupliziert:

df.loc[:,~df.columns.duplicated()]

    A   B
0  44   0
1  39  19
2  23  24
3   1  39
4  24  37

Oder, um den letzten, geben Sie keep='last' (Standard ist 'first'),

df.loc[:,~df.columns.duplicated(keep='last')]

    A   B
0  47   3
1   9  36
2   6  12
3  38  46
4  17  13

Den groupby alternativen für die beiden oben genannten Lösungen sind df.groupby(level=0, axis=1).first() ein, und ... .last() bzw.

InformationsquelleAutor cs95

Hier möglich ist, einfachen Lösung für die gängigen Aggregatfunktionen wie sum, mean, median, max, min, std - verwenden Sie nur Parameter axis=1 für das arbeiten mit Spalten und level:

#coldspeed samples
np.random.seed(0)
df = pd.DataFrame(np.random.choice(50, (5, 5)), columns=list('AABBB'))
print (df)

print (df.sum(axis=1, level=0))
    A    B
0  91    6
1  48   76
2  29   60
3  39  108
4  41   75

df.columns = pd.MultiIndex.from_arrays([['one']*3 + ['two']*2, df.columns])

print (df.sum(axis=1, level=1))
    A    B
0  91    6
1  48   76
2  29   60
3  39  108
4  41   75

print (df.sum(axis=1, level=[0,1]))
  one     two
    A   B   B
0  91   0   6
1  48  19  57
2  29  24  36
3  39  39  69
4  41  37  38

Ähnlich funktioniert index, dann verwenden Sie axis=0 statt axis=1:

np.random.seed(0)
df = pd.DataFrame(np.random.choice(50, (5, 5)), columns=list('ABCDE'), index=list('aabbc'))
print (df)
    A   B   C   D   E
a  44  47   0   3   3
a  39   9  19  21  36
b  23   6  24  24  12
b   1  38  39  23  46
c  24  17  37  25  13

print (df.min(axis=0, level=0))
    A   B   C   D   E
a  39   9   0   3   3
b   1   6  24  23  12
c  24  17  37  25  13

df.index = pd.MultiIndex.from_arrays([['bar']*3 + ['foo']*2, df.index])

print (df.mean(axis=0, level=1))
      A     B     C     D     E
a  41.5  28.0   9.5  12.0  19.5
b  12.0  22.0  31.5  23.5  29.0
c  24.0  17.0  37.0  25.0  13.0

print (df.max(axis=0, level=[0,1]))
        A   B   C   D   E
bar a  44  47  19  21  36
    b  23   6  24  24  12
foo b   1  38  39  23  46
    c  24  17  37  25  13

Wenn nötig, verwenden Sie andere Funktionen wie first, last, size, count notwendig ist, verwenden Sie coldspeed Antwort

InformationsquelleAutor jezrael

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

v0.20+ Antwort: GroupBy mit level und axis argument

Umgang MultiIndex Spalten

Alternative Interpretation: Fallen Doppelte Spalten

v0.20+ Antwort: `GroupBy` mit `level` und `axis` argument

Umgang `MultiIndex` Spalten