Berechnen Sie die Durchschnittliche, von jedem x Zeilen in einer Tabelle und neue Tabelle erstellen

Ich habe eine lange Tabelle von Daten (~200 Zeilen und 50 Spalten), und die muss ich erstellen einen code, kann die Berechnung der Mittelwerte alle zwei Zeilen und für jede Spalte in der Tabelle mit den endgültigen Ausgang wird eine neue Tabelle der Mittelwerte. Dies ist offensichtlich verrückten zu tun, in Excel! Ich benutze Python ist3, und ich bin bewusst, dass einige ähnliche Fragen:hier, hier und hier. Doch nichts davon hilft, da brauche ich etwas eleganter code für die Arbeit mit mehreren Spalten und erzeugt eine organisierte Daten-Tabelle. Übrigens meine ursprüngliche Datentabelle importiert wurde mit pandas und ist definiert als ein dataframe aber konnte nicht finden einen einfachen Weg, dies zu tun in der pandas. Hilfe ist sehr willkommen.

Ein Beispiel für die Tabelle (kurze version) ist:

a   b   c   d
2   50  25  26
4   11  38  44
6   33  16  25
8   37  27  25
10  28  48  32
12  47  35  45
14  8   16  7
16  12  16  30
18  22  39  29
20  9   15  47

Erwartet meine Tabelle:

a    b     c     d
3   30.5  31.5  35
7   35    21.5  25
11  37.5  41.5  38.5
15  10    16    18.5
19  15.5  27    38

InformationsquelleAutor Gnu | 2016-04-23

21

Können Sie erstellen, die eine künstliche Gruppe mit df.index//2 (oder wie @DSM wies darauf hin, mit np.arange(len(df))//2 - so dass es funktioniert für alle Indizes) und verwenden Sie groupby:
```
df.groupby(np.arange(len(df))//2).mean()
Out[13]: 
      a     b     c     d
0   3.0  30.5  31.5  35.0
1   7.0  35.0  21.5  25.0
2  11.0  37.5  41.5  38.5
3  15.0  10.0  16.0  18.5
4  19.0  15.5  27.0  38.0
```
- Ich fand etwas, was in der Nähe [here](stackoverflow.com/questions/36810595/calculate-average-of-every-x-rows-in-a-table-and-create-new-table -) ABER deine Antwort, wenn auch sehr elegant und kompakt. Vielen, vielen Dank! Nur aus Interesse, was hat der erste Schrägstrich bedeutet in df.index//2?
- Sie sind herzlich willkommen. Das ist für integer-division, so dass beide 2//2 und 3//2 Ausbeute 1, 4//2 und 5//2 Ausbeute 2... (und in die gleiche Gruppe).
- Es habe! Vielen Dank!
- Es könnte besser sein, um die Gruppe auf np.arange(len(df))//2 statt, falls der index nicht einfach 0,1,2.. usw.
- Du hast Recht, lassen Sie mich Bearbeiten. Danke.
- Und ein bisschen schneller ist df.groupby(np.arange(len(df.index))//2).mean() 😉
InformationsquelleAutor ayhan

NumPythonic Möglichkeit wäre, extrahieren Sie die Elemente als ein NumPy-array mit df.values, dann Umformen zu einer 3D array mit 2 Elemente entlang axis=1 und 4 entlang axis=2 und führen Sie die Durchschnittliche Reduzierung entlang axis=1 und schließlich wieder zurück konvertieren, um einen dataframe, wie so

pd.DataFrame(df.values.reshape(-1,2,df.shape[1]).mean(1))

Als es stellt sich heraus, Sie können sich vorstellen, NumPy ist sehr effizientes Werkzeug : np.einsum dazu average-reduction als eine Kombination von sum-reduction und scaling-down wie so

pd.DataFrame(np.einsum('ijk->ik',df.values.reshape(-1,2,df.shape[1]))/2.0)

Bitte beachten Sie, dass die vorgeschlagenen Ansätze davon ausgehen, dass die Anzahl der Zeilen ist teilbar durch 2.

Auch als bereits von @DSM, zu bewahren den Namen der Spalten, die Sie hinzufügen möchten columns=df.columns bei der Konvertierung zurück zu Dataframe an, d.h. -

pd.DataFrame(...,columns=df.columns)

Probe Gefahren -

>>> df
    0   1   2   3
0   2  50  25  26
1   4  11  38  44
2   6  33  16  25
3   8  37  27  25
4  10  28  48  32
5  12  47  35  45
6  14   8  16   7
7  16  12  16  30
8  18  22  39  29
9  20   9  15  47
>>> pd.DataFrame(df.values.reshape(-1,2,df.shape[1]).mean(1))
    0     1     2     3
0   3  30.5  31.5  35.0
1   7  35.0  21.5  25.0
2  11  37.5  41.5  38.5
3  15  10.0  16.0  18.5
4  19  15.5  27.0  38.0
>>> pd.DataFrame(np.einsum('ijk->ik',df.values.reshape(-1,2,df.shape[1]))/2.0)
    0     1     2     3
0   3  30.5  31.5  35.0
1   7  35.0  21.5  25.0
2  11  37.5  41.5  38.5
3  15  10.0  16.0  18.5
4  19  15.5  27.0  38.0

Laufzeit-tests -

In diesem Abschnitt testen wir, alle drei Ansätze aufgeführt, so weit um das problem zu lösen, für die Leistung, einschließlich @ayhan Lösung mit groupby.

In [24]: A = np.random.randint(0,9,(200,50))

In [25]: df = pd.DataFrame(A)

In [26]: %timeit df.groupby(df.index//2).mean() # @ayhan's solution
1000 loops, best of 3: 1.61 ms per loop

In [27]: %timeit pd.DataFrame(df.values.reshape(-1,2,df.shape[1]).mean(1))
1000 loops, best of 3: 317 µs per loop

In [28]: %timeit pd.DataFrame(np.einsum('ijk->ik',df.values.reshape(-1,2,df.shape[1]))/2.0)
1000 loops, best of 3: 266 µs per loop

Dieser ist ~2x schneller als groupby. Schön.
Ja, ich bemerkte, dass, wurde über die post-Laufzeiten, aber dann endgültig gedacht war, ließ es durchgehen 🙂 Deins ist eine neue Sache habe ich gelernt, obwohl die, pandas, nicht mein Ding!
Beachten Sie, dass Ihre numpy Ansätze verlieren die Spaltennamen. Man könnte hinzufügen columns=df.columns um dies zu korrigieren.
Ja, Total verpaßt! Danke! Fügte hinzu, dass als Hinweis.

InformationsquelleAutor Divakar

df.set_index(np.arange(len(df)) // 2).mean(level=0)

InformationsquelleAutor piRSquared

2

Können Sie Ansatz, dieses problem mit pd.rolling() zu erstellen, die einen Laufenden Durchschnitt und dann nehmen Sie einfach jedes zweite element mit iloc
```
df = df.rolling(2).mean() 
df = df.iloc[::2, :]
```
Beachten Sie, dass die erste Beobachtung fehlt (d.h. die Walzen beginnt an der Spitze)

InformationsquelleAutor seeiespi

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.