Pandas: Wie Summe Spalten basierend auf bedingte andere Spalte Werte?

Habe ich Folgendes pandas DataFrame.

import pandas as pd
df = pd.read_csv('filename.csv')

print(df)

     dog      A         B           C
0     dog1    0.787575  0.159330    0.053095
1     dog10   0.770698  0.169487    0.059815
2     dog11   0.792689  0.152043    0.055268
3     dog12   0.785066  0.160361    0.054573
4     dog13   0.795455  0.150464    0.054081
5     dog14   0.794873  0.150700    0.054426
..    ....
8     dog19   0.811585  0.140207    0.048208
9     dog2    0.797202  0.152033    0.050765
10    dog20   0.801607  0.145137    0.053256
11    dog21   0.792689  0.152043    0.055268
    ....

Ich eine neue Spalte erstellen von Summen-Spalten "A", "B", "C" wie folgt:

df['total_ABC'] = df[["A", "B", "B"]].sum(axis=1)

Nun würde ich gerne dies auf der Grundlage einer bedingten, d.h. wenn "A" < 0.78 dann erstellen Sie eine neue Spalte summiert df['smallA_sum'] = df[["A", "B", "B"]].sum(axis=1). Andernfalls wird der Wert sollte null sein.

Wie schafft man bedingte Anweisungen wie diese?

Mein Gedanke wäre, die Nutzung

df['smallA_sum'] = df1.apply(lambda row: (row['A']+row['B']+row['C']) if row['A'] < 0.78))

Aber so funktioniert das nicht und ich bin nicht in der Lage, anzugeben Achse.

Wie erstellen Sie eine Spalte auf der Grundlage der Werte der anderen Spalten?

Könnte man auch etwas tun, so wie jeder df['dog'] == 'dog2' erstellen Spalte dog2_sum, d.h.

 df['dog2_sum'] = df1.apply(lambda row: (row['A']+row['B']+row['C']) if df['dog'] == 'dog2'))

aber mein Ansatz ist falsch.

InformationsquelleAutor ShanZhengYang | 2016-06-21

Den folgenden arbeiten sollte, hier werden wir die Maske der df, wo die Bedingung erfüllt ist, so wird NaN zu den Zeilen, wo die Bedingung nicht erfüllt, so nennen wir fillna auf die neue col:

In [67]:
df = pd.DataFrame(np.random.randn(5,3), columns=list('ABC'))
df

Out[67]:
          A         B         C
0  0.197334  0.707852 -0.443475
1 -1.063765 -0.914877  1.585882
2  0.899477  1.064308  1.426789
3 -0.556486 -0.150080 -0.149494
4 -0.035858  0.777523 -0.453747

In [73]:    
df['total'] = df.loc[df['A'] > 0,['A','B']].sum(axis=1)
df['total'].fillna(0, inplace=True)
df

Out[73]:
          A         B         C     total
0  0.197334  0.707852 -0.443475  0.905186
1 -1.063765 -0.914877  1.585882  0.000000
2  0.899477  1.064308  1.426789  1.963785
3 -0.556486 -0.150080 -0.149494  0.000000
4 -0.035858  0.777523 -0.453747  0.000000

Anderen Ansatz zu nennen where auf die sum Ergebnis, dieser nimmt einen Wert param zurück, wenn die Bedingung nicht erfüllt:

In [75]:
df['total'] = df[['A','B']].sum(axis=1).where(df['A'] > 0, 0)
df

Out[75]:
          A         B         C     total
0  0.197334  0.707852 -0.443475  0.905186
1 -1.063765 -0.914877  1.585882  0.000000
2  0.899477  1.064308  1.426789  1.963785
3 -0.556486 -0.150080 -0.149494  0.000000
4 -0.035858  0.777523 -0.453747  0.000000

Die .where() Lösung ist perfekt! Dank

InformationsquelleAutor EdChum

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.