Mit einer if-Anweisung in einen dataframe mit lambda-Funktionen

Ich versuche eine neue Spalte hinzufügen, um ein dataframe basiert auf einer if-Anweisung abhängig von den Werten der beiden Spalten. d.h. wenn Spalte x == Keine dann die y-Spalte andere Spalte x

unten ist das Skript, das ich geschrieben habe, aber nicht funktioniert. irgendwelche Ideen?

dfCurrentReportResults['Retention'] =  dfCurrentReportResults.apply(lambda x : x.Retention_y if x.Retention_x == None else x.Retention_x)

Auch ich bekam diese Fehlermeldung:
AttributeError: ("'- Serie,' Objekt hat kein Attribut 'Retention_x'", u'occurred bei index BUSINESSUNIT_NAME')

fyi: BUSINESSUNIT_NAME ist die erste Spalte name

Zusätzliche Info:

Meine Daten ausgedruckt sieht wie folgt aus, und ich will hinzufügen einer 3. Spalte einen Wert, wenn es einem sonst halten NaN.

   Retention_x  Retention_y
0            1          NaN
1          NaN     0.672183
2          NaN     1.035613
3          NaN     0.771469
4          NaN     0.916667
5          NaN          NaN
6          NaN          NaN
7          NaN          NaN
8          NaN          NaN
9          NaN          NaN

UPDATE:
Am Ende wurde ich mit Fragen verweisen auf die Null oder ist Null in mein dataframe die Letzte Zeile des code I wird auch verwendet, einschließlich der Achse = 1 meine Frage beantwortet.

 dfCurrentReportResults['RetentionLambda'] = dfCurrentReportResults.apply(lambda x : x['Retention_y'] if pd.isnull(x['Retention_x']) else x['Retention_x'], axis = 1)

Dank @EdChum, @strim099 und @aus_lacy für all deinen input. Als mein Datensatz größer wird, kann ich wechseln, um das np.wo option, wenn ich merke, die performance-Probleme.

ist None ein string oder ein NaN? Und könnten Sie eine Probe Ihres Daten-frame, so können wir besser Debuggen irgendwelche Probleme?
meine Verwendung der Keiner war im Grunde ein Versuch, um zu ermitteln, ob der Wert leer, so dass ich denke, es ist ein NaN und ist Keiner?
welche Spalte fordern Sie Ihre apply auf? Eine Probe der Daten helfen würde, erhalten Sie eine Antwort viel schneller.
Ich möchte die Funktion für die neue Spalte ein und erhalten die Ergebnisse, die durch den Verweis auf die anderen beiden Spalten. Die Daten ist ein bisschen chaotisch und auch vertraulich, ich werde versuchen und klopfen gemeinsam einige einfache Daten für die Frage.

InformationsquelleAutor IcemanBerlin | 2015-01-08

2

You ' r lambda-Betrieb ist auf der 0-Achse, die columnwise. Fügen Sie einfach axis=1 zu den apply arg-Liste. Dies ist eindeutig dokumentiert.
```
In [1]: import pandas

In [2]: dfCurrentReportResults = pandas.DataFrame([['a','b'],['c','d'],['e','f'],['g','h'],['i','j']], columns=['Retention_y', 'Retention_x'])

In [3]: dfCurrentReportResults['Retention_x'][1] = None

In [4]: dfCurrentReportResults['Retention_x'][3] = None

In [5]: dfCurrentReportResults
Out[5]:
  Retention_y Retention_x
0           a           b
1           c        None
2           e           f
3           g        None
4           i           j

In [6]: dfCurrentReportResults['Retention'] =  dfCurrentReportResults.apply(lambda x : x.Retention_y if x.Retention_x == None else x.Retention_x, axis=1)

In [7]: dfCurrentReportResults
Out[7]:
  Retention_y Retention_x Retention
0           a           b         b
1           c        None         c
2           e           f         f
3           g        None         g
4           i           j         j
```
- Dank strimp099 eigentlich hatte ich versucht, indem Achse = 1 in einigen meiner versuche, bekam aber die gleiche Meldung. Ich denke das Problem ist auch, dass mein dataframe Wert ist wohl Keiner, also dort wo du Keine haben ich habe einfach nur eine leere. ist es das gleiche oder wie kann ich den Verweis auf die leeren, wenn ich nicht verwenden kann, Keine?
- Eigentlich sowieso, wenn ich kopiere deinen code oben, und führen Sie Ihre sample-Daten die ich bekomme diese Fehlermeldung: AttributeError: ("'- Serie,' Objekt hat kein Attribut 'Retention_x'", u'occurred bei index 0')
- wie erlebt man Ihrem Beispiel zu NaN anstelle von None?
- Angenommen, Sie sind mit numpy, ändern Sie einfach Ihre lambda-Funktion von x.Retention_x == None zu numpy.isnan(x.Retention_x)
- Ok, am Ende dieser funktioniert. dfCurrentReportResults['RetentionLambda'] = dfCurrentReportResults.anwenden(lambda x : x['Retention_y'] wenn pd.isnull(x['Retention_x']) else x['Retention_x'], axis = 1) ich habe nicht testen Sie Ihre numpy.isnan(x.Retention_x), aber ich bin sicher, dass funktioniert so gut wie am Ende war ich nur Probleme mit wie auf ein NAN in meine Lambda. Ich bin markieren Sie Ihre Antwort als richtig, denn es ist die nächste Lösung für den Titel der Frage, die ich schrieb.
InformationsquelleAutor Jason Strimpel
2

Verwenden Sie einfach np.where:
```
dfCurrentReportResults['Retention'] =  np.where(df.Retention_x == None, df.Retention_y, else df.Retention_x)
```
Dieser setzt die Bedingung, die ersten Parameter und setzt den Wert auf df.Retention_y sonst df.Retention_x

vermeiden Sie auch den Einsatz apply wo möglich, da dies nur geht, um eine Schleife über die Werte, np.where ist eine vektorisierte Methode und wird viel besser skalieren.

UPDATE

OK, keine Notwendigkeit zu verwenden np.where verwenden Sie einfach die folgende einfachere syntax:
```
dfCurrentReportResults['Retention'] =  df.Retention_y.where(df.Retention_x == None, df.Retention_x)
```
Weiteres update
```
dfCurrentReportResults['Retention'] =  df.Retention_y.where(df.Retention_x.isnull(), df.Retention_x)
```
- Keine Notwendigkeit, um die Dropdown-Liste, um numpy -- frames und Serien haben where Methoden zu..
- Ich finde manchmal Bilder und die Serie where syntax etwas verwirrend, vor einer Weile durch einige subtile Unterschiede, so begann ich mit np.where von diesem Punkt an, vielleicht ist die Zeit zu gehen Sie zurück und betrachten Sie es wieder, ich poste ein update, danke
- Ich war immer ein syntex Fehler auf der np.dort ist die Zeile. die aktualisierte Linie läuft, sondern gibt mir die folgende Fehlermeldung...TypeError: Konnte nicht vergleichen, <type 'NoneType'> Typ der Serie
- OK, versuchen isnull() aktualisierte Antwort
- Ich finde immer noch numpy syntax einfacher zu Lesen ist: dfCurrentReportResults['Retention'] = np.where(df.Retention_x.isnull(), df.Retention_y, df.Retention_x) aber das ist fast völlig Objektiv.
- Dank EdChum Sie Ihre Lösung mit .wo auch geklappt, als weitere option, und am Ende habe ich def verwenden, dass in Zukunft Lösungen. Der Letzte code, den ich verwendet, um Ihnen zu arbeiten war den folgenden dfCurrentReportResults['RetentionWHERE'] = dfCurrentReportResults.Retention_y.wo(dfCurrentReportResults.Retention_x.isnull(), dfCurrentReportResults.Retention_x)
- keine Sorge, das wichtigste zu nehmen, Weg von dieser ist der Blick für ein vektorisiertes Methode, die funktionieren auf der ganzen df-Serie oder eher als Berufung gelten die loops über die Werte
InformationsquelleAutor EdChum

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.