Return max von null oder einen Wert für ein pandas DataFrame Spalte

Möchte ich ersetzen Sie negative Werte in ein pandas DataFrame Spalte mit null.

Gibt es einen kürzeren Weg zum Bau dieser Ausdruck?

df['value'][df['value'] < 0] = 0

Wie das aussieht, wie Sie es tun würde, in numpy ... ich bezweifle es einen knapperen auf andere Weise, als zu brechen es in die 2 Aussagen.
Vielleicht so etwas wie df['value'] = max((df['value'], 0))

InformationsquelleAutor bjornarneson | 2013-06-12

pandas python

16

Hier ist der übliche Weg, es zu tun, die zwar nicht unbedingt übersichtlicher, flexibler ist (Sie können diese anwenden, um beliebige Spalten)
```
In [39]: df = DataFrame(randn(5,1),columns=['value'])

In [40]: df
Out[40]: 
      value
0  0.092232
1 -0.472784
2 -1.857964
3 -0.014385
4  0.301531

In [41]: df.loc[df['value']<0,'value'] = 0

In [42]: df
Out[42]: 
      value
0  0.092232
1  0.000000
2  0.000000
3  0.000000
4  0.301531
```
- Viel flexibler (und weniger dunkel).
- Dies ist eine gemeinsame Redewendung in Numpy-code. +1
- Obwohl in mancher Hinsicht, der np.clip oder np.max-Lösungen sind leichter zu Lesen, ich glaube das ist die genaue Antwort auf meine ursprüngliche Frage.
- Würde .ix etwas besser als .loc da .ix die Allgemeine form? Oder gibt es Argumente, die für loc über ix? - pandas.pydata.org/pandas-docs/stable/...
- Dies ist die langsamste Methode, keine Antwort hier, ~7x langsamer als np.maximum wie vorgeschlagen, stackoverflow.com/a/33000983/1840471.
InformationsquelleAutor Jeff
15

Könnten Sie die clip Methode:
```
import pandas as pd
import numpy as np
df = pd.DataFrame({'value': np.arange(-5,5)})
df['value'] = df['value'].clip(0, None)
print(df)
```
Erträge
```
   value
0      0
1      0
2      0
3      0
4      0
5      0
6      1
7      2
8      3
9      4
```
- Auf einer seitlichen Anmerkung, die Sie nicht brauchen, die np.inf als das zweite argument. Standard ist None, was gleichbedeutend ist, in diesem Fall. Wenn Sie sich Gedanken über die Lesbarkeit mit verlassen der zweiten argument heraus, Sie könnte Verwendung df.value.clip_lower(0) statt.
- Oh, vielen Dank!
- Für was es Wert ist, bin ich davon ausgegangen pandas.DataFrame.clip benahm sich wie numpy als gut. Ich habe nur gemerkt, dass es nicht (und Sie müssen nicht das zweite argument) über 5 Minuten! 🙂
- Wenn df ist ein pandas.DataFrame, df['values'] ist ein pandas.Series, welche eine Unterklasse von ndarray.
- Stimmt, aber die clip Methode ist anders (hat default-Parameter für lower und upper), und es hat zusätzliche Methoden, wie clip_lower und clip_upper.
- Hm, meine pandas scheint zu alt dann. In der version 0.10.0, es erbt von numpy.clip.
- Es sill sich ähnlich verhält wie numpy.clip aber es füllt automatisch in die max-oder min-Grenzen mit der max-oder min-der Daten, wenn eine der Grenzen ist Links out: github.com/pydata/pandas/blob/master/pandas/core/... So weit wie ich kann sagen, dass der Fall für 0.10, wie gut.
- Diese Antwort hat nicht das erreichen, was der OP gefragt hat: "gibt es noch weitere prägnante Art und Weise zu konstruieren diesen Ausdruck?" Seine ursprüngliche Formulierung ist schon übersichtlicher.
- In der Tat, Sie haben Recht. Ich weiß nicht, was ich Tat, an diesem morgen, das führte mich zu denken, sonst...
- Dies ist fast doppelt so langsam wie numpy.maximum: stackoverflow.com/a/33000983/1840471.
InformationsquelleAutor unutbu

Andere Möglichkeit ist numpy.maximum(). Dies ist mehr straight-forward zu Lesen, meiner Meinung nach.

import pandas as pd
import numpy as np
df['value'] = np.maximum(df.value, 0)

Es ist auch deutlich schneller als alle anderen Methoden.

df_orig = pd.DataFrame({'value': np.arange(-1000000, 1000000)})

df = df_orig.copy()
%timeit df['value'] = np.maximum(df.value, 0)
# 100 loops, best of 3: 8.36 ms per loop

df = df_orig.copy()
%timeit df['value'] = np.where(df.value < 0, 0, df.value)
# 100 loops, best of 3: 10.1 ms per loop

df = df_orig.copy()
%timeit df['value'] = df.value.clip(0, None)
# 100 loops, best of 3: 14.1 ms per loop

df = df_orig.copy()
%timeit df['value'] = df.value.clip_lower(0)
# 100 loops, best of 3: 14.2 ms per loop

df = df_orig.copy()
%timeit df.loc[df.value < 0, 'value'] = 0
# 10 loops, best of 3: 62.7 ms per loop

(notebook)

ich denke, das ist gut, die einzige schlechte Sache ist, dass np.max != np.maximum was macht diese schlechte mnemonically
Ich bin damit einverstanden, Sie hätten mit dem SQL GREATEST Namen zu unterscheiden.

InformationsquelleAutor Dorian B.

0

Nehmen wir nur Werte größer als null, so dass diejenigen, die negativ sind, die als NaN (arbeitet mit frames, die sich nicht mit der Serie), dann unterstellen.
```
df[df > 0].fillna(0)
```
InformationsquelleAutor Coolkau
0

Für die Vollständigkeit, die np.where ist auch eine Möglichkeit, das schneller als die meisten Antworten hier. Die np.maximum Antwort ist der beste Ansatz, wenn es, wie es ist schneller und präziser als dieses.
```
df['value'] = np.where(df.value < 0, 0, df.value)
```
InformationsquelleAutor Max Ghenis
0

df.value.clip_lower(0, inplace=True) ist die prägnanteste, und ist nur etwa so schnell wie np.maximum sicherlich schneller als andere Methoden hier (notebook).

InformationsquelleAutor Max Ghenis

Oder where zu überprüfen:

>>> import pandas as pd,numpy as np
>>> df = pd.DataFrame(np.random.randn(5,1),columns=['value'])
>>> df
      value
0  1.193313
1 -1.011003
2 -0.399778
3 -0.736607
4 -0.629540
>>> df['value']=df['value'].where(df['value']>0,0)
>>> df
      value
0  1.193313
1  0.000000
2  0.000000
3  0.000000
4  0.000000
>>>

InformationsquelleAutor U10-Forward

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.