Erkennen und ausschließen von Ausreißern in der Pandas-Daten-frame

Habe ich ein pandas dataframe mit wenigen Spalten.

Jetzt weiß ich, dass gewisse Zeilen sind-Ausreißer, basierend auf einer bestimmten Spalte Wert.

Beispielsweise Spalten - 'Vol' hat alle Werte um 12xx und ein Wert 4000 (Ausreißer).

Nun würde ich gerne ausschließen, die Zeilen, die 'Vol' - Spalte wie diese.
Also, im Grunde brauche ich einen filter auf die Daten-Frames so, dass wir wählen Sie alle Zeilen aus, in denen die Werte einer bestimmten Spalte sind innerhalb von sagen wir 3 Standardabweichungen vom Mittelwert.

Was ist ein eleganter Weg, dies zu erreichen.

InformationsquelleAutor AMM | 2014-04-21

159

Wenn Sie mehrere Spalten in den dataframe und möchten, entfernen Sie alle Zeilen, die "Ausreißer" in mindestens einer Spalte den folgenden Ausdruck machen würde, in einem Schuss.
```
df = pd.DataFrame(np.random.randn(100, 3))

from scipy import stats
df[(np.abs(stats.zscore(df)) < 3).all(axis=1)]
```
Beschreibung:
- Für jede Spalte, ersten es berechnet die Z-score für jeden Wert in der
  Spalte, bezogen auf die Spalte Mittelwert und die Standardabweichung.
- Dann ist die absolute, Z-score, weil die Richtung nicht
  egal, nur wenn es unter der Schwelle.
- alle(axis=1) sorgt dafür, dass für jede Zeile, Spalte alle erfüllen
  - Einschränkung.
- Schließlich, das Ergebnis dieser Bedingung wird verwendet, um den index der dataframe.
- Können Sie erklären, was dieser code tut? Und eventuell eine Idee, wie ich vielleicht entfernen Sie alle Zeilen, die ein Ausreisser in einer einzelnen angegebenen Spalte? Wäre hilfreich. Danke.
- Für jede Spalte, ersten es berechnet die Z-score für jeden Wert in der Spalte, bezogen auf die Spalte Mittelwert und die Standardabweichung. Dann ist die absolute Z-score da die Richtung spielt keine Rolle, nur wenn es unter der Schwelle. .alle(axis=1) sorgt dafür, dass für jede Zeile, Spalte alle erfüllen die Einschränkung. Schließlich, das Ergebnis dieser Bedingung wird verwendet, um den index der dataframe.
- Immer noch die eleganteste Lösung hier.
- Wie würden Sie die situation handhaben, wenn es Null-Werte/Nans in den Spalten. Wie können wir Sie ignoriert ?
- wie gehen wir mit str Spalten für diese Lösung? Wenn einige der Spalten nicht-numerische und wir entfernen möchten, Ausreißer, basierend, auf alle numerischen Spalten.
- Was ist die Bedeutung der 3 in den obigen code kannst du das erklären?
- unter der Annahme der Verteilung X mit dem Mittelwert mu und Standardabweichung sigma, z-score misst, wie viele sigmas ein Wert von mu. algebraisch: z-score = (x - mu) / sigma. die 3 ist der Schwellenwert in Anzahl Standardabweichungen Weg vom Mittelwert.
- Prägnante und elegant für alle dataset-Eigenschaften. Ich mag es. Ich habe die Freiheit genommen, zu erweitern, Ihre Antwort (siehe oben) zu handhaben, ein Daten-frame als möglicherweise enthalten auch die nicht-numerische Werte. Hoffe es kann jemand helfen.
- Erhielt den Fehler: "TypeError: unsupported operand type(s) for /: 'str' and 'int'"
InformationsquelleAutor tanemaki
127

Verwenden boolean Indizierung, wie in numpy.array
```
df = pd.DataFrame({'Data':np.random.normal(size=200)})
# example dataset of normally distributed data. 

df[np.abs(df.Data-df.Data.mean()) <= (3*df.Data.std())]
# keep only the ones that are within +3 to -3 standard deviations in the column 'Data'.

df[~(np.abs(df.Data-df.Data.mean()) > (3*df.Data.std()))]
# or if you prefer the other way around
```
Für eine Serie ist es ähnlich:
```
S = pd.Series(np.random.normal(size=200))
S[~((S-S.mean()).abs() > 3*S.std())]
```
- Ihr ist eine DataFrame.abs() FYI, auch DataFrame.clip()
- Im Fall von clip(), Jeff, die Umrisse werden nicht entfernt: df.SOME_DATA.clip(-3std,+3std) weisen die outliners entweder +3std oder -3std
- oh, ich bin einverstanden; nur zeigt es sich.
- Was mache ich, wenn ich die gleiche auf einem pd.Serie?
- Das ist fast das gleiche, @AMM
- Wie können wir das gleiche tun, wenn unsere pandas-Daten-frame hat 100 Spalten?
- Genial, vielen Dank für die Antwort @CTZhu. @DreamerP Sie können einfach anwenden, um die ganze DataFrame mit: df_new = df[np.abs(df - df.mean()) <= (3 * df.std())]. Aber im Gegensatz zu der Anwendung auf eine Reihe oder Spalte hat, diese ersetzen wird "Ausreißer" mit np.nan und halten die Form der DataFrame, so dass eine interpolation erforderlich sein könnten, füllen Sie die fehlenden Werte.
InformationsquelleAutor CT Zhu
69

Für jede Ihrer dataframe Spalte, die Sie bekommen konnte quantile mit:
```
q = df["col"].quantile(0.99)
```
werden und dann der filter mit:
```
df[df["col"] < q]
```
- Dieser Artikel gibt eine sehr gute übersicht über Ausreißer-Entfernung-Techniken machinelearningmastery.com/...
InformationsquelleAutor user6903745
27

Diese Antwort ist ähnlich wie die von @tanemaki, verwendet aber eine lambda Ausdruck statt scipy stats.
```
df = pd.DataFrame(np.random.randn(100, 3), columns=list('ABC'))

df[df.apply(lambda x: np.abs(x - x.mean()) / x.std() < 3).all(axis=1)]
```
Filtern der DataFrame, wo nur EINE Spalte (z.B. "B") ist innerhalb von drei Standardabweichungen:
```
df[((df.B - df.B.mean()) / df.B.std()).abs() < 3]
```
InformationsquelleAutor Alexander

#------------------------------------------------------------------------------
# accept a dataframe, remove outliers, return cleaned data in a new dataframe
# see http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm
#------------------------------------------------------------------------------
def remove_outlier(df_in, col_name):
    q1 = df_in[col_name].quantile(0.25)
    q3 = df_in[col_name].quantile(0.75)
    iqr = q3-q1 #Interquartile range
    fence_low  = q1-1.5*iqr
    fence_high = q3+1.5*iqr
    df_out = df_in.loc[(df_in[col_name] > fence_low) & (df_in[col_name] < fence_high)]
    return df_out

Ich erhalte die Fehlermeldung "ValueError: Keine index mit der mehrdimensionalen Schlüssel" in der Zeile " df_out = df_in.loc[(df_in[col_name] > fence_low) & (df_in[col_name] < fence_high)] " Wird Ihnen helfen

InformationsquelleAutor user2708149

12

Für jede Reihe in der dataframe, Sie könnte verwenden between und quantile zu entfernen Ausreißer.
```
x = pd.Series(np.random.normal(size=200)) # with outliers
x = x[x.between(x.quantile(.25), x.quantile(.75))] # without outliers
```
- Hier können Sie auswählen, werden nur Daten innerhalb der interquartilbereich (IQR), aber im Kopf behalten, dass es Werte außerhalb dieses Bereichs, das sind keine Ausreißer.
- Die Wahl z.B. 0,1 und 0,9 wäre ziemlich sicher, denke ich. Mit zwischen und die Quantile wie dieses ist eine hübsche syntax.
InformationsquelleAutor Jeff Hernandez

Da habe ich nicht gesehen, eine Antwort, die sich mit numerische und nicht-numerische Attribute, hier ist eine Ergänzung der Antwort.

Möchten Sie vielleicht fallen die Ausreißer nur auf numerische Attribute (kategoriale Variablen können kaum Ausreißer).

Funktion definition

Ich verlängert @tanemaki Vorschlag, um Daten zu behandeln, wenn nicht-numerische Attribute sind auch vorhanden:

from scipy import stats

def drop_numerical_outliers(df, z_thresh=3):
    # Constrains will contain `True` or `False` depending on if it is a value below the threshold.
    constrains = df.select_dtypes(include=[np.number]) \
        .apply(lambda x: np.abs(stats.zscore(x)) < z_thresh, reduce=False) \
        .all(axis=1)
    # Drop (inplace) values set to be rejected
    df.drop(df.index[~constrains], inplace=True)

Nutzung

drop_numerical_outliers(df)

Beispiel

Vorstellen, ein dataset df mit einigen Werten über Häuser: alley -, land-Kontur -, Verkaufspreis, ... E. g: Daten-Dokumentation

Ersten, die Sie wollen, visualisieren Sie die Daten auf einem Punktdiagramm (mit z-score-Schwelle=3):

# Plot data before dropping those greater than z-score 3. 
# The scatterAreaVsPrice function's definition has been removed for readability's sake.
scatterAreaVsPrice(df)

Erkennen und ausschließen von Ausreißern in der Pandas-Daten-frame

# Drop the outliers on every attributes
drop_numerical_outliers(train_df)

# Plot the result. All outliers were dropped. Note that the red points are not
# the same outliers from the first plot, but the new computed outliers based on the new data-frame.
scatterAreaVsPrice(train_df)

Erkennen und ausschließen von Ausreißern in der Pandas-Daten-frame

Arbeitete für mich, danke 🙂
Tolle Lösung! Als ein heads-up reduce=False wurde als veraltet markiert, da pandas version 0.23.0

InformationsquelleAutor KeyMaker00

7

scipy.stats Methoden trim1() und trimboth() geschnitten, um die "Ausreißer" in eine einzelne Zeile, nach den ranking-und eine eingeführte Prozentsatz der zu entfernenden Werte.
- trimboth war am einfachsten für mich.
InformationsquelleAutor Oleg N. Osychenko

Weitere option ist, um wandeln Sie Ihre Daten so, dass die Wirkung von Ausreißern abgeschwächt. Sie können dies tun, indem winsorizing Ihre Daten.

import pandas as pd
from scipy.stats import mstats
%matplotlib inline

test_data = pd.Series(range(30))
test_data.plot()

Erkennen und ausschließen von Ausreißern in der Pandas-Daten-frame

# Truncate values to the 5th and 95th percentiles
transformed_test_data = pd.Series(mstats.winsorize(test_data, limits=[0.05, 0.05])) 
transformed_test_data.plot()

Erkennen und ausschließen von Ausreißern in der Pandas-Daten-frame

InformationsquelleAutor mgoldwasser

2

Wenn Sie wie die Verkettung von Methoden, Sie können Ihre Boolesche Bedingung, die für alle numerischen Spalten wie diese:
```
df.sub(df.mean()).div(df.std()).abs().lt(3)
```
Jeder Wert jeder Spalte wird konvertiert True/False basierend auf, ob Ihr weniger als drei Standardabweichungen entfernt vom Mittelwert oder nicht.
- Dies sollte le(3) seit seiner entfernen - Ausreißer. Auf diese Weise erhalten Sie True für die Ausreißer. Außer, dass +1 und diese Antwort sollte weiter oben
InformationsquelleAutor Ted Petrou

Da ich in einem sehr frühen Stadium meiner Daten Wissenschaft Reise, ich bin der Behandlung von Ausreißern mit dem code unten.

#Outlier Treatment

def outlier_detect(df):
    for i in df.describe().columns:
        Q1=df.describe().at['25%',i]
        Q3=df.describe().at['75%',i]
        IQR=Q3 - Q1
        LTV=Q1 - 1.5 * IQR
        UTV=Q3 + 1.5 * IQR
        x=np.array(df[i])
        p=[]
        for j in x:
            if j < LTV or j>UTV:
                p.append(df[i].median())
            else:
                p.append(j)
        df[i]=p
    return df

InformationsquelleAutor Arun Gupta

ein komplettes Beispiel, mit den Daten und 2 Gruppen folgt:

Importe:

from StringIO import StringIO
import pandas as pd
#pandas config
pd.set_option('display.max_rows', 20)

Daten Beispiel für 2 Gruppen: G1:Gruppe 1. G2: Gruppe 2:

TESTDATA = StringIO("""G1;G2;Value
1;A;1.6
1;A;5.1
1;A;7.1
1;A;8.1

1;B;21.1
1;B;22.1
1;B;24.1
1;B;30.6

2;A;40.6
2;A;51.1
2;A;52.1
2;A;60.6

2;B;80.1
2;B;70.6
2;B;90.6
2;B;85.1
""")

Text Lesen Daten pandas dataframe:

df = pd.read_csv(TESTDATA, sep=";")

Definieren die Ausreißer mit Standardabweichungen

stds = 1.0
outliers = df[['G1', 'G2', 'Value']].groupby(['G1','G2']).transform(
           lambda group: (group - group.mean()).abs().div(group.std())) > stds

Definieren gefilterten Daten Werte und der Ausreißer:

dfv = df[outliers.Value == False]
dfo = df[outliers.Value == True]

Drucken Sie das Ergebnis:

print '\n'*5, 'All values with decimal 1 are non-outliers. In the other hand, all values with 6 in the decimal are.'
print '\nDef DATA:\n%s\n\nFiltred Values with %s stds:\n%s\n\nOutliers:\n%s' %(df, stds, dfv, dfo)

InformationsquelleAutor Wagner Cipriano

Meine Funktion zum löschen von Ausreißern

def drop_outliers(df, field_name):
    distance = 1.5 * (np.percentile(df[field_name], 75) - np.percentile(df[field_name], 25))
    df.drop(df[df[field_name] > distance + np.percentile(df[field_name], 75)].index, inplace=True)
    df.drop(df[df[field_name] < np.percentile(df[field_name], 25) - distance].index, inplace=True)

InformationsquelleAutor luminousmen

Ich lieber clip eher als Tropfen. im folgenden clip wird inplace bei der 2. und 98 pecentiles.

df_list = list(df)
minPercentile = 0.02
maxPercentile = 0.98

for _ in range(numCols):
    df[df_list[_]] = df[df_list[_]].clip((df[df_list[_]].quantile(minPercentile)),(df[df_list[_]].quantile(maxPercentile)))

InformationsquelleAutor tnf

Holen Sie sich die 98 und 2. Perzentil als die Grenzen unserer Ausreißer

upper_limit = np.percentile(X_train.logerror.values, 98) 
lower_limit = np.percentile(X_train.logerror.values, 2) # Filter the outliers from the dataframe
data[‘target’].loc[X_train[‘target’]>upper_limit] = upper_limit data[‘target’].loc[X_train[‘target’]<lower_limit] = lower_limit

InformationsquelleAutor Dheeraj

Können Sie boolean-Maske:

import pandas as pd

def remove_outliers(df, q=0.05):
    upper = df.quantile(1-q)
    lower = df.quantile(q)
    mask = (df < upper) & (df > lower)
    return mask

t = pd.DataFrame({'train': [1,1,2,3,4,5,6,7,8,9,9],
                  'y': [1,0,0,1,1,0,0,1,1,1,0]})

mask = remove_outliers(t['train'], 0.1)

print(t[mask])

Ausgabe:

   train  y
2      2  0
3      3  1
4      4  1
5      5  0
6      6  0
7      7  1
8      8  1

InformationsquelleAutor Dima First

-3

Löschen und ablegen von Ausreißern, die ich glaube, ist statistisch falsch.
Es macht die Daten vom original abweichen Daten.
Auch macht die Daten ungleich geformt und damit beste Weg ist, zu reduzieren oder zu vermeiden den Effekt von Ausreißern durch log-Transformation der Daten.
Dieser arbeitete für mich:
```
np.log(data.iloc[:, :])
```
- Kann nicht machen Annahmen darüber, weshalb die OP etwas tun will.
InformationsquelleAutor Ezekiel Ohene Asare

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.