Entfernen von Ausreißern in Pandas DataFrame mit Perzentilen

Ich habe einen DataFrame df mit 40 Spalten und sehr vielen Datensätzen.

df:

User_id | Col1 | Col2 | Col3 | Col4 | Col5 | Col6 | Col7 |...| Col39

Für jede Spalte außer die user_id-Spalte die ich überprüfen möchten Ausreißer und entfernen Sie das Loch Aufzeichnung, wenn ein Ausreißer erscheint.

Zur ausreißererkennung auf jede Zeile, die ich beschlossen, einfach zu benutzen, 5. und 95 Perzentile (ich weiß, es ist nicht die beste statistische Methode):

Code was ich habe, so weit:

P = np.percentile(df.Col1, [5, 95])
new_df = df[(df.Col1 > P[0]) & (df.Col1 < P[1])]

Frage: Wie kann ich diesen Ansatz anwenden, um alle Spalten (außer user_id), ohne dies per hand? Mein Ziel ist es, ein dataframe ohne Aufzeichnungen hatte, dass die Ausreißer.

Danke!

InformationsquelleAutor Mi Funk | 2016-03-06

Dem ursprünglichen Datensatz.

print(df.head())

   Col0  Col1  Col2  Col3  Col4  User_id
0    49    31    93    53    39       44
1    69    13    84    58    24       47
2    41    71     2    43    58       64
3    35    56    69    55    36       67
4    64    24    12    18    99       67

Ersten entfernen der User_id Spalte

filt_df = df.loc[:, df.columns != 'User_id']

Dann, computing Perzentile.

low = .05
high = .95
quant_df = filt_df.quantile([low, high])
print(quant_df)

       Col0   Col1  Col2   Col3   Col4
0.05   2.00   3.00   6.9   3.95   4.00
0.95  95.05  89.05  93.0  94.00  97.05

Weiter filtern von Werten aufgrund der berechneten Perzentile. Zu tun, dass ich einen apply durch Spalten und das ist es !

filt_df = filt_df.apply(lambda x: x[(x>quant_df.loc[low,x.name]) & 
                                    (x < quant_df.loc[high,x.name])], axis=0)

Bringen die User_id zurück.

filt_df = pd.concat([df.loc[:,'User_id'], filt_df], axis=1)

Letzten Zeilen mit NaN Werte können gelöscht werden, einfach so.

filt_df.dropna(inplace=True)
print(filt_df.head())

   User_id  Col0  Col1  Col2  Col3  Col4
1       47    69    13    84    58    24
3       67    35    56    69    55    36
5        9    95    79    44    45    69
6       83    69    41    66    87     6
9       87    50    54    39    53    40

Prüfung Ergebnis

print(filt_df.head())

   User_id  Col0  Col1  Col2  Col3  Col4
0       44    49    31   NaN    53    39
1       47    69    13    84    58    24
2       64    41    71   NaN    43    58
3       67    35    56    69    55    36
4       67    64    24    12    18   NaN

print(filt_df.describe())

          User_id       Col0       Col1       Col2       Col3       Col4
count  100.000000  89.000000  88.000000  88.000000  89.000000  89.000000
mean    48.230000  49.573034  45.659091  52.727273  47.460674  57.157303
std     28.372292  25.672274  23.537149  26.509477  25.823728  26.231876
min      0.000000   3.000000   5.000000   7.000000   4.000000   5.000000
25%     23.000000  29.000000  29.000000  29.500000  24.000000  36.000000
50%     47.000000  50.000000  40.500000  52.500000  49.000000  59.000000
75%     74.250000  69.000000  67.000000  75.000000  70.000000  79.000000
max     99.000000  95.000000  89.000000  92.000000  91.000000  97.000000

, Wie zu generieren der test-dataset

np.random.seed(0)
nb_sample = 100
num_sample = (0,100)

d = dict()
d['User_id'] = np.random.randint(num_sample[0], num_sample[1], nb_sample)
for i in range(5):
    d['Col' + str(i)] = np.random.randint(num_sample[0], num_sample[1], nb_sample)

df = DataFrame.from_dict(d)

Hat funktioniert! Aber in meinem Fall, ich hatte zu ändern (lambda x: x[(x>quant_df.loc[low,x.name]) & (x < quant_df.loc[hoch x.Bezeichnung])], axis=0) (lambda x: x[(x >= quant_df.loc[low,x.name]) & (x <= quant_df.loc[hoch x.Bezeichnung])], axis=0). Andernfalls werden alle Datensätze gelöscht. Ich habe Mediane, die sehr nahe an null, wie 0,00001, vielleicht ist das, warum.
Super!!! Ich sehe keinen Unterschied zwischen den beiden lambda-außer dem Zeilenvorschub.
Ich enthalten die oberen und unteren Grenzen mit ">=" und "<=" anstelle von ">" und "<".
Nach dem,, warum sind wir immer viel von "NaN", die es nicht im original-Datensatz. Wie können wir damit umgehen?

InformationsquelleAutor Romain

Was Sie beschreiben, ist ähnlich wie der Prozess der winsorizing, schneidet die Werte für das 5. und 95. Perzentile, anstatt Sie zu eliminieren vollständig aus.

Hier ein Beispiel:

import pandas as pd
from scipy.stats import mstats
%matplotlib inline

test_data = pd.Series(range(30))
test_data.plot()

Entfernen von Ausreißern in Pandas DataFrame mit Perzentilen

# Truncate values to the 5th and 95th percentiles
transformed_test_data = pd.Series(mstats.winsorize(test_data, limits=[0.05, 0.05])) 
transformed_test_data.plot()

Entfernen von Ausreißern in Pandas DataFrame mit Perzentilen

InformationsquelleAutor mgoldwasser

Verwenden Sie eine innere Verknüpfung. So etwas sollte funktionieren

cols = df.columns.tolist()
cols.remove('user_id') #remove user_id from list of columns

P = np.percentile(df[cols[0]], [5, 95])
new_df = df[(df[cols[0] > P[0]) & (df[cols[0]] < P[1])]
for col in cols[1:]:
    P = np.percentile(df[col], [5, 95])
    new_df = new_df.join(df[(df[col] > P[0]]) & (df[col] < P[1])], how='inner')

InformationsquelleAutor Rishabh Srivastava

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.