Was sind die effiziente und präzise algorithmen, um auszuschließen, Ausreißer aus einer Reihe von Daten?

Habe ich 200 Datenzeilen(bedeutet eine kleine Menge von Daten). Ich möchte einen Teil der statistischen Analyse, aber vorher möchte ich ausschließen Ausreißer.

Was sind die möglichen algos für den Zweck? Genauigkeit ist eine Frage der Sorge.

Ich bin sehr neu auf Stats, also Hilfe benötigen, in sehr einfachen algos.

Sie sind das entfernen von Ausreißern; wo kommt die Genauigkeit?
bedeutet Identifikation von Ausreißern muss korrekt sein

InformationsquelleAutor Ashish Agarwal | 2010-01-15

outliers statistics

5

Starten Sie durch Plotten der Hebel der Ausreißer und dann gehen Sie für einige gute ol' Augenabstand-trauma (aka Blick auf das Streudiagramm).

Viele statistische Pakete haben Ausreißer/residual diagnostics, aber ich bevorzuge Cook ' s D. berechnen Sie es von hand, wenn Sie möchten, mit diese Formel von mtsu.edu (original-link ist tot, das ist sourced von archive.org).

InformationsquelleAutor eric.a.booth
22

Insgesamt, ist das, was macht eine Frage schwer ist, dass es keine strenge definition der Ausreißer. Ich hätte eigentlich empfohlen, vor der Verwendung eine bestimmte Anzahl von Standardabweichungen als die cutoff-aus folgenden Gründen:
1. Ein paar Ausreißer haben kann riesige Auswirkungen auf Ihre Schätzung der Standardabweichung, die Standardabweichung ist keine robuste Statistik.
2. Die interpretation der Standardabweichung hängt enorm auf die Verteilung Ihrer Daten. Wenn Ihre Daten normal verteilt ist, dann 3 Standardabweichungen ist eine Menge, aber wenn es, zum Beispiel, log-normal verteilt ist, dann 3 Standardabweichungen ist nicht viel.
Gibt es ein paar gute Möglichkeiten, um fortzufahren:
1. Halten Sie alle Daten, und verwenden nur robuste Statistik (median statt Mittelwert, Wilcoxon-test anstelle des T-test, etc.). Wahrscheinlich gut, wenn dataset groß ist.
2. Trimmen oder Winsorize Ihre Daten. Trimmen bedeutet das entfernen der oberen und unteren x%. Winsorizing bedeutet einstellen der oberen und unteren x% zu den x und 1-X. Perzentil-Wert jeweils.
3. Wenn Sie einen kleinen Datensatz, können Sie einfach zeichnen Sie Ihre Daten und überprüfen Sie es manuell für unplausible Werte.
4. Wenn Ihre Daten sieht ziemlich nahe an eine Normalverteilung (keine schweren Schwanz, und ungefähr symmetrisch), dann verwenden Sie die Mediane absolute Abweichung anstelle der Standardabweichung als Ihre Teststatistik und filter für 3 oder 4 median der absoluten Abweichungen Weg von der median.
InformationsquelleAutor dsimcha
2

Sie haben vielleicht den Ausdruck gehört 'six sigma'.

Dies bezieht sich auf plus-und minus-3-sigma - (ie, Standardabweichung) um den Mittelwert.

Alles was außerhalb des "six-sigma" - Bereich könnte behandelt als Ausreißer.

Auf die Reflexion, ich denke, 'six sigma' ist zu weit.

Dieser Artikel beschreibt, wie es Beträge zu "mit 3,4 fehlerhafte Teile pro million Möglichkeiten."

Scheint es wie eine ziemlich strenge Anforderung für die Zertifizierung. Nur du kannst entscheiden, ob es zu Ihnen passt.

wird dies effizienter sein als die so genannte Box-plot und andere Technik
"mit 3,4 fehlerhafte Teile pro million Möglichkeiten." In diesem Fall, der Artikel geht davon +/-6 sigma, nicht +/ - 3 sigma.
Ja, du hast Recht, dmckee. Ich ging zurück und sah. Und die 99.99966% Ausbeute entspricht 3.4 ppm. Zumindest sollte der Artikel eine hilfreiche Referenz.

InformationsquelleAutor pavium
2

Abhängig von Ihren Daten und Ihrer Bedeutung, vielleicht möchten Sie sich in RANSAC (random sample consensus). Dies ist weit verbreitet in computer vision und in der Regel liefert hervorragende Ergebnisse, wenn Sie versuchen, um zu passen die Daten mit vielen Ausreißern zu einem Modell.

Und es ist sehr einfach zu konzeptualisieren und zu erklären. Auf der anderen Seite, es ist nicht deterministisch, die Probleme verursachen können, je nach Anwendung.

InformationsquelleAutor Kena
1

Berechnen Sie die Standardabweichung auf dem set, und schließen Sie alles, was außerhalb der ersten, zweiten oder Dritten Standardabweichung.

Sich bewusst sein, dass (für normal verteilte Daten) ~1/3 der Daten liegt außerhalb einer sigma -, und ~1/10, die außerhalb von zwei sigma. Einstellung der Grenzen zu eng wird verletzt Ihre Statistiken und können Maske systematische Effekte.
-1, weil die Standardabweichung und den Mittelwert verzerrt wird durch die Anwesenheit von Ausreißern.
Kena. BFD, das poster angefordert, um auszuschließen, Ausreißer, und, natürlich, die standard-Abweichung wird die Ursache Ausreißer ausgeschlossen werden. Das sollte man nicht ausschließen, Ausreißer, oder dass die Standardabweichung wird zunächst das Ergebnis in einer misslichen oder weniger als die ideale Verteilung ist weitgehend irrelevant.
Standardabweichung vermissen, jeden Ausreißer, wenn Sie einen durchschnittlichen und der Ausreißer ist Größenordnungen höher als die anderen Werte. Betrachten Sie den Datensatz (1,2,3,4,5,1000000). Das gibt einem Mittelwert von 167K und SD-408K. Das heißt, wenn Sie Mittelwerte und SD, Ihr Algorithmus könnte vermisse jede einzelne Ausreißer.

InformationsquelleAutor Bear
0

Hier ist, wie ich gehen würde, über die es in SQL Server

Die folgende Abfrage erhalten das Durchschnittliche Gewicht von einem fiktiven Maßstab Tisch mit einer einzigen Waage für jede person während nicht zulassen, daß diejenigen, die übermäßig dick oder Dünn zu werfen, aus dem mehr realistischen Durchschnitt:
```
  select w.Gender, Avg(w.Weight) as AvgWeight
    from ScaleData w
    join ( select d.Gender, Avg(d.Weight) as AvgWeight, 
                  2*STDDEVP(d.Weight) StdDeviation
             from ScaleData d
            group by d.Gender
         ) d
      on w.Gender = d.Gender
     and w.Weight between d.AvgWeight-d.StdDeviation 
                      and d.AvgWeight+d.StdDeviation
   group by w.Gender  
```
Kann es einen besseren Weg zu gehen, aber es funktioniert und funktioniert gut. Wenn Sie kommen über eine weitere, effiziente Lösung, ich würde Sie liebend gerne hören.

HINWEIS: die oben genannten entfernt die oberen und unteren 5% Ausreißer aus dem Bild für den Zweck der Durchschnitt. Sie können die Anzahl der Ausreißer entfernt, durch die Anpassung der 2* 2*STDDEVP als pro: http://en.wikipedia.org/wiki/Standard_deviation

InformationsquelleAutor Jason Southwell
0

Wenn Sie wollen nur analysieren, sagen, Sie möchten die Berechnung der Korrelation mit einer anderen Variablen, seine ok, um Ausreißer auszuschließen. Aber wenn Sie wollen, um Modell /Vorhersagen, es ist nicht immer am besten schließen Sie diese sofort.

Versuchen Sie, behandeln Sie es mit Methoden wie capping oder wenn Sie vermuten, dass die Ausreißer enthalten Informationen/Muster, dann ersetzen Sie es mit einer fehlenden und Modell-Vorhersagen. Ich habe geschrieben einige Beispiele, wie Sie gehen über diese hier mit R.

InformationsquelleAutor Selva

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.