Das entfernen von Ausreißern aus einer k-mean-cluster
Ich habe die Nummer von kleineren Datensätzen, mit 10 XY-Koordinaten jedes. Ich bin mit Matlab (R2012a)und k-means zu erhalten, einen Schwerpunkt. In einigen Clustern (siehe Abbildung unten), sehe ich einige extreme Punkte, weil meine Daten so klein wie Sie sind, eine Gliederung, zerstört den Wert von meine Schwerpunkt. Gibt es eine einfache Möglichkeit, um ausschließlich diese Punkte? Wesentlicher Matlab hat einen "ausschließen" Ausreißer " - Funktion, aber ich kann nicht sehen es überall in der tool-Menü..
Danke für Eure Hilfe! (und ja, ich bin neu hier:-)
Ich glaube, das Wort, das Sie suchen, Ausreißer (en.wikipedia.org/wiki/Outlier), nicht Outliner. Vielleicht wird Ihnen helfen, eine Lösung zu finden, die mehr leicht.
Es wäre auch eine gute Idee zu erwähnen, welche software du verwendest und tag entsprechend.
sorry, ich schrieb outliners versehentlich;( ich habe schon ziemlich viel gesucht, aber ich bin ein Anfänger in matlab und die codes, die ich bisher begegnet sind, sind ziemlich schwer. Sah ORC und ODIN, aber laut matlab-Hilfe Funktion sollte es etwas namens "ausschließen" Ausreißer " in der toolbar, aber ich nicht finden, ich bin mit R2012a.
Es wäre auch eine gute Idee zu erwähnen, welche software du verwendest und tag entsprechend.
sorry, ich schrieb outliners versehentlich;( ich habe schon ziemlich viel gesucht, aber ich bin ein Anfänger in matlab und die codes, die ich bisher begegnet sind, sind ziemlich schwer. Sah ORC und ODIN, aber laut matlab-Hilfe Funktion sollte es etwas namens "ausschließen" Ausreißer " in der toolbar, aber ich nicht finden, ich bin mit R2012a.
InformationsquelleAutor carro | 2012-12-21
Du musst angemeldet sein, um einen Kommentar abzugeben.
k-means können Sie sehr empfindlich auf Ausreißer im Datensatz. Der Grund ist einfach, dass k-means versucht zu optimieren, die Summe der Quadrate. Und so eine große Abweichung (z.B. von einem Ausreißer) bekommt eine Menge Gewicht.
Wenn Sie einen rauschenden Datensatz mit Ausreißern, könnten Sie besser dran mit einem Algorithmus, der hat sich darauf spezialisiert, Lärm Handhabung wie DBSCAN (Density-Based Spatial Clustering of Applications with Noise). Hinweis: das "N" in der Abkürzung: der Lärm.
Im Gegensatz zu z.B. k-means, aber auch viele andere clustering-algorithmen DBSCAN können entscheiden nicht cluster-Objekte, die in Gebieten mit niedriger Dichte.
InformationsquelleAutor Erich Schubert
Du suchst so etwas wie "Ausreißer entfernen" und wie andere schon im Zusammenhang mit oben, "es gibt keine exakte mathematische definition, was ein Ausreisser" - http://en.wikipedia.org/wiki/Outlier#Identifying_outliers.
Ausreißererkennung ist sogar schwierig, wenn du tust unüberwachten clustering, da Sie beide versuchen zu lernen, was die Cluster sind, und welche Datenpunkte entsprechen "Nein" - Cluster.
Eine einfache definition ist, dass alle Datenpunkte, die sind "weit" von jedem anderen Datenpunkt als Ausreißer. E. g., Sie sollten in Betracht ziehen, den Punkt mit der maximalen kleinsten Abstand zu einem anderen Punkt:
Können Sie die Iteration der oben ein paar mal, um iterativ entfernen Sie Punkte. Beachten Sie, dass dies nicht entfernen Ausreißer das geschehen auf mindestens einen Nachbar in der Nähe. Wenn Sie Lesen, die WIKI-Seite, und sehen Sie einen Algorithmus, der hilfreich ist, und versuchen, es umzusetzen und Fragen, die eine spezielle Herangehensweise.
InformationsquelleAutor Pete