Welche Methode verwenden Sie für die Auswahl der optimalen Anzahl der Cluster beim k-means und EM?

Viele algorithmen für das clustering verfügbar sind. Ein beliebter Algorithmus ist der K-means-wo, basierend auf einer bestimmten Anzahl der Cluster, die der Algorithmus iteriert um die besten zu finden von Clustern für die Objekte.

Welche Methode sollten Sie verwenden, um zu bestimmen, die Anzahl der Cluster in den Daten der k-means-clustering?

Jedes package in R enthalten die V-fold cross-validation Methode für die Bestimmung der richtigen Anzahl an Clustern?

Andere auch verwendete Ansatz ist der Expectation-Maximization (EM) Algorithmus, weist eine Wahrscheinlichkeitsverteilung für jede Instanz gibt die Wahrscheinlichkeit, dass es der Zugehörigkeit zu jedem der Cluster.

Ist dieser Algorithmus implementiert in R?

Wenn es ist, hat Sie die option, um automatisch die optimale Anzahl von Clustern, die durch cross-Validierung?

Bevorzugen Sie einige andere clustering-Methode statt?

  • Ich habe absichtlich nicht in hierarchischen clustering weil hclust ist eine Recht Speicher hungrig Methode, nicht geeignet für große Datensätze, in denen ich bin eigentlich meistens interessiert.
  • Bitte definieren, was du meinst, wenn du "optimal"
  • Gute Frage @Svante, ich habe darüber nachgedacht eine Menge, dass man auf. Ich habe sogar gedacht, zu schreiben, ein Paket mit mehreren algorithmen für die optimale Anzahl von Clustern (hclust Methoden nur). @hadley, habe ich kennengelernt: C-H-index (Calinsky & Harabasz), C-index, Goodman-Kruskal-gamma-coef. und es gibt einen Weg, um "pick eine optimale cluster-Lösung", durch die Nutzung der F-test. Hier ist ein ref: Miligan, G. W. & Cooper, M. C. (1985). Eine Untersuchung von Verfahren zur Bestimmung der Anzahl der Cluster in einem Datensatz, Psychometrika, 50, 159-179, Obwohl ich davon ausgehe, dass Sie lieber "graph-based" - Entscheidung über die optimale Lösung...
  • im Sinne der Maximierung einige score-Funktion, die als Argumente die vielleicht between class distance und die within class distance. Siehe zum Beispiel die Methode, beschrieben in paragraph Optimal Number of Clusters hier: sandro.saitta.googlepages.com/...
  • Dies kann auch nützlich sein: stats.stackexchange.com/questions/723/...
Schreibe einen Kommentar