Clustering mit einer Distanz-matrix

Habe ich eine (symmetrische) matrix M repräsentiert den Abstand zwischen jedem paar von Knoten. Zum Beispiel,

 A B C D E F G H I J K L 
Ein 0 20 20 20 40 60 60 60 100 120 120 120 
B 20 0 20 20 60 80 80 80 120 140 140 140 
C 20 20 0 20 60 80 80 80 120 140 140 140 
D 20 20 20 0 60 80 80 80 120 140 140 140 
E 40 60 60 60 0 20 20 20 60 80 80 80 
F 60 80 80 80 20 0 20 20 40 60 60 60 
G 60 80 80 80 20 20 0 20 60 80 80 80 
H 60 80 80 80 20 20 20 0 60 80 80 80 
Ich 100 120 120 120 60 40 60 60 0 20 20 20 
J 120 140 140 140 80 60 80 80 20 0 20 20 
K 120 140 140 140 80 60 80 80 20 20 0 20 
L 120 140 140 140 80 60 80 80 20 20 20 0

Gibt es eine Methode zum extrahieren von Clustern aus M (wenn erforderlich, die Anzahl der Cluster, die behoben werden kann), so dass jeder cluster-Knoten enthält, die mit kleinen Abständen zwischen Ihnen. Im Beispiel wird der Cluster wäre (A, B, C, D), (E, F, G, H) und (I, J, K, L).

Vielen Dank 🙂

InformationsquelleAutor yassin | 2010-09-16

7

Hierarchische clustering arbeitet direkt mit der Distanz-matrix anstelle der tatsächlichen Beobachtungen. Wenn Sie wissen, die Anzahl der Cluster, werden Sie bereits wissen, Ihre Abbruchkriterium (stop, wenn es gibt k Cluster). Der wichtigste trick hier ist, um für Sie einen geeigneten linkage-Methode. Auch, dieses Papier(pdf) gibt einen hervorragenden überblick über alle Arten von clustering-Methoden.
- Ich habe schon versucht, UPGMA, aber die resultierenden Cluster sind sehr schlecht. Irgendwelche Ideen?
- Wenn ich interpretieren Ihre Distanz-matrix richtig, Ihre Cluster sind sehr gut getrennt. In diesem Fall, single und complete linkage sollte das gut funktionieren. Sie möchten möglicherweise versuchen Sie es und posten Sie dies auf stats.stackexchange.com, es gibt Menschen, die sind mehr spezialisiert auf solche Themen.
InformationsquelleAutor Björn Pollex
2

Eine weitere Möglichkeit ist die Verwendung Partitioning Around Medoids die oft genannte K-Medoids. Wenn Sie einen Blick auf R-clustering-Paket sehen Sie pam Funktion erhält die Distanz-matrix als input-Daten.

InformationsquelleAutor NtsDK
0

Gut, Es ist möglich, führen Sie den K-means-clustering auf eine bestimmte ähnlichkeit matrix, zuerst müssen Sie, um den Mittelpunkt der matrix und nehmen Sie dann die Eigenwerte der matrix. Der Letzte und wichtigste Schritt ist die Multiplikation der ersten beiden Satz von Eigenvektoren zur Quadratwurzel der diagonalen die Eigenwerte zu erhalten, die Vektoren und gehen dann mit K-means . Unten der code zeigt, wie es zu tun. Sie können ändern ähnlichkeit matrix. fpdist ist die ähnlichkeit matrix.
```
mds.tau <- function(H)
{
  n <- nrow(H)
   P <- diag(n) - 1/n
   return(-0.5 * P %*% H %*% P)
  }
  B<-mds.tau(fpdist)
  eig <- eigen(B, symmetric = TRUE)
  v <- eig$values[1:2]
  #convert negative values to 0.
 v[v < 0] <- 0
X <- eig$vectors[, 1:2] %*% diag(sqrt(v))
library(vegan)
km <- kmeans(X,centers= 5, iter.max=1000, nstart=10000) .
#embedding using MDS
cmd<-cmdscale(fpdist)
```
InformationsquelleAutor user4959

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.