Clustering mit einer Distanz-matrix
Habe ich eine (symmetrische) matrix M
repräsentiert den Abstand zwischen jedem paar von Knoten. Zum Beispiel,
A B C D E F G H I J K L Ein 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 140 140 140 D 20 20 20 0 60 80 80 80 120 140 140 140 E 40 60 60 60 0 20 20 20 60 80 80 80 F 60 80 80 80 20 0 20 20 40 60 60 60 G 60 80 80 80 20 20 0 20 60 80 80 80 H 60 80 80 80 20 20 20 0 60 80 80 80 Ich 100 120 120 120 60 40 60 60 0 20 20 20 J 120 140 140 140 80 60 80 80 20 0 20 20 K 120 140 140 140 80 60 80 80 20 20 0 20 L 120 140 140 140 80 60 80 80 20 20 20 0
Gibt es eine Methode zum extrahieren von Clustern aus M
(wenn erforderlich, die Anzahl der Cluster, die behoben werden kann), so dass jeder cluster-Knoten enthält, die mit kleinen Abständen zwischen Ihnen. Im Beispiel wird der Cluster wäre (A, B, C, D)
, (E, F, G, H)
und (I, J, K, L)
.
Vielen Dank 🙂
Du musst angemeldet sein, um einen Kommentar abzugeben.
Hierarchische clustering arbeitet direkt mit der Distanz-matrix anstelle der tatsächlichen Beobachtungen. Wenn Sie wissen, die Anzahl der Cluster, werden Sie bereits wissen, Ihre Abbruchkriterium (stop, wenn es gibt k Cluster). Der wichtigste trick hier ist, um für Sie einen geeigneten linkage-Methode. Auch, dieses Papier(pdf) gibt einen hervorragenden überblick über alle Arten von clustering-Methoden.
Eine weitere Möglichkeit ist die Verwendung Partitioning Around Medoids die oft genannte K-Medoids. Wenn Sie einen Blick auf R-clustering-Paket sehen Sie pam Funktion erhält die Distanz-matrix als input-Daten.
Gut, Es ist möglich, führen Sie den K-means-clustering auf eine bestimmte ähnlichkeit matrix, zuerst müssen Sie, um den Mittelpunkt der matrix und nehmen Sie dann die Eigenwerte der matrix. Der Letzte und wichtigste Schritt ist die Multiplikation der ersten beiden Satz von Eigenvektoren zur Quadratwurzel der diagonalen die Eigenwerte zu erhalten, die Vektoren und gehen dann mit K-means . Unten der code zeigt, wie es zu tun. Sie können ändern ähnlichkeit matrix. fpdist ist die ähnlichkeit matrix.