Wie vergleichen Sie die "ähnlichkeit" zwischen zwei dendrogramms (in R)?
Habe ich zwei dendrogramms, die möchte ich miteinander vergleichen, um herauszufinden, wie "ähnlich" Sie sind. Aber ich kenne keine Methode, dies zu tun (geschweige denn einen code um es zu implementieren, sagen wir, in R).
Führt ?
UPDATE (2014-09-13):
Da diese Frage, die ich geschrieben habe, ein R-Paket namens dendextend, für die Visualisierung, manipulation und Vergleich der das dendrogramm. Dieses Paket ist auf CRAN und kommt mit einem detaillierte vignette. Es beinhaltet Funktionen, wie cor_cophenetic
, cor_bakers_gamma
und Bk
/Bk_plot
. Sowie eine tanglegram
Funktion zum visuellen Vergleich von zwei Bäumen.
- ::sieht das dendrogramm:: Jetzt haben Sie mich neugierig. Was die Metrik vorhanden ist für solche Vergleiche in Erster Linie?
- Sind Sie sicher, dass Sie dies tun wollen? Die dendrogramms sind nur eine Darstellung der Daten. Ich würde denken, dass der Vergleich von (direkt), werden die Daten partitioniert in zwei dendrogramms wäre informativer.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Vergleich dendrogramms ist nicht ganz das selbe wie der Vergleich hierarchischer clusterungen sowie, weil die ehemaligen sind die Längen der äste sowie die spaltet, aber ich denke auch, dass ist ein guter Anfang. Ich würde vorschlagen du liest E. B. Fowlkes & C. L. Malven (1983). "Eine Methode zum Vergleich von Zwei Hierarchische clusterungen sowie". Journal of the American Statistical Association 78 (383): 553-584 (link).
Ihren Ansatz stützt sich auf das schneiden der Bäume auf jeder Ebene k, immer ein Maß Bk, vergleicht die Gruppierungen in k Clustern und dann die Prüfung der Bk vs k Grundstücke. Die Maßnahme Bk basiert beim Blick auf Paare von Objekten und sehen, ob Sie fallen in den gleichen cluster ist oder nicht.
Ich bin sicher, dass man code schreiben, der basierend auf dieser Methode, aber zuerst müssten wir wissen, wie die dendrogramms dargestellt in R.
cor_cophenetic
,cor_bakers_gamma
undBk
/Bk_plot
. Das Paket kommt auch mit einer detail-vignette, die erklärt, dass diese Funktionen.Wie Sie wissen, Dendrogramms entstehen von hierarchischen clustering - also das, was Sie wirklich Fragen ist, wie kann ich vergleichen die Ergebnisse der beiden hierarchischen clustering ausgeführt wird. Es gibt keine standard-Metriken, die ich kenne, aber würde ich werden sich bei der Zahl der Cluster, die gefunden und zu vergleichen-Mitgliedschaft, die ähnlichkeit zwischen Clustern. Hier ist eine gute übersicht über die hierarchische clustering, dass meine Kollegin schrieb auf clustering scotch Whisky ist.
haben Sie einen Blick auf auf dieser Seite:
Ich habe auch ähnliche Frage hier
Scheint es, wir können cophenetic Korrelation zur Messung der ähnlichkeit zwischen zwei dendrogramms. Aber es scheint keine Funktion für diesen Zweck in der R zurzeit.
BEARBEITEN 2014,9,18:
Die
cophenetic
Funktion instats
Paket ist in der Lage, die Berechnung der cophenetic Unähnlichkeit matrix. und die Korrelation berechnet werden kann, mitcor
Funktion. wie @Tal hat daraufas.dendrogram
Funktion zurückgegeben, die den Baum mit unterschiedlicher Reihenfolge, was zu falschen Ergebnissen, wenn wir die Berechnung der Korrelation auf der Grundlage der Ergebnisse das dendrogramm. Da zeigte das Beispiel der Funktioncor_cophenetic
Funktion indendextend
Paket:cor_cophenetic
- Funktion aus dendextend Paket.Wenn Sie Zugriff auf die zugrunde liegenden Distanz-matrix generiert, dass jeder das dendrogramm (Sie wahrscheinlich tun, wenn Sie erzeugt die dendorograms in R), könntest du nicht einfach die Verwendung der Korrelation zwischen den entsprechenden Werten der beiden Matrizen? Ich weiß, dass dies kein Adresse den Brief von dem, was Sie gefragt, aber es ist eine gute Lösung, um den Geist von dem, was Sie fragte.
Werfen Sie einen Blick auf diese Seite, die viele Informationen über die software, die sich mit Bäumen, einschließlich dendrogramms. Ich bemerkte einige tools, die sich mit der Baum-Vergleich, obwohl ich noch nicht persönlich, benutzt Sie noch nicht. Es gibt eine Reihe von Bezugnahmen zitiert, gibt es dort auch.
Gibt es eine reichhaltige Literatur, die für Baum-Distanz-Metriken in der Phylogenie der Gemeinschaft, die scheint vernachlässigt worden zu sein aus der informatik-Perspektive. Sehen
dist.topo
derape
- Paket für zwei Baum-Distanz-Metriken und mehrere Zitate (Penny und Hardy 1985, Kuhner und Felsenstein 1994), die in Anbetracht der ähnlichkeit der Baum-Partitionen, und auch die Robinson-Foulds Metrik die ein R die Umsetzung in derphangorn
Paket.Ein problem ist, dass diese Metriken nicht zu einem bestimmten Maßstab, so sind Sie nur nützlich, in den Fällen 1) - Struktur-Vergleich oder 2) Vergleich zu einigen generierte Grundlinie, vielleicht über permutation tests ähnlich zu dem, was Tal getan hat, mit Baker ' s Gamma in seinem fantastischen dendextend Paket.
Wenn Sie hclust oder das dendrogramm Objekte, generiert aus
R
hierarchische clustering überas.phylo
von derape
Paket konvertieren Sie Ihre dendrogramms zu phylogenetischen Bäume für Gebrauch in diesen Funktionen.