Die Interpretation der Dichte Plot in R
Habe ich eine Liste der Zeiten in Tage und ich bin auf der Suche, um Sie anzuzeigen Jahren auf eine Dichte Handlung.
Habe ich diese zwei Möglichkeiten - die änderung der Etiketten auf der x-Achse die Jahre und durch die Division der Daten durch 365. Diese Methoden geben mir unterschiedliche Dichte-Schätzungen:
df <- data.frame(id = 1:80000, age = rnorm(80000, 46, 5) * 365)
Den ersten plot erstellt mit:
breaks <- seq(from = min(df$age), to = max(df$age), by = 10*365)
ggplot(data = df, aes(x = age)) +
geom_density(aes(y = ..density..)) +
scale_x_continuous(breaks= breaks, labels = floor(breaks/365))
Die Dichte angezeigt, auf der y-Achse reicht von 0 bis 0.0002
Wenn ich dies jedoch (teilen das Alter von 365 Jahren bekommen - nicht nur ändern Sie die x-Bezeichnungen wie oben):
ggplot(data = df, aes(x = age/365)) +
geom_density(aes(y = ..density..))
Dem Grundstück gleich aussieht, aber die Dichte reicht von 0 bis 0,08
Ich bin kämpfen, um zu verstehen, was Los ist - warum ist der Dichte-Unterschied zwischen den zwei plots?
geom_freqpoly
) leichter zu interpretieren - ich sehr selten verwenden-density-plots mich.
InformationsquelleAutor user1414259 | 2012-11-20
Du musst angemeldet sein, um einen Kommentar abzugeben.
Die Dichte ist anders in den beiden Parzellen, denn in einem Fall haben Sie 365-mal so viele Einheiten horizontal ist, also die vertikale Einheiten müssen 1/365 der anderen plot, gegeben, dass die Wahrscheinlichkeits-Dichte-Funktionen (die Flächen unter diesen Kurven) muss die Summe zu einem.
Dies ist einfacher, zu denken, etwa in Bezug auf Behälter eher als Dichte-Kurven. Wenn Sie eine Ablage ersetzen 365 bins, die Wahrscheinlichkeit in die eine bin ist viel höher als die Durchschnittliche Wahrscheinlichkeit der Landung in den einzelnen bins.
Für spezielle sample-Daten, die Sie liefern, können wir die Konvertierung zwischen den vertikalen Einheiten, indem man die peaks der beiden Funktionen:
Den praktischen Grund, warum dies ist ein Problem in zeichnen (und ggf. der Kern deiner Frage) ist die Funktion, die Schätzung der Dichte für ggplot erbt das argument x von der übergeordneten aes(). Damit es nicht zu wissen, etwas über die benutzerdefinierte x-Achse, die Sie verwenden. Vielmehr als nur das ändern der x-Achse in Ihre erste Handlung, könnte man explizit sagen geom_density nicht, um die geerbte x-Werte:
InformationsquelleAutor MattBagg
Der beste Rat ist, einfach zu ignorieren, die Beschriftungen der hilfsstriche auf der y-Achse, Sie helfen nicht bei allen mit der Interpretation der Dichte plot und als Sie gesehen haben, sind eher zu verwirren als zu helfen.
Meine Präferenz wäre für die Standard-Verhalten der Dichte-plots, Histogramme und ähnliche Grundstücke keine Beschriftung der y-Achse Teilstriche, da Sie in der Regel nicht nichts zu bedeuten und nur dazu neigen, um abzulenken von den wichtigen teilen des Graphen und verursachen oft Verwirrung. Auch wenn Sie skaliert werden, um Werte bestimmt sinnvoll, Sie sind nicht hilfreich für den Hauptzweck der Handlung und kann immer noch zu Verwirrung führen (ich habe die Anzahl der Plätze in meinem Histogramm und jetzt ist mein y-tick-Beschriftungen sind sehr unterschiedlich, Panik! Panik!). Leider gibt es so viel Trägheit in Ihnen aufträgt, dass ich allein bin unwahrscheinlich, dass man dies geändert.
InformationsquelleAutor Greg Snow