Gestapeltes Histogramm von bereits zusammengefasst zählt mit ggplot2

Ich würde gerne helfen, einige Färbung ein ggplot2-Histogramm generiert aus den bereits zusammengefassten Daten zählen.

Die Daten sind so etwas wie die Grafen # Männer und # Frauen Leben in verschiedenen Bereichen. Es ist leicht genug, um plot, das Histogramm für die gesamtaktivität (also Männchen + Weibchen):

set.seed(1)
N=100;
X=data.frame(C1=rnbinom(N,15,0.1), C2=rnbinom(N,15,0.1),C=rep(0,N)); 
X$C=X$C1+X$C2;
ggplot(X,aes(x=C)) + geom_histogram()

Allerdings würde ich gerne die Farbe jedes Balkens nach der relativen Beitrags von C1 und C2, so daß ich das gleiche Histogramm (d.h. Gesamt-bar-Höhen) wie im obigen Beispiel, plus ich sehen, der Anteil von Typ "C1" und "C2" die Individuen wie in einem gestapelten Balkendiagramm.

Vorschläge für eine saubere Weg dies zu tun ist mit ggplot2, mit Daten wie "X" im Beispiel?

InformationsquelleAutor Paul J Hurtado | 2013-03-05

12

Sehr schnell, Sie können tun, was der OP will mit der stat="identity" option und die plyr Paket manuell zu berechnen, das Histogramm, und zwar so:
```
library(plyr)

X$mid <- floor(X$C/20)*20+10
X_plot <- ddply(X, .(mid), summarize, total=length(C), split=sum(C1)/sum(C)*length(C))

ggplot(data=X_plot) + geom_histogram(aes(x=mid, y=total), fill="blue", stat="identity") + geom_histogram(aes(x=mid, y=split), fill="deeppink", stat="identity")
```
Wir im Grunde nur ein 'mitten' - Spalte, wie Sie die Spalten und erstellen Sie zwei Diagramme: eines mit dem zählen für den Gesamt - (C) und eine mit den Spalten angepasst, um die Anzahl der Spalten (C1). Sie sollten in der Lage sein anpassen von hier.

Update 1: ich merkte, ich machte einen kleinen Fehler in der Berechnung der mitten. Ist jetzt behoben. Auch, ich weiß nicht, warum ich eine 'ddply' - Anweisung zur Berechnung der mitten. Das war albern. Der neue code ist klarer und übersichtlicher.

Update 2: ich kehrte zum anzeigen eines Kommentars und bemerkt etwas entsetzliches: ich war mit Summen als die Histogramm-Frequenzen. Ich habe den code aufgeräumt, ein wenig und auch Vorschläge aus den Kommentaren bezüglich der Färbung syntax.
- dies ist gut, außer, dass Ihre Legende ist verrückt. Beginnen Sie mit geom_histogram(aes(x=mid, y=total), fill="blue") (d.h. setzen die fill Spezifikation außerhalb der mapping), dann müssen Sie herausfinden, wie Sie die guide (Legende) manuell.
- Ja, es ist nur eine schnelle Lösung, um die Daten richtig anzeigen. Nun, der OP muss sich nur anpassen von hier.
InformationsquelleAutor Dinre

Hier ist ein hack mit ggplot_build. Die Idee ist zum ersten mal Ihren alten/ursprünglichen plot:

p <- ggplot(data = X, aes(x=C)) + geom_histogram()

gespeichert in p. Verwenden Sie dann ggplot_build(p)$data[[1]] zum extrahieren der Daten, insbesondere die Spalten xmin und xmax (um den gleichen Pausen/binwidths Histogramm) und count Spalte (Normalisierung der Prozentsatz von count. Hier ist der code:

# get old plot
p <- ggplot(data = X, aes(x=C)) + geom_histogram()
# get data of old plot: cols = count, xmin and xmax
d <- ggplot_build(p)$data[[1]][c("count", "xmin", "xmax")]
# add a id colum for ddply
d$id <- seq(nrow(d))

Wie Daten generiert nun? Was verstehe ich von deinem post ist dieser. Nehmen Sie zum Beispiel die erste bar in Ihrer Zeichnung. Es hat eine Anzahl von 2 und es reicht aus xmin = 147 zu xmax = 156.8. Wenn wir überprüfen X für diese Werte:

X[X$C >= 147 & X$C <= 156.8, ] # count = 2 as shown below
#    C1 C2   C
# 19 91 63 154
# 75 86 70 156

Hier berechne ich (91+86)/(154+156)*(count=2) = 1.141935 und (63+70)/(154+156) * (count=2) = 0.8580645 als die beiden normierten Werte für die einzelnen Balken, die wir generieren werden.

require(plyr)
dd <- ddply(d, .(id), function(x) {
    t <- X[X$C >= x$xmin & X$C <= x$xmax, ]
    if(nrow(t) == 0) return(c(0,0))
    p <- colSums(t)[1:2]/colSums(t)[3] * x$count
})

# then, it just normal plotting
require(reshape2)
dd <- melt(dd, id.var="id")
ggplot(data = dd, aes(x=id, y=value)) + 
      geom_bar(aes(fill=variable), stat="identity", group=1)

- Und dies ist der ursprüngliche plot:

Gestapeltes Histogramm von bereits zusammengefasst zählt mit ggplot2

Und das ist, was ich bekomme:

Gestapeltes Histogramm von bereits zusammengefasst zählt mit ggplot2

Edit: Wenn Sie wollen auch Holen Sie sich die Pausen die richtige, dann erhalten Sie die entsprechenden x - Koordinaten aus den alten plot und benutze es hier, anstatt id:

p <- ggplot(data = X, aes(x=C)) + geom_histogram()
d <- ggplot_build(p)$data[[1]][c("count", "x", "xmin", "xmax")]
d$id <- seq(nrow(d))

require(plyr)
dd <- ddply(d, .(id), function(x) {
    t <- X[X$C >= x$xmin & X$C <= x$xmax, ]
    if(nrow(t) == 0) return(c(x$x,0,0))
    p <- c(x=x$x, colSums(t)[1:2]/colSums(t)[3] * x$count)
})

require(reshape2)
dd.m <- melt(dd, id.var="V1", measure.var=c("V2", "V3"))
ggplot(data = dd.m, aes(x=V1, y=value)) + 
      geom_bar(aes(fill=variable), stat="identity", group=1)

Gestapeltes Histogramm von bereits zusammengefasst zählt mit ggplot2

Was ist Ihre Lösung zu tun, dass require(reshape2);ggplot(melt(X,id.vars="C"),aes(x=C,fill=variable)) + geom_histogram() nicht tun?
Da nur wenige Menschen verwenden plyr und reshape2 diesen Tagen habe ich eine version von @Arun Antwort mit tidyr und lapply im diese Antwort

InformationsquelleAutor Arun

1

Wie etwa:
```
library("reshape2")
mm <- melt(X[,1:2])
ggplot(mm,aes(x=value,fill=variable))+geom_histogram(position="stack")
```
- Ich glaube nicht, dass das funktioniert, leider. Insgesamt ist die Verteilung anders ist. Ich möchte zu halten, Grafen von, z.B., 100 Personen in den 100 bin, aber Farbe, die die Allgemeine Aufteilung von M und F, dass bin.
- Ich glaube, Sie missverstehen Ben ' s code. Insgesamt zählt werden genau das gleiche für jeden bin, da Sie gestapelt werden. Die 'melt' - Funktion nur, verdichtet die Daten und dann die Histogramm-option position="stack" setzt die Variablen auf der jeweils anderen. Die Gesamthöhe der gleiche sein wird. Ich 'll fügen Sie einige Details zu Ben' s Antwort auf die hoffentlich deutlicher machen.
- Danke für die Mühe @Dinre. Werden Sie sicher, dass Sie das code-Beispiel, das ich gepostet und vergleichen. Ben ' s Beispiel gibt ein anderes Gesamtverteilung.
- Ah... gefunden. Es ist eine Frage der Skalierung und nicht eine Frage der Werte anders sein. In dem ursprünglichen Beitrag, Sie sind die Verteilung der Daten mit der Summe, die in Ordnung ist, aber es ist falsch, sobald Sie in Gruppen aufgeteilt. Die Aufteilung der Daten in Gruppen, Ben-Ansatz ist die genauere, weil es zeigt, dass Sie die Verteilung der beiden Gruppen einzeln und dann stapeln. Gibt es irgendein Grund, warum Sie versuchen, dies zu vermeiden?
- Wenn Sie wirklich wollen, um die Erhaltung der original-stack, zu sprechen, und ich werde schreiben, bis eine andere Funktion für Sie. Wir müssen uns umdrehen, um die Berechnung der Stapel selbst und mit stat="identity" um etwas zu tun.
- Ich verstehe, dass Ben ' s Ansatz ist in 99% der Fälle der bessere Grafik und ist viel mehr im Einklang mit den Möglichkeiten einer formalen Analyse auf solche Daten, aber in diesem speziellen Fall bin ich in Erster Linie daran interessiert, Plotten gesamte Verteilung gefärbt wie beschrieben. Wenn es leicht genug, um code, und Sie haben Zeit, um zu töten, ich werde nicht halten Sie zurück! 😉
InformationsquelleAutor Ben Bolker

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.