Bootstrapping für den Vergleich von zwei Gruppen

In der folgende code, den ich verwenden bootstrapping zum berechnen der C. I. und der p-Wert unter der Nullhypothese, dass zwei verschiedene Dünger angewendet, um Tomatenpflanzen haben keine Wirkung in Pflanzen ergibt (und die alternative ist, dass die "verbesserte" Dünger ist besser). Die erste Stichprobe (x) kommt aus Anlagen, in denen ein standard-Dünger verwendet wurde, während eine "verbesserte" man wurde in die Pflanzen, wobei die zweite Stichprobe (y) kommt.

x <- c(11.4,25.3,29.9,16.5,21.1)
y <- c(23.7,26.6,28.5,14.2,17.9,24.3)
total <- c(x,y)
library(boot)
diff <- function(x,i) mean(x[i[6:11]]) - mean(x[i[1:5]])
b <- boot(total, diff, R = 10000)

ci <- boot.ci(b)
p.value <- sum(b$t>=b$t0)/b$R

Was ich nicht mag, über den code, der oben ist, dass die Neuberechnung erfolgt, als ob es nur eine Probe, 11 Werte (trennen die ersten 5 Zugehörigkeit zur Stichprobe x und der rest auf Probe y).
Könnten Sie mir zeigen, wie dieser code sollte geändert werden, um zu zeichnen, passt in diesem Fall der Größe 5 mit Ersatz aus der ersten Probe und separate passt in diesem Fall der Größe 6 aus der zweiten Probe, so dass die bootstrap-resampling würden imitieren die "separate samples" - design, produziert die ursprünglichen Daten?

InformationsquelleAutor George Dontas | 2010-09-01

bootstrapping r

5

EDIT2 :
Hack gelöscht, wie es war eine falsche Lösung. Stattdessen verwenden Sie das argument Schichten der boot-Funktion :
```
total <- c(x,y)
id <- as.factor(c(rep("x",length(x)),rep("y",length(y))))
b <- boot(total, diff, strata=id, R = 10000)
...
```
Bewusst sein, Sie sind nicht einmal in die Nähe einer richtigen Schätzung Ihrer p.Wert :
```
x <- c(1.4,2.3,2.9,1.5,1.1)
y <- c(23.7,26.6,28.5,14.2,17.9,24.3)

total <- c(x,y)

b <- boot(total, diff, strata=id, R = 10000)
ci <- boot.ci(b)
p.value <- sum(b$t>=b$t0)/b$R
> p.value
[1] 0.5162
```
Wie würden Sie erklären, ein p-Wert von 0,51 für zwei Proben, wo alle Werte der zweiten höher sind als der höchste Wert des ersten?

Der obige code ist in Ordnung zu bekommen -voreingenommen - Schätzung der Konfidenzintervalle, aber die Bedeutung, die Tests über den Unterschied sollte sein getan durch permutation über den kompletten Datenbestand.

Danke!!! Zu Ihrer Frage "Warum will ich das tun", schauen Sie sich die box mit dem Titel "BOOTSTRAP FÜR den VERGLEICH ZWEIER POPULATIONEN" (und wenn Sie wollen, kommentieren) auf der Unterseite von Seite 18 hier bcs.whfreeman.com/ips5e/content/cat_080/pdf/moore14.pdf
Mein Hauptproblem war, wie soll diff.calc definiert werden. Und immer noch bin ich überrascht, nicht zu sehen, das zweite argument, das ich drin!
Ich vermutete so etwas schon aus Ihrer Frage auf statexchange. Hinweis: Sie sprechen ausschließlich von einem confidence interval, und sagen nichts über einen p-Wert gibt. Mein Beispiel zeigt Ihnen, warum.
es ist ein hack : ich habe angeben das ich als Funktionsargument zu können, verwenden Sie die boot-Funktion, aber ich glaube die Neuberechnung in der Funktion. Also das einzige, was die boot-Funktion bedeutet, looping und die Rückgabe einer boot-Objekt. In der Tat, mir ist gerade eingefallen, es gibt ein argument "Schichten" zu tun. Lösung bearbeitet.
Meys: ich werde auch nur für das Konfidenzintervall (nicht der p-Wert). Sie sagte, es ist eine voreingenommene c.ich. Schätzung. Was würden Sie vorschlagen, für eine unbiase? P. S. Deine bearbeitete version scheint ok, aber der ursprüngliche "hack" erzeugt ein Falsches "original" - Wert (b$t0) - verschiedene jedes mal, wenn das boot ausgeführt wurde.

InformationsquelleAutor Joris Meys
1

Während der eigentliche Boden Betten, könnte erwogen werden, eine geschichtete variable in einigen Fällen ist dies nicht einer von Ihnen. Sie haben nur das eine manipulation, die zwischen den Gruppen von Pflanzen. Daher, Ihre Nullhypothese ist, dass Sie wirklich kommen aus der exakt gleichen Bevölkerung. Die Behandlung der Gegenstände, als ob Sie aus einem einzigen Satz von 11 Proben ist der richtige Weg, um bootstrap in diesem Fall.

Wenn Sie zwei plots, und in jeder Parzelle habe die verschiedenen Düngemitteln über die verschiedenen Jahreszeiten in einer ausgeglichen Mode dann in den plots wäre statified Proben und würden Sie wollen, um Sie als solche zu behandeln. Aber das ist nicht der Fall hier.

InformationsquelleAutor John
1

Folgenden John, ich glaube, der geeignete Weg, um die Verwendung von bootstrap zu testen, ob die Summen dieser zwei unterschiedlichen Populationen sind signifikant Verschieden ist wie folgt:
```
x <- c(1.4,2.3,2.9,1.5,1.1)
y <- c(23.7,26.6,28.5,14.2,17.9,24.3)


b_x <- boot(x, sum, R = 10000)
b_y <- boot(y, sum, R = 10000)

z<-(b_x$t0-b_y$t0)/sqrt(var(b_x$t[,1])+var(b_y$t[,1]))
pnorm(z)
```
So können wir klar ablehnen der null, dass Sie die gleiche Bevölkerung. Ich verpasst haben, einen Grad der Freiheit, die Einstellung, die ich bin nicht sicher, wie bootstrapping funktioniert in dieser Hinsicht, aber eine solche Einstellung wird sich nicht ändern Ihre Ergebnisse drastisch.

InformationsquelleAutor RegressForward

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.