Immer wahrscheinlichkeitsdichte der Daten

Ich analysieren muss, um einige Daten über internet-Sitzungen für eine DSL-Leitung. Ich wollte schauen, wie die Laufzeiten verteilt sind. Ich dachte ein einfacher Weg, dies zu tun wäre, zu beginnen, indem Sie eine Wahrscheinlichkeits-Dichte-plot der Dauer aller Sitzungen.

Habe ich geladen, die Daten in R und verwendet die density() Funktion. So, es war etwas wie

plot(density(data$duration), type = "l", col = "blue", main = "Density Plot of Duration",
     xlab = "duration(h)", ylab = "probability density")

Ich bin neu in R, und diese Art der Analyse. Das war, was ich vom gehen über google. Ich habe ein Grundstück, aber ich hatte noch einige Fragen. Ist dies die richtige Funktion zu tun, was ich versuche zu tun, oder ist es etwas anderes?

In der Handlung fand ich, dass die Y-Achsen-Skala wurde von 0...1.5. Ich weiss nicht, wie es bei 1.5, sollte es nicht von 0...1?

Außerdem würde ich mag, um eine glattere Kurve. Da die Daten-set ist wirklich groß, die Linien sind wirklich zackig. Es wäre schöner, wenn Sie geglättet, wenn ich mich auf die Darstellung dieser. Wie würde ich tun?

Sie misinterprete Dichte. Die Dichte von X gesehen werden kann als ein Wert proportional die chance der Zeichnung aus der Bevölkerung, eine Zahl, die liegt in der Nähe von X. Nun per definition das integral der Dichte-Funktion gleich 1 ist. Dies bedeutet nicht, dass der maximale Wert der Dichte-Funktion 1 sein soll, kann es leicht größer sein. In der Tat, für eine F-Verteilung mit df= (1,1) , der maximale Wert für die Dichte (bei 0) ist auch unendlich.
ja, ich merke jetzt, dass ich nicht zu interpretieren, das ist richtig. eher ich vereinfachend davon ausgegangen, dass seit der eine Wahrscheinlichkeitsverteilung wäre es weniger als 1 :).
wenn die Gesamtfläche unter der Kurve ist 1, wie kann die PDF-Datei größer als 1? Wenn die PDF-Datei geht über 1, ist es wahrscheinlich, dass die Verteilung nicht normal und das muss normalisiert werden?
weil z.B. ein Rechteck mit einer Höhe von 10 und eine Breite von 0,01 hat eine Fläche von 0,1, während der Y-Wert (also die PDF) 10. Für den Bereich, den Sie nehmen müssen, dass die X-und Y-Achse zu berücksichtigen, nicht nur die Y-Achse.

InformationsquelleAutor sfactor | 2010-11-18

Wie nico sagte, Sie sollten check out hist, aber Sie können auch kombinieren die beiden. Dann könnte man nennen, die Dichte mit lines statt.
Beispiel:

duration <- rpois(500, 10) # For duration data I assume Poisson distributed
hist(duration,
   probability = TRUE, # In stead of frequency
   breaks = "FD",      # For more breaks than the default
   col = "darkslategray4", border = "seashell3")
lines(density(duration - 0.5),   # Add the kernel density estimate (-.5 fix for the bins)
   col = "firebrick2", lwd = 3)

Sollte, geben Sie etwas wie:
Immer wahrscheinlichkeitsdichte der Daten

Beachten Sie, dass der kernel-Dichte-Schätzung geht von einem Gauß-kernel als Standard. Aber die Bandbreite ist oft der wichtigste Faktor. Wenn Sie anrufen density direkt von berichten die standardmäßigen geschätzten Bandbreite:

> density(duration)

Call:
        density.default(x = duration)

Data: duration (500 obs.);      Bandwidth 'bw' = 0.7752

       x                 y            
 Min.   : 0.6745   Min.   :1.160e-05  
 1st Qu.: 7.0872   1st Qu.:1.038e-03  
 Median :13.5000   Median :1.932e-02  
 Mean   :13.5000   Mean   :3.895e-02  
 3rd Qu.:19.9128   3rd Qu.:7.521e-02  
 Max.   :26.3255   Max.   :1.164e-01

Hier ist es 0.7752. Überprüfen Sie Ihre Daten und spielen Sie mit ihm, wie von nico vorgeschlagen. Vielleicht möchten Sie sich bei ?bw.nrd.

sehr gut~~~~~~~~~~~~~~~~~~

InformationsquelleAutor eyjo

2

Sollten Sie spielen, um mit der Bandbreite (bw) parameter ändern, um die Glätte der Kurve. In der Regel R macht einen guten job und gibt automatisch eine schöne und glatte Kurve, aber vielleicht das ist nicht der Fall für Ihre spezifischen Datensatz.

Als für den Anruf, den Sie verwenden, ja, es ist richtig, type="l" ist nicht notwendig, es ist die Standardeinstellung für das zeichnen der Dichte der Objekte. Die Fläche unter der Kurve (d.h. das integral von -Inf bis +Inf, Ihrer Dichte-Funktion) wird = 1.

Nun, ist eine Dichte-Kurve das beste, was zu verwenden, in Ihrem Fall? Vielleicht, vielleicht auch nicht... es hängt wirklich davon ab, welche Art von Analyse, die Sie tun möchten. Wahrscheinlich hist ausreichend sein wird, und vielleicht noch informativer, wie können Sie bestimmte Lagerplätze von Dauer (siehe ?hist für mehr info).
- danke ich werde schauen, aber ich verstehe immer noch nicht, warum die Dichte der Achse größer sein als 1.
- Wie ich schon sagte, es ist die Fläche unter der Kurve (das ist sum(dx*y)) das ist = 1. Der tatsächliche Wert der y-Achse variiert je nach Bandbreite. Eine kleinere Bandbreite Werte erzeugen höhere y-Werte. Versuchen plot density(rnorm(1000), 0.2) und density(rnorm(1000), 2) um den Unterschied zu sehen.
- Die hist sieht Recht schräg relativ zu der Dichte. das ist wegen der Annahme eines normalen kernel mit einer poisson-distrbuted-variable?
- Ich bin mir nicht 100% sicher, wie R berechnet-Dichte-Schätzungen. Es könnte auch ein problem der binning des Histogramms ich denke, aber ich lasse die Antwort jemand mehr wissen als ich.
InformationsquelleAutor nico

Ich würde hinzufügen, diese als Kommentar zu der vorherigen Antwort, aber es ist zu groß.
Die scheinbare Verteilung ist aufgrund der Art, wie die Werte sind eingeteilt in ein Histogramm ein. Es ist oft ein Fehler, Histogramme bei diskreten Daten. Siehe unten ...

set.seed(1001)
tmpf <- function() {
  duration <- rpois(500, 10) # For duration data I assume Poisson distributed
  hist(duration,
       probability = TRUE, # In stead of frequency
       breaks = "FD",      # For more breaks than the default
       col = "darkslategray4", border = "seashell3",
       main="",ann=FALSE,axes=FALSE,xlim=c(0,25),ylim=c(0,0.15))
  box()
  lines(density(duration),   # Add the kernel density estimate
        col = "firebrick2", lwd = 3)
  par(new=TRUE)
  plot(table(factor(duration,levels=0:25))/length(duration),
       xlim=c(0,25),ylim=c(0,0.15),col=4,ann=FALSE,axes=FALSE)
}

par(mfrow=c(3,3),mar=rep(0,4))
replicate(9,tmpf())

Ja, das ist richtig, die Kisten werden immer von beiden Seiten der Ganzzahl (rechts = TRUE vs. rechts = FALSE). Habe ich meist nur für vor der Visualisierung der Daten, wenig Schaden dort. Es könnte aber leicht behoben werden mit einem einfachen -0.5, um die Dichte ...
das ist vorausgesetzt, Sie sind unter Verwendung der integer-Pausen, aber Sie sind nicht begrenzt durch die

InformationsquelleAutor Ben Bolker

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.