Immer wahrscheinlichkeitsdichte der Daten
Ich analysieren muss, um einige Daten über internet-Sitzungen für eine DSL-Leitung. Ich wollte schauen, wie die Laufzeiten verteilt sind. Ich dachte ein einfacher Weg, dies zu tun wäre, zu beginnen, indem Sie eine Wahrscheinlichkeits-Dichte-plot der Dauer aller Sitzungen.
Habe ich geladen, die Daten in R und verwendet die density()
Funktion. So, es war etwas wie
plot(density(data$duration), type = "l", col = "blue", main = "Density Plot of Duration",
xlab = "duration(h)", ylab = "probability density")
Ich bin neu in R, und diese Art der Analyse. Das war, was ich vom gehen über google. Ich habe ein Grundstück, aber ich hatte noch einige Fragen. Ist dies die richtige Funktion zu tun, was ich versuche zu tun, oder ist es etwas anderes?
In der Handlung fand ich, dass die Y-Achsen-Skala wurde von 0...1.5. Ich weiss nicht, wie es bei 1.5, sollte es nicht von 0...1?
Außerdem würde ich mag, um eine glattere Kurve. Da die Daten-set ist wirklich groß, die Linien sind wirklich zackig. Es wäre schöner, wenn Sie geglättet, wenn ich mich auf die Darstellung dieser. Wie würde ich tun?
- Sie misinterprete Dichte. Die Dichte von X gesehen werden kann als ein Wert proportional die chance der Zeichnung aus der Bevölkerung, eine Zahl, die liegt in der Nähe von X. Nun per definition das integral der Dichte-Funktion gleich 1 ist. Dies bedeutet nicht, dass der maximale Wert der Dichte-Funktion 1 sein soll, kann es leicht größer sein. In der Tat, für eine F-Verteilung mit df= (1,1) , der maximale Wert für die Dichte (bei 0) ist auch unendlich.
- ja, ich merke jetzt, dass ich nicht zu interpretieren, das ist richtig. eher ich vereinfachend davon ausgegangen, dass seit der eine Wahrscheinlichkeitsverteilung wäre es weniger als 1 :).
- wenn die Gesamtfläche unter der Kurve ist 1, wie kann die PDF-Datei größer als 1? Wenn die PDF-Datei geht über 1, ist es wahrscheinlich, dass die Verteilung nicht normal und das muss normalisiert werden?
- weil z.B. ein Rechteck mit einer Höhe von 10 und eine Breite von 0,01 hat eine Fläche von 0,1, während der Y-Wert (also die PDF) 10. Für den Bereich, den Sie nehmen müssen, dass die X-und Y-Achse zu berücksichtigen, nicht nur die Y-Achse.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Wie nico sagte, Sie sollten check out
hist
, aber Sie können auch kombinieren die beiden. Dann könnte man nennen, die Dichte mitlines
statt.Beispiel:
Sollte, geben Sie etwas wie:
Beachten Sie, dass der kernel-Dichte-Schätzung geht von einem Gauß-kernel als Standard. Aber die Bandbreite ist oft der wichtigste Faktor. Wenn Sie anrufen
density
direkt von berichten die standardmäßigen geschätzten Bandbreite:Hier ist es 0.7752. Überprüfen Sie Ihre Daten und spielen Sie mit ihm, wie von nico vorgeschlagen. Vielleicht möchten Sie sich bei
?bw.nrd
.Sollten Sie spielen, um mit der Bandbreite (
bw
) parameter ändern, um die Glätte der Kurve. In der Regel R macht einen guten job und gibt automatisch eine schöne und glatte Kurve, aber vielleicht das ist nicht der Fall für Ihre spezifischen Datensatz.Als für den Anruf, den Sie verwenden, ja, es ist richtig,
type="l"
ist nicht notwendig, es ist die Standardeinstellung für das zeichnen der Dichte der Objekte. Die Fläche unter der Kurve (d.h. das integral von -Inf bis +Inf, Ihrer Dichte-Funktion) wird = 1.Nun, ist eine Dichte-Kurve das beste, was zu verwenden, in Ihrem Fall? Vielleicht, vielleicht auch nicht... es hängt wirklich davon ab, welche Art von Analyse, die Sie tun möchten. Wahrscheinlich
hist
ausreichend sein wird, und vielleicht noch informativer, wie können Sie bestimmte Lagerplätze von Dauer (siehe?hist
für mehr info).density(rnorm(1000), 0.2)
unddensity(rnorm(1000), 2)
um den Unterschied zu sehen.Ich würde hinzufügen, diese als Kommentar zu der vorherigen Antwort, aber es ist zu groß.
Die scheinbare Verteilung ist aufgrund der Art, wie die Werte sind eingeteilt in ein Histogramm ein. Es ist oft ein Fehler, Histogramme bei diskreten Daten. Siehe unten ...