Plot Wahrscheinlichkeitsdichte / Massenfunktion des Datensatzes in R
Ich habe Daten-set, und ich will die Analyse dieser Daten durch die " probability density function oder probability mass function in R ,die ich verwendet-Dichte-Funktion hat es aber nicht gab mir eine Wahrscheinlichkeit.
meine Daten wie diese:
"step","Time","energy"
1, 22469 , 392.96E-03
2, 22547 , 394.82E-03
3, 22828,400.72E-03
4, 21765, 383.51E-03
5, 21516, 379.85E-03
6, 21453, 379.89E-03
7, 22156, 387.47E-03
8, 21844, 384.09E-03
9 , 21250, 376.14E-03
10, 21703, 380.83E-03
Möchte ich, um PDF/PMF auf Energieträger ,die Daten, die wir berücksichtigen, sind getrennt von der Natur, so dass ich nicht spezielle Art für die Verteilung der Daten.
InformationsquelleAutor der Frage Alaa Brihi | 2011-08-07
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ihre Daten schaut weit von diskreten zu mir. Sie erwartet eine Wahrscheinlichkeit, wenn Sie arbeiten mit kontinuierlichen Daten ist einfach falsch.
density()
gibt Ihnen eine empirische Dichte-Funktion, die annähernd die wahre Dichte-Funktion. Zu beweisen, es ist eine richtige Dichte berechnen wir die Fläche unter der Kurve :Einige Rundungsfehler. die Fläche unter der Kurve ergibt, und somit das Ergebnis
density()
erfüllt die Anforderungen einer PDF-Datei.Verwenden Sie die
probability=TRUE
Möglichkeithist
oder die Funktiondensity()
(oder beide)zB :
gibt
Wenn Sie wirklich brauchen, eine Wahrscheinlichkeit für eine diskrete variable, die Sie verwenden:
Edit : illustration, warum die naive
count(x)/sum(count(x))
ist keine Lösung. In der Tat, es ist nicht, weil die Werte der bins Summe zu eins, dass die Fläche unter der Kurve tut. Für, die, multipliziert man mit der Breite der 'bins'. Die normale Verteilung, für die wir berechnen können, die PDF-Datei mit derdnorm()
. Folgende code erstellt eine Normalverteilung berechnet die Dichte, und vergleicht mit der naiven Lösung :Gibt :
Die kumulative Verteilungsfunktion
Im Fall @Iterator hatte Recht, es ist Recht einfach zu konstruieren, die Verteilungsfunktion aus der Dichte. Die CDF ist das integral der PDF-Datei. Im Fall von diskreten Werten, dass einfach die Summe der Wahrscheinlichkeiten. Für die kontinuierliche Werte, können wir die Tatsache, dass die Intervalle für die Schätzung der empirischen Dichte gleich sind, und berechnen Sie :
Gibt :
InformationsquelleAutor der Antwort Joris Meys