Wie berechnen Sie die Wahrscheinlichkeit, einen Wert aus einer Liste von Stichproben aus einer Verteilung in Python?

Nicht sicher, ob dies gehört in der Statistik, aber ich bin versucht, Python, dies zu erreichen. Ich habe im wesentlichen nur eine Liste von Integer-zahlen:

data = [300,244,543,1011,300,125,300 ... ]

Und ich würde gerne wissen, die Wahrscheinlichkeit, dass ein Wert Auftritt, gegeben diese Daten.
I dargestellten Histogramme der Daten mit matplotlib und erhalten diese:

In der ersten Grafik dargestellt, die zahlen repräsentieren die Anzahl der Zeichen in einer Sequenz. In der zweiten Grafik dargestellt, es ist eine gemessene Zeit in Millisekunden. Das minimum ist größer als null, aber es ist nicht unbedingt ein maximum. Die Grafiken wurden erstellt mit Millionen von Beispiele, aber ich bin mir nicht sicher, ich kann keine anderen Annahmen über die Verteilung. Ich möchte wissen, die Wahrscheinlichkeit, dass ein neuer Wert gegeben, dass ich ein paar Millionen Beispiele von Werten. In der ersten Grafik, ich habe ein paar Millionen Sequenzen verschiedener Längen. Würde gerne wissen, Wahrscheinlichkeit einer 200-Länge, zum Beispiel.

Ich weiß, dass für eine kontinuierliche Verteilung die Wahrscheinlichkeit eines genauen Punkt soll null sein, aber angesichts einer Flut neuer Werte, ich muss in der Lage sein zu sagen, wie wahrscheinlich jeder Wert ist. Ich habe mir durch einige der numpy/scipy Wahrscheinlichkeits-Dichte-Funktionen, aber ich bin mir nicht sicher, was zu wählen oder, wie die Abfrage für die neuen Werte, sobald ich so etwas wie laufen scipy.stats.norm.pdf(Daten). Es scheint, wie verschiedene Wahrscheinlichkeits-Dichte-Funktionen passen die Daten anders. Die Form der Histogramme ich bin mir nicht sicher, wie Sie entscheiden, welche zu verwenden.

Was ist die Natur dieser zahlen? Sie sind alle ganzen zahlen, gibt es einen festen Bereich? Können Sie keine Annahmen über die Verteilung (was machen die zahlen darstellen)?
Was genau möchten Sie wissen angesichts Ihrer dataset?
In der ersten Grafik dargestellt, die zahlen repräsentieren die Anzahl der Zeichen in einer Sequenz. In der zweiten Grafik dargestellt, es ist eine gemessene Zeit in Millisekunden. Das minimum ist größer als null, aber es ist nicht unbedingt ein maximum. Die Grafiken wurden erstellt mit Millionen von Beispiele, aber ich bin mir nicht sicher, ich kann keine anderen Annahmen über die Verteilung. Ich möchte wissen, die Wahrscheinlichkeit, dass ein neuer Wert gegeben, dass ich ein paar Millionen Beispiele von Werten. In graph1, ich habe ein paar Millionen Sequenzen verschiedener Längen. Würde gerne wissen, Wahrscheinlichkeit einer 200-Länge, zum Beispiel.
Für die zweite Grafik, wird Sie daran interessiert sein, die Wahrscheinlichkeit von einigen der gemessenen Höhe der Zeit, wenn man in einem bestimmten Intervall?
Sicher, was hast du im Sinn?

InformationsquelleAutor qazplok11 | 2016-08-02

19

Da Sie nicht scheinen, um eine bestimmte Verteilung im Auge, aber Sie haben eine Menge Daten, Proben, schlage ich vor, eine nicht-parametrische Dichte-Schätzung Methode. Einer der Datentypen, die Sie beschreiben (Zeit in ms) ist deutlich eine kontinuierliche und eine Methode für die nicht-parametrische Schätzung einer Wahrscheinlichkeits-Dichte-Funktion (PDF) für stetige Zufallsvariablen ist das Histogramm, das Sie bereits erwähnt. Jedoch, wie Sie unten sehen werden, Kernel Density Estimation (KDE) besser sein kann. Die zweite Art von Daten, die Sie beschreiben (Anzahl der Zeichen in einer Sequenz) ist die diskrete Art. Hier werden kernel-Dichte-Schätzung kann auch nützlich sein, und kann gesehen werden als ein Glättungsverfahren für die Situationen, in denen Sie nicht über eine ausreichende Menge von Proben für alle Werte der diskreten Variablen.

Schätzung Der Dichte

Das Beispiel unten zeigt, wie erste Daten generieren, die Proben aus einer Mischung von 2 Gauß-Verteilungen und wenden Sie dann die kernel-Dichte Schätzung zu finden, die Wahrscheinlichkeits-Dichte-Funktion:
```
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.mlab as mlab
from sklearn.neighbors import KernelDensity

# Generate random samples from a mixture of 2 Gaussians
# with modes at 5 and 10
data = np.concatenate((5 + np.random.randn(10, 1),
                       10 + np.random.randn(30, 1)))

# Plot the true distribution
x = np.linspace(0, 16, 1000)[:, np.newaxis]
norm_vals = mlab.normpdf(x, 5, 1) * 0.25 + mlab.normpdf(x, 10, 1) * 0.75
plt.plot(x, norm_vals)

# Plot the data using a normalized histogram
plt.hist(data, 50, normed=True)

# Do kernel density estimation
kd = KernelDensity(kernel='gaussian', bandwidth=0.75).fit(data)

# Plot the estimated densty
kd_vals = np.exp(kd.score_samples(x))
plt.plot(x, kd_vals)

# Show the plots
plt.show()
```
Dies ergibt folgenden plot, wo die wahre Verteilung ist in blau dargestellt, das Histogramm ist in grün dargestellt, und die PDF-schätzungsweise mit KDE ist in rot dargestellt:

Wie Sie sehen können, in dieser situation, die PDF-angenähert durch das Histogramm ist nicht sehr nützlich, während KDE bietet eine viel bessere Schätzung. Jedoch mit einer größeren Anzahl von Daten, Proben und eine geeignete Wahl der bin-Größe, Histogramm produzieren könnten, eine gute Schätzung als gut.

Die Parameter, die Sie einstellen können, im Falle von KDE sind die kernel und die Bandbreite. Sie denken können dem kernel als Baustein für die Abschätzung der PDF, und mehrere kernel-Funktionen sind verfügbar in Scikit Lernen: Gauß, tophat, epanechnikov, exponentiell, linear, Cosinus. Die änderung der Bandbreite ermöglicht das anpassen der bias-Varianz-trade-off. Größere Bandbreite führt zu erhöhten bias, was gut ist, wenn Sie weniger Daten-samples. Eine kleinere Bandbreite erhöhen Varianz (weniger Proben enthalten sind in der Schätzung), wird aber eine bessere Schätzung, wenn mehr Proben zur Verfügung stehen.

Berechnung Der Wahrscheinlichkeit

Einer PDF-Datei, Wahrscheinlichkeit erhält man durch die Berechnung das integral über einen Bereich von Werten. Als Sie bemerkte, dass dies die Wahrscheinlichkeit 0 für einen bestimmten Wert.

Scikit Lernen scheint nicht zu haben eine eingebaute Funktion zur Berechnung der Wahrscheinlichkeit. Allerdings ist es leicht zu schätzen das integral der PDF-Datei über einen Bereich. Wir können es tun, durch die Auswertung der PDF-mehrmals innerhalb der Reihe und addieren der erhaltenen Werte multipliziert mit der Schrittweite zwischen jeder Bewertung zeigen. Im Beispiel unten N Proben mit Schritt step.
```
# Get probability for range of values
start = 5  # Start of the range
end = 6    # End of the range
N = 100    # Number of evaluation points 
step = (end - start) / (N - 1)  # Step size
x = np.linspace(start, end, N)[:, np.newaxis]  # Generate values in the range
kd_vals = np.exp(kd.score_samples(x))  # Get PDF values for each x
probability = np.sum(kd_vals * step)  # Approximate the integral of the PDF
print(probability)
```
Bitte beachten Sie, dass kd.score_samples generiert log-likelihood der Daten-samples. Daher np.exp ist erforderlich, um die Wahrscheinlichkeit.

Die gleiche Berechnung kann durchgeführt werden, indem builtin SciPy integration Methoden, die geben ein bisschen mehr genaues Ergebnis:
```
from scipy.integrate import quad
probability = quad(lambda x: np.exp(kd.score_samples(x)), start, end)[0]
```
Beispielsweise für einen Lauf, die erste Methode berechnet die Wahrscheinlichkeit als 0.0859024655305 während die zweite Methode produziert 0.0850974209996139.
- Ich war auf der Suche auf Kernel-Dichte-Schätzung erwähnt, aber ich war nicht ganz in der Lage, einen Handgriff auf, wo zu beginnen. Danke für die ausführliche Erklärung, wenn die N = 100 an der Unterseite ist noch verwirrend mich. Ist, dass die eine Anzahl von Proben?
- Ich sehe, so N im wesentlichen ändert die Schrittweite. Ich verstehe, was es tut, in den code, aber nicht, wie das mathematisch Effekte der Wahrscheinlichkeit. In den letzten paar Schritte, wir sind dabei, die pdf-Werte für jedes x, multiplizieren Sie, indem Sie den Schritt, und dann addieren Sie. Ich verstehe nicht ganz die Wirkung der änderung N auf die Wahrscheinlichkeit. Zunehmende N bedeutet mehr Proben und kleineren Schrittweite. Jeder einzelne (kd_val * * * * Schritt) ist kleiner, aber es gibt mehr kd_vals Summe. Was passiert also mit dem integral-Näherung? Genauer?
- Ja, genau, je größer das N, desto genauer ist der Wert des integrals wird.
- Ich fügte hinzu, eine andere Methode zur Berechnung der Integrale mit scipy.integrate.quad. Ein bisschen weniger Hektik und genaueres Ergebnis.
- Hallo Andrzej, ich verstehe nicht, wie du mit scipy 's ' quad'. Woher weiß er, was das Intervall der '5' und '6' gegeben eine beliebig N Größe 1-D array. Sind Sie in der Lage, Licht auf das?
- Quad nimmt eine Funktion als Eingang (die lambda im Beispiel) und dann einfach berechnet die Werte der Funktion für ein argument, z.B. einen Wert zwischen 5 und 6.
InformationsquelleAutor Andrzej Pronobis
5

OK ich bieten dies als Ausgangspunkt, sondern die Schätzung der Dichte ist ein sehr breites Thema. Für Ihren Fall mit der Anzahl der Zeichen in einer Sequenz, können wir dieses Modell aus einer straight-forward-frequentistischen Perspektive mit empirische Wahrscheinlichkeit. Hier, die Wahrscheinlichkeit ist im wesentlichen eine Verallgemeinerung des Konzepts der Prozentsatz. In unserem Modell, dem Probe-Raum ist diskret und ist für alle positiven ganzen zahlen. Gut, dann kann man einfach zählen der vorkommen und teilt Sie durch die Gesamtzahl der Ereignisse, um Ihre Schätzung für die Wahrscheinlichkeiten. Überall haben wir null Beobachtungen, unsere Schätzung für die Wahrscheinlichkeit gleich null ist.
```
>>> samples = [1,1,2,3,2,2,7,8,3,4,1,1,2,6,5,4,8,9,4,3]
>>> from collections import Counter
>>> counts = Counter(samples)
>>> counts
Counter({1: 4, 2: 4, 3: 3, 4: 3, 8: 2, 5: 1, 6: 1, 7: 1, 9: 1})
>>> total = sum(counts.values())
>>> total
20
>>> probability_mass = {k:v/total for k,v in counts.items()}
>>> probability_mass
{1: 0.2, 2: 0.2, 3: 0.15, 4: 0.15, 5: 0.05, 6: 0.05, 7: 0.05, 8: 0.1, 9: 0.05}
>>> probability_mass.get(2,0)
0.2
>>> probability_mass.get(12,0)
0
```
Nun, für Ihre timing-Daten, wird es natürlich mehr, um dieses Modell als eine kontinuierliche Verteilung. Statt mit einem parametrischen Ansatz, bei dem Sie davon ausgehen, dass Ihre Daten in einigen Verteilungs-und dann passen, dass mit der Verteilung Ihrer Daten, sollten Sie einen nicht-parametrischen Ansatz. Eine einfache Möglichkeit ist die Verwendung eines kernel-Dichte-Schätzung. Sie können einfach denken, dass Sie dies als eine Art der Glättung ein Histogramm, um Ihnen eine kontinuierliche wahrscheinlichkeitsdichte-Funktion. Es gibt mehrere Bibliotheken zur Verfügung. Vielleicht die einfachste für univariate Daten scipy ist:
```
>>> import scipy.stats
>>> kde = scipy.stats.gaussian_kde(samples)
>>> kde.pdf(2)
array([ 0.15086911])
```
Um die Wahrscheinlichkeit einer Beobachtung in einem Intervall:
```
>>> kde.integrate_box_1d(1,2)
0.13855869478828692
```
InformationsquelleAutor juanpa.arrivillaga
4

Hier ist eine mögliche Lösung. Zählen Sie die Anzahl der vorkommen der einzelnen Werte der ursprünglichen Liste. Die Zukunft die Wahrscheinlichkeit für einen bestimmten Wert ist seine Vergangenheit, die rate des Auftretens, das ist einfach die # der Vergangenheit vorkommen, dividiert durch die Länge der ursprünglichen Liste. In Python ist es sehr einfach:

x ist die gegebene Liste von Werten
```
from collections import Counter
c = Counter(x)

def probability(a):
    # returns the probability of a given number a
    return float(c[a]) / len(x)
```
InformationsquelleAutor Paul Cornelius

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Schätzung Der Dichte

Berechnung Der Wahrscheinlichkeit