Zeigen, Konfidenzintervalle und Grenzen in der Vorhersage scatter-plot

Ich habe zwei arrays von Daten, wie Höhe und Gewicht:

import numpy as np, matplotlib.pyplot as plt

heights = np.array([50,52,53,54,58,60,62,64,66,67,68,70,72,74,76,55,50,45,65])
weights = np.array([25,50,55,75,80,85,50,65,85,55,45,45,50,75,95,65,50,40,45])

plt.plot(heights,weights,'bo')
plt.show()

Ich gerne produzieren möchte, der plot ähnlich dieser:

http://www.sas.com/en_us/software/analytics/stat.html#m=screenshot6

Irgendwelche Ideen, sehr geschätzt wird.

InformationsquelleAutor Eric Bal | 2014-11-27

Hier ist, was ich zusammen gestellt habe. Ich habe versucht, genau zu emulieren deinem screenshot.

Gegeben

Einige detaillierte helper-Funktionen zum Plotten von Konfidenzintervallen.

import numpy as np
import scipy as sp
import scipy.stats as stats
import matplotlib.pyplot as plt


%matplotlib inline


def plot_ci_manual(t, s_err, n, x, x2, y2, ax=None):
    """Return an axes of confidence bands using a simple approach.

    Notes
    -----
    .. math:: \left| \: \hat{\mu}_{y|x0} - \mu_{y|x0} \: \right| \; \leq \; T_{n-2}^{.975} \; \hat{\sigma} \; \sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n{(x_i-\bar{x})^2}}}
    .. math:: \hat{\sigma} = \sqrt{\sum_{i=1}^n{\frac{(y_i-\hat{y})^2}{n-2}}}

    References
    ----------
    .. [1] M. Duarte.  "Curve fitting," Jupyter Notebook.
       http://nbviewer.ipython.org/github/demotu/BMC/blob/master/notebooks/CurveFitting.ipynb

    """
    if ax is None:
        ax = plt.gca()

    ci = t * s_err * np.sqrt(1/n + (x2 - np.mean(x))**2 / np.sum((x - np.mean(x))**2))
    ax.fill_between(x2, y2 + ci, y2 - ci, color="#b9cfe7", edgecolor="")

    return ax


def plot_ci_bootstrap(xs, ys, resid, nboot=500, ax=None):
    """Return an axes of confidence bands using a bootstrap approach.

    Notes
    -----
    The bootstrap approach iteratively resampling residuals.
    It plots `nboot` number of straight lines and outlines the shape of a band.
    The density of overlapping lines indicates improved confidence.

    Returns
    -------
    ax : axes
        - Cluster of lines
        - Upper and Lower bounds (high and low) (optional)  Note: sensitive to outliers

    References
    ----------
    .. [1] J. Stults. "Visualizing Confidence Intervals", Various Consequences.
       http://www.variousconsequences.com/2010/02/visualizing-confidence-intervals.html

    """ 
    if ax is None:
        ax = plt.gca()

    bootindex = sp.random.randint

    for _ in range(nboot):
        resamp_resid = resid[bootindex(0, len(resid) - 1, len(resid))]
        # Make coeffs of for polys
        pc = sp.polyfit(xs, ys + resamp_resid, 1)                   
        # Plot bootstrap cluster
        ax.plot(xs, sp.polyval(pc, xs), "b-", linewidth=2, alpha=3.0 / float(nboot))

    return ax

Code

# Computations ----------------------------------------------------------------
# Raw Data
heights = np.array([50,52,53,54,58,60,62,64,66,67,68,70,72,74,76,55,50,45,65])
weights = np.array([25,50,55,75,80,85,50,65,85,55,45,45,50,75,95,65,50,40,45])

x = heights
y = weights

# Modeling with Numpy
def equation(a, b):
    """Return a 1D polynomial."""
    return np.polyval(a, b) 

p, cov = np.polyfit(x, y, 1, cov=True)                     # parameters and covariance from of the fit of 1-D polynom.
y_model = equation(p, x)                                   # model using the fit parameters; NOTE: parameters here are coefficients

# Statistics
n = weights.size                                           # number of observations
m = p.size                                                 # number of parameters
dof = n - m                                                # degrees of freedom
t = stats.t.ppf(0.975, n - m)                              # used for CI and PI bands

# Estimates of Error in Data/Model
resid = y - y_model                           
chi2 = np.sum((resid / y_model)**2)                        # chi-squared; estimates error in data
chi2_red = chi2 / dof                                      # reduced chi-squared; measures goodness of fit
s_err = np.sqrt(np.sum(resid**2) / dof)                   # standard deviation of the error


# Plotting --------------------------------------------------------------------
fig, ax = plt.subplots(figsize=(8, 6))

# Data
ax.plot(
    x, y, "o", color="#b9cfe7", markersize=8, 
    markeredgewidth=1, markeredgecolor="b", markerfacecolor="None"
)

# Fit
ax.plot(x, y_model, "-", color="0.1", linewidth=1.5, alpha=0.5, label="Fit")  

x2 = np.linspace(np.min(x), np.max(x), 100)
y2 = equation(p, x2)

# Confidence Interval (select one)
plot_ci_manual(t, s_err, n, x, x2, y2, ax=ax)
#plot_ci_bootstrap(x, y, resid, ax=ax)

# Prediction Interval
pi = t * s_err * np.sqrt(1 + 1/n + (x2 - np.mean(x))**2 / np.sum((x - np.mean(x))**2))   
ax.fill_between(x2, y2 + pi, y2 - pi, color="None", linestyle="--")
ax.plot(x2, y2 - pi, "--", color="0.5", label="95% Prediction Limits")
ax.plot(x2, y2 + pi, "--", color="0.5")


# Figure Modifications --------------------------------------------------------
# Borders
ax.spines["top"].set_color("0.5")
ax.spines["bottom"].set_color("0.5")
ax.spines["left"].set_color("0.5")
ax.spines["right"].set_color("0.5")
ax.get_xaxis().set_tick_params(direction="out")
ax.get_yaxis().set_tick_params(direction="out")
ax.xaxis.tick_bottom()
ax.yaxis.tick_left() 

# Labels
plt.title("Fit Plot for Weight", fontsize="14", fontweight="bold")
plt.xlabel("Height")
plt.ylabel("Weight")
plt.xlim(np.min(x) - 1, np.max(x) + 1)

# Custom legend
handles, labels = ax.get_legend_handles_labels()
display = (0, 1)
anyArtist = plt.Line2D((0, 1), (0, 0), color="#b9cfe7")    # create custom artists
legend = plt.legend(
    [handle for i, handle in enumerate(handles) if i in display] + [anyArtist],
    [label for i, label in enumerate(labels) if i in display] + ["95% Confidence Limits"],
    loc=9, bbox_to_anchor=(0, -0.21, 1., 0.102), ncol=3, mode="expand"
)  
frame = legend.get_frame().set_edgecolor("0.5")

# Save Figure
plt.tight_layout()
plt.savefig("filename.png", bbox_extra_artists=(legend,), bbox_inches="tight")

plt.show()

Ausgabe

Mit plot_ci_manual():

Zeigen, Konfidenzintervalle und Grenzen in der Vorhersage scatter-plot

Mit plot_ci_bootstrap():

Zeigen, Konfidenzintervalle und Grenzen in der Vorhersage scatter-plot

Hoffe, das hilft. Cheers.

Details

Ich glaube, dass da die Legende ist außerhalb der Abbildung, es nicht zeigen, bis in matplotblib popup-Fenster. Es funktioniert gut in Jupyter mit %maplotlib inline.
Den primären Konfidenzintervall code (plot_ci_manual()) angepasst ist, von einem anderen Quelle produziert einen plot ähnlich wie der OP. Sie können wählen Sie eine fortgeschrittene Technik namens Rest-bootstrapping durch uncommenting die zweite option plot_ci_bootstrap().

Updates

Dieser post wurde aktualisiert mit dem überarbeiteten code kompatibel mit Python 3.
stats.t.ppf() akzeptiert der unteren tail-Wahrscheinlichkeit. Nach der folgenden Ressourcen t = sp.stats.t.ppf(0.95, n - m) wurde korrigiert, um t = sp.stats.t.ppf(0.975, n - m) zum Ausdruck, dass eine zweiseitige 95% t-Statistik (oder der einseitigen 97.5% t-Statistik).
- original-notebook und Gleichung
- Statistik Referenz (danke @Bonlenfum und @tryptofan)
- überprüft t-Wert dof=17
y2 wurde aktualisiert und reagieren flexibel mit einem bestimmten Modell (@regeneration).
Eine abstrahierte equation - Funktion wurde Hinzugefügt, um wickeln Sie die Modell-Funktion. Nicht-lineare Regressionen sind möglich aber nicht nachgewiesen. Ergänzen Sie geeignete Variablen benötigt (danke @PJW).

Siehe Auch

Dieser Beitrag auf Plotten bands mit statsmodels Bibliothek.
Dieses tutorial auf Plotten bands und computing-Konfidenzintervalle mit uncertainties Bibliothek (installieren mit Vorsicht in einer separaten Umgebung).

Ausgezeichnet! ausgezeichnet, mein Kopfgeld. Ich möchte auch zeigen, Legende für Konfidenzintervalle und Vorhersage Grenzen wie hier: sas.com/en_us/software/analytics/stat.html#m=screenshot6
Ich fügte hinzu, die Handlung, die ich von diesem code mit IPython. Ich denke, die Legende zeigt wie du willst. Es ist unklar, warum pyplot wird es nicht angezeigt, aber ich empfehle, mit IPython zu Plotten und speichern von zahlen. Wenn Sie nicht über IPython, fügte ich ein paar Zeilen am unteren Rand zu speichern, ein image in das Arbeitsverzeichnis. Das Bild sollte zeigen, die Legenden, wie oben gesehen. Viel Glück.
Wie würde ich das ändern, diese für eine 2nd-order polynomial fit? Die bestehende Methode nur Grundstücke geraden für die Vorhersage Grenzen.
Unter "# Modellierung mit Numpy", ich glaube, Sie können ändern Sie die polynomordnung von 1 zu 2, also p, cov = np.polyfit(x,y,2,cov=True).
...immer noch Grundstücke, die Vorhersage Grenzen als gerade Linien... auch ich habe Schwierigkeiten mit dieser Methode bei wiederholten (x,y) - paar Einträge. Wenn Sie irgendeine Rückmeldung über meine Artikel zu posten, es wäre sehr geschätzt werden! :stackoverflow.com/questions/34998772/...
....die PIs und der GUS produziert von statsmodels sind nichtlinear. (beachten Sie, dass das Polynom passt noch eine lineare Gleichung). Siehe mein link oben. Leider sind die zugrunde liegenden Gleichungen sind versteckt in ein wenig eine black box mit Statsmodels und scheint zu brechen mit meinem bestimmten Datensatz. Vielen Dank für das feedback!
die t_ratio hier definiert ist, für einen one-tailed, sollte es nicht werden: t = stats.t.ppf((1+0.95)/2, n - m) ?
wirklich nette Antwort. Nur eine kleine Spitzfindigkeit - sollte nicht der kritische Wert der t-Verteilung werden 0.975 für ein 95% - Konfidenzintervall? (die Hälfte des Intervalls ist oben und halb unten) siehe z.B. stat.yale.edu/Courses/1997-98/101/confint.htm
Ich entschuldige mich. Ich habe aktualisiert die Antwort. Mit kleinen Substitutionen ich habe es die Arbeit mit nicht-linearen (exponentiellen) Daten. Ich habe die Korrekturen bezogen auf den Beitrag und die Kommentare. Danke.
Hi pylang, das ist sehr interessant-code. Ich Frage mich, ob Sie möglicherweise könnte hinzufügen, einige Zeilen zu drucken, die Unsicherheiten in der Steigung und y-Achsenabschnitt der Regressionsgerade auf dem Grundstück. Mit freundlichen GRÜßEN,
Es gibt tools, die helfen, Unsicherheiten. scipy.stats.linregress bietet grundlegende statistische Informationen. Um mehr zu sehen umfangreiche Statistiken, versuchen Ordinary Least Squares (OLS) regression mit statsmodels library. Es gibt auch uncertainties einige behaupten, die Arbeit, aber ich habe festgestellt, dass es in Konflikt mit meiner Umgebung; mit Vorsicht zu verwenden.
Danke, In der Zeile von deinem Beispiel, ich habe versucht, p[0] und sqrt(cov[0,0]), um die Steigung und p[1] und sqrt(cov[1,1]), um den y-Achsenabschnitt. Ist dies die richtige Art der Annäherung an den Sollwert und 1sigma error im Kontext von verstreuten Datenpunkten ohne errobar für jeden Punkt?
Sofern die Unsicherheiten korreliert sind, berechnen Sie die Standardabweichung aus der Quadratwurzel der Kovarianz-matrix. machinelearningmastery.com/... kann ich nicht bestätigen Ihre spezifische Anwendung.

InformationsquelleAutor pylang

9

Können Sie seaborn-plotting-Bibliothek zum erstellen von plots, wie Sie wollen.
```
In [18]: import seaborn as sns

In [19]: heights = np.array([50,52,53,54,58,60,62,64,66,67, 68,70,72,74,76,55,50,45,65])
    ...: weights = np.array([25,50,55,75,80,85,50,65,85,55,45,45,50,75,95,65,50,40,45])
    ...: 

In [20]: sns.regplot(heights,weights, color ='blue')
Out[20]: <matplotlib.axes.AxesSubplot at 0x13644f60>
```
- Vielen Dank, von Ihnen positiv bewertet werden! Könnte Ihnen zeigen, wie kann ich den plot-Konfidenzintervalle sowie?
- Sie können einen Blick auf die Dokumentation für die oben beschriebene Funktion hier stanford.edu/~mwaskom/software/seaborn//erzeugt.... Die transluzenten Bänder gezeigt, die rund um die Regressionsgerade ist das Konfidenzintervall
- Ich denke, er ist unter Bezugnahme auf das Vorhersage-Intervallen.
- Dies tut nur die halbe Arbeit, aber es hat als one-liner, so ist es enorm lohnt.
InformationsquelleAutor user1319128
1

Einem update zu pylang die große Antwort in Reaktion auf PJW: wenn Sie versuchen zu passen, der größer ist als Polynom Erster Ordnung, die Berechnung von y2 muss aktualisiert werden von:
```
y2 = np.linspace(np.min(y_model), np.max(y_model), 100)
```
zu
```
y2 = np.polyval(p,x2)
```
Den original-code funktioniert nur für ein Polynom Erster Ordnung (das ist einfach eine Linie).

In Reaktion auf tryptofan Kommentar, ja, um eine 95% two-tailed t-Statistik sollte der code aktualisiert werden
```
t = stats.t.ppf(0.95, n - m)
```
zu
```
t = stats.t.ppf(1-0.025, n - m) 
```
InformationsquelleAutor regeneration
0

Dank pylang für die Antwort. Ich hatte Probleme mit der Berechnung von y2, wenn die Regressionsgerade ist fallend, das Vertrauen iterval nicht. Mit der vorliegenden Berechnung von y2, die Vorhersage y_model immer Spannweite von min zu max. Daher änderte ich die Berechnung von y2 zu:
```
y2 = np.linspace(y_model[x.index(np.min(x))], y_model[x.index(np.max(x))], 100)
```
InformationsquelleAutor mf13

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.