Mit predict() auf statsmodels.Formel Daten mit unterschiedlichen Spaltennamen mit Python Pandas

Habe ich einige Regressionen Ergebnisse aus Laufenden statsmodels.formula.api.ols. Hier ist ein Spielzeug-Beispiel:

import pandas as pd
import numpy as np
import statsmodels.formula.api as smf

example_df = pd.DataFrame(np.random.randn(10, 3))
example_df.columns = ["a", "b", "c"]
fit = smf.ols('a ~ b', example_df).fit()

Möchte ich das Modell auf Spalte c, aber naive Versuch, das zu tun funktioniert nicht:

fit.predict(example_df["c"])

Hier ist die exception die ich bekomme:

PatsyError: Error evaluating factor: NameError: name 'b' is not defined
    a ~ b
        ^

Kann ich etwas grob, und erstellen Sie eine neue, temporäre DataFrame in die ich benennen Sie die Spalte von Interesse:

example_df2 = pd.DataFrame(example_df["c"])
example_df2.columns = ["b"]
fit.predict(example_df2)

Gibt es eine bessere Möglichkeit, dies zu tun? (kurze Umstellung der statsmodels.api statt statsmodels.formula.api)

InformationsquelleAutor kuzzooroo | 2015-03-12

3

Können Sie ein Wörterbuch:
```
>>> fit.predict({"b": example_df["c"]})
array([ 0.84770672, -0.35968269,  1.19592387, -0.77487812, -0.98805215,
        0.90584753, -0.15258093,  1.53721494, -0.26973941,  1.23996892])
```
oder erstellen Sie ein numpy-array für die Vorhersage, obwohl das viel komplizierter, wenn es kategorische erklärende Variablen:
```
>>> fit.predict(sm.add_constant(example_df["c"].values), transform=False)
array([ 0.84770672, -0.35968269,  1.19592387, -0.77487812, -0.98805215,
        0.90584753, -0.15258093,  1.53721494, -0.26973941,  1.23996892])
```
- Haben Sie finden diese in der Dokumentation irgendwo? Versuch nicht wieder alles bis.
- Ich könnte Sie es gesehen haben in einem der notebook-Beispiele. Aber patsy ist der Umgang mit der Formel Informations-und Aufbau der design-matrix, und in den meisten oder in allen Fällen können die Daten angegeben werden, die als pandas dataframe oder andere Wörterbuch der Daten-Struktur. Diese werden nicht explizit dokumentiert für jede Methode oder Modell.
InformationsquelleAutor Josef
1

Wenn Sie ersetzen Ihre fit definition mit dieser Zeile:
```
fit = smf.ols('example_df.a ~ example_df.b', example_df).fit()
```
Sollte es funktionieren.
```
fit.predict(example_df["c"])

array([-0.52664491, -0.53174346, -0.52172484, -0.52819856, -0.5253607 ,
       -0.52391618, -0.52800043, -0.53350634, -0.52362988, -0.52520823])
```
- Oder passen = smf.ols("example_df['a'] ~ example_df['b']", example_df).fit (), wenn du lieber die andere Art der Spalte Referenz.
- Ich bin nicht immer die richtigen Ergebnisse mit dieser, mit der version von patsy und pandas, die ich installiert habe. Überprüfen Sie mit example_df["c"] * fit.params[1] + fit.params[0].
- Dies scheint nicht für mich arbeiten. fit.predict zu sein scheint, ignoriert das argument. Bekomme ich die gleiche Ausgabe wenn ich fit.predict(None).
InformationsquelleAutor Primer

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.