Führen Sie eine OLS-Regression mit Pandas Data Frame aus

Ich habe eine pandas Daten-frame, und ich möchte in der Lage, vorherzusagen, die Werte der Spalte A aus den Werten in den Spalten B und C. Hier ist ein Spielzeug-Beispiel:

import pandas as pd
df = pd.DataFrame({"A": [10,20,30,40,50], 
                   "B": [20, 30, 10, 40, 50], 
                   "C": [32, 234, 23, 23, 42523]})

Im Idealfall würde ich so etwas wie ols(A ~ B + C, data = df) aber wenn ich mir die Beispiele von Algorithmus Bibliotheken, wie scikit-learn es erscheint zum einspeisen der Daten auf das Modell mit einer Liste von Zeilen statt Spalten. Dazu müsste ich Sie neu formatieren die Daten in Listen innerhalb von Listen, das scheint die Niederlage der Zweck der Verwendung von pandas in den ersten Platz. Was ist die pythonic way to run eine OLS-regression (oder jede machine-learning-Algorithmus im Allgemeinen mehr), die auf Daten in einem Pandabären-Daten-frame?

InformationsquelleAutor der Frage Michael | 2013-11-15

108

Ich denke, man kann fast genau das, was Sie dachten, es wäre ideal, mit der statsmodels Paket, das eine pandas' optionale Abhängigkeiten (es wird benutzt, um ein paar Dinge in pandas.stats.)

>>> import pandas as pd
>>> import statsmodels.formula.api as sm
>>> df = pd.DataFrame({"A": [10,20,30,40,50], "B": [20, 30, 10, 40, 50], "C": [32, 234, 23, 23, 42523]})
>>> result = sm.ols(formula="A ~ B + C", data=df).fit()
>>> print result.params
Intercept    14.952480
B             0.401182
C             0.000352
dtype: float64
>>> print result.summary()
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      A   R-squared:                       0.579
Model:                            OLS   Adj. R-squared:                  0.158
Method:                 Least Squares   F-statistic:                     1.375
Date:                Thu, 14 Nov 2013   Prob (F-statistic):              0.421
Time:                        20:04:30   Log-Likelihood:                -18.178
No. Observations:                   5   AIC:                             42.36
Df Residuals:                       2   BIC:                             41.19
Df Model:                           2                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept     14.9525     17.764      0.842      0.489       -61.481    91.386
B              0.4012      0.650      0.617      0.600        -2.394     3.197
C              0.0004      0.001      0.650      0.583        -0.002     0.003
==============================================================================
Omnibus:                          nan   Durbin-Watson:                   1.061
Prob(Omnibus):                    nan   Jarque-Bera (JB):                0.498
Skew:                          -0.123   Prob(JB):                        0.780
Kurtosis:                       1.474   Cond. No.                     5.21e+04
==============================================================================

Warnings:
[1] The condition number is large, 5.21e+04. This might indicate that there are
strong multicollinearity or other numerical problems.

InformationsquelleAutor der Antwort DSM

Hinweis: pandas.stats entfernt wurde mit 0.20.0

Es möglich, dies zu tun mit pandas.stats.ols:

>>> from pandas.stats.api import ols
>>> df = pd.DataFrame({"A": [10,20,30,40,50], "B": [20, 30, 10, 40, 50], "C": [32, 234, 23, 23, 42523]})
>>> res = ols(y=df['A'], x=df[['B','C']])
>>> res
-------------------------Summary of Regression Analysis-------------------------

Formula: Y ~ <B> + <C> + <intercept>

Number of Observations:         5
Number of Degrees of Freedom:   3

R-squared:         0.5789
Adj R-squared:     0.1577

Rmse:             14.5108

F-stat (2, 2):     1.3746, p-value:     0.4211

Degrees of Freedom: model 2, resid 2

-----------------------Summary of Estimated Coefficients------------------------
      Variable       Coef    Std Err     t-stat    p-value    CI 2.5%   CI 97.5%
--------------------------------------------------------------------------------
             B     0.4012     0.6497       0.62     0.5999    -0.8723     1.6746
             C     0.0004     0.0005       0.65     0.5826    -0.0007     0.0014
     intercept    14.9525    17.7643       0.84     0.4886   -19.8655    49.7705
---------------------------------End of Summary---------------------------------

Beachten Sie, dass Sie brauchen, um statsmodels - Paket installiert ist, es wird intern verwendet, durch die pandas.stats.ols Funktion.

InformationsquelleAutor der Antwort Roman Pekar

16

Ich weiß nicht, ob das ist neu in sklearn oder pandasaber ich bin in der Lage, übergeben Sie die Daten-frame direkt zu sklearn ohne Konvertierung in die Daten-Frames in ein numpy-array oder eine andere Daten-Typen.
```
from sklearn import linear_model

reg = linear_model.LinearRegression()
reg.fit(df[['B', 'C']], df['A'])

>>> reg.coef_
array([  4.01182386e-01,   3.51587361e-04])
```
InformationsquelleAutor der Antwort 3novak
13

Dazu müsste ich Sie neu formatieren die Daten in Listen innerhalb von Listen, das scheint die Niederlage der Zweck der Verwendung von pandas in den ersten Platz.

Nein ist es nicht, nur konvertieren in ein NumPy-array:
```
>>> data = np.asarray(df)
```
Dies benötigt Konstante Zeit, weil es erzeugt nur eine Ansicht auf Ihre Daten. Dann füttern Sie es zu scikit-learn:
```
>>> from sklearn.linear_model import LinearRegression
>>> lr = LinearRegression()
>>> X, y = data[:, 1:], data[:, 0]
>>> lr.fit(X, y)
LinearRegression(copy_X=True, fit_intercept=True, normalize=False)
>>> lr.coef_
array([  4.01182386e-01,   3.51587361e-04])
>>> lr.intercept_
14.952479503953672
```
InformationsquelleAutor der Antwort Fred Foo

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.