Scikit-learn - Funktion-Reduzierung durch RFECV und GridSearch. Wo sind die Koeffizienten gespeichert?

Ich bin mit Scikit-learn RFECV zu wählen wichtigsten Funktionen für eine Logistische regression mit Hilfe einer Kreuzvalidierung. Angenommen X ist ein [n,x] dataframe Funktionen, und y steht für die abhängige variable:

from sklearn.pipeline import make_pipeline
from sklearn.grid_search import GridSearchCV
from sklearn.cross_validation import StratifiedKFold
from sklearn import preprocessing
from sklearn.feature_selection import RFECV
import sklearn
import sklearn.linear_model as lm
import sklearn.grid_search as gs

#  Create a logistic regression estimator 
logreg = lm.LogisticRegression()

# Use RFECV to pick best features, using Stratified Kfold
rfecv =   RFECV(estimator=logreg, cv=StratifiedKFold(y, 3), scoring='roc_auc')

# Fit the features to the response variable
rfecv.fit(X, y)

# Put the best features into new df X_new
X_new = rfecv.transform(X)

# 
pipe = make_pipeline(preprocessing.StandardScaler(), lm.LogisticRegression())

# Define a range of hyper parameters for grid search
C_range = 10.**np.arange(-5, 1)
penalty_options = ['l1', 'l2']

skf = StratifiedKFold(y, 3)
param_grid = dict(logisticregression__C=C_range,  logisticregression__penalty=penalty_options)

grid = GridSearchCV(pipe, param_grid, cv=skf, scoring='roc_auc')

grid.fit(X_new, y)

Zwei Fragen:

a) Ist dies den richtigen Prozess für die Funktion, hyper-parameter-Auswahl und-Einbau?

b) Wo finde ich die angepasste Koeffizienten für die ausgewählten Funktionen?

InformationsquelleAutor GPB | 2015-06-25

python scikit-learn

23

Ist dies die richtige Verfahren für die feature Auswahl?
Dies ist EINE der vielen Möglichkeiten von feature-Auswahl. Recursive feature elimination ist ein automatisierter Ansatz, um diese, andere sind aufgelistet in scikit.lernen Dokumentation. Sie haben unterschiedliche vor-und Nachteile, und in der Regel feature-Auswahl wird am besten erreicht, indem man auch mit gesundem Menschenverstand und versucht, Modelle mit verschiedenen Funktionen an. RFE ist eine schnelle Methode, um die Auswahl eines guten Satz von Funktionen, aber nicht unbedingt geben Ihnen letztlich am besten. Durch die Art und Weise, die Sie nicht brauchen, um zu bauen Ihre StratifiedKFold getrennt. Wenn Sie nur die cv parameter cv=3 beide RFECV und GridSearchCV automatisch StratifiedKFold, wenn die y-Werte sind Binär-oder multiclass, die ich gehe davon ist wahrscheinlich der Fall, da Sie mit LogisticRegression.
Sie können auch kombinieren
```
# Fit the features to the response variable
rfecv.fit(X, y)

# Put the best features into new df X_new
X_new = rfecv.transform(X)
```
in
```
X_new = rfecv.fit_transform(X, y)
```
Ist dies den richtigen Prozess für die hyper-parameter-Auswahl?
GridSearchCV ist im Grunde eine automatisierte Möglichkeit, systematisch zu versuchen, eine ganze Reihe von Kombinationen von Modell-Parametern und Auswahl der besten unter diesen nach einigen performance-Metrik. Es ist ein guter Weg zu finden, gut geeignet Parametern, ja.

Ist dies der richtige Prozess für den Einbau?
Ja, dies ist eine gültige Art und Weise der Montage des Modells. Wenn Sie anrufen grid.fit(X_new, y) macht es ein raster von LogisticRegression Schätzer (jeweils mit einem Satz von Parametern, die versucht werden) und passt auf jedes von Ihnen. Es wird halten, der mit der besten performance unter grid.best_estimator_, die Parameter dieser Schätzer in grid.best_params_ und die Leistung Punktzahl für dieses Schätzers unter grid.best_score_. Wird es wieder sich selbst, und nicht der beste Schätzer. Denken Sie daran, dass mit den neuen X-Werte, dass Sie das Modell verwenden, um vorherzusagen, haben Sie auf anwenden, um die Transformation mit den montierten RFECV Modell. So können Sie tatsächlich fügen Sie in diesem Schritt der pipeline.

Wo finde ich die angepasste Koeffizienten für die ausgewählten Funktionen?
Die grid.best_estimator_ Attribut ist ein LogisticRegression Objekt mit all diesen Informationen, so grid.best_estimator_.coef_ hat alle Koeffizienten (und grid.best_estimator_.intercept_ ist der Achsenabschnitt). Beachten Sie, dass in der Lage sein, diese zu bekommen grid.best_estimator_, die refit parameter auf GridSearchCV muss True, aber dies ist der Standard sowieso.
- vielen Dank für diese. Sehr hilfreich ist. Eine Sache, die ich nicht verstehe, ist die Notwendigkeit für die Transformation: Wenn es wählt aus n Funktionen, was genau wird 'verwandelt'? (und, btw, ich bin nicht sicher, wie es bestimmt, diese - es muss eine Schwelle). Meine Heuristik, die ich verwende, ist RFECV wählt die 'n' die besten Funktionen und die Tropfen der anderen....
- Weiter zu meiner Frage oben, ich erhalte die Fehlermeldung: 'Pipeline' - Objekt hat kein Attribut 'coef_' wenn ich versuche, die Ansicht coef_ wie von Ihnen beschrieben vor. Auch neugierig zu wissen, warum Sie behaupten, Geschichtete K-Fache Auswahl für die Klassifizierung des Problems (was es ist): ich dachte, Kfold war die Vorgabe, mit geschichteten Kfold verwendet für unausgeglichene Klassen (die ich habe).
InformationsquelleAutor Irmak Sirer

Im Grunde, Sie tun müssen eine Zug-validation-test-split für die Muster-Daten. Wo Zug-set wird verwendet, um den getunten normalen params, validation set für tuning hyperparameters in der grid-search, - und test-set für die Leistungsbewertung. Hier ist ein Weg, dies zu tun.

from sklearn.datasets import make_classification
from sklearn.pipeline import make_pipeline
from sklearn.grid_search import GridSearchCV
from sklearn.cross_validation import StratifiedKFold
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import RFECV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
import pandas as pd


# simulate some artifical data so that I can show you the result of each intermediate step
# 1000 obs, X dim 1000-by-100, 2 different y labels with unbalanced weights
X, y = make_classification(n_samples=1000, n_features=100, n_informative=5, n_classes=2, weights=[0.1, 0.9])

X.shape

Out[78]: (1000, 100)

y.shape

Out[79]: (1000,)

# Nested Cross-Validation, this returns an train/test index interator
split = StratifiedKFold(y, n_folds=5, shuffle=True, random_state=1)
# to take a look at the split, you will see it has 5 tuples
list(split)
# the 1st fold
train_index = list(split)[0][0]

Out[80]: array([  0,   1,   2, ..., 997, 998, 999])

test_index = list(split)[0][1]

Out[81]: array([  5,  12,  17, ..., 979, 982, 984])

# let's play with just one iteration for now
# your pipe
pipe = make_pipeline(StandardScaler(), LogisticRegression())

# set up params
params_space = dict(logisticregression__C=10.0**np.arange(-5,1),
                    logisticregression__penalty=['l1', 'l2'],
                    logisticregression__class_weight=[None, 'auto'])

# apply your grid search only in train data but with a futher cv step
# so original train set has [gscv_train, gscv_validation] where the latter is used to tune hyperparameters
# all performance is still evaluated in a separated held-out 'test' set
grid = GridSearchCV(pipe, params_space, cv=StratifiedKFold(y[train_index], n_folds=3), scoring='roc_auc')
# fit the data on train set
grid.fit(X[train_index], y[train_index])

# to get the params of your estimator, call your gscv
grid.best_estimator_
Out[82]: 
Pipeline(steps=[('standardscaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('logisticregression', LogisticRegression(C=0.10000000000000001, class_weight=None, dual=False,
          fit_intercept=True, intercept_scaling=1, max_iter=100,
          multi_class='ovr', penalty='l1', random_state=None,
          solver='liblinear', tol=0.0001, verbose=0))])


# the performance in validation set
grid.grid_scores_
Out[83]: 
[mean: 0.50000, std: 0.00000, params: {'logisticregression__C': 1.0000000000000001e-05, 'logisticregression__class_weight': None, 'logisticregression__penalty': 'l1'},
 mean: 0.87975, std: 0.01753, params: {'logisticregression__C': 1.0000000000000001e-05, 'logisticregression__class_weight': None, 'logisticregression__penalty': 'l2'},
 mean: 0.50000, std: 0.00000, params: {'logisticregression__C': 1.0000000000000001e-05, 'logisticregression__class_weight': 'auto', 'logisticregression__penalty': 'l1'},
 mean: 0.87985, std: 0.01746, params: {'logisticregression__C': 1.0000000000000001e-05, 'logisticregression__class_weight': 'auto', 'logisticregression__penalty': 'l2'},
 mean: 0.50000, std: 0.00000, params: {'logisticregression__C': 0.0001, 'logisticregression__class_weight': None, 'logisticregression__penalty': 'l1'},
 mean: 0.88033, std: 0.01707, params: {'logisticregression__C': 0.0001, 'logisticregression__class_weight': None, 'logisticregression__penalty': 'l2'},
 mean: 0.50000, std: 0.00000, params: {'logisticregression__C': 0.0001, 'logisticregression__class_weight': 'auto', 'logisticregression__penalty': 'l1'},
 mean: 0.87975, std: 0.01732, params: {'logisticregression__C': 0.0001, 'logisticregression__class_weight': 'auto', 'logisticregression__penalty': 'l2'},
 mean: 0.50000, std: 0.00000, params: {'logisticregression__C': 0.001, 'logisticregression__class_weight': None, 'logisticregression__penalty': 'l1'},
 mean: 0.88245, std: 0.01732, params: {'logisticregression__C': 0.001, 'logisticregression__class_weight': None, 'logisticregression__penalty': 'l2'},
 mean: 0.50000, std: 0.00000, params: {'logisticregression__C': 0.001, 'logisticregression__class_weight': 'auto', 'logisticregression__penalty': 'l1'},
 mean: 0.87955, std: 0.01686, params: {'logisticregression__C': 0.001, 'logisticregression__class_weight': 'auto', 'logisticregression__penalty': 'l2'},
 mean: 0.50000, std: 0.00000, params: {'logisticregression__C': 0.01, 'logisticregression__class_weight': None, 'logisticregression__penalty': 'l1'},
 mean: 0.88746, std: 0.02318, params: {'logisticregression__C': 0.01, 'logisticregression__class_weight': None, 'logisticregression__penalty': 'l2'},
 mean: 0.50000, std: 0.00000, params: {'logisticregression__C': 0.01, 'logisticregression__class_weight': 'auto', 'logisticregression__penalty': 'l1'},
 mean: 0.87990, std: 0.01634, params: {'logisticregression__C': 0.01, 'logisticregression__class_weight': 'auto', 'logisticregression__penalty': 'l2'},
 mean: 0.94002, std: 0.02959, params: {'logisticregression__C': 0.10000000000000001, 'logisticregression__class_weight': None, 'logisticregression__penalty': 'l1'},
 mean: 0.87419, std: 0.02174, params: {'logisticregression__C': 0.10000000000000001, 'logisticregression__class_weight': None, 'logisticregression__penalty': 'l2'},
 mean: 0.93508, std: 0.03101, params: {'logisticregression__C': 0.10000000000000001, 'logisticregression__class_weight': 'auto', 'logisticregression__penalty': 'l1'},
 mean: 0.87091, std: 0.01860, params: {'logisticregression__C': 0.10000000000000001, 'logisticregression__class_weight': 'auto', 'logisticregression__penalty': 'l2'},
 mean: 0.88013, std: 0.03246, params: {'logisticregression__C': 1.0, 'logisticregression__class_weight': None, 'logisticregression__penalty': 'l1'},
 mean: 0.85247, std: 0.02712, params: {'logisticregression__C': 1.0, 'logisticregression__class_weight': None, 'logisticregression__penalty': 'l2'},
 mean: 0.88904, std: 0.02906, params: {'logisticregression__C': 1.0, 'logisticregression__class_weight': 'auto', 'logisticregression__penalty': 'l1'},
 mean: 0.85197, std: 0.02097, params: {'logisticregression__C': 1.0, 'logisticregression__class_weight': 'auto', 'logisticregression__penalty': 'l2'}]


# or the best score among them
grid.best_score_
Out[84]: 0.94002188482393367

# now after finishing training the estimator, we now predict in test set
y_pred = grid.predict(X[test_index])
# since LogisticRegression is probability based model, we have the luxury to get the propability for each obs
y_pred_probs = grid.predict_proba(X[test_index])

Out[87]: 
array([[ 0.0632,  0.9368],
       [ 0.0236,  0.9764],
       [ 0.0227,  0.9773],
       ..., 
       [ 0.0108,  0.9892],
       [ 0.2903,  0.7097],
       [ 0.0113,  0.9887]])

# to get evaluation result, 
print(classification_report(y[test_index], y_pred))

             precision    recall  f1-score   support

          0       0.93      0.59      0.72        22
          1       0.95      0.99      0.97       179

avg / total       0.95      0.95      0.95       201



# to put all things together with the nested cross-validation
# generate a pandas dataframe to store prediction probability
kfold_df = pd.DataFrame(0.0, index=np.arange(len(y)), columns=unique(y))
report = []  # to store classificaiton report

split = StratifiedKFold(y, n_folds=5, shuffle=True, random_state=1)

for train_index, test_index in split:

    grid = GridSearchCV(pipe, params_space, cv=StratifiedKFold(y[train_index], n_folds=3), scoring='roc_auc')

    grid.fit(X[train_index], y[train_index])

    y_pred_probs = grid.predict_proba(X[test_index])
    kfold_df.iloc[test_index, :] = y_pred_probs

    y_pred = grid.predict(X[test_index])
    report.append(classification_report(y[test_index], y_pred))

# your result
print(kfold_df)

Out[88]: 
          0       1
0    0.1710  0.8290
1    0.0083  0.9917
2    0.2049  0.7951
3    0.0038  0.9962
4    0.0536  0.9464
5    0.0632  0.9368
6    0.1243  0.8757
7    0.1150  0.8850
8    0.0796  0.9204
9    0.4096  0.5904
..      ...     ...
990  0.0505  0.9495
991  0.2128  0.7872
992  0.0270  0.9730
993  0.0434  0.9566
994  0.8078  0.1922
995  0.1452  0.8548
996  0.1372  0.8628
997  0.0127  0.9873
998  0.0935  0.9065
999  0.0065  0.9935

[1000 rows x 2 columns]


for r in report:
    print(r)

for r in report:
    print(r)
             precision    recall  f1-score   support

          0       0.93      0.59      0.72        22
          1       0.95      0.99      0.97       179

avg / total       0.95      0.95      0.95       201

             precision    recall  f1-score   support

          0       0.86      0.55      0.67        22
          1       0.95      0.99      0.97       179

avg / total       0.94      0.94      0.93       201

             precision    recall  f1-score   support

          0       0.89      0.38      0.53        21
          1       0.93      0.99      0.96       179

avg / total       0.93      0.93      0.92       200

             precision    recall  f1-score   support

          0       0.88      0.33      0.48        21
          1       0.93      0.99      0.96       178

avg / total       0.92      0.92      0.91       199

             precision    recall  f1-score   support

          0       0.88      0.33      0.48        21
          1       0.93      0.99      0.96       178

avg / total       0.92      0.92      0.91       199

Dies ist sehr nützlich und vielen Dank für den code! Ich bin nicht sicher, ob ich verstehe, warum ich brauchen, um einige Daten bei der Nutzung Lebenslauf: ich dachte, der ganze Zweck des CV war, zu vermeiden, hält die Daten wie in train_test_split.
interessante Beobachtung, der code funktioniert für den Fall, wo die df generiert wurde, aber ich brauchte, um zu verwenden '.iloc' richtig index meine df.
Vielen Dank für den Hinweis auf diese mögliche inkonsistente Verhalten. Ich sehe Ihren Punkt: Wenn Sie arbeiten mit einem Pandabären.DataFrame, dann die default-int index beigefügt, um die df könnte dazu führen, eine unerwartete Auswahl an split. Um dies zu vermeiden, als Sie sagte, Sie können gehen Sie df, aber ändern .loc zu iloc.
Der Zweck der Lebenslauf ist die Auswahl des besten Algorithmus. Es ist immer noch eine Art der Optimierung (obwohl nicht in der standard-konvexe Optimierung, verwenden wir eine erschöpfende grid-search).
Die Allgemeine Regel ist, dass, wenn Sie die Optimierung Ihrer Algorithmus, der dann ein held-out-dataset verfügbar sein muss, um die Leistung zu bewerten (NICHT-Modell-Auswahl, aber nur die Auswertung, also für das test-dataset, Sie gelten nur gerade einen Algorithmus, anstatt viele von Ihnen). Der Grund für verschachtelte Lebenslauf ist hier, dass das standard-Modell eine Optimierung auf interne Parameter, die Validierung-set dient zur Auswahl der besten hyper-parameter, und dann eine abschließende test-set dient zur Auswertung.
Für einige Verwandte Diskussion, siehe stats.stackexchange.com/questions/11602/...
vielen Dank für die Klarstellung und zusätzliche Ressourcen. Eine weitere Frage zu deinem code oben: es scheint, dass Sie die Bewertung Modell passt für die hyper-parameter set für jedes Fach getrennt: z.B., jede Falte in der Schleife kann einen anderen hyper-parameter ausgewählt haben (über raster.passen innerhalb der Schleife) machen die Klassifizierung Berichte über die gesamte Wahrscheinlichkeit Satz ungenau. Bin ich dies richtig interpretieren? Wenn ja, wie schlagen Sie vor, wir korrigieren? Und schließlich: wie würden Sie vorschlagen, ich Verbinde dies mit dem feature-Reduktion?
Mit kfold_df.iloc[test_index, :] = y_pred_probs zu füllen, die fold_df in der for-Schleife: wenn die gleichen "test_index" erschien mehrere Male, werden die alten Ergebnisse überschrieben werden durch die neuen Ergebnisse? Dank

InformationsquelleAutor Jianxun Li

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.