GridSearchCV extrem langsam auf kleine dataset in scikit-learn

Dies ist ungerade. Kann ich erfolgreich führen Sie das Beispiel grid_search_digits.py. Allerdings bin ich nicht in der Lage zu tun, ein grid-search auf meinen eigenen Daten.

Habe ich Folgendes setup:

import sklearn
from sklearn.svm import SVC
from sklearn.grid_search import GridSearchCV
from sklearn.cross_validation import LeaveOneOut
from sklearn.metrics import auc_score

# ... Build X and y ....

tuned_parameters = [{'kernel': ['rbf'], 'gamma': [1e-3, 1e-4],
                     'C': [1, 10, 100, 1000]},
                    {'kernel': ['linear'], 'C': [1, 10, 100, 1000]}]

loo = LeaveOneOut(len(y))
clf = GridSearchCV(SVC(C=1), tuned_parameters, score_func=auc_score)
clf.fit(X, y, cv=loo)
....
print clf.best_estimator_
....

Aber ich habe nie übergeben bekommen clf.fit (ich ließ es laufen für ~1 Stunde).

Ich habe versucht auch mit

clf.fit(X, y, cv=10)

und mit

skf = StratifiedKFold(y,2)
clf.fit(X, y, cv=skf)

und hatte das gleiche problem (es endet nie die clf.fit-Anweisung). Meine Daten sind einfach:

> X.shape
(27,26)

> y.shape
27

> numpy.sum(y)
5

> y.dtype
dtype('int64')


>?y
Type:       ndarray
String Form:[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1]
Length:     27
File:       /home/jacob04/opt/python/numpy/numpy-1.7.1/lib/python2.7/site-
packages/numpy/__init__.py                                                
Docstring:  <no docstring>
Class Docstring:
ndarray(shape, dtype=float, buffer=None, offset=0,
        strides=None, order=None)

> ?X
Type:       ndarray
String Form:
       [[ -3.61238468e+03  -3.61253920e+03  -3.61290196e+03  -3.61326679e+03
           7.84590361e+02   0.0000 <...> 0000e+00   2.22389150e+00   2.53252959e+00 
           2.11606216e+00  -1.99613432e+05  -1.99564828e+05]]
Length:     27
File:       /home/jacob04/opt/python/numpy/numpy-1.7.1/lib/python2.7/site-
packages/numpy/__init__.py                                                
Docstring:  <no docstring>
Class Docstring:
ndarray(shape, dtype=float, buffer=None, offset=0,
        strides=None, order=None)

Ist dies alles mit der neuesten version von scikit-learn (0.13.1) und:

$ pip freeze
Cython==0.19.1
PIL==1.1.7
PyXB==1.2.2
PyYAML==3.10
argparse==1.2.1
distribute==0.6.34
epc==0.0.5
ipython==0.13.2
jedi==0.6.0
matplotlib==1.3.x
nltk==2.0.4
nose==1.3.0
numexpr==2.1
numpy==1.7.1
pandas==0.11.0
pyparsing==1.5.7
python-dateutil==2.1
pytz==2013b
rpy2==2.3.1
scikit-learn==0.13.1
scipy==0.12.0
sexpdata==0.0.3
six==1.3.0
stemming==1.0.1
-e git+https://github.com/PyTables/PyTables.git@df7b20444b0737cf34686b5d88b4e674ec85575b#egg=tables-dev
tornado==3.0.1
wsgiref==0.1.2

Das seltsame ist, dass die Montage einer einzelnen SVM ist extrem schnell:

>  %timeit clf2 = svm.SVC(); clf2.fit(X,y)                                                                                                             
1000 loops, best of 3: 328 us per loop

Update

Habe ich bemerkt, dass wenn ich pre-Skalierung der Daten mit:

from sklearn import preprocessing
X = preprocessing.scale(X)

die grid-Suche ist extrem schnell.

Warum? Warum GridSearchCV ist so empfindlich auf die Skalierung während einer regulären svm.SVC().fit nicht?

InformationsquelleAutor Amelio Vazquez-Reina | 2013-07-03

Wie bereits erwähnt,
für SVM-basierte Klassifikatoren ( wie y == np.int* )
Vorverarbeitung ist ein muss, ansonsten ist der ML-Schätzer ist die Vorhersage-Fähigkeit verloren, direkt schräg features " Einfluss auf eine Entscheidung-Funktion.

Als widersprochen und die Verarbeitung mal:

versuchen, um besser anzuzeigen, was Ihre AI/ML-Modell Overfit/Verallgemeinerung [C,gamma] Landschaft
versuchen, hinzufügen Ausführlichkeit in der ersten AI/ML-process-tuning
versuchen, hinzufügen n_jobs in der Anzahl Knirschen
versuchen, hinzufügen von Grid-Computing bewegen, in Ihre Berechnung Ansatz, wenn die Skala erfordert

aGrid = aML_GS.GridSearchCV( aClassifierOBJECT, param_grid = aGrid_of_parameters, cv = cv, n_jobs = n_JobsOnMultiCpuCores, verbose = 5 )

Manchmal, die GridSearchCV() können in der Tat eine riesige Menge an CPU-Zeit /CPU-poolOfRESOURCEs, auch nach all den oben genannten Tipps sind verwendet.

Also, ruhig bleiben und keine Panik, wenn Sie sicher sind, dass das Feature-Engineering, Daten-Vernunft & FeatureDOMAIN Vorverarbeitung korrekt ausgeführt wurde.

[GridSearchCV] ................ C=16777216.0, gamma=0.5, score=0.761619 -62.7min
[GridSearchCV] C=16777216.0, gamma=0.5 .........................................
[GridSearchCV] ................ C=16777216.0, gamma=0.5, score=0.792793 -64.4min
[GridSearchCV] C=16777216.0, gamma=1.0 .........................................
[GridSearchCV] ............... C=16777216.0, gamma=1.0, score=0.793103 -116.4min
[GridSearchCV] C=16777216.0, gamma=1.0 .........................................
[GridSearchCV] ............... C=16777216.0, gamma=1.0, score=0.794603 -205.4min
[GridSearchCV] C=16777216.0, gamma=1.0 .........................................
[GridSearchCV] ............... C=16777216.0, gamma=1.0, score=0.771772 -200.9min
[GridSearchCV] C=16777216.0, gamma=2.0 .........................................
[GridSearchCV] ............... C=16777216.0, gamma=2.0, score=0.713643 -446.0min
[GridSearchCV] C=16777216.0, gamma=2.0 .........................................
[GridSearchCV] ............... C=16777216.0, gamma=2.0, score=0.743628 -184.6min
[GridSearchCV] C=16777216.0, gamma=2.0 .........................................
[GridSearchCV] ............... C=16777216.0, gamma=2.0, score=0.761261 -281.2min
[GridSearchCV] C=16777216.0, gamma=4.0 .........................................
[GridSearchCV] ............... C=16777216.0, gamma=4.0, score=0.670165 -138.7min
[GridSearchCV] C=16777216.0, gamma=4.0 .........................................
[GridSearchCV] ................ C=16777216.0, gamma=4.0, score=0.760120 -97.3min
[GridSearchCV] C=16777216.0, gamma=4.0 .........................................
[GridSearchCV] ................ C=16777216.0, gamma=4.0, score=0.732733 -66.3min
[GridSearchCV] C=16777216.0, gamma=8.0 .........................................
[GridSearchCV] ................ C=16777216.0, gamma=8.0, score=0.755622 -13.6min
[GridSearchCV] C=16777216.0, gamma=8.0 .........................................
[GridSearchCV] ................ C=16777216.0, gamma=8.0, score=0.772114 - 4.6min
[GridSearchCV] C=16777216.0, gamma=8.0 .........................................
[GridSearchCV] ................ C=16777216.0, gamma=8.0, score=0.717718 -14.7min
[GridSearchCV] C=16777216.0, gamma=16.0 ........................................
[GridSearchCV] ............... C=16777216.0, gamma=16.0, score=0.763118 - 1.3min
[GridSearchCV] C=16777216.0, gamma=16.0 ........................................
[GridSearchCV] ............... C=16777216.0, gamma=16.0, score=0.746627 -  25.4s
[GridSearchCV] C=16777216.0, gamma=16.0 ........................................
[GridSearchCV] ............... C=16777216.0, gamma=16.0, score=0.738739 -  44.9s
[Parallel(n_jobs=1)]: Done 2700 out of 2700 | elapsed: 5670.8min finished

Gefragt haben, wie oben über "... eine regelmäßige svm.SVC().fit"
bitte berücksichtigen Sie,
es verwendet Standard - [C,gamma] Werte und haben somit keine Relevanz für das Verhalten Ihres Modells /ProblemDOMAIN.

Re: Update

oh ja, in der Tat, Regularisierung/Skalierung des SVM-Eingänge ist eine zwingende Aufgabe für das AI/ML-tool.
scikit-learn ist eine gute Instrumentierung zu produzieren und re-use - aScalerOBJECT für beide a-priori-Skalierung ( vor aDataSET geht in .fit() ) & ex-post-ad-hoc-Skalierung, wenn Sie brauchen, um re-scale eine neue Beispiel und senden Sie es an den Prädiktor zu beantworten, es ist Magie
über eine Anfrage zu anSvmCLASSIFIER.predict( aScalerOBJECT.transform( aNewExampleX ) )

( Ja, aNewExampleX kann eine matrix, so ist zu Fragen, für eine "vektorisierte" Verarbeitung von mehreren Antworten )

Leistung Linderung von O(M^2.N^1) rechnerische Komplexität

Im Gegensatz zu den weiter unten gepostet, denke mal, dass das Problem-"Breite", gemessen als N == eine Anzahl von SVM-Funktionen in der matrix X ist verantwortlich für eine Gesamt-Rechenzeit, der SVM-Klassifikator mit rbf-kernel ist by-design ein O(M^2.N^1) problem.

So, es gibt quadratische Abhängigkeit von der Gesamtzahl der Beobachtungen ( Beispiele ), zog in eine Ausbildung ( .fit() ) oder CrossValidation-phase und man kann kaum sagen, daß der betreute learning classifier wird besser Vorhersagekraft, wenn man "reduziert" die ( linear ) "Breite" von Funktionen, die per se tragen die Eingänge in die konstruierte Vorhersagekraft der SVM-Klassifikator, nicht wahr?

InformationsquelleAutor user3666197

3

Support-Vektor-Maschinen sind empfindlich auf die Skalierung. Es ist sehr wahrscheinlich, dass Ihr SVC ist eine lange Zeit zu bauen ein individuelles Modell. GridSearch ist im Grunde eine brute-force-Methode, die ausgeführt wird, die von den Basis-Modellen mit verschiedenen Parametern. Also, wenn Ihr GridSearchCV die Zeit nehmen, zu bauen, es ist eher wegen
1. Vielzahl von parameter-Kombinationen (Was hier nicht der Fall)
2. Ihr individuelles Modell nimmt eine Menge Zeit.
InformationsquelleAutor Santosh

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.