Tag: joblib
Joblib ist ein Satz von Werkzeugen, um leichtes pipelining in Python.
3
Antworten
Ich habe eine TfidfVectorizer dass vectorizes Sammlung von Artikeln, gefolgt von der Featureauswahl. vectroizer = TfidfVectorizer() X_train = vectroizer.fit_transform(corpus) selector = SelectKBest(chi2, k = 5000 ) X_train_sel = selector.fit_transform(X_train, y_train) Jetzt, ich möchten, speichern Sie diese und
1
Antworten
Dies ist nicht ein echtes Problem, aber ich würde gerne verstehen: läuft sklearn von Anaconda distrib auf einem Win7 die 4 Kerne 8 GB system Einbau eines KMeans-Modell auf einem 200.000 Proben*200 Werte-Tabelle. läuft mit n-jobs =
1
Antworten
Ich bin mit sklearn.externals.joblib zu bestehen Klassifikator-Modell auf der Platte, die in der Realität verwendet pickle Modul auf einer niedrigeren Ebene. Erstelle ich eine benutzerdefinierte CountVectorizer Klasse StemmedCountVectorizer gespeichert und es in util.py, dann verwendet es im
2
Antworten
Ich bin Zugriff auf einen sehr großen Pandas dataframe wie eine Globale variable. Diese variable zugegriffen wird parallel via joblib. ZB. df = db.query("select id, a_lot_of_data from table") def process(id): temp_df = df.loc[id] temp_df.apply(another_function) Parallel(n_jobs=8)(delayed(process)(id) for id
2
Antworten
Ich versuche zu laufen parallele Schleife auf ein einfaches Beispiel. Was mache ich falsch? from joblib import Parallel, delayed import multiprocessing def processInput(i): return i * i if __name__ == '__main__': # what are your inputs, and