Tag: joblib

Joblib ist ein Satz von Werkzeugen, um leichtes pipelining in Python.

Wie Speichere ich eine TfidfVectorizer für die zukünftige Verwendung in scikit-learn?

Anzahl der Antworten 3 Antworten
Ich habe eine TfidfVectorizer dass vectorizes Sammlung von Artikeln, gefolgt von der Featureauswahl. vectroizer = TfidfVectorizer() X_train = vectroizer.fit_transform(corpus) selector = SelectKBest(chi2, k = 5000 ) X_train_sel = selector.fit_transform(X_train, y_train) Jetzt, ich möchten, speichern Sie diese und

Python scikit lernen n_jobs

Anzahl der Antworten 1 Antworten
Dies ist nicht ein echtes Problem, aber ich würde gerne verstehen: läuft sklearn von Anaconda distrib auf einem Win7 die 4 Kerne 8 GB system Einbau eines KMeans-Modell auf einem 200.000 Proben*200 Werte-Tabelle. läuft mit n-jobs =

nicht der import meiner util-Modul

Anzahl der Antworten 1 Antworten
Ich bin mit sklearn.externals.joblib zu bestehen Klassifikator-Modell auf der Platte, die in der Realität verwendet pickle Modul auf einer niedrigeren Ebene. Erstelle ich eine benutzerdefinierte CountVectorizer Klasse StemmedCountVectorizer gespeichert und es in util.py, dann verwendet es im

Große Pandas Dataframe parallele Verarbeitung

Anzahl der Antworten 2 Antworten
Ich bin Zugriff auf einen sehr großen Pandas dataframe wie eine Globale variable. Diese variable zugegriffen wird parallel via joblib. ZB. df = db.query("select id, a_lot_of_data from table") def process(id): temp_df = df.loc[id] temp_df.apply(another_function) Parallel(n_jobs=8)(delayed(process)(id) for id

Schreiben Sie eine parallele Schleife

Anzahl der Antworten 2 Antworten
Ich versuche zu laufen parallele Schleife auf ein einfaches Beispiel. Was mache ich falsch? from joblib import Parallel, delayed import multiprocessing def processInput(i): return i * i if __name__ == '__main__': # what are your inputs, and