Wie Speichere ich eine TfidfVectorizer für die zukünftige Verwendung in scikit-learn?

Ich habe eine TfidfVectorizer dass vectorizes Sammlung von Artikeln, gefolgt von der Featureauswahl.

vectroizer = TfidfVectorizer()
X_train = vectroizer.fit_transform(corpus)
selector = SelectKBest(chi2, k = 5000 )
X_train_sel = selector.fit_transform(X_train, y_train)

Jetzt, ich möchten, speichern Sie diese und verwenden Sie es in andere Programme. Ich will nicht re-run der TfidfVectorizer() und die feature-Selektor auf die Trainings-dataset. Wie mache ich das? Ich weiß, wie man ein Modell persistent mit joblib aber ich Frage mich, ob dies ist dasselbe wie ein Modell persistent.

  • joblib scheint zu arbeiten. Aber ich denke, ich muss dump der vectorizer und feature-Selektor unabhängig.
  • Wenn Sie eine funktionierende Lösung haben, posten Sie Ihre Vorgehensweise und einige code.
  • scikit-learn.org/stable/modules/model_persistence.html hat einige Warnungen rund um Sicherheits-und version-management.
InformationsquelleAutor user2161903 | 2015-09-24
Schreibe einen Kommentar