python - sklearn Latent Dirichlet Allocation Verwandeln v. Fittransform

Ich bin mit sklearn die NMF und LDA sub-Module zu analysieren, unbeschriftete text. Ich habe die Dokumentation gelesen aber ich bin nicht sicher, ob die transformieren-Funktionen in diesen Modulen (NMF und LDA) sind die gleichen wie die hinteren-Funktion in R ist topicmodels (siehe Vorhersage LDA Themen für neue Daten). Grundsätzlich bin ich auf der Suche nach einer Funktion, die es mir ermöglichen, um vorherzusagen, die Themen, die im test-set mit dem Modell trainiert, auf Ausbildung setzen Daten. Ich habe vorausgesagt, Themen auf den gesamten Datenbestand. Dann habe ich teilen Sie die Daten in train und test-sets, trainiert ein Modell, auf Zug gesetzt und verwandelte test-set mit diesem Modell. obwohl es wurde erwartet, dass ich würde nicht die gleichen Ergebnisse erhalten, vergleicht man die beiden Läufe der Themen ist nicht, versichern mir, dass die transform-Funktion dient die gleiche Funktion wie die R-s-Paket. Ich würde schätzen Ihre Antwort.

danke

was scikit-learn version verwenden Sie?
auch, was indiziert, dass die Ergebnisse unterschiedlich sind?
danke, Mikhail, v 0.18. mein Ziel, zu verstehen, wenn die transform-Funktion bietet die Funktionalität, um vorherzusagen, die Themen, die im test-set. Dank

InformationsquelleAutor valearner | 2016-11-14

python scikit-learn

Den Aufruf transform auf eine LatentDirichletAllocation Modell gibt eine nicht normalisierte Dokument-topic-Verteilung. Gute Wahrscheinlichkeiten, Sie können einfach das Ergebnis normalisieren. Hier ist ein Beispiel:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.datasets import fetch_20newsgroups
import numpy as np

# grab a sample data set
dataset = fetch_20newsgroups(shuffle=True, remove=('headers', 'footers', 'quotes'))
train,test = dataset.data[:100], dataset.data[100:200]

# vectorizer the features
tf_vectorizer = TfidfVectorizer(max_features=25)
X_train = tf_vectorizer.fit_transform(train)

# train the model
lda = LatentDirichletAllocation(n_topics=5)
lda.fit(X_train)

# predict topics for test data
# unnormalized doc-topic distribution
X_test = tf_vectorizer.transform(test)
doc_topic_dist_unnormalized = np.matrix(lda.transform(X_test))

# normalize the distribution (only needed if you want to work with the probabilities)
doc_topic_dist = doc_topic_dist_unnormalized/doc_topic_dist_unnormalized.sum(axis=1)

Finden Sie die top-ranking-Thema können Sie etwas tun:

doc_topic_dist.argmax(axis=1)

Danke Ryan, etwas, dass ich dachte: NMF-Modell, und die LDA-ich glaube zumindest, lda-Modul (nicht sklearn), erzeugt zwei Matrizen W und H. Würde es ok sein, um vorherzusagen, test-Daten, indem Sie zuerst X_test = tf_vectorizer.transformieren(test) und dann X_test*H. T?

InformationsquelleAutor Ryan Walker

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.