python - sklearn Latent Dirichlet Allocation Verwandeln v. Fittransform
Ich bin mit sklearn die NMF und LDA sub-Module zu analysieren, unbeschriftete text. Ich habe die Dokumentation gelesen aber ich bin nicht sicher, ob die transformieren-Funktionen in diesen Modulen (NMF und LDA) sind die gleichen wie die hinteren-Funktion in R ist topicmodels (siehe Vorhersage LDA Themen für neue Daten). Grundsätzlich bin ich auf der Suche nach einer Funktion, die es mir ermöglichen, um vorherzusagen, die Themen, die im test-set mit dem Modell trainiert, auf Ausbildung setzen Daten. Ich habe vorausgesagt, Themen auf den gesamten Datenbestand. Dann habe ich teilen Sie die Daten in train und test-sets, trainiert ein Modell, auf Zug gesetzt und verwandelte test-set mit diesem Modell. obwohl es wurde erwartet, dass ich würde nicht die gleichen Ergebnisse erhalten, vergleicht man die beiden Läufe der Themen ist nicht, versichern mir, dass die transform-Funktion dient die gleiche Funktion wie die R-s-Paket. Ich würde schätzen Ihre Antwort.
danke
- was scikit-learn version verwenden Sie?
- auch, was indiziert, dass die Ergebnisse unterschiedlich sind?
- danke, Mikhail, v 0.18. mein Ziel, zu verstehen, wenn die transform-Funktion bietet die Funktionalität, um vorherzusagen, die Themen, die im test-set. Dank
Du musst angemeldet sein, um einen Kommentar abzugeben.
Den Aufruf
transform
auf eineLatentDirichletAllocation
Modell gibt eine nicht normalisierte Dokument-topic-Verteilung. Gute Wahrscheinlichkeiten, Sie können einfach das Ergebnis normalisieren. Hier ist ein Beispiel:Finden Sie die top-ranking-Thema können Sie etwas tun: