Die Themenfindung einer unsichtbaren Dokument über Gensim
Ich bin mit Gensim zu tun, einige große Thema Modellierung. Ich habe Schwierigkeiten zu verstehen, wie, um zu bestimmen, prognostiziert Themen für eine unsichtbare (nicht-indizierte) Dokument. Zum Beispiel: ich habe 25 Millionen Dokumente, die ich in Vektoren konvertiert in LSA (und LDA) Raum. Ich will nun, um herauszufinden, die Themen in ein neues Dokument, nennen wir es x.
Entsprechend des Gensim-Dokumentation, die ich verwenden kann:
topics = lsi[doc(x)]
wo doc(x) ist eine Funktion, die wandelt x in einen Vektor.
Das problem ist jedoch, dass die oben genannten variable, Themen, gibt einen Vektor. Der Vektor ist nützlich, wenn ich den Vergleich x auf zusätzliche Dokumente, denn es ermöglicht mir, zu finden, die Kosinus-ähnlichkeit zwischen Ihnen, aber ich bin nicht in der Lage, um tatsächlich bestimmte Wörter, die verknüpft sind mit x selbst.
Bin ich etwas fehlt, oder nicht Gensim nicht diese Fähigkeit haben?
Danke,
BEARBEITEN
Larsmans hat die Antwort.
War ich in der Lage zu zeigen, die Themen, die durch die Nutzung:
for t in topics:
print lsi.show_topics(t[0])
InformationsquelleAutor Peter Kirby | 2012-07-13
Du musst angemeldet sein, um einen Kommentar abzugeben.
Den Vektor zurückgegeben
[]
auf einen LSI-Modell ist eigentlich eine Liste von(topic, weight)
Paare. Sie können prüfen, ein Thema mittels der MethodeLsiModel.show_topic
InformationsquelleAutor Fred Foo
Wollte nur darauf hinweisen, eine winzige, aber wichtige Fehler in der Lösung Codes: Sie müssen show_topic () - Funktion statt der show_topic**s** () - Funktion.
P. S. ich weiß, das gebucht werden soll, als Kommentar eher als eine Antwort, aber in meiner aktuellen Bewertung keine Kommentare erlauben nur noch!
InformationsquelleAutor Chiraz BenAbdelkader