Die Themenfindung einer unsichtbaren Dokument über Gensim

Ich bin mit Gensim zu tun, einige große Thema Modellierung. Ich habe Schwierigkeiten zu verstehen, wie, um zu bestimmen, prognostiziert Themen für eine unsichtbare (nicht-indizierte) Dokument. Zum Beispiel: ich habe 25 Millionen Dokumente, die ich in Vektoren konvertiert in LSA (und LDA) Raum. Ich will nun, um herauszufinden, die Themen in ein neues Dokument, nennen wir es x.

Entsprechend des Gensim-Dokumentation, die ich verwenden kann:

topics = lsi[doc(x)]

wo doc(x) ist eine Funktion, die wandelt x in einen Vektor.

Das problem ist jedoch, dass die oben genannten variable, Themen, gibt einen Vektor. Der Vektor ist nützlich, wenn ich den Vergleich x auf zusätzliche Dokumente, denn es ermöglicht mir, zu finden, die Kosinus-ähnlichkeit zwischen Ihnen, aber ich bin nicht in der Lage, um tatsächlich bestimmte Wörter, die verknüpft sind mit x selbst.

Bin ich etwas fehlt, oder nicht Gensim nicht diese Fähigkeit haben?

Danke,

BEARBEITEN

Larsmans hat die Antwort.

War ich in der Lage zu zeigen, die Themen, die durch die Nutzung:

for t in topics:
    print lsi.show_topics(t[0])
Könnten Sie bitte erzählen, wie Sie die Konvertierung von x zu einem Vektor? Vielen Dank!

InformationsquelleAutor Peter Kirby | 2012-07-13

Schreibe einen Kommentar