Themenverteilung: Wie sehen wir, welches Dokument zu welchem Thema gehört, nachdem LDA in Python ausgeführt wurde?
Ich bin in der Lage zu laufen, den LDA-code von gensim und bekam den top-10-Themen mit den jeweiligen keywords.
Nun würde ich gerne einen Schritt weiter gehen, um zu sehen, wie genau die LDA-algo ist durch sehen, welches Dokument Sie cluster in jedes Thema. Ist das möglich in der gensim LDA?
Grundsätzlich würde ich gerne so etwas tun, aber in python und mit gensim.
LDA mit topicmodels, wie kann ich sehen, welche Themen andere Dokumente gehören?
InformationsquelleAutor der Frage jxn | 2014-01-08
Du musst angemeldet sein, um einen Kommentar abzugeben.
Mithilfe der Wahrscheinlichkeiten der Themen, die Sie ausprobieren können, um einige threshold und verwenden Sie es als ein clustering-baseline, aber ich bin sicher, es gibt bessere Möglichkeiten, das zu tun clustering als diese 'hacky' - Methode.
[out]
:Nur um es deutlicher zu formulieren:
Dem obigen code ist die Summe der Punktzahl aller Worte, und alle Themen, die für alle Dokumente.
Dann normalisieren sich die Summe durch die Anzahl der Werte.
InformationsquelleAutor der Antwort alvas
Wenn Sie möchten, verwenden Sie den trick der
in der vorherigen Antwort von alvas, stellen Sie sicher, dass minimum_probability=0 in LdaModel
Sonst die dimension von lda_corpus und Dokumente können nicht Stimmen, da gensim wird unterdrücken Korpus mit Wahrscheinlichkeit niedriger als minimum_probability.
Alternative Methode zum gruppieren von Dokumenten in Themen zu ordnen Themen entsprechend der maximalen Wahrscheinlichkeit
Hinweis
lda[mm]
ist grob gesprochen eine Liste von Listen oder 2D-matrix. Die Anzahl der Zeilen die Anzahl der Dokumente und die Anzahl der Spalten ist die Anzahl der Themen. Jedes element der matrix ist ein Tupel der form(3,0.82)
zum Beispiel. Hier 3 bezieht sich auf das Thema index und 0.82 die entsprechende Wahrscheinlichkeit zu diesem Thema. Standardmäßigminimum_probability=0.01
und alle Tupel mit einer Wahrscheinlichkeit von weniger als 0,01 ist, wird weggelassen inlda[mm]
. Sie können es einstellen 1/#topics-wenn Sie die Gruppierung Methode, mit der die maximale Wahrscheinlichkeit.InformationsquelleAutor der Antwort nos