Python Gensim: Wie berechnet man Dokumentähnlichkeit mit dem LDA-Modell?

Habe ich eine ausgebildete LDA-Modell, und ich will die Berechnung der similarity-score zwischen zwei Belege aus dem Korpus trainierte ich mein Modell auf.
Nach dem Studium der alle Gensim-tutorials und Funktionen, ich kann immer noch nicht meinen Kopf um ihn herum. Kann jemand mir einen Tipp geben? Danke!

InformationsquelleAutor der Frage still_st | 2014-03-16

Weiß nicht, ob dies werde helfen, aber, ich schaffte es, Sie zu erreichen erfolgreicher Ergebnisse auf Dokument-matching und ähnlichkeiten bei der Verwendung der tatsächlichen Dokument als Abfrage.

dictionary = corpora.Dictionary.load('dictionary.dict')
corpus = corpora.MmCorpus("corpus.mm")
lda = models.LdaModel.load("model.lda") #result from running online lda (training)

index = similarities.MatrixSimilarity(lda[corpus])
index.save("simIndex.index")

docname = "docs/the_doc.txt"
doc = open(docname, 'r').read()
vec_bow = dictionary.doc2bow(doc.lower().split())
vec_lda = lda[vec_bow]

sims = index[vec_lda]
sims = sorted(enumerate(sims), key=lambda item: -item[1])
print sims

Ihre ähnlichkeit score zwischen allen Dokumenten, die sich im corpus und das Dokument, das verwendet wurde, als eine Abfrage wird der zweite index eines jeden sim für die sims.

InformationsquelleAutor der Antwort Palisand

26

Hängt davon ab, was ähnlichkeit Metrik, die Sie verwenden möchten.

Kosinus-ähnlichkeit ist universell einsetzbar & eingebaute:
```
sim = gensim.matutils.cossim(vec_lda1, vec_lda2)
```
Hellinger Entfernung ist nützlich für die ähnlichkeit zwischen Wahrscheinlichkeitsverteilungen (wie LDA Themen):
```
import numpy as np
dense1 = gensim.matutils.sparse2full(lda_vec1, lda.num_topics)
dense2 = gensim.matutils.sparse2full(lda_vec2, lda.num_topics)
sim = np.sqrt(0.5 * ((np.sqrt(dense1) - np.sqrt(dense2))**2).sum())
```
InformationsquelleAutor der Antwort Radim

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.