Python Gensim: Wie berechnet man Dokumentähnlichkeit mit dem LDA-Modell?
Habe ich eine ausgebildete LDA-Modell, und ich will die Berechnung der similarity-score zwischen zwei Belege aus dem Korpus trainierte ich mein Modell auf.
Nach dem Studium der alle Gensim-tutorials und Funktionen, ich kann immer noch nicht meinen Kopf um ihn herum. Kann jemand mir einen Tipp geben? Danke!
InformationsquelleAutor der Frage still_st | 2014-03-16
Du musst angemeldet sein, um einen Kommentar abzugeben.
Weiß nicht, ob dies werde helfen, aber, ich schaffte es, Sie zu erreichen erfolgreicher Ergebnisse auf Dokument-matching und ähnlichkeiten bei der Verwendung der tatsächlichen Dokument als Abfrage.
Ihre ähnlichkeit score zwischen allen Dokumenten, die sich im corpus und das Dokument, das verwendet wurde, als eine Abfrage wird der zweite index eines jeden sim für die sims.
InformationsquelleAutor der Antwort Palisand
Hängt davon ab, was ähnlichkeit Metrik, die Sie verwenden möchten.
Kosinus-ähnlichkeit ist universell einsetzbar & eingebaute:
Hellinger Entfernung ist nützlich für die ähnlichkeit zwischen Wahrscheinlichkeitsverteilungen (wie LDA Themen):
InformationsquelleAutor der Antwort Radim