Clustering using Latent Dirichlet Allocation algo im gensim
Ist es möglich zu tun clustering in gensim für einen gegebenen Satz von Eingängen mit LDA? Wie kann ich das machen?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ist es möglich zu tun clustering in gensim für einen gegebenen Satz von Eingängen mit LDA? Wie kann ich das machen?
Du musst angemeldet sein, um einen Kommentar abzugeben.
LDA produziert eine niedrigere dimensionale Darstellung der Dokumente in einem Korpus. Diese low-d-Darstellung, die Sie anwenden könnten ein clustering-Algorithmus, z.B. k-means. Da jede Achse entspricht einem Thema, ein einfacher Ansatz wäre die Zuordnung jedes Dokument zu dem Thema, auf die seine Projektion am größten ist.
Ja, Sie können. Hier ist ein tutorial: http://nlp.fi.muni.cz/projekty/gensim/wiki.html#latent-dirichlet-allocation
Zuerst laden Sie corpus, dann rufen Sie:
Dies ist ein Beispiel.
Sie müssen kopieren matutils.py und utils.py von gensim erste, und das Verzeichnis
sollte der pic Blasen.
Den code, der Schlag sollte in doc_similar.py.
Dann bewegen Sie einfach Ihre data_file in das Verzeichnis und ändern Sie fname in der Funktion main.
Die grundlegenden, was Sie verstehen hier ist, dass das clustering benötigt Ihre Daten in einem format und ist nicht damit beschäftigt, wie haben Sie kommen an Ihre Daten. Also, ob Sie sich bewerben clustering auf der term-Dokument-matrix oder auf die reduzierte dimension (LDA-output-matrix), clustering funktioniert unabhängig von diesem.
Gerade tun, die anderen Dinge richtig, aber, kleine Fehler in Daten-Formate können Sie Kosten eine Menge Zeit Forschung.