Mit Word2Vec zum Thema Modellierung

Habe ich gelesen, dass die am weitesten verbreitete Technik zum Thema Modellierung (extrahieren von möglichen Themen aus dem text) ist die Latent Dirichlet allocation (LDA).

Allerdings interessiert mich, ob es eine gute Idee, zu versuchen out Thema Modellierung mit Word2Vec als it-Cluster Wörter im Vektor-Raum. Konnte nicht die Cluster daher als Themen?

Glaubst du, dass es Sinn macht, diesem Ansatz Folgen, zum Wohle von einigen der Forschung? Am Ende, was mich interessiert ist zum extrahieren von Schlüsselwörtern aus dem text nach Themen.

Ich habe versucht, etwas in diese Richtung vor kurzem. Erhalten Sie zusammenhängende Themen durch clustering Word2Vec (oder Handschuh) Vektoren: goo.gl/irZ5xI
Sie können dies tun, sicherlich, aber ich würde nicht nennen es Thema Modellierung.
vielen Dank für Ihre Antwort! Was Sie arbeiten ist genau das, was ich Suche! Weißt du zufällig, wie gut der Cluster verglichen werden können, um Themen, die extrahiert werden, indem z.B. LDA? da ich neu bin und zu diesem Thema würde ich mich sehr freuen, wenn Sie ihm geben könnte mir Schlüsselwörter, mit denen ich finden kann, Verwandte Forschungsarbeiten
was würden Sie diesem Thema statt? clustering?
Ja, clustering (und das Ergebnis des clustering werden Cluster).

InformationsquelleAutor user1814735 | 2015-10-06

8

Vielleicht möchten Sie sich bei den folgenden arbeiten:

Dat Quoc Nguyen, Richard Billingsley, Lan Du und Mark Johnson. 2015. Die Verbesserung der Topic Modelle mit Latenten Funktion von Word Darstellungen. Transactions of the Association for Computational Linguistics, vol. 3, S. 299-313. [CODE]

Yang Liu Zhiyuan Liu, Tat-Seng Chua, Maosong Sonne. 2015. Aktuelle Word-Einbettungen. In proceedings of 29th AAAI Conference on Artificial Intelligence, 2418-2424. [CODE]

Das erste Papier integriert word Einbettungen in das LDA-Modell und das ein-Thema-pro-Dokument-DMM-Modell. Sie berichten signifikante Verbesserungen beim Thema Kohärenz, Dokument-clustering und document classification Aufgaben, vor allem auf kleinen Korpora oder kurze Texte (e.g Tweets).

Zweiten Beitrag ist auch interessant. Es nutzt LDA zuzuordnen Thema für jedes Wort, und dann beschäftigt Word2Vec zu Wort lernen Einbettungen, basierend auf Wörter und Ihre Themen.

InformationsquelleAutor NQD
3

Zwei Leute haben versucht, dieses Problem zu lösen.

Chris Moody ' an StichFix kam mit LDA2Vec, und einige Ph. D Studenten an der CMU schrieb ein Papier namens "GAUSS-LDA zum Thema Modelle mit Word Eingefügtes" mit code hier... aber ich konnte nicht die Java-code die Ausgabe unsinnige Ergebnisse. Seine eine interessante Idee, mit word2vec mit Gauß (eigentlich T-Distributionen, wenn Sie aus der Arbeit des Mathe) Wort-topic-Verteilungen. Gauß-LDA sollte in der Lage sein zu handhaben, die out-of-vocabulary Wörter aus dem training.

LDA2Vec versucht zu trainieren, sowohl die LDA-Modell-und word-Vektoren in der gleichen Zeit, und es ermöglicht Ihnen auch das setzen LDA priors über nicht-Wörter zu erhalten, wirklich interessante Ergebnisse.

InformationsquelleAutor Mansweet
0

In Word2Vec,Sollten 3 Sätze

"der Hund sah eine Katze",

"der Hund jagte die Katze",

"die Katze auf einen Baum geklettert"

Hier geben wir ein Wort 'Katze', dann erhalten wir die Ausgabe Wort als 'kletterte'

beruht auf der Wahrscheinlichkeit, dass alle Worte, die Kontext-Wort(Katze). Seine kontinuierliche bag of words-Modell. Wir erhalten Wörter, die ähnlich wie die input-Wort, basierend auf dem Kontext. Word2Vec funktioniert gut in großen Datensatz nur.

LDA verwendet, um abstrakte Themen aus einem Korpus. Seine nicht basierend auf Kontext. Als es nutzt Dirichlet-Verteilung zu zeichnen, Worte über Themen und zeichnen Sie Themen, die über den Dokumenten. Unser problem hier ist die Zufälligkeit. Wir bekommen verschiedene Ausgänge jeder Zeit.

Die Technik, die wir wählen, hängt davon ab, unsere Anforderungen.

Sie können Steuern, die Zufälligkeit in der LDA durch Einstellung einer "Zufallsverteilung" (z.B. mit dem Holzhammer). Dies gibt Ihnen nachvollziehbare Ergebnisse. Es ändert nichts an der Tatsache, dass die verschiedenen random-seeds geben, anderes Thema Modelle.
ok.Ich habe in python implementiert (gensim). Ich habe eine iteration von 20 mal und nahm eine Kreuzung von allen Ausgabe-Themen. Theoretisch, nach Dirichlet-Verteilung, die Ausgabe ist zufällig jedes mal.Ich habe nicht verwendet mallet in java. Danke @jknappen für die Informationen.

InformationsquelleAutor Thomas N T

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.