Tag: topic-modeling

Thema Modelle beschreiben die Häufigkeit von Themen in den Dokumenten und text. Ein „Thema“ ist eine Gruppe von Wörtern, die meist gemeinsam auftreten.

Wie, um Vorhersagen, die Thema einer neuen Abfrage, die einen ausgebildeten LDA-Modell mit gensim?

Anzahl der Antworten 3 Antworten
Ich ausgebildet haben, ein Korpus für die LDA Thema Modellierung mit gensim. Gehen Sie durch die Anleitung auf der gensim website (ist nicht der ganze code): question = 'Changelog generation from Github issues?'; temp = question.lower() for

Gensim: KeyError: "Wort nicht im Vokabular"

Anzahl der Antworten 2 Antworten
Habe ich eine ausgebildete Word2vec Modell mit Python-Gensim-Bibliothek. Ich habe eine Token-Liste, wie unten. Die Vokabeln Größe ist 34, aber ich bin damit nur wenige von 34: b = ['let', 'know', 'buy', 'someth', 'featur', 'mashabl', 'might', 'earn',

Entfernen von Stoppwörtern aus einem Benutzer-definierten Korpus in R

Anzahl der Antworten 3 Antworten
Habe ich eine Reihe von Dokumenten: documents = c("She had toast for breakfast", "The coffee this morning was excellent", "For lunch let's all have pancakes", "Later in the day, there will be more talks", "The talks on

Mit Word2Vec zum Thema Modellierung

Anzahl der Antworten 3 Antworten
Habe ich gelesen, dass die am weitesten verbreitete Technik zum Thema Modellierung (extrahieren von möglichen Themen aus dem text) ist die Latent Dirichlet allocation (LDA). Allerdings interessiert mich, ob es eine gute Idee, zu versuchen out Thema

So drucken Sie den LDA-Themen-Modelle von gensim? Python

Anzahl der Antworten 8 Antworten
Mit gensim ich war in der Lage zu extrahieren Themen aus einem Satz von Dokumenten in LSA, aber wie kann ich den Zugriff auf die generierten Themen aus der LDA-Modelle? Beim drucken der lda.print_topics(10) dem code, gab

LDA mit topicmodels, wie kann ich sehen, welche Themen andere Dokumente gehören?

Anzahl der Antworten 3 Antworten
Ich bin mit LDA vom topicmodels Paket, und ich habe es auf über 30.000 Dokumente, hat 30 Themen, und bekam den top-10-Wörter für die Themen, Sie sehen sehr gut aus. Aber ich würde gerne sehen, welche Dokumente

Vorhersage LDA Themen für neue Daten

Anzahl der Antworten 1 Antworten
Wie es aussieht, hat diese Frage kann gefragt worden ein paar mal, bevor (hier und hier), aber es muss noch beantwortet werden. Ich hoffe, dies ist aufgrund der bisherigen Unklarheit der Frage(N) gebeten, als durch Kommentare gekennzeichnet.

Verständnis der LDA-Implementierung mit Gensim

Anzahl der Antworten 4 Antworten
Ich versuche zu verstehen, wie gensim-Paket in Python implementiert Latent Dirichlet Allocation. Ich Tue das folgende: Definieren Sie die dataset - documents = ["Apple is releasing a new product", "Amazon sells many things", "Microsoft announces Nokia acquisition"]

LDA Topic Modeling - Training und Testen

Anzahl der Antworten 1 Antworten
Habe ich gelesen, LDA, und ich verstehe die Mathematik, wie die Themen, die generiert werden, wenn einer der Eingänge eine Sammlung von Dokumenten. Referenzen sagen, dass die LDA ist ein Algorithmus, der, gegeben eine Sammlung von Dokumenten,

Entfernen Sie leere Dokumente aus DocumentTermMatrix in R topicmodels?

Anzahl der Antworten 5 Antworten
Ich mache das Thema Modellierung mit der topicmodels Paket in R. ich bin die Schaffung eines Corpus Objekt, dabei einige grundlegende Vorverarbeitung, und dann die Erstellung eines DocumentTermMatrix: corpus <- Corpus(VectorSource(vec), readerControl=list(language="en")) corpus <- tm_map(corpus, tolower) corpus

Topic-Modelle: Kreuzvalidierung mit Log-Wahrscheinlichkeit oder Perplexität

Anzahl der Antworten 2 Antworten
Ich bin clustering von Dokumenten mit Thema Modellierung. Ich brauche zu kommen mit dem optimalen Thema zahlen. So, ich entschied mich für ten-fold cross validation mit Themen 10, 20, ...60. Ich teilte meinen Körper in zehn Chargen