Tag: topic-modeling

Thema Modelle beschreiben die Häufigkeit von Themen in den Dokumenten und text. Ein „Thema“ ist eine Gruppe von Wörtern, die meist gemeinsam auftreten.

Wie, um Vorhersagen, die Thema einer neuen Abfrage, die einen ausgebildeten LDA-Modell mit gensim?

3 Antworten

Ich ausgebildet haben, ein Korpus für die LDA Thema Modellierung mit gensim. Gehen Sie durch die Anleitung auf der gensim website (ist nicht der ganze code): question = 'Changelog generation from Github issues?'; temp = question.lower() for

Gensim: KeyError: "Wort nicht im Vokabular"

2 Antworten

Habe ich eine ausgebildete Word2vec Modell mit Python-Gensim-Bibliothek. Ich habe eine Token-Liste, wie unten. Die Vokabeln Größe ist 34, aber ich bin damit nur wenige von 34: b = ['let', 'know', 'buy', 'someth', 'featur', 'mashabl', 'might', 'earn',

gensim nlp python topic-modeling word2vec

Entfernen von Stoppwörtern aus einem Benutzer-definierten Korpus in R

3 Antworten

Habe ich eine Reihe von Dokumenten: documents = c("She had toast for breakfast", "The coffee this morning was excellent", "For lunch let's all have pancakes", "Later in the day, there will be more talks", "The talks on

r tm topic-modeling

Mit Word2Vec zum Thema Modellierung

3 Antworten

Habe ich gelesen, dass die am weitesten verbreitete Technik zum Thema Modellierung (extrahieren von möglichen Themen aus dem text) ist die Latent Dirichlet allocation (LDA). Allerdings interessiert mich, ob es eine gute Idee, zu versuchen out Thema

nlp topic-modeling word2vec

So drucken Sie den LDA-Themen-Modelle von gensim? Python

8 Antworten

Mit gensim ich war in der Lage zu extrahieren Themen aus einem Satz von Dokumenten in LSA, aber wie kann ich den Zugriff auf die generierten Themen aus der LDA-Modelle? Beim drucken der lda.print_topics(10) dem code, gab

gensim lda nlp python topic-modeling

LDA mit topicmodels, wie kann ich sehen, welche Themen andere Dokumente gehören?

3 Antworten

Ich bin mit LDA vom topicmodels Paket, und ich habe es auf über 30.000 Dokumente, hat 30 Themen, und bekam den top-10-Wörter für die Themen, Sie sehen sehr gut aus. Aber ich würde gerne sehen, welche Dokumente

lda r tm topic-modeling

Vorhersage LDA Themen für neue Daten

1 Antworten

Wie es aussieht, hat diese Frage kann gefragt worden ein paar mal, bevor (hier und hier), aber es muss noch beantwortet werden. Ich hoffe, dies ist aufgrund der bisherigen Unklarheit der Frage(N) gebeten, als durch Kommentare gekennzeichnet.

lda r topic-modeling

Verständnis der LDA-Implementierung mit Gensim

4 Antworten

Ich versuche zu verstehen, wie gensim-Paket in Python implementiert Latent Dirichlet Allocation. Ich Tue das folgende: Definieren Sie die dataset - documents = ["Apple is releasing a new product", "Amazon sells many things", "Microsoft announces Nokia acquisition"]

dirichlet gensim python topic-modeling

LDA Topic Modeling - Training und Testen

1 Antworten

Habe ich gelesen, LDA, und ich verstehe die Mathematik, wie die Themen, die generiert werden, wenn einer der Eingänge eine Sammlung von Dokumenten. Referenzen sagen, dass die LDA ist ein Algorithmus, der, gegeben eine Sammlung von Dokumenten,

lda topic-modeling

Entfernen Sie leere Dokumente aus DocumentTermMatrix in R topicmodels?

5 Antworten

Ich mache das Thema Modellierung mit der topicmodels Paket in R. ich bin die Schaffung eines Corpus Objekt, dabei einige grundlegende Vorverarbeitung, und dann die Erstellung eines DocumentTermMatrix: corpus <- Corpus(VectorSource(vec), readerControl=list(language="en")) corpus <- tm_map(corpus, tolower) corpus

lda r topic-modeling topicmodels

Topic-Modelle: Kreuzvalidierung mit Log-Wahrscheinlichkeit oder Perplexität

2 Antworten

Ich bin clustering von Dokumenten mit Thema Modellierung. Ich brauche zu kommen mit dem optimalen Thema zahlen. So, ich entschied mich für ten-fold cross validation mit Themen 10, 20, ...60. Ich teilte meinen Körper in zehn Chargen

cross-validation r tm topic-modeling