LDA mit topicmodels, wie kann ich sehen, welche Themen andere Dokumente gehören?
Ich bin mit LDA vom topicmodels Paket, und ich habe es auf über 30.000 Dokumente, hat 30 Themen, und bekam den top-10-Wörter für die Themen, Sie sehen sehr gut aus. Aber ich würde gerne sehen, welche Dokumente gehören zu welchem Thema mit der höchsten Wahrscheinlichkeit, wie kann ich das tun?
myCorpus <- Corpus(VectorSource(userbios$bio))
docs <- userbios$twitter_id
myCorpus <- tm_map(myCorpus, tolower)
myCorpus <- tm_map(myCorpus, removePunctuation)
myCorpus <- tm_map(myCorpus, removeNumbers)
removeURL <- function(x) gsub("http[[:alnum:]]*", "", x)
myCorpus <- tm_map(myCorpus, removeURL)
myStopwords <- c("twitter", "tweets", "tweet", "tweeting", "account")
# remove stopwords from corpus
myCorpus <- tm_map(myCorpus, removeWords, stopwords('english'))
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)
# stem words
# require(rJava) # needed for stemming function
# library(Snowball) # also needed for stemming function
# a <- tm_map(myCorpus, stemDocument, language = "english")
myDtm <- DocumentTermMatrix(myCorpus, control = list(wordLengths=c(2,Inf), weighting=weightTf))
myDtm2 <- removeSparseTerms(myDtm, sparse=0.85)
dtm <- myDtm2
library(topicmodels)
rowTotals <- apply(dtm, 1, sum)
dtm2 <- dtm[rowTotals>0]
dim(dtm2)
dtm_LDA <- LDA(dtm2, 30)
InformationsquelleAutor der Frage d12n | 2013-02-14
Du musst angemeldet sein, um einen Kommentar abzugeben.
Wie wäre es damit, mit Hilfe des built-in-dataset. Dies wird Ihnen zeigen, welche Dokumente gehören zu welchem Thema mit der höchsten Wahrscheinlichkeit.
Ist, dass das, was Sie tun wollen?
Hut-Tipp zu dieser Antwort: https://stat.ethz.ch/pipermail/r-help/2010-August/247706.html
InformationsquelleAutor der Antwort Ben
Zu sehen, welche Dokumente gehören zu welchem Thema mit der höchsten Wahrscheinlichkeit, in der Thema-Modelle, verwenden Sie einfach:
Zu sehen, die die Themen aus allen Dokumenten, verwenden Sie einfach:
Ich hoffe, das beantwortet Ihre Frage!
Externe gelesen, die helfen können:
http://www.rtexttools.com/1/post/2011/08/getting-started-with-latent-dirichlet-allocation-using-rtexttools-topicmodels.html
Rachel Shuyan Wang
InformationsquelleAutor der Antwort Rachel Shuyan Wang
InformationsquelleAutor der Antwort Vivek Astvansh