Vorhersage LDA Themen für neue Daten

Wie es aussieht, hat diese Frage kann gefragt worden ein paar mal, bevor (hier und hier), aber es muss noch beantwortet werden. Ich hoffe, dies ist aufgrund der bisherigen Unklarheit der Frage(N) gebeten, als durch Kommentare gekennzeichnet. Ich entschuldige mich, wenn ich bin, brechen Protokoll, indem er eine simliar Frage wieder, ich bin einfach davon ausgegangen, dass diese Fragen wären nicht zu sehen, keine neuen Antworten.

Sowieso, ich bin neu Latent Dirichlet Allocation und Erforsche seine Verwendung als Mittel der dimensionsreduktion für textuelle Daten. Letztendlich würde ich gerne extrahieren, die einen kleineren Satz von Themen aus der eine sehr große Tasche von Worten und bauen ein klassifikationsmodell mit diesen Themen als ein paar Variablen in das Modell. Ich habe Erfolg in der Laufenden LDA auf eine Ausbildung festgelegt, aber das problem ich habe, ist in der Lage, vorauszusagen, welche von den gleichen Themen erscheinen in einigen anderen test-Daten-set. Ich bin mit R topicmodels Paket gerade jetzt, aber wenn es einen anderen Weg gibt, um diese mit einem anderen Paket ich bin offen zu, wie gut.

Hier ist ein Beispiel, was ich versuche zu tun:

library(topicmodels)
data(AssociatedPress)

train <- AssociatedPress[1:100]
test <- AssociatedPress[101:150]

train.lda <- LDA(train,5)
topics(train.lda)

#how can I predict the most likely topic(s) from "train.lda" for each document in "test"?

InformationsquelleAutor der Frage David | 2013-04-20

lda r topic-modeling

Mit der Hilfe von Ben ' s superior Dokument Fähigkeiten im Lesen, ich glaube, das ist möglich mit der hinteren () - Funktion.

library(topicmodels)
data(AssociatedPress)

train <- AssociatedPress[1:100]
test <- AssociatedPress[101:150]

train.lda <- LDA(train,5)
(train.topics <- topics(train.lda))
#  [1] 4 5 5 1 2 3 1 2 1 2 1 3 2 3 3 2 2 5 3 4 5 3 1 2 3 1 4 4 2 5 3 2 4 5 1 5 4 3 1 3 4 3 2 1 4 2 4 3 1 2 4 3 1 1 4 4 5
# [58] 3 5 3 3 5 3 2 3 4 4 3 4 5 1 2 3 4 3 5 5 3 1 2 5 5 3 1 4 2 3 1 3 2 5 4 5 5 1 1 1 4 4 3

test.topics <- posterior(train.lda,test)
(test.topics <- apply(test.topics$topics, 1, which.max))
#  [1] 3 5 5 5 2 4 5 4 2 2 3 1 3 3 2 4 3 1 5 3 5 3 1 2 2 3 4 1 2 2 4 4 3 3 5 5 5 2 2 5 2 3 2 3 3 5 5 1 2 2

InformationsquelleAutor der Antwort David

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.