Entfernen Sie leere Dokumente aus DocumentTermMatrix in R topicmodels?

Ich mache das Thema Modellierung mit der topicmodels Paket in R. ich bin die Schaffung eines Corpus Objekt, dabei einige grundlegende Vorverarbeitung, und dann die Erstellung eines DocumentTermMatrix:

corpus <- Corpus(VectorSource(vec), readerControl=list(language="en")) 
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeWords, stopwords("english"))
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, removeNumbers)
...snip removing several custom lists of stopwords...
corpus <- tm_map(corpus, stemDocument)
dtm <- DocumentTermMatrix(corpus, control=list(minDocFreq=2, minWordLength=2))

Werden und dann LDA:

LDA(dtm, 30)

Diesem letzten Aufruf von LDA() gibt den Fehler zurück

  "Each row of the input matrix needs to contain at least one non-zero entry". 

Ich nehme an, dies bedeutet, dass es mindestens ein Dokument, das keine Geschäftsbedingungen in es nach der Vorverarbeitung. Gibt es eine einfache Möglichkeit, entfernen Sie die Dokumente enthalten, keine Begriffe aus einem DocumentTermMatrix?

Sah ich Sie in der Dokumentation für die topicmodels Paket und fand die Funktion removeSparseTerms, die entfernt Begriffe, die nicht in Erscheinung, aber es gibt keine Entsprechung für das entfernen von Dokumenten.

InformationsquelleAutor der Frage Bill M | 2012-12-19

Schreibe einen Kommentar