Entfernen Sie leere Dokumente aus DocumentTermMatrix in R topicmodels?

Ich mache das Thema Modellierung mit der topicmodels Paket in R. ich bin die Schaffung eines Corpus Objekt, dabei einige grundlegende Vorverarbeitung, und dann die Erstellung eines DocumentTermMatrix:

corpus <- Corpus(VectorSource(vec), readerControl=list(language="en")) 
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeWords, stopwords("english"))
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, removeNumbers)
...snip removing several custom lists of stopwords...
corpus <- tm_map(corpus, stemDocument)
dtm <- DocumentTermMatrix(corpus, control=list(minDocFreq=2, minWordLength=2))

Werden und dann LDA:

LDA(dtm, 30)

Diesem letzten Aufruf von LDA() gibt den Fehler zurück

  "Each row of the input matrix needs to contain at least one non-zero entry".

Ich nehme an, dies bedeutet, dass es mindestens ein Dokument, das keine Geschäftsbedingungen in es nach der Vorverarbeitung. Gibt es eine einfache Möglichkeit, entfernen Sie die Dokumente enthalten, keine Begriffe aus einem DocumentTermMatrix?

Sah ich Sie in der Dokumentation für die topicmodels Paket und fand die Funktion removeSparseTerms, die entfernt Begriffe, die nicht in Erscheinung, aber es gibt keine Entsprechung für das entfernen von Dokumenten.

InformationsquelleAutor der Frage Bill M | 2012-12-19

lda r topic-modeling topicmodels

"Each row of the input matrix needs to contain at least one non-zero entry"

Der Fehler bedeutet, dass sparse-matrix enthält eine Zeile ohne Einträge(Wörter). eine Idee ist zum berechnen der Summe der Wörter von Zeile

rowTotals <- apply(dtm , 1, sum) #Find the sum of words in each Document
dtm.new   <- dtm[rowTotals> 0, ]           #remove all docs without words

InformationsquelleAutor der Antwort agstudy

17

agstudy Antwort funktioniert Super, aber benutze es auf einem langsamen computer erwies sich als gelinde gesagt problematisch.
```
tic()
row_total = apply(dtm, 1, sum)
dtm.new = dtm[row_total>0,]
toc()
4.859 sec elapsed
```
(dies wurde mit einer 4000x15000 dtm)

Den Engpass scheint die Anwendung sum() zu einer sparse matrix.

Einer Dokument-term-matrix erstellt, indem die tm Paket enthält die Namen i und j die Indizes für die, wo die Einträge sind in der sparse-matrix. Wenn dtm$i nicht enthalten eine bestimmte Zeile index pdann Zeile p leer ist.
```
tic()
ui = unique(dtm$i)
dtm.new = dtm[ui,]
toc()
0.121 sec elapsed
```
ui enthält alle nicht-null-indices, und da dtm$i ist bereits bestellt, dtm.new werden in der gleichen Reihenfolge wie dtm. Der performance-Gewinn mag nicht für kleinere Dokument-term-Matrizen, kann aber wichtig werden bei größeren Matrizen.

InformationsquelleAutor der Antwort SylphFeather
11

Dies ist nur zu erarbeiten, die Antwort agstudy.

Statt entfernen der leeren Zeilen aus der dtm-matrix, die wir identifizieren können, werden die Dokumente in unserem Korpus, die haben die Länge null, und entfernen Sie die Dokumente direkt aus dem corpus, vor dem durchführen einer zweiten dtm mit nur nicht-leere Dokumente.

Dies ist nützlich, um zu halten eine 1:1 Korrespondenz zwischen der dtm und der corpus.

empty.rows <- dtm[rowTotals == 0, ]$dimnames[1][[1]] corpus <- corpus[-as.numeric(empty.rows)]

InformationsquelleAutor der Antwort Dario Lacan
2

Entfernen Sie einfach die spärlichen Begriffe aus der DTM und alles wird gut.
```
dtm <- DocumentTermMatrix(crude, sparse=TRUE)
```
InformationsquelleAutor der Antwort Arijay Chaudhry
0

Nur ein kleiner Nachtrag auf die Antwort von Dario Lacan:
```
empty.rows <- dtm[rowTotals == 0, ]$dimnames[1][[1]]
```
sammeln Datensatz id anstatt um zahlen. Versuchen Sie dies:
```
library(tm)
data("crude")
dtm <- DocumentTermMatrix(crude)
dtm[1, ]$dimnames[1][[1]] # return "127", not "1"
```
Wenn Sie erstellen Sie Ihre eigenen Korpus mit Nummerierung, nach der Datenbereinigung einige Dokumente entfernt werden können und die Nummerierung auch gebrochen werden. Also, es ist besser id direkt:
```
corpus <- tm_filter(
  corpus,
  FUN = function(doc) !is.element(meta(doc)$id, empty.rows))
  # !( meta(doc)$id %in% emptyRows )
)
```
InformationsquelleAutor der Antwort Bernitske

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.