R tm removeWords Stoppwörtern ist nicht das entfernen von Stoppwörtern

Ich bin mit dem R tm Paket, und finden, dass fast keines der tm_map Funktionen zu entfernen, die Elemente des Textes werden für mich arbeiten.

Durch "arbeiten" meine ich zum Beispiel, werde ich ausführen:

d <- tm_map(d, removeWords, stopwords('english'))

aber wenn ich dann auf ausführen

ddtm <- DocumentTermMatrix(d, control = list(
    weighting = weightTfIdf,
    minWordLength = 2))
findFreqTerms(ddtm, 10)

Bekomme ich noch:

[1] the     this

...etc. und ein paar andere Stoppwörter.

Sehe ich keinen Fehler anzeigen, dass etwas schief gegangen ist. Weiß jemand, was das ist, und wie man stopword-removal-Funktion richtig, oder zu diagnostizieren, was falsch läuft bei mir?

UPDATE

Es ist ein Fehler früher, dass ich nicht fangen:

Refreshing GOE props...
---Registering Weka Editors---
Trying to add database driver (JDBC): RmiJdbc.RJDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): jdbc.idbDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.gjt.mm.mysql.Driver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): com.mckoi.JDBCDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.hsqldb.jdbcDriver - Warning, not in CLASSPATH?
[KnowledgeFlow] Loading properties and plugins...
[KnowledgeFlow] Initializing KF...

Ist es Weka, ist das entfernen von Stoppwörtern in tm, richtig? Also das könnte mein problem sein?

Update 2

Vom diese, dieser Fehler scheint in keinem Zusammenhang. Es geht um die db, nicht zu Stoppwörtern.

haben Sie versucht, was Sie vorschlagen hier: stat.ethz.ch/pipermail/r-help/2012-February/302479.html ?
Danke, aber das sieht aus wie, dass würde nur unterdrücken, meine Fehlermeldungen nicht helfen weka finden Sie die Datei, richtig?

InformationsquelleAutor Mittenchops | 2013-02-07

6

Nevermind, es funktioniert. Ich habe die folgenden minimalen Beispiel:
```
data("crude")
crude[[1]]
j <- Corpus(VectorSource(crude[[1]]))
jj <- tm_map(j, removeWords, stopwords('english'))
jj[[1]]
```
Hatte ich mehrere tm_map Ausdrücke in Serie. Es stellte sich heraus, die Reihenfolge, die ich entfernt hatte, Leerzeichen, Satzzeichen, etc, hatte verkettet neue Stoppwörter zurück.

Ja, es kann sein, teuflische, um diese tm_map Funktionen in der richtigen Reihenfolge. Ich kämpfte mit Wortstammerkennung in der Vergangenheit und gefunden, Neuordnung der Reihenfolge, um zu helfen. Froh, Sie haben es sortiert.
Ich habe im Grunde das gleiche problem mit benutzerdefinierten Wörter in removeWords. Was war der Auftrag soll das sein? Ich bin mit stripWhitepace, removePunctuation, removeWords, und stemDocument. Ich werde es herausfinden, nehme ich an, aber vielleicht wäre es lohnt sich die Aktualisierung der Lösung mit der richtigen Reihenfolge.

InformationsquelleAutor Mittenchops

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.