R tm removeWords Stoppwörtern ist nicht das entfernen von Stoppwörtern
Ich bin mit dem R tm Paket, und finden, dass fast keines der tm_map
Funktionen zu entfernen, die Elemente des Textes werden für mich arbeiten.
Durch "arbeiten" meine ich zum Beispiel, werde ich ausführen:
d <- tm_map(d, removeWords, stopwords('english'))
aber wenn ich dann auf ausführen
ddtm <- DocumentTermMatrix(d, control = list(
weighting = weightTfIdf,
minWordLength = 2))
findFreqTerms(ddtm, 10)
Bekomme ich noch:
[1] the this
...etc. und ein paar andere Stoppwörter.
Sehe ich keinen Fehler anzeigen, dass etwas schief gegangen ist. Weiß jemand, was das ist, und wie man stopword-removal-Funktion richtig, oder zu diagnostizieren, was falsch läuft bei mir?
UPDATE
Es ist ein Fehler früher, dass ich nicht fangen:
Refreshing GOE props...
---Registering Weka Editors---
Trying to add database driver (JDBC): RmiJdbc.RJDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): jdbc.idbDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.gjt.mm.mysql.Driver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): com.mckoi.JDBCDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.hsqldb.jdbcDriver - Warning, not in CLASSPATH?
[KnowledgeFlow] Loading properties and plugins...
[KnowledgeFlow] Initializing KF...
Ist es Weka, ist das entfernen von Stoppwörtern in tm, richtig? Also das könnte mein problem sein?
Update 2
Vom diese, dieser Fehler scheint in keinem Zusammenhang. Es geht um die db, nicht zu Stoppwörtern.
Danke, aber das sieht aus wie, dass würde nur unterdrücken, meine Fehlermeldungen nicht helfen weka finden Sie die Datei, richtig?
InformationsquelleAutor Mittenchops | 2013-02-07
Du musst angemeldet sein, um einen Kommentar abzugeben.
Nevermind, es funktioniert. Ich habe die folgenden minimalen Beispiel:
Hatte ich mehrere
tm_map
Ausdrücke in Serie. Es stellte sich heraus, die Reihenfolge, die ich entfernt hatte, Leerzeichen, Satzzeichen, etc, hatte verkettet neue Stoppwörter zurück.tm_map
Funktionen in der richtigen Reihenfolge. Ich kämpfte mit Wortstammerkennung in der Vergangenheit und gefunden, Neuordnung der Reihenfolge, um zu helfen. Froh, Sie haben es sortiert.Ich habe im Grunde das gleiche problem mit benutzerdefinierten Wörter in removeWords. Was war der Auftrag soll das sein? Ich bin mit stripWhitepace, removePunctuation, removeWords, und stemDocument. Ich werde es herausfinden, nehme ich an, aber vielleicht wäre es lohnt sich die Aktualisierung der Lösung mit der richtigen Reihenfolge.
InformationsquelleAutor Mittenchops