Text-Mining-mit SVM-Klassifikator

Ich möchte SVM-Klassifikation für text-mining-Zwecke mit python nltk und erhalten Sie precision, recall Genauigkeit verschiedene mess-Informationen.Dies zu tun, ich Vorverarbeiten dataset und teilte meinen Datensatz in zwei text-Dateien namely-pos_file.txt (positive label) und neg_file.txt (negativ-Etikett). Und jetzt will ich gelten SVM-Klassifikator mit Zufälligen Stichprobe von 70% für die Ausbildung des Daten-und 30% für die Prüfung. Ich sah einige Unterlagen von scikit-learn, aber nicht genau sicher, wie ich diese anwenden?

Beide pos_file.txt und neg_file.txt werden kann als bag of words.
Nützliche links-

Beispiel-Dateien: pos_file.txt

stackoverflowerror restor default properti page string present
multiprocess invalid assert fetch process inform
folderlevel discoveri option page seen configur scope select project level

Beispiel-Dateien: neg_file.txt

class wizard give error enter class name alreadi exist
unabl make work linux
eclips crash
semant error highlight undeclar variabl doesnt work

Und außerdem wäre es interessant, den gleichen Ansatz für unigram, bigram-und Trigramm. Freuen uns auf Ihren Vorschlag oder Beispiel-code.

  • Sollten Sie beschreiben die spezielle problem, nicht nur Fragen für den code.(enthalten in den links, die Sie zur Verfügung gestellt)
  • Ich wollte wissen, die Schritte, die ich Folgen müssen.
  • Die Schritte sind identisch wie im Fall des ML - konvertieren Sie Ihre Dateien in Vektorgrafik-Darstellung (als SVM funktioniert nur auf der numerischen Daten) und Folgen Sie den Anweisungen für SVMs von scikit-learn, vergessen die Tatsache, dass Sie die Arbeit mit Texten.
InformationsquelleAutor | 2013-10-21
Schreibe einen Kommentar