Text-Mining-mit SVM-Klassifikator
Ich möchte SVM-Klassifikation für text-mining-Zwecke mit python nltk und erhalten Sie precision, recall Genauigkeit verschiedene mess-Informationen.Dies zu tun, ich Vorverarbeiten dataset und teilte meinen Datensatz in zwei text-Dateien namely-pos_file.txt (positive label) und neg_file.txt (negativ-Etikett). Und jetzt will ich gelten SVM-Klassifikator mit Zufälligen Stichprobe von 70% für die Ausbildung des Daten-und 30% für die Prüfung. Ich sah einige Unterlagen von scikit-learn, aber nicht genau sicher, wie ich diese anwenden?
Beide pos_file.txt und neg_file.txt werden kann als bag of words.
Nützliche links-
- http://scikit-learn.org/stable/modules/feature_extraction.html
- http://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html
Beispiel-Dateien: pos_file.txt
stackoverflowerror restor default properti page string present
multiprocess invalid assert fetch process inform
folderlevel discoveri option page seen configur scope select project level
Beispiel-Dateien: neg_file.txt
class wizard give error enter class name alreadi exist
unabl make work linux
eclips crash
semant error highlight undeclar variabl doesnt work
Und außerdem wäre es interessant, den gleichen Ansatz für unigram, bigram-und Trigramm. Freuen uns auf Ihren Vorschlag oder Beispiel-code.
- Sollten Sie beschreiben die spezielle problem, nicht nur Fragen für den code.(enthalten in den links, die Sie zur Verfügung gestellt)
- Ich wollte wissen, die Schritte, die ich Folgen müssen.
- Die Schritte sind identisch wie im Fall des ML - konvertieren Sie Ihre Dateien in Vektorgrafik-Darstellung (als SVM funktioniert nur auf der numerischen Daten) und Folgen Sie den Anweisungen für SVMs von scikit-learn, vergessen die Tatsache, dass Sie die Arbeit mit Texten.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Unten ist eine sehr grobe Richtlinie der Anwendung von SVM zur text-Klassifikation:
Den folgenden sklearn Dokumentation ist ein wirklich gutes Beispiel für die Durchführung von text-Klassifikation in der sklearn-framework, das würde ich empfehlen, als Ausgangspunkt:
Die Klassifikation von text-Dokumenten mit geringer Dichte-Funktionen