Text-Mining-mit SVM-Klassifikator

Ich möchte SVM-Klassifikation für text-mining-Zwecke mit python nltk und erhalten Sie precision, recall Genauigkeit verschiedene mess-Informationen.Dies zu tun, ich Vorverarbeiten dataset und teilte meinen Datensatz in zwei text-Dateien namely-pos_file.txt (positive label) und neg_file.txt (negativ-Etikett). Und jetzt will ich gelten SVM-Klassifikator mit Zufälligen Stichprobe von 70% für die Ausbildung des Daten-und 30% für die Prüfung. Ich sah einige Unterlagen von scikit-learn, aber nicht genau sicher, wie ich diese anwenden?

Beide pos_file.txt und neg_file.txt werden kann als bag of words.
Nützliche links-

Beispiel-Dateien: pos_file.txt

stackoverflowerror restor default properti page string present
multiprocess invalid assert fetch process inform
folderlevel discoveri option page seen configur scope select project level

Beispiel-Dateien: neg_file.txt

class wizard give error enter class name alreadi exist
unabl make work linux
eclips crash
semant error highlight undeclar variabl doesnt work

Und außerdem wäre es interessant, den gleichen Ansatz für unigram, bigram-und Trigramm. Freuen uns auf Ihren Vorschlag oder Beispiel-code.

Sollten Sie beschreiben die spezielle problem, nicht nur Fragen für den code.(enthalten in den links, die Sie zur Verfügung gestellt)
Ich wollte wissen, die Schritte, die ich Folgen müssen.
Die Schritte sind identisch wie im Fall des ML - konvertieren Sie Ihre Dateien in Vektorgrafik-Darstellung (als SVM funktioniert nur auf der numerischen Daten) und Folgen Sie den Anweisungen für SVMs von scikit-learn, vergessen die Tatsache, dass Sie die Arbeit mit Texten.

InformationsquelleAutor | 2013-10-21

8

Unten ist eine sehr grobe Richtlinie der Anwendung von SVM zur text-Klassifikation:
1. Konvertieren Sie Ihre Texte in Vektor-Darstellungen, d.h. numericalize Texte, so SVM (und die meisten anderen Maschine Lernenden) angewendet werden kann. Dies kann relativ leicht durchgeführt werden unter Verwendung sklearn.feature_extraction.CountVectorizer/TfidfVectorizer, und Sie können frei wählen Sie Ihre n-Gramm-Bereich während der Vektorisierung zusammen mit allen anderen Optionen, wie stop-Wort-Eliminierung und word-document frequency thresholding
2. Durchführen von feature-Auswahl, die in der Regel optional als SVM ' s sind gezeigt zu handhaben feature Redundanz gut. Jedoch, feature-Auswahl kann helfen, schrumpfen die Lern-Raum, Räumlichkeit und Geschwindigkeit Ausbildung deutlich. Gemeinsame Entscheidungen sind: sklearn.feature_selection.chi2/SelectKBest, um nur einige zu nennen
3. Montage (Ausbildung) eine SVC zu Ihrer Trainingsdaten. Verschiedene Möglichkeiten der Kerne stehen zur Verfügung und für die Lernenden Parameter wie C und gamma, Sie könnten lassen Sie Sie standardmäßig für die erste spielen, um. Wenn Ihr Ziel ist, erhalten Sie die beste mögliche Leistung, die Sie verwenden können raster-Suche (sklearn.grid_search), die versucht abschließend die parameter-Kombinationen, die Sie angeben, und zeigt die Kombination ergibt die besten Ergebnisse. Die grid-Suche erfolgt in der Regel auf der Auswertung von Daten
4. Bewertung. Nach der Feinabstimmung Ihrer Lernenden Parameter auf Ihre Auswertung von Daten, können Sie testen Ihre ausgestattet SVM die Leistung auf den Testdaten, die zuvor ungesehen in das training und fine-tuning Stufen. Alternativ können Sie die Verwendung von n-cross-Validierung (sklearn.cross_validation) zu schätzen, Ihre SVM-Leistung. Wenn Sie haben eine begrenzte Menge von annotierten Texten, n-cross-Validierung wird empfohlen, wie es nutzt alle Daten, die Sie haben
Den folgenden sklearn Dokumentation ist ein wirklich gutes Beispiel für die Durchführung von text-Klassifikation in der sklearn-framework, das würde ich empfehlen, als Ausgangspunkt:

Die Klassifikation von text-Dokumenten mit geringer Dichte-Funktionen

InformationsquelleAutor Moses Xu

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.