Vorbereiten der Daten für die text-Klassifizierung mit Scikit Lernen SVM

Ich versuche zu gelten SVM von Scikit lernen zu klassifizieren, die tweets, die ich gesammelt.
Also, es gibt zwei Kategorien, nennen Sie A und B.
Jetzt habe ich alle tweets kategorisiert in zwei text-Datei', 'A.txt' und 'B.txt'.
Allerdings bin ich mir nicht sicher, welche Art von Daten Eingänge die Scikit Lernen SVM ist für Fragen.
Ich habe ein dictionary mit den Bezeichnungen (A und B) als seinen Schlüssel und ein Wörterbuch von Funktionen (unigrams) und Ihre Frequenzen als Werte.
Sorry, ich bin wirklich neu auf maschinelles lernen und nicht sicher, was ich tun sollte, um die SVM zu arbeiten.
Und ich fand, dass der SVM ist die Verwendung von numpy.ndarray wie die Art der Dateneingabe. Brauche ich, um eine zu erstellen, basierend auf meinen eigenen Daten?
Sollte es so etwas sein?

Labels    features    frequency
  A        'book'        54
  B       'movies'       32

Jede Hilfe ist willkommen.

InformationsquelleAutor user1906856 | 2012-12-18

Schreibe einen Kommentar