Java SVM-Text-Klassifikation , Zug & Test-Dateien?
Ich versuche zu Klassifizieren, ein Text-Dokument in Kategorien , zum Beispiel :
Dokument 1 : "Basketball ist ein guter sport" ---> Kategorie : Sport
Dokument 2 : "World war 2 .." ---> Kategorie : Geschichte
...
Meine gool ist die Erstellung einer Java-Schnittstelle mit einem SVM-Algorithmus !
Also, ich sollte die Verwendung von SVM-Java-Bibliothek , fand ich zwei :
- SVMLIGH
- LIBSVM
Sollte ich das erste oder das zweite?
Hatte ich viele Forschung , und ich fand, dass ich zwei Dinge tun :
-
Sollte ich vorbereiten, eine Ausbildung Datei.
In der SVM es ist ein spezielles format für diese Datei ( Beispiel : 1 1:317.5 )
Aber die Frage ist : Von was Soll ich diese Datei Erzeugen ? Aus den Dokumenten nur ? Oder Aus etwas anderem ? -
Sollte ich ein test-file, das ist, dass ein neues Dokument zu klassifizieren. Sollte ich mich verwandeln das neue Dokument zu klassifizieren, die in den SVM-Test-Datei-format?
Richtig?
Bitte guide mich ich bin wirklich verloren und ich weiß nicht, was ich tun soll ! PLZ
InformationsquelleAutor user3187504 | 2014-01-12
Du musst angemeldet sein, um einen Kommentar abzugeben.
ja, sollten Sie das format ändern, das auf standard-svm
Ihr svm-Klassifizierer haben keine Idee über text, erste, Sie sollten Ihre Texte(train,test) , standrad-format
beginnen Sie Ihren Klassifizierer mit Weka, weka einfache GUI & klassifizieren Sie Ihre Datenbestände mit wenigen Mausklicks
wenn Sie Vertrauen zu Ihren classifier & es ist die Genauigkeit dann die Implementierung in java
Sie können Weka in Ihrem java-code zu
PS:
1 - WEKA Text-Klassifikation für das Erste Mal & Anfänger : http://www.youtube.com/watch?v=IY29uC4uem8
2- http://www.cs.waikato.ac.nz/ml/weka/
InformationsquelleAutor rapid2share