Datei-format für die Klassifikation mit SVM Licht

Ich versuche zu bauen, ein Klassifikator mit SVM Licht, die klassifiziert ein Dokument in einer der beiden Klassen. Ich habe schon trainiert und getestet, der Systematik und eine Modell-Datei ist auf der Festplatte gespeichert. Jetzt will ich mit diesem Modell-Datei zu klassifizieren vollständig neue Dokumente. Was sollte das format der Eingabedatei für diese? Könnte es sein, plain-text-Datei (ich glaube nicht, dass das funktionieren würde) oder könnte es einfach nur die Auflistung der Funktionen in der text-Datei ohne jegliche Klasse label und feature-GEWICHTE (in diesem Fall ich habe, um zu verfolgen die Indizes der features in feature-Vektor während der Ausbildung), oder ist es ein anderes format sein?

InformationsquelleAutor ritesh | 2013-08-20

7

Trainings-und Test-Dateien müssen das gleiche format haben, jede Instanz, die Ergebnisse in eine Zeile der folgenden form:
```
<line> .=. <target> <feature>:<value> ... <feature>:<value> # <info>
<target> .=. +1 | -1 | 0 | <float> 
<feature> .=. <integer> | "qid"
<value> .=. <float>
<info> .=. <string>
```
Beispiel (copy pasta von SVM^Licht website):
```
-1 1:0.43 3:0.12 9284:0.2 # abcdef
```
Können Sie sich die SVM^Licht website für weitere Informationen.
- Marc ich bin nicht versuchen zu "testen", der Systematik hier. Ich will es nun für den praktischen Zweck der Klassifizierung völlig unbekannte Dokumente. In einem "test" - Datei, ich weiß die Klasse, zu der das Dokument gehört und ich kann damit bereiten Sie die Datei entsprechend. Wenn ich versuche, eine "echte" - Einstufung, ich weiß nicht, die Klasse des Dokuments und der feature-Werte (sagen wir, wenn ich mit tf-idf Werte in der Trainings-und Testphase, dann gibt es keinen idf-Wert, wenn es ein völlig unbekanntes Dokument). Was wäre also das format der Datei dann?
- Mit einem Klassifikator ist in der Regel genannt die Testphase, auch wenn Sie nicht daran interessiert sind, die Beurteilung Ihrer Richtigkeit. Sie können entweder weglassen der ersten Spalte (nicht sicher, dass der SVM^Licht ermöglicht diesem, ich weiß, libsvm tut), oder verwenden Sie einen Wert Ihrer Wahl gibt (funktioniert definitiv). Die Bezeichnungen werden nur verwendet, um Bericht mit einer Genauigkeit. Also, wenn Sie diese nicht haben, nutzen Sie einfach Ihre Lieblings-Nummer, aber Sie wissen, dass alle berichtete Genauigkeit ist völlig falsch.
- Ich muss zugeben, dass ich bin jetzt echt verwirrt. Sagen wir ich lege eine beliebige Zahl in der ersten Spalte (anstelle der Klasse label). Aber wie berechne ich die feature-Werte [das format ist <feature>:<value>....<feature>:<value>]? Für die Ausbildung bin ich mit dem tf-idf-als auch für die Klasse der Frequenz für die Berechnung dieser Wert berücksichtigt Gesamtzahl von Schulungsunterlagen sowie insgesamt die Anzahl der Trainingsdokumente in der Klasse, zu der dieses Dokument gehört. Für die Prüfung könnte das einen Wert berechnet, in einer Weise anders aus, die im training benutzt? Wenn ja, was könnte dieser Wert eventuell?
- Wie hast du die Ausbildung? Machen Sie den test in der gleichen Weise eingestellt ... ich sehe nicht, was dich verwirrt. Sie muss Vorverarbeiten Ihre test-set in der genaue die gleiche Weise, wie Sie das für die Ausbildung festgelegt. Berechnen Sie tf-basierend auf der Prüfung von Dokumenten und normalisieren basierend auf der idf, die Sie für das training einstellen.
- Ok, dass macht die Dinge klar. Ich war nicht in der Lage zu verstehen, wie ich der idf-Wert, aber jetzt sehe ich, dass es das gleiche wie für die Ausbildung. Vielen Dank Marc für deine Geduld und Zeit!
- Könnten Sie ein Beispiel geben, eine kleine text-Datei und erklären, wie man die trainingsdatei? Ich bin stecken, zu verstehen, zu übersetzen, wie mein text-Dokument in diesem format. Ihre Hilfe würde sehr geschätzt werden.
- er will, um Vorhersagen zu treffen. Nicht tatsächlich testen Sie alles, damit er nicht zu haben (nicht haben) die Klasse.
InformationsquelleAutor Marc Claesen
1

Datei-format, um Vorhersagen zu treffen ist die gleiche wie die, um zu testen und zu trainieren, d.h.
```
<line> .=. <target> <feature>:<value> ... <feature>:<value> # <info>
<target> .=. +1 | -1 | 0 | <float> 
<feature> .=. <integer> | "qid"
<value> .=. <float>
<info> .=. <string>
```
Aber die Vorhersage das Ziel ist unknow, so Sie haben zu Verwendung der Wert 0 als Ziel. Thi ist der einzige Unterschied. Ich hoffe, dies hilft jemand

InformationsquelleAutor Umbert

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.