kNN: training, Test und Validierung
Ich bin Extraktion von Bild-features aus 10 Klassen mit 1000 Bilder. Da gibt es 50 Funktionen, die ich extrahieren können, ich denke das finden der besten feature-Kombination hier zu verwenden. Training, validation und test sets sind wie folgt aufgeteilt:
Training set = 70%
Validation set = 15%
Test set = 15%
Ich benutze forward-feature-selection auf die Validierungsdaten zu finden, die beste Kombination und endlich den test zum überprüfen der Genauigkeit. Könnte mir bitte jemand sagen, ob ich es richtig machen?
Die Frage scheint ungültig - als Antwort unten zeigt
InformationsquelleAutor klijo | 2012-05-30
Du musst angemeldet sein, um einen Kommentar abzugeben.
So kNN ist ein Ausnahme Allgemeine workflow für das bauen/testen überwacht machine-learning-Modelle. Insbesondere das Modell über kNN ist nur verfügbar mit der Bezeichnung Daten, platziert in einigen metrischer Raum.
In anderen Worten, für kNN, es ist kein training Schritt, weil es gibt kein Modell zu bauen. Template-matching & interpolation ist alles, was in kNN.
Weder gibt es eine Validierung Schritt. Validierung von Maßnahmen der modellgenauigkeit gegen die Trainings-Daten als Funktion der iteration count (Trainingsfortschritt). Overfitting ist, was durch die Aufwärtsbewegung dieser empirischen Kurve und zeigt den Punkt, an dem die Ausbildung endet. In anderen Worten, da ist kein Modell gebaut, da gibt es nichts zu validieren.
Aber man kann immer noch testen, D. H., die Bewertung der Qualität der Vorhersagen mit Daten, bei denen die Ziele (Etiketten oder erzielt) werden verdeckt aus dem Modell.
Aber selbst testen ist ein wenig anders für kNN im Vergleich zu anderen supervised machine learning-Techniken. Insbesondere für die kNN, die Qualität der Vorhersagen ist natürlich abhängig von Menge der Daten, oder genauer gesagt, die Dichte (Anzahl der Punkte pro Einheit-Volumen), D. H., wenn Sie gehen, um vorherzusagen, deren Werte durch Mittelung der 2-3 Punkte am nächsten, dann hilft es, wenn Sie Punkte in der Nähe, die Sie wünschen vorherzusagen. Daher die Größe der test-set kleine, oder noch besser, verwenden Sie k-Fach Kreuzvalidierung oder leave-one-out-Kreuz-Validierung, die beide geben Sie genaueres Modell testen, aber nicht auf Kosten der Reduzierung der Größe Ihrer kNN Nachbar Bevölkerung.
wenn ich für das beste feature-selection-Algorithmus auf den Prüfstand gestellt und dann die endgültige Genauigkeit, nicht die feature-Kombination in Richtung auf den test eingestellt ?
die kanonische kNN-Beschreibung nicht enthalten ist ein Algorithmus zur feature-Auswahl, oder etwas dergleichen. Abgesehen davon, dass ich nicht verstehe, die Frage in Ihrer Kommentare, aber ich bin sicher, Sie haben nichts zu tun mit kNN.
InformationsquelleAutor doug
kNN ist nicht ausgebildet. Alle Daten werden gespeichert und verwendet, die zur Laufzeit für die Vorhersage, so ist es eines der am meisten Zeit und Platz verbrauchen Klassifizierung-Methode. Feature-Reduktion dieser Probleme. Cross validation ist eine viel bessere Möglichkeit zu testen, dann trainieren/testen aufgeteilt.
InformationsquelleAutor Yasir Khan