Wie man mehr Gewicht auf bestimmte Funktionen im maschinellen lernen?
Wenn eine Bibliothek, wie scikit-learn, wie ordne ich mehr Gewicht auf bestimmte features in der Eingabe zu einem classifier wie SVM? Ist das etwas, was Menschen tun oder gibt es eine andere Lösung für mein problem?
- Warum würden Sie dies tun? Gute algorithmen mache das schon automatisch und situationnally.
- Blick auf TF-IDF - es tut Gewichtung
- tfidf nicht über die Gewichtung der Funktionen, es ist mehr über das "quetschen" zu schnell zu wachsen, so dass Sie bekommen angemessene Skalen. Es führt nicht auf eine bestimmte Funktion als "wichtiger", es sei denn, Sie verwenden sehr spezielle Klassifizierer auf der Oberseite (zum Beispiel für die Entscheidung, die Bäume, tfidf nicht von der "Bedeutung" an alle)
- Was auch immer. Wenn die Anzahl der Instanzen und inverse Dokument-Frequenz ist nicht ein Gewicht dann, was es ist?
- Es ist "nur" eine Vertretung, die kein Gewicht in dem Sinne, OP ist für Fragen. Classifier ist nicht "gezwungen", um den Fokus auf bestimmte Funktion, die aufgrund der Anzahl der vorkommen (Wert von tfidf). Es funktioniert wie ein Gewicht für einige Modelle, obwohl, wie beschrieben in der Antwort - Sie erfordert Klassifizierer zu bevorzugen, die hohe Werte von Funktionen, die nicht eine Allgemeine Eigenschaft von ML-Modellen.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Zunächst - Sie sollten wahrscheinlich nicht tun, es. Das ganze Konzept des maschinellen Lernens ist die Verwendung von statistischen Analyse zuordnen optimale GEWICHTE. Sie stören hier das gesamte Konzept, so müssen Sie wirklich starke Beweise dafür, dass diese entscheidend zu dem Prozess, den Sie versuchen zu modellieren, und für einige Grund, Ihr Modell ist zur Zeit fehlt es.
That being said - es gibt keine Allgemeine Antwort. Dies ist ein reines Modell, einige, die Ihnen erlauben, um Gewicht Merkmale - in random forest könnte man bias Verteilung, aus der Sie die sample-Funktionen zu analysieren, gegen diejenigen, die Sie interessiert sind; in der SVM sollte es genug, um einfach multiplizieren gegebenen Funktion durch eine Konstante - denken Sie daran, wenn Sie wurden gesagt, zu normalisieren Ihre Funktionen im SVM? Dies ist der Grund, warum - Sie können den Maßstab der Funktionen "Steuern" Ihre classifier gegenüber bestimmten Eigenschaften. Diejenigen mit hohen Werten werden bevorzugt. Dieser wird eigentlich für jedes Gewicht norm-regularisierten Modells (regulierte Logistische regression, ridge-regression, lasso etc.).