Wie man mehr Gewicht auf bestimmte Funktionen im maschinellen lernen?

Wenn eine Bibliothek, wie scikit-learn, wie ordne ich mehr Gewicht auf bestimmte features in der Eingabe zu einem classifier wie SVM? Ist das etwas, was Menschen tun oder gibt es eine andere Lösung für mein problem?

Warum würden Sie dies tun? Gute algorithmen mache das schon automatisch und situationnally.
Blick auf TF-IDF - es tut Gewichtung
tfidf nicht über die Gewichtung der Funktionen, es ist mehr über das "quetschen" zu schnell zu wachsen, so dass Sie bekommen angemessene Skalen. Es führt nicht auf eine bestimmte Funktion als "wichtiger", es sei denn, Sie verwenden sehr spezielle Klassifizierer auf der Oberseite (zum Beispiel für die Entscheidung, die Bäume, tfidf nicht von der "Bedeutung" an alle)
Was auch immer. Wenn die Anzahl der Instanzen und inverse Dokument-Frequenz ist nicht ein Gewicht dann, was es ist?
Es ist "nur" eine Vertretung, die kein Gewicht in dem Sinne, OP ist für Fragen. Classifier ist nicht "gezwungen", um den Fokus auf bestimmte Funktion, die aufgrund der Anzahl der vorkommen (Wert von tfidf). Es funktioniert wie ein Gewicht für einige Modelle, obwohl, wie beschrieben in der Antwort - Sie erfordert Klassifizierer zu bevorzugen, die hohe Werte von Funktionen, die nicht eine Allgemeine Eigenschaft von ML-Modellen.

InformationsquelleAutor 28r | 2016-06-26

15

Zunächst - Sie sollten wahrscheinlich nicht tun, es. Das ganze Konzept des maschinellen Lernens ist die Verwendung von statistischen Analyse zuordnen optimale GEWICHTE. Sie stören hier das gesamte Konzept, so müssen Sie wirklich starke Beweise dafür, dass diese entscheidend zu dem Prozess, den Sie versuchen zu modellieren, und für einige Grund, Ihr Modell ist zur Zeit fehlt es.

That being said - es gibt keine Allgemeine Antwort. Dies ist ein reines Modell, einige, die Ihnen erlauben, um Gewicht Merkmale - in random forest könnte man bias Verteilung, aus der Sie die sample-Funktionen zu analysieren, gegen diejenigen, die Sie interessiert sind; in der SVM sollte es genug, um einfach multiplizieren gegebenen Funktion durch eine Konstante - denken Sie daran, wenn Sie wurden gesagt, zu normalisieren Ihre Funktionen im SVM? Dies ist der Grund, warum - Sie können den Maßstab der Funktionen "Steuern" Ihre classifier gegenüber bestimmten Eigenschaften. Diejenigen mit hohen Werten werden bevorzugt. Dieser wird eigentlich für jedes Gewicht norm-regularisierten Modells (regulierte Logistische regression, ridge-regression, lasso etc.).
- Danke für die Antwort, ich habe in scikit-learn, die der SVC-Klassifizierer hat eine "sample_weight' Eingang, wo man mehr Wert auf bestimmte Klassen. Können Sie ein Beispiel geben, wo diese Funktion verwendet wird?
- sample_weight ist das Gewicht bestimmte samples (Instanzen, Punkte, Objekte), nicht ganzen Klassen, (obwohl es kann für diesen Zweck verwendet werden). Dies ist beispielsweise für die Implementierung Steigerung Methoden, die iterativ übergewicht Proben, die falsch eingestuft zuvor. Es wird auch verwendet, um übergewicht Minderheit Klassen in unsymmetrisch-Klassifikation. Aber das ist wieder eine andere Art der Gewichtung als die in der Frage
- Sollte ich multiplizieren Sie die Funktion durch die Konstante während der Ausbildung, Inferenz oder beides? Und sollte dieser Multiplikation werden, bevor die Standardisierung oder nach? Danke!
- Multiplikation funktioniert nur für etwas Modelle. In diesem Fall wäre es sowohl während der Ausbildung und Inferenz, und nach standarization.
- Danke @lejlot, ich glaube, das würde die Arbeit für SVMs, L1/L2 logistic regression und Gewicht-regularisierten linearen Modell, abgesehen von den Modelle Sie erklärte in Ihrer Antwort?
- auch, wenn Sie skalieren nach Standardisierung, die es nicht haben keine Auswirkungen auf die GEWICHTE einer linearen Modell? Zum Beispiel, wenn Sie multiplizieren die normalisierte Funktion f1 durch einen Faktor 'k',' nicht dem Modell nur lernen, w1/k anstelle von w1?
- Nochmal - es funktioniert nur für etwas Modelle, diejenigen, die nicht affinen Transformationen invariant. Allerdings, wenn Sie hatte zu normalisieren Sie Ihre Daten, dann ist Ihr Modell eindeutig nicht affine Transformationen invariant ist (sonst könnte es nur lernen, die Normalisierung auf eigene). Insbesondere SVMs sind nicht invariant zu rescalings. Weder ist (regularisiert!) Logistische regression und so weiter.
InformationsquelleAutor lejlot

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.