Unterschied zwischen feature selection, feature extraction, GEWICHTE
Bin ich etwas verwirrt, als das, was "feature selection /extractor /GEWICHTE" bedeuten, und der Unterschied zwischen Ihnen. Als ich die Literatur zu Lesen manchmal fühle ich mich verloren wie finde ich den Begriff Recht Locker, mein Hauptanliegen sind --
-
Wenn die Leute sprechen von Feature-Frequenz, Funktion Anwesenheit - ist es feature-Auswahl?
-
Wenn die Leute sprechen von algorithmen, wie beispielsweise Informationen Gewinnen, Maximum-Entropie - ist es noch feature-Auswahl.
-
Wenn ich trainieren der Klassifizierer - mit einem feature-set, das fragt der Systematik zu beachten, die position eines Wortes innerhalb eines Dokuments als ein Beispiel - würde man noch nennen dieses feature-Auswahl?
Dank
Rahul Dighe
Du musst angemeldet sein, um einen Kommentar abzugeben.
Rahul-
All dies sind gute Antworten. Das einzige, was ich noch erwähnen möchte ist, dass der grundlegende Unterschied zwischen der Auswahl und der Extraktion mit dem zu tun hat, wie Sie der Behandlung der Daten.
Funktion Extraktion Methoden sind transformative --, die Sie anwenden einer transformation, um Ihre Daten zu Projekt in eine neue feature-Raum mit niedriger dimension. PCA und SVD sind Beispiele dafür.
Funktion Auswahl Methoden wählen Sie Eigenschaften aus dem original-set, basierend auf einigen Kriterien, Informationen zu Gewinnen, die Korrelation und Gegenseitige Information sind nur Kriterien, die verwendet werden, um herauszufiltern, unwichtige oder redundante Funktionen. Embedded-oder wrapper-Methoden, wie Sie genannt werden, können spezielle Klassifikatoren zu erreichen Funktionsauswahl und klassifizieren Sie den Datensatz zur gleichen Zeit.
Einen wirklich schönen überblick über das problem Raum gegeben hier.
Glück!
Feature-Extraktion: Verringerung der Dimensionalität durch (linear oder nicht-
lineare) Projektion von D-dimensionalen Vektor auf der d-dimensionalen
Vektor (d < D).
Beispiel: principal component analysis
Feature-Auswahl: Verringerung der Dimensionalität durch Auswahl der Teilmenge
der ursprünglichen Variablen.
Beispiel: forward oder backward feature selection
Feature-Auswahl ist der Prozess der Auswahl der "interessanten" Funktionen aus dem set für die weitere Verarbeitung.
Funktion der Frequenz ist nur, dass die Häufigkeit, mit der ein Merkmal angezeigt wird.
Informationen Gewinnen, Maximale Entropie, etc. sind die Gewichtung von Methoden, die mithilfe der Funktion Häufigkeit, die wiederum ermöglichen das durchführen von Feature-Auswahl.
Betrachten Sie es wie folgt:
Sie analysiert einen Korpus, und erstellen Sie einen term /Dokument-matrix. Diese matrix beginnt als die Anzahl der Bedingungen, und was für ein Dokument, in dem Sie erscheinen (einfache Frequenz).
Machen, dass matrix mehr sinnvoll, Sie Gewicht den Bedingungen basierend auf eine Funktion einschließlich der Häufigkeit (wie term Frequenz-inverse Dokument-Frequenz, Information zu gewinnen, die maximale Entropie). Nun, die matrix enthält die GEWICHTE, oder die Bedeutung der einzelnen Begriffe in Bezug auf die anderen Bedingungen in der matrix.
Sobald Sie dass haben, können Sie verwenden Sie die feature-Auswahl zu halten, nur die wichtigsten Begriffe (wenn Sie Dinge tun, wie Klassifikation oder Kategorisierung), und weitere Analysen durchzuführen.