Entfernen von Komponenten mit geringer Varianz mit scikit-learn

scikit-learn bietet verschiedene Methoden zum entfernen von Deskriptoren, ein basic Methode für diesen Zweck wurde durch die gegebenen Anleitung unten,

http://scikit-learn.org/stable/modules/feature_selection.html#

aber das tutorial stellt keine Methode oder einen Weg, der Ihnen sagen kann die Art und Weise, die Liste der features, die entweder entfernt oder beibehalten.

Den code unten wurde entnommen aus dem tutorial.

    from sklearn.feature_selection import VarianceThreshold
    X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]
    sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
    sel.fit_transform(X)
array([[0, 1],
       [1, 0],
       [0, 0],
       [1, 1],
       [1, 0],
       [1, 1]])

Beispiel-code oben zeigt nur zwei Deskriptoren " - Form(6, 2)", aber in meinem Fall, ich habe einen riesigen Daten-frames mit einer Form der (Zeilen 51, Spalten 9000). Nach der Suche nach einem geeigneten Modell, das ich behalten möchten Spur von nützlichen und nutzlosen features, weil ich speichern kann Rechenzeit bei der Berechnung der features von test-Daten durch die Berechnung nur nützliche Funktionen.

Beispielsweise, wenn Sie ausführen, maschinelles lernen-Modellierung mit WEKA 6.0, sofern es mit bemerkenswerter Flexibilität über die feature-Auswahl und nach dem entfernen der nutzlosen Funktion können Sie eine Liste der verworfenen features zusammen mit den nützlichen features.

Dank

Sklearn funktioniert anders als WEKA. In diesem Fall, anstatt Ihnen eine Liste der besten features, sklearn gibt direkt ein neues array mit den besten features. Brauchst du wirklich die Liste? Ich denke, diese Liste könnte berechnet werden, die mit einer umgehen, aber ist das wirklich notwendig?
laut meines Verständnisses (wie ich bin nicht sehr Erfahrung in der ML, aber ein begeisterter schlanker ) Trainings-und test-set sollte haben dieselbe Anzahl von features mit derselben Indizierung, da sonst im Falle von weka er rase Fehler. Wenn Test-set ist die interne abgeleitet, die mit den Daten split-würde ich immer gleichen Funktionen und die gleiche Indizierung, aber wenn wir die Verwendung von externen Daten-Testsatz oder unbekannte Daten auf welche Vorhersagen machen, ohne die bekannten Namen der Funktion, wie wir könnten die unbekannten Daten.
ja du hast Recht. Ich dachte nur in der Ausbildung ahah

InformationsquelleAutor jax | 2015-03-27

9

Dann, was Sie tun können, wenn ich bin nicht falsch ist:

Im Fall der VarianceThreshold, können Sie die Methode aufrufen fit statt fit_transform. Diese passen die Daten und die daraus resultierenden Abweichungen werden gespeichert in vt.variances_ (vorausgesetzt vt ist Ihr Gegenstand).

Dass ein threhold, können Sie extrahieren Sie die Merkmale der transformation als fit_transform tun würde:
```
X[:, vt.variances_ > threshold]
```
Oder Holen Sie sich die Indizes wie:
```
idx = np.where(vt.variances_ > threshold)[0]
```
Oder als Maske
```
mask = vt.variances_ > threshold
```
PS: Standard-Schwellenwert 0

EDIT:

Einen mehr geradlinig zu tun, ist mithilfe der Methode get_support von der Klasse VarianceThreshold. Aus der Dokumentation:
```
get_support([indices])  Get a mask, or integer index, of the features selected
```
Sollten Sie diese Methode aufrufen, nachdem fit oder fit_transform.
- Nach dem Einbau der gefilterten Daten-frame kann bezogen werden über: df.loc[:, sel.get_support()] wo df ist ein Pandabären-Daten-frame und sel ist ein VarianceThreshold.
- Ich denke, deine Lösung ist eigentlich die beste. Danke.
InformationsquelleAutor Imanol Luengo

import numpy as np
import pandas as pd
from sklearn.feature_selection import VarianceThreshold

# Just make a convenience function; this one wraps the VarianceThreshold
# transformer but you can pass it a pandas dataframe and get one in return

def get_low_variance_columns(dframe=None, columns=None,
                             skip_columns=None, thresh=0.0,
                             autoremove=False):
    """
    Wrapper for sklearn VarianceThreshold for use on pandas dataframes.
    """
    print("Finding low-variance features.")
    try:
        # get list of all the original df columns
        all_columns = dframe.columns

        # remove `skip_columns`
        remaining_columns = all_columns.drop(skip_columns)

        # get length of new index
        max_index = len(remaining_columns) - 1

        # get indices for `skip_columns`
        skipped_idx = [all_columns.get_loc(column)
                       for column
                       in skip_columns]

        # adjust insert location by the number of columns removed
        # (for non-zero insertion locations) to keep relative
        # locations intact
        for idx, item in enumerate(skipped_idx):
            if item > max_index:
                diff = item - max_index
                skipped_idx[idx] -= diff
            if item == max_index:
                diff = item - len(skip_columns)
                skipped_idx[idx] -= diff
            if idx == 0:
                skipped_idx[idx] = item

        # get values of `skip_columns`
        skipped_values = dframe.iloc[:, skipped_idx].values

        # get dataframe values
        X = dframe.loc[:, remaining_columns].values

        # instantiate VarianceThreshold object
        vt = VarianceThreshold(threshold=thresh)

        # fit vt to data
        vt.fit(X)

        # get the indices of the features that are being kept
        feature_indices = vt.get_support(indices=True)

        # remove low-variance columns from index
        feature_names = [remaining_columns[idx]
                         for idx, _
                         in enumerate(remaining_columns)
                         if idx
                         in feature_indices]

        # get the columns to be removed
        removed_features = list(np.setdiff1d(remaining_columns,
                                             feature_names))
        print("Found {0} low-variance columns."
              .format(len(removed_features)))

        # remove the columns
        if autoremove:
            print("Removing low-variance features.")
            # remove the low-variance columns
            X_removed = vt.transform(X)

            print("Reassembling the dataframe (with low-variance "
                  "features removed).")
            # re-assemble the dataframe
            dframe = pd.DataFrame(data=X_removed,
                                  columns=feature_names)

            # add back the `skip_columns`
            for idx, index in enumerate(skipped_idx):
                dframe.insert(loc=index,
                              column=skip_columns[idx],
                              value=skipped_values[:, idx])
            print("Succesfully removed low-variance columns.")

        # do not remove columns
        else:
            print("No changes have been made to the dataframe.")

    except Exception as e:
        print(e)
        print("Could not remove low-variance features. Something "
              "went wrong.")
        pass

    return dframe, removed_features

Sehr hilfreiche Methoden. Ich fand es auch nützlich, um den ursprünglichen Wert von skip_columns mit einer leeren Liste [] statt Keiner, weil Keiner eine Ausnahme werfen, wenn ich nicht überspringen alle Spalten
richtig, aber dann könnten Sie einfach die standard sklearn.feature_selection.VarianceThreshold mit den zugrunde liegenden numpy array statt der pandas.DataFrame. 🙂

InformationsquelleAutor Jason Wolosonovich

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.