One hot encoding des string kategorischen features

Ich versuche, führen Sie eine one-hot-Kodierung des trivialen Datensatzes.

data = [['a', 'dog', 'red']
        ['b', 'cat', 'green']]

Was ist der beste Weg Vorverarbeitung dieser Daten mit Hilfe von Scikit-Learn?

Auf dem ersten Instinkt, würden Sie Ihren Blick auf Scikit-Learn ist OneHotEncoder. Aber die one-hot-encoder unterstützt keine strings als Funktionen, sondern nur diskretisiert zahlen.

So, dann würden Sie einen LabelEncoder, würde die Kodierung der strings in zahlen. Aber dann haben Sie auf anwenden, um die label-encoder in den einzelnen Spalten und speichern jedes dieser label-Encoder (wie auch die Spalten, die Sie angewendet wurden, auf). Und das fühlt sich extrem klobig.

So, was ist das besten Weg, es zu tun in Scikit-Learn?

Bitte nicht schlagen pandas.get_dummies. Das ist, was ich verwende in der Regel heute für eine hot-encodings. Aber seine begrenzt in der Tatsache, dass Sie nicht die Kodierung Trainings /test-set separat.

auch pandas.get_dummies binäre Codierung behandelt wird als kontinuierliche, durch die decision tree classifier, die es nicht anwendbar für dieses Szenario.

InformationsquelleAutor hlin117 | 2016-01-30

Wenn Sie auf sklearn>0.20.dev0

In [11]: from sklearn.preprocessing import OneHotEncoder
    ...: cat = OneHotEncoder()
    ...: X = np.array([['a', 'b', 'a', 'c'], [0, 1, 0, 1]], dtype=object).T
    ...: cat.fit_transform(X).toarray()
    ...: 
Out[11]: array([[1., 0., 0., 1., 0.],
           [0., 1., 0., 0., 1.],
           [1., 0., 0., 1., 0.],
           [0., 0., 1., 0., 1.]])

Wenn Sie auf sklearn==0.20.dev0

In [30]: cat = CategoricalEncoder()

In [31]: X = np.array([['a', 'b', 'a', 'c'], [0, 1, 0, 1]], dtype=object).T

In [32]: cat.fit_transform(X).toarray()
Out[32]:
array([[ 1.,  0., 0.,  1.,  0.],
       [ 0.,  1.,  0.,  0.,  1.],
       [ 1.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  1.,  0.,  1.]])

Anderen Weg, es zu tun, ist die Verwendung category_encoders.

Hier ist ein Beispiel:

% pip install category_encoders
import category_encoders as ce
le =  ce.OneHotEncoder(return_df=False, impute_missing=False, handle_unknown="ignore")
X = np.array([['a', 'dog', 'red'], ['b', 'cat', 'green']])
le.fit_transform(X)
array([[1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1]])

Die CategorialEncoder zusammengeführt wurde mit der OneHotEncoder so die Funktionalität enthalten ist, in der es in der aktuellen version von sklearn==0.20.dev0
Danke @marbel Bearbeiten

InformationsquelleAutor zipp

4

Sehr schöne Frage.

Jedoch, in gewissem Sinne, es ist ein privater Fall von etwas, das kommt (zumindest für mich) ziemlich oft - gegeben sklearn Phasen anwendbar Teilmengen der X matrix, die ich anwenden möchten (eventuell mehrere) die gesamte matrix. Hier, zum Beispiel, Sie haben eine Bühne, die weiß, laufen auf eine einzige Spalte, und Sie möchten, beantragen Sie dreimal - einmal pro Spalte.

Dies ist ein klassischer Fall für den Einsatz der Composite-Design-Pattern.

Hier ist ein (Skizze a) wiederverwendbare Phase akzeptiert eine dictionary-Zuordnung eine Spalte ein index in der transformation zu bewerben:
```
class ColumnApplier(object):
    def __init__(self, column_stages):
        self._column_stages = column_stages

    def fit(self, X, y):
        for i, k in self._column_stages.items():
            k.fit(X[:, i])

        return self

    def transform(self, X):
        X = X.copy()
        for i, k in self._column_stages.items():
            X[:, i] = k.transform(X[:, i])

        return X
```
Nun, um es in diesem Kontext, beginnend mit
```
X = np.array([['a', 'dog', 'red'], ['b', 'cat', 'green']])
y = np.array([1, 2])
X
```
würden Sie einfach verwenden, um die Zuordnung der einzelnen Spalte index der transformation, die Sie wollen:
```
multi_encoder = \
    ColumnApplier(dict([(i, preprocessing.LabelEncoder()) for i in range(3)]))
multi_encoder.fit(X, None).transform(X)
```
Sobald Sie entwickeln so eine Phase (ich kann nicht post, die ich verwenden), können Sie es über und über für die verschiedenen Einstellungen.
- Ich habe etwas geschaffen, das, wie dies vor, um ehrlich zu sein. Und es fühlt sich klobig. Scikit-Learn sollte eine Klasse, die abstracts, die diese unter der Haube, einfach, weil es ist ein gemeinsames design pattern. Wenn nicht, dann denke ich, die PR für das angemessen wäre.
- Ihre Lösung gibt problem auf diese Daten: X = np.array([['cat'],['Hund','cat'],['Haustier','der Mensch'],['cat']]) y = [1,2,3,4]
- Normalerweise mache ich etwas ähnliches auch, aber eine bekannte Nachteil ist, dass die LabelEncoder#transform stürzt ab, wenn man die strings, die nicht erscheinen im training.
- sollte nicht ein fit_transform beheben?
InformationsquelleAutor Ami Tavory
3

Habe ich angesichts dieses problem viele Male, und ich fand eine Lösung in diese Buch an seiner Seite 100 :

Können wir beide Transformationen (aus dem text Kategorien zu integer-Kategorien, die dann von integer
Kategorien zu one-hot Vektor) in einer Aufnahme mit der LabelBinarizer Klasse:

- und sample-code ist hier :
```
from sklearn.preprocessing import LabelBinarizer
encoder = LabelBinarizer()
housing_cat_1hot = encoder.fit_transform(data)
housing_cat_1hot
```
und als Ergebnis :
Beachten Sie, dass dies gibt ein dichtes NumPy-Arrays standardmäßig. Kann man eine sparse-matrix anstelle von übergeben
sparse_output=True LabelBinarizer Konstruktor.

Und finden Sie mehr über die LabelBinarizer, hier in der sklearn offizielle Dokumentation
- Dies scheitert in Python 3.6 auf Windows 10. >>> housing_cat_1hot = encoder.fit_transform(Daten) ----------- Traceback (most recent call last): File "<pyshell#11>", line 1, in <module> ,,, ,,, ,,,
- Hinzufügen Sie können mehr info über den Fehler???
- Dies ist nicht one hot encoding, sondern dummy-Kodierung.
InformationsquelleAutor Espoir Murhabazi

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.