Die Verwendung von kategorischen Daten als features in sklean LogisticRegression

Ich versuche zu verstehen, wie die Verwendung von kategorischen Daten als features in sklearn.linear_model's LogisticRegression.

Verstehe ich natürlich, die ich brauche, um zu verschlüsseln.

Was ich nicht verstehe, ist, wie pass die codierte Funktion der Logistischen regression also ist es verarbeitet, wie ein kategorisches Merkmal, und nicht die Interpretation der int-Wert es wurde bei der Kodierung als standard-messbaren Funktion.
(Weniger wichtig) Kann jemand erklären den Unterschied zwischen der Verwendung preprocessing.LabelEncoder(), DictVectorizer.vocabulary oder nur die Codierung der kategorialen Daten selbst mit einem einfachen dict? Alex A. Kommentar hier berührt das Thema aber nicht sehr tief.

Besonders mit dem ersten!

InformationsquelleAutor Optimesh | 2015-11-28

4

Können Sie erstellen, die Indikator-Variablen für die verschiedenen Kategorien. Zum Beispiel:
```
animal_names = {'mouse';'cat';'dog'}

Indicator_cat = strcmp(animal_names,'cat')
Indicator_dog = strcmp(animal_names,'dog')
```
Dann haben wir:
```
                [0                         [0
Indicator_cat =  1        Indicator_dog =   0
                 0]                         1]
```
Und Sie können verketten Sie diese auf deine original-Daten-matrix:
```
X_with_indicator_vars = [X, Indicator_cat, Indicator_dog]
```
Aber erinnern zu verlassen, eine Kategorie ohne ein Indikator, ob aus einem Konstanten term enthalten ist in den Daten der matrix! Ansonsten werden Ihre Daten-matrix nicht voll Spalte Rang (oder in ökonometrischen Termini, Sie haben multicollinearity).
```
[1  1  0  0         Notice how constant term, an indicator for mouse,
 1  0  1  0         an indicator for ca,t and an indicator for dog
 1  0  0  1]        leads to a less than full column rank matrix:
                    the first column is the sum of the last three.
```
- Danke für die Antwort. Gedacht, aber die Funktion, die ich im Auge habe hat über 40 kategorische Werte (Katze, Hund, Elefant, Löwe,..............). Es muss einen besseren Weg geben.
- Ich bin mir nicht sicher, was Sie wollen, dann? Sie können Sie gruppieren, in größeren Kategorien? Oder anzeigen der Kategorien in ein paar n dimensionalen Vektorraum? (zB. anzeigen Tier name zu 2-dimensionalen Vektorraum (Größe, Gewicht)). Aber wenn Sie möchten, dass zur Behandlung von jeder Kategorie Ihre eigene eindeutige Kategorie, das ist, was Sie (im Allgemeinen für regression) zu tun haben. Und wenn Sie davon ausgehen können die Auswirkungen VARIIEREN je nach Kategorie, Sie haben alle das zusammenspiel Bedingungen zu Ihrer Kategorien mit der anderen Regressoren. Vielleicht sklearn wird dies für Sie tun hinter den kulissen (ich habe keine Ahnung), aber das ist wohl, was passieren wird.
- es gibt keinen besseren Weg, aber Sie können reduzieren die Dimensionalität von FeatureHashing, oder komplexere Techniken wie PCA, etc Auch, dieser Beitrag schlägt vor, die gleiche Hot-Encoding-Technik.
InformationsquelleAutor Matthew Gunn
1
1. Standart-Ansatz zu konvertieren, die kategorialen Merkmale in numerische OneHotEncoding
2. Ist es völlig verschiedene Klassen:
  
  [DictVectorizer][2].vocabulary_
  
  Eine Wörterbuch Funktion für das zuordnen von Namen, die auf Funktion Indizes.
  
  ich.e Nach fit() DictVectorizer hat alle möglichen feature-Namen, und jetzt ist es weiß, in die bestimmte Spalte es wird ein besonderes Wert einer Funktion. So DictVectorizer.vocabulary_ enthält Indizes von Funktionen, aber nicht Werte.
  
  LabelEncoder im Gegenteil ordnet jedem möglichen label (Label sein könnte, string oder integer) in eine Ganzzahl um und gibt 1D-Vektor, der diese integer-Werte.
- Danke für die Antwort.Die Konvertierung selbst ist weniger das problem (denke ich), meine Hauptsorge ist, dass die Logistische reg betrachten die numerische Werte als standard numerische Wert, also wenn die Katze codiert als 1 und Hund 2 es wird davon ausgegangen Beobachtungen mit 'Hund' haben 'mehr' von dieser Eigenschaft, während wir wissen, dass die zugewiesenen Werte sind bedeutungslos.
- Was meinst du mit "verschlüsselt"? Wenn Sie sprechen über die target-Variablen - es ist nichts falsch in Ziele [1,2,3], LogisticRegression einfach bauen 3 (in diesem Fall) Klassifikatoren und kombinieren Sie in OneVsRest Schema. Wenn Sie sprechen über die features - OneHotEncoder codieren jedes kategoriale Merkmal im Binär-format, d.h. es wird neue binäre Funktion und nicht jeder mögliche Wert für kategoriale Funktion, ich.e daraus resultierende Datensatz wird getrennt binäre Merkmale (Spalten) für die Werte Hund=1, Hund=2, - Hund=3 Cat=1, etc. Blick auf Beispiele in der offiziellen Dokumentation.
InformationsquelleAutor Ibraim Ganiev
0

Nehme an, dass die Art der kategorischen variable "Objekt". Erstens, können Sie eine panda.index der kategorische Spalte-Namen:
```
import pandas as pd    
catColumns = df.select_dtypes(['object']).columns
```
Dann können Sie die Indikator-Variablen mit einer for-Schleife unten. Für die binären kategorialen Variablen, verwenden Sie die LabelEncoder() konvertieren 0 und 1. Für kategoriale Variablen mit mehr als zwei Kategorien, verwenden pd.getDummies() zu erhalten, die Indikator-Variablen und dann eine Kategorie (um zu vermeiden, multicollinearity Problem).
```
from sklearn import preprocessing
le = preprocessing.LabelEncoder()

for col in catColumns:
    n = len(df[col].unique())
    if (n > 2):
       X = pd.get_dummies(df[col])
       X = X.drop(X.columns[0], axis=1)
       df[X.columns] = X
       df.drop(col, axis=1, inplace=True)  # drop the original categorical variable (optional)
    else:
       le.fit(df[col])
       df[col] = le.transform(df[col])
```
- In den letzten sklearn-Versionen können Sie jetzt mit le.fit für kategoriale Variablen mit mehr als zwei Klassen.
InformationsquelleAutor Yongkai

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.