Dummy-Variablen, wenn nicht alle Kategorien vorhanden sind

Habe ich eine Reihe von dataframes, wo eine der Spalten enthält einen kategorischen Variablen. Ich möchte konvertieren, um mehrere dummy-Variablen, in dem Fall würde ich normalerweise verwenden get_dummies.

Was passiert, ist, dass get_dummies schaut auf die Daten, die in jeder dataframe, um herauszufinden, wie viele Kategorien es gibt, und schaffen so die entsprechende Anzahl von dummy-Variablen. Jedoch in dem problem, das ich jetzt arbeite, habe ich eigentlich im Voraus wissen, was die möglichen Kategorien sind. Aber wenn man bei jeder dataframe individuell, nicht alle Kategorien zwangsläufig erscheinen.

Meine Frage ist: gibt es eine Möglichkeit zu passieren, um get_dummies (oder eine gleichwertige Funktion) die Namen der Kategorien, so dass für die Kategorien, die nicht in einem bestimmten dataframe, es würde nur zu erstellen, die eine Spalte 0EN?

Etwas damit wäre dieses:

categories = ['a', 'b', 'c']

   cat
1   a
2   b
3   a

Werden diese:

  cat_a  cat_b  cat_c
1   1      0      0
2   0      1      0
3   1      0      0

Sie sind auf der Suche für die sklearn.OneHotEncoder. Schau mal hier: scikit-learn.org/stable/modules/generated/...
get_dummies implementiert die gleiche Funktionalität wie OneHotEncoder, mit dem zusätzlichen Vorteil, dass der Ausgang ist leicht zu verstehen, pandas dataframe mit beschrifteten Spalten anstatt einem einfachen ndarray.
Hatte ich falsch verstanden, die Frage. Danke!
Ich denke, für das Modell-training, es ist nicht notwendig, um diesen Schritt durchführen. Wenn eine Kategorie fehlt, die in den Trainingsdaten, wenn Sie porivde eine Spalte mit Nullen, oder nicht, Ihr Modell wird nicht lernen, was hilfreich, um Vorhersagen für die test-Instanzen enthalten, die variable.
Die Anzahl der Fälle, in denen dies nicht notwendig ist, ist ziemlich klein. Für die ersten Prototypen, die es vielleicht nicht werden, aber für jede Produktions-code, den Sie wollen würde, um sicherzustellen, dass alle Modell-Eingänge haben die gleichen Spalten.
Dies hängt davon ab, die Daten, die sagen, Sie haben ein Modell, sondern für eine einzelne Kategorie einen neuen Wert scheint ziemlich plötzlich. In diesem Fall wird Ihr Modell noch in der Lage sein, um Vorhersagen für solche Werte. Allerdings, wenn Sie Kodieren die Kategorien manuell, Ihr Modell wird Fehler produzieren. Die Frage ist, was gewünscht wird. Alles was ich sage ist: wissen Sie vielleicht noch nicht alle Eingabe-Werte vorher. Darüber hinaus, wenn die Umschulung das Modell, die neuen Werte für die Kategorien sind natürlich behandelt das Modell.
Gerade über jedes Modell, das ich kennen erfordert die konsequente Dimensionalität der Eingangsdaten. Wenn Sie nicht Kodieren die Kategorien als unten, müssen Sie eine änderung in der Räumlichkeit, wenn "ein neuer Wert erscheint ziemlich plötzlich".
Zumindest bei diese Methode, wenn ein Wert angezeigt wird, das war unbekannt vor, es wird keine neue Spalte für die es - Zeile werden alle Nullen. Das garantiert die konsequente Dimensionalität. Als ein beiseite, ist es wahrscheinlich eine gute Idee, dass nur Kategorien angezeigt, die in einem Trainings-set, wie die Behandlung von neuen Kategorien, die unvorhersehbar sein können in zahlreichen Modellen.
genau, zusätzlich z.B. piRSquared Lösung haben den gleichen Vorteil. Es gibt keine Notwendigkeit, im Vorbeigehen das Potenzial der Kategorie Ebenen, um get_dummies. Allerdings, wenn dataframes kombiniert werden müssen und get_dummies muss aufgerufen werden, aus welchem Grund auch immer, bevor die Kombination, ich gebe zu, es kann notwendig sein, um zu wissen, die Kategorie-Ebenen Voraus. Wenn die get_dummies Aufruf geschieht in einem späten pipeline wird es im Allgemeinen nicht erforderlich sein, übergeben Sie die Kategorie Ebenen durch das Verhalten, das du oben beschrieben
Das Verhalten, die ich oben beschrieben habe ist genau das ein Grund, um passieren die Kategorien - wenn Sie nicht, eine zusätzliche Spalte erstellt werden, für neue Spalten, die wahrscheinlich einen Fehler auslösen, es sei denn, Sie absichtlich fallen lassen, an welcher Stelle könnten Sie genauso gut bestanden haben, die Kategorien ausdrücklich.

InformationsquelleAutor Berne | 2016-05-25

24

Über die Umsetzung und die Neuindizierung
```
import pandas as pd

cats = ['a', 'b', 'c']
df = pd.DataFrame({'cat': ['a', 'b', 'a']})

dummies = pd.get_dummies(df, prefix='', prefix_sep='')
dummies = dummies.T.reindex(cats).T.fillna(0)

print dummies

    a    b    c
0  1.0  0.0  0.0
1  0.0  1.0  0.0
2  1.0  0.0  0.0
```
- Klar und prägnant, danke!
- durch die Verwendung reindex's columns Schlagwort (d.h. dummies.reindex(columns=cats)), brauchen Sie nicht zu tun das doppelte transponieren.
- Auch reindex hat eine fill_value parameter, die tut, was Sie getan haben, mit der fillna. So, die Zeile, bevor Sie drucken das Ergebnis kann durchgeführt werden mit: dummies = dummies.reindex(columns=cats, fill_value=0).
- Was sollen wir tun wenn wir don ' T haben eine Vorstellung von der Anzahl der Spalten in der 'Katzen' ?
- Ihnen wird eine Liste aller Werte, die tatsächlich in den Daten vorhanden.
- Eine Frage, vor kurzem gekennzeichnet als ein dupe erlaubt sein, entdecken dieses Juwel von einer Antwort.
InformationsquelleAutor piRSquared
33

ist es ein Weg, um pass zu get_dummies (oder eine gleichwertige Funktion) die Namen der Kategorien, so dass für die Kategorien, die nicht in einem bestimmten dataframe, es würde nur zu erstellen, die eine Spalte 0EN?

Ja, es ist! Pandas besitzt eine spezielle Art von Serie nur für kategorische Daten. Eines der Attribute dieser Serie ist die Möglichkeit, bei Kategorien, die get_dummies berücksichtigt. Hier ist ein Beispiel:
```
In [1]: import pandas as pd

In [2]: possible_categories = list('abc')

In [3]: cat = pd.Series(list('aba'))

In [4]: cat = cat.astype('category', categories=possible_categories)

In [5]: cat
Out[5]: 
0    a
1    b
2    a
dtype: category
Categories (3, object): [a, b, c]
```
Dann get_dummies wird genau das tun, was Sie wollen!
```
In [6]: pd.get_dummies(cat)
Out[6]: 
   a  b  c
0  1  0  0
1  0  1  0
2  1  0  0
```
Gibt es eine Reihe von anderen Möglichkeiten zum erstellen einer kategorialen Series oder DataFrame dies ist nur die eine, finde ich am bequemsten. Sie können Lesen Sie über alle von Ihnen in die pandas Dokumentation.

EDIT:

Habe ich nicht befolgt, die genaue Versionierung, aber es war ein bug wie pandas behandelt sparse-Matrizen, zumindest bis version 0.17.0. Es wurde korrigiert in der version 0.18.1 (veröffentlicht im Mai 2016).

Version 0.17.0, wenn Sie versuchen, dies zu tun mit der sparse=True option mit einem DataFrame die Spalte von Nullen für die fehlenden dummy-variable wird eine Spalte NaN, und es wird konvertiert, um zu dichten.
- Schön, ich wusste nicht, über diese Daten geben, Pandas, vielen Dank!
- Äh, gut, ich entschied mich für piRSquared Antwort, denn es war klar, prägnant und angepasst, um den code hatte ich auch schon. Plus, es war der, den ich am Ende mit was ich Tat, so war es die eine, die mein problem gelöst. Ihnen wurde mehr informativ als eine ganze, zugegeben, aber es ist nicht die, die ich letztendlich verwendet, das ist, warum ich wollte es nicht ändern, zu verkaufen, sorry... ich würde es bonus-Punkte, wenn ich könnte obwohl.
InformationsquelleAutor T.C. Proctor
4

Versuchen Sie dies:
```
In[1]: import pandas as pd
       cats = ["a", "b", "c"]

In[2]: df = pd.DataFrame({"cat": ["a", "b", "a"]})

In[3]: pd.concat((pd.get_dummies(df.cat, columns=cats), pd.DataFrame(columns=cats))).fillna(0)
Out[3]: 
     a    b    c
0  1.0  0.0  0
1  0.0  1.0  0
2  1.0  0.0  0
```
- Die columns=cats im get_dummies hier nicht wirklich etwas tun. Die columns option für die Auswahl einer Teilmenge der ursprünglichen Daten-frame, den Sie möchten, kodiert mit dummy-Variablen. Es scheint, Sie zu ignorieren, wenn die angeforderten Spalten erscheinen nicht in den Daten-frame. Es scheint, wie es sollte, wird ein Fehler erzeugt, aber es funktioniert nicht
InformationsquelleAutor Kapil Sharma
3

Ich glaube nicht, dass get_dummies bietet das out of the box, es ermöglicht nur das erstellen eines extra column dass highlights NaN Werte.

Hinzufügen der fehlenden columns sich, Sie könnte verwenden pd.concat entlang axis=0 vertikal 'stack' das DataFrames (die dummy-Spalten plus eine DataFrame id) und erstellt automatisch fehlende Spalten, verwenden Sie fillna(0) zu ersetzen der fehlenden Werte, und verwenden Sie dann .groupby('id') zu trennen die verschiedenen DataFrame wieder.
- Ja, das ist die alternative, die ich dachte, aber ich hoffte, dass es sein könnte etwas, das bereits umgesetzt wird, dass wäre einfacher zu verwenden (nicht unbedingt mit get_dummies, aber die einzige andere alternative, die ich fand, war sklearn's OneHotEncoder die scheint nicht viel weiterhelfen...)
- Kann man genauso gut überspringen get_dummies aus und erstellen Sie alle 0-1 Spalten sich basierend auf der Kategorie-Spalte selbst. Ich denke, das hängt ein bißchen von der Größe des Problems.
InformationsquelleAutor Stefan
3

Habe ich diese Frage an die pandas github. Stellt sich heraus, es ist wirklich einfach zu umgehen, wenn man definiert die Spalte als einen Categorical hier definieren Sie, in allen möglichen Kategorien.
```
df['col'] = pd.Categorical(df['col'], categories=['a', 'b', 'c', 'd'])
```
get_dummies() den rest machen dann wie erwartet.

InformationsquelleAutor andre

Hinzufügen der fehlenden Kategorie in den test-Satz:

# Get missing columns in the training test
missing_cols = set( train.columns ) - set( test.columns )
# Add a missing column in test set with default value equal to 0
for c in missing_cols:
    test[c] = 0
# Ensure the order of column in the test set is in the same order than in train set
test = test[train.columns]

Beachten Sie, dass dieser code auch die Spalte entfernen, die aus der Kategorie in den test-Datensatz jedoch nicht im Trainings-Datensatz

InformationsquelleAutor Thibault Clement

Wie vorgeschlagen, die von anderen - Konvertieren Sie Ihre Kategorialen Funktionen "Kategorie" Daten-Typ sollte nach beheben der unsichtbaren label Problem mit 'get_dummies'.

# Your Data frame(df)
from sklearn.model_selection import train_test_split
X = df.loc[:,df.columns !='label']
Y = df.loc[:,df.columns =='label']

# Split the data into 70% training and 30% test
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3) 

# Convert Categorical Columns in your data frame to type 'category'
for col in df.select_dtypes(include=[np.object]).columns:
    X_train[col] = X_train[col].astype('category', categories = df[col].unique())
    X_test[col] = X_test[col].astype('category', categories = df[col].unique())

# Now, use get_dummies on training, test data and we will get same set of columns
X_train = pd.get_dummies(X_train,columns = ["Categorical_Columns"])
X_test = pd.get_dummies(X_test,columns = ["Categorical_Columns"])

InformationsquelleAutor Rudr

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.