Die Umkehrung ("one-hot" - Codierung in Pandas

Problem statement
Ich will von dieser Daten-Rahmen, die im Grunde ist ein hot kodiert.

 In [2]: pd.DataFrame({"monkey":[0,1,0],"rabbit":[1,0,0],"fox":[0,0,1]})

    Out[2]:
       fox  monkey  rabbit
    0    0       0       1
    1    0       1       0
    2    1       0       0
    3    0       0       0
    4    0       0       0

Zu diesem einen, ist 'reverse' one-hot kodiert.

    In [3]: pd.DataFrame({"animal":["monkey","rabbit","fox"]})
    Out[3]:
       animal
    0  monkey
    1  rabbit
    2     fox

Ich kann mir vorstellen, es gibt eine Art von kluger Nutzung gelten oder zip zu tun lichtet, aber ich bin mir nicht sicher, wie... Kann jemand helfen?

Habe ich nicht viel Erfolg hatte mit der Indizierung usw, um zu versuchen, dieses problem zu lösen.

Zeig uns deinen code bitte.
Ihre 2 dataframes nicht übereinstimmen...
Ich behoben - vielen Dank für das beobachten 🙂
könnte Sie nach Ihrem gewünschten DF für diesen Eingang DF: pd.DataFrame({'dog': {0: 0, 1: 0, 2: 0, 3: 0, 4: 0, 5: 1}, 'fox': {0: 0, 1: 0, 2: 1, 3: 0, 4: 0, 5: 0}, 'monkey': {0: 0, 1: 1, 2: 0, 3: 0, 4: 0, 5: 0}, 'rabbit': {0: 1, 1: 0, 2: 0, 3: 0, 4: 0, 5: 0}}), weil jetzt ich verstehe nicht, Ihre gewünschten DF?
könnten Sie bitte klären, ob Ihre Eingabedaten kann mit mehr als einer 1 in einer Spalte? Und wie hast du die Zeilen, die nur Nullen?
stackoverflow.com/a/55757342/2384397

InformationsquelleAutor Peadar Coyle | 2016-07-12

Ich würde verwenden, gelten die zum decodieren der Spalten:

In [2]: animals = pd.DataFrame({"monkey":[0,1,0,0,0],"rabbit":[1,0,0,0,0],"fox":[0,0,1,0,0]})

In [3]: def get_animal(row):
   ...:     for c in animals.columns:
   ...:         if row[c]==1:
   ...:             return c

In [4]: animals.apply(get_animal, axis=1)
Out[4]: 
0    rabbit
1    monkey
2       fox
3      None
4      None
dtype: object

Für meinen Gebrauch Fall diese funktionierte...

InformationsquelleAutor PYOak

22

UPDATE: ich denke ayhan ist richtig und soll es sein:
```
df.idxmax(axis=1)
```
Demo:
```
In [40]: s = pd.Series(['dog', 'cat', 'dog', 'bird', 'fox', 'dog'])

In [41]: s
Out[41]:
0     dog
1     cat
2     dog
3    bird
4     fox
5     dog
dtype: object

In [42]: pd.get_dummies(s)
Out[42]:
   bird  cat  dog  fox
0   0.0  0.0  1.0  0.0
1   0.0  1.0  0.0  0.0
2   0.0  0.0  1.0  0.0
3   1.0  0.0  0.0  0.0
4   0.0  0.0  0.0  1.0
5   0.0  0.0  1.0  0.0

In [43]: pd.get_dummies(s).idxmax(1)
Out[43]:
0     dog
1     cat
2     dog
3    bird
4     fox
5     dog
dtype: object
```
ALTE Antwort: (wahrscheinlich falsche Antwort)

versuchen Sie dies:
```
In [504]: df.idxmax().reset_index().rename(columns={'index':'animal', 0:'idx'})
Out[504]:
   animal  idx
0     fox    2
1  monkey    1
2  rabbit    0
```
Daten:
```
In [505]: df
Out[505]:
   fox  monkey  rabbit
0    0       0       1
1    0       1       0
2    1       0       0
3    0       0       0
4    0       0       0
```
- Was passiert, wenn eine der Spalten wiederholen. Sagen zwei Affen? [1,3 ] würde diese es abholen.
- Sollte es nicht df.idxmax(axis=1)?
- es sieht viel besser aus, aber leider funktioniert es nicht immer richtig!
- versuchen Sie es gegen diese DF: pd.DataFrame({'dog': {0: 0, 1: 0, 2: 0, 3: 0, 4: 0, 5: 1}, 'fox': {0: 0, 1: 0, 2: 1, 3: 0, 4: 0, 5: 0}, 'monkey': {0: 0, 1: 1, 2: 0, 3: 0, 4: 0, 5: 0}, 'rabbit': {0: 1, 1: 0, 2: 0, 3: 0, 4: 0, 5: 0}})
- Wenn Sie don ' T-pass-Achse=1 wil überprüfen Sie die Spalten für 1s, aber eine Spalte kann mehrere 1s (ein dataset kann mehr als ein Hunde, aber ein Tier kann ein Hund und eine Katze gleichzeitig :)). Ja, dein Beispiel ist eine Möglichkeit, wenn die dummies wurden mit dropfirst=True, aber in diesem Fall sollten wir wissen, was die erste Kategorie war. Derzeit gibt es keine solche Informationen.
- wenn ich verstehen one-hot encoding richtig, es könnte nur ein 1 (eins) pro Spalte und die OP ' s wollen wissen, dass Ihre Indizes...
- vielleicht habe ich missverstanden, was OP will...
- Sollte es sein, eine 1 pro Zeile eigentlich. Sie können versuchen, es mit pd.Series(['dog', 'cat', 'dog', 'bird']).str.get_dummies(). get_dummies produziert immer eine Struktur wie diese (nie mehr als eine 1 in eine Zeile). OP ' s Frage ist problematisch. Sie wollen das original-array, das verwendet wurde, erstellen dummies, aber die Reihenfolge, in der das Beispiel ist falsch (es sollte Hase, Affe, Fuchs). Andere als die, wie ich sagte, es ist eine gängige Praxis, um drop eine der Spalten, die beim erstellen von dummies (um zu vermeiden, multicollinearity) aber um wieder zurück auf das original-array müssen wir wissen, was die Spalte war.
- Auch in diesem Fall, denke ich, dass die Verwendung von idxmax() ist der beste Weg zu gehen. Vielleicht ersten filter, indem alle Nullen und die Zuordnung zu der gelöschten Spalte. Aber wieder, OP klären sollten, die ersten.
- mein Verständnis von one-hot encoding war, die meisten wahrscheinlich, falsch - danke für das Beispiel...
- ich verstehe immer noch nicht, es pd.DataFrame({'dog': {0: 0, 1: 0, 2: 0, 3: 0, 4: 0, 5: 1}, 'fox': {0: 0, 1: 0, 2: 1, 3: 0, 4: 0, 5: 0}, 'monkey': {0: 0, 1: 1, 2: 0, 3: 0, 4: 0, 5: 0}, 'rabbit': {0: 1, 1: 0, 2: 0, 3: 0, 4: 0, 5: 0}}).idxmax(1) - gibt IMO unerwartete Ergebnisse...
- Ja, weil es alle Nullen in einigen Zeilen. Sie sollten zuerst zu behandeln (OP, sollte uns sagen, welches Tier es ist). Ich würde wahrscheinlich etwas wie das hier tun: df.sum(axis=1).map({0: 'That animal'}).fillna(df.idxmax(axis=1))
- sorry, jetzt bin ich nicht sicher, ich verstehe die one-hot encoding richtig...
- kein problem.
InformationsquelleAutor MaxU

Ich tun würde:

cols = df.columns.to_series().values
pd.DataFrame(np.repeat(cols[None, :], len(df), 0)[df.astype(bool).values], df.index[df.any(1)])

Die Umkehrung (

Timing

MaxU ' s Methode hat Rand für große dataframes

Kleine df 5 x 3

Die Umkehrung (

Großen df 1000000 x 52

Die Umkehrung (

InformationsquelleAutor piRSquared

Versuchen Sie dies:

df = pd.DataFrame({"monkey":[0,1,0,1,0],"rabbit":[1,0,0,0,0],"fox":[0,0,1,0,0], "cat":[0,0,0,0,1]})
df 

   cat  fox  monkey  rabbit
0    0    0       0       1
1    0    0       1       0
2    0    1       0       0
3    0    0       1       0
4    1    0       0       0

pd.DataFrame([x for x in np.where(df ==1, df.columns,'').flatten().tolist() if len(x) >0],columns= (["animal"]) )

   animal
0  rabbit
1  monkey
2     fox
3  monkey
4     cat

Ich habe in der Zeitmessung über grössere dataframe.

InformationsquelleAutor Merlin

Dies funktioniert sowohl mit einzelnen und mehreren Etiketten.

Wir können verwenden Sie die erweiterte Indizierung, um dieses problem anzugehen. Hier ist der link.

import pandas as pd

df = pd.DataFrame({"monkey":[1,1,0,1,0],"rabbit":[1,1,1,1,0],\
    "fox":[1,0,1,0,0], "cat":[0,0,0,0,1]})

df['tags']='' # to create an empty column

for col_name in df.columns:
    df.ix[df[col_name]==1,'tags']= df['tags']+' '+col_name

print df

Und das Ergebnis ist:

   cat  fox  monkey  rabbit                tags
0    0    1       1       1   fox monkey rabbit
1    0    0       1       1       monkey rabbit
2    0    1       0       1          fox rabbit
3    0    0       1       1       monkey rabbit
4    1    0       0       0                 cat

Erklärung:
Wir Durchlaufen die Spalten auf der dataframe.

df.ix[selection criteria, columns to write value] = value
df.ix[df[col_name]==1,'tags']= df['tags']+' '+col_name

Die Zeile oben im Grunde findet Sie alle Orte, an denen df[col_name] == 1, wählt in der Spalte 'tags' und legen Sie es auf der RHS-Wert, df['tags']+' '+ col_name

Hinweis: .ix wurde als veraltet markiert, da Pandas v0.20. Sollten Sie stattdessen .loc oder .iloc als angemessen.

InformationsquelleAutor Sudharshann D

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.