Unmelt Pandas DataFrame

Habe ich ein pandas dataframe mit zwei id-Variablen:

df = pd.DataFrame({'id': [1,1,1,2,2,3], 
               'num': [10,10,12,13,14,15],
               'q': ['a', 'b', 'd', 'a', 'b', 'z'],
               'v': [2,4,6,8,10,12]})

   id  num  q   v
0   1   10  a   2
1   1   10  b   4
2   1   12  d   6
3   2   13  a   8
4   2   14  b  10
5   3   15  z  12

Kann ich die pivot-Tabelle mit:

df.pivot('id','q','v')

Und am Ende mit etwas in der Nähe von:

q    a   b   d   z
id                
1    2   4   6 NaN
2    8  10 NaN NaN
3  NaN NaN NaN  12

Jedoch, was ich wirklich will ist (das original unmelted form):

id   num   a   b   d   z               
1    10   2   4 NaN NaN
1    12 NaN NaN   6 NaN  
2    13   8 NaN NaN NaN
2    14 NaN  10 NaN NaN
3    15 NaN NaN NaN  12

In anderen Worten:

'id' und 'num' meine Indizes (normalerweise habe ich nur gesehen, entweder 'id' oder 'num' als der index, aber ich brauche beide, da bin ich beim abrufen der ursprünglichen unmelted form)
'q' sind meine Spalten
'v' sind meine Werte in der Tabelle

Update

Fand ich eine schließen Lösung von Wes McKinney ' s blog:

df.pivot_table(index=['id','num'], columns='q')

         v            
q        a   b   d   z
id num                
1  10    2   4 NaN NaN
   12  NaN NaN   6 NaN
2  13    8 NaN NaN NaN
   14  NaN  10 NaN NaN
3  15  NaN NaN NaN  12

Jedoch, das format ist nicht ganz das gleiche wie das, was ich oben soll.

InformationsquelleAutor slaw | 2015-07-09

pandas python

17

Du bist wirklich in der Nähe slaw. Nur benennen Sie Ihre Spalte index auf Keine und haben Sie was Sie wollen.
```
df2 = df.pivot_table(index=['id','num'], columns='q')
df2.columns = df2.columns.droplevel().rename(None)
df2.reset_index().fillna("null").to_csv("test.csv", sep="\t", index=None)
```
Hinweis, dass die 'v' - Spalte wird erwartet, dass numerische standardmäßig so, dass Sie aggregiert werden können. Ansonsten Pandas Fehler raus:
```
DataError: No numeric types to aggregate
```
Zum beheben dieses, Sie können Ihre eigenen aggregation-Funktion mithilfe einer benutzerdefinierten lambda-Funktion:
```
df2 = df.pivot_table(index=['id','num'], columns='q', aggfunc= lambda x: x)
```
- Ahhh, ich war so nahe! Ich wusste, dass es hatte zu tun mit df.columns.name konnte aber nicht herausfinden, wie zu verwenden rename angemessen. Vielen Dank für Ihre Hilfe!
- Wichtiger Hinweis: "schließen-Salat" klingt wie "Krautsalat".
InformationsquelleAutor khammel
14

Könnten Sie set_index und unstack
```
In [18]: df.set_index(['id', 'num', 'q'])['v'].unstack().reset_index()
Out[18]:
q  id  num    a     b    d     z
0   1   10  2.0   4.0  NaN   NaN
1   1   12  NaN   NaN  6.0   NaN
2   2   13  8.0   NaN  NaN   NaN
3   2   14  NaN  10.0  NaN   NaN
4   3   15  NaN   NaN  NaN  12.0
```
- Diese viel sauberer als die akzeptierte Antwort. Danke!
- Danke. pandas.pivot() mit mehreren index-Spalten ist nicht so einfach, wie ich hoffte, und diese Lösung arbeitete, statt.
- pivot_table war die Umwandlung von Ganzzahlen zu Fließkommazahlen. Dies nicht tun. Danke!
- Sie können loszuwerden, die "q" mit so etwas wie dies: del df2.columns.name.
InformationsquelleAutor Zero

Sie können entfernen Sie den Namen q.

df1.columns=df1.columns.tolist()

Null Antwort + entfernen q =

df1 = df.set_index(['id', 'num', 'q'])['v'].unstack().reset_index()
df1.columns=df1.columns.tolist()

   id  num    a     b    d     z
0   1   10  2.0   4.0  NaN   NaN
1   1   12  NaN   NaN  6.0   NaN
2   2   13  8.0   NaN  NaN   NaN
3   2   14  NaN  10.0  NaN   NaN
4   3   15  NaN   NaN  NaN  12.0

InformationsquelleAutor johnInHome

Kam mit einer Lösung schließen

df2 = df.pivot_table(index=['id','num'], columns='q')
df2.columns = df2.columns.droplevel()
df2.reset_index().fillna("null").to_csv("test.csv", sep="\t", index=None)

Kann immer noch nicht herausfinden können, wie man 'q' aus dem dataframe

InformationsquelleAutor slaw

1

Das könnte gut funktionieren:
1. Pivot
df2 = (df.pivot_table(index=['id', 'num'], columns='q', values='v')).reset_index())
1. Concatinate der 1. Ebene-Spalte-Namen mit der 2.
df2.columns =[s1 + str(s2) for (s1,s2) in df2.columns.tolist()]

InformationsquelleAutor Hillary Murefu

Es getan werden kann in drei Schritte:

#1: Prepare auxilary column 'id_num': 
df['id_num'] = df[['id', 'num']].apply(tuple, axis=1)
df = df.drop(columns=['id', 'num'])

#2: 'pivot' is almost an inverse of melt:
df, df.columns.name = df.pivot(index='id_num', columns='q', values='v').reset_index(), ''

#3: Bring back 'id' and 'num' columns:
df['id'], df['num'] = zip(*df['id_num'])
df = df.drop(columns=['id_num'])

Dies ist ein Ergebnis, aber mit anderer Reihenfolge der Spalten:

     a     b    d     z  id  num
0  2.0   4.0  NaN   NaN   1   10
1  NaN   NaN  6.0   NaN   1   12
2  8.0   NaN  NaN   NaN   2   13
3  NaN  10.0  NaN   NaN   2   14
4  NaN   NaN  NaN  12.0   3   15

Alternativ mit der richtigen Reihenfolge:

def multiindex_pivot(df, columns=None, values=None):
    #inspired by: https://github.com/pandas-dev/pandas/issues/23955
    names = list(df.index.names)
    df = df.reset_index()
    list_index = df[names].values
    tuples_index = [tuple(i) for i in list_index] # hashable
    df = df.assign(tuples_index=tuples_index)
    df = df.pivot(index="tuples_index", columns=columns, values=values)
    tuples_index = df.index  # reduced
    index = pd.MultiIndex.from_tuples(tuples_index, names=names)
    df.index = index
    df = df.reset_index() #me
    df.columns.name = ''  #me
    return df

df = df.set_index(['id', 'num'])
df = multiindex_pivot(df, columns='q', values='v')

InformationsquelleAutor Quant Christo

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.