SQL-ähnliche Fensterfunktionen in PANDAS: Zeilennummerierung in Python Pandas Dataframe

Ich komme aus einer sql-hintergrund und ich verwenden die folgenden Daten, Verarbeitungsschritt Häufig:

Partition der Tabelle von Daten durch ein oder mehrere Felder
Für jede partition, fügen Sie eine Zeilenzahl auf jeder seiner Reihen, die Reihen der Zeile durch eine oder mehrere andere Felder, auf denen der analyst gibt an, aufsteigend oder absteigend

EX:

df = pd.DataFrame({'key1' : ['a','a','a','b','a'],
           'data1' : [1,2,2,3,3],
           'data2' : [1,10,2,3,30]})
df
     data1        data2     key1    
0    1            1         a           
1    2            10        a        
2    2            2         a       
3    3            3         b       
4    3            30        a

Ich bin auf der Suche nach, wie man die PANDAS äquivalent zu dieser sql-Fenster-Funktion:

RN = ROW_NUMBER() OVER (PARTITION BY Key1, Key2 ORDER BY Data1 ASC, Data2 DESC)


    data1        data2     key1    RN
0    1            1         a       1    
1    2            10        a       2 
2    2            2         a       3
3    3            3         b       1
4    3            30        a       4

Ich habe versucht, die folgenden die, die ich bekommen habe, zu arbeiten, wo es keine 'Partitionen':

def row_number(frame,orderby_columns, orderby_direction,name):
    frame.sort_index(by = orderby_columns, ascending = orderby_direction, inplace = True)
    frame[name] = list(xrange(len(frame.index)))

Habe ich versucht zu verlängern, diese Idee zur Arbeit mit Partitionen (Gruppen pandas), aber Folgendes hat nicht funktioniert:

df1 = df.groupby('key1').apply(lambda t: t.sort_index(by=['data1', 'data2'], ascending=[True, False], inplace = True)).reset_index()

def nf(x):
    x['rn'] = list(xrange(len(x.index)))

df1['rn1'] = df1.groupby('key1').apply(nf)

Aber ich habe gerade eine Menge NaNs wenn ich dies tun.

Ideal, da würde es eine prägnante Art und Weise zu replizieren, die Fenster-Funktion-Funktion von sql (ich habe herausgefunden, das Fenster-basierte Aggregate...das ist ein Einzeiler in pandas)...kann jemand mit mir teilen die meisten idiomatischen Weg, um Anzahl Zeilen, wie dies in PANDAS?

InformationsquelleAutor der Frage AllenQ | 2013-07-21

Können Sie dies tun, indem Sie mit groupby zweimal zusammen mit der rank Methode:

In [11]: g = df.groupby('key1')

Verwenden Sie die min-Methode argument zu geben, Werte, die denselben data1 derselben RN:

In [12]: g['data1'].rank(method='min')
Out[12]:
0    1
1    2
2    2
3    1
4    4
dtype: float64

In [13]: df['RN'] = g['data1'].rank(method='min')

Dann groupby diese Ergebnisse, und fügen Sie die Titel mit dem Bezug auf data2:

In [14]: g1 = df.groupby(['key1', 'RN'])

In [15]: g1['data2'].rank(ascending=False) - 1
Out[15]:
0    0
1    0
2    1
3    0
4    0
dtype: float64

In [16]: df['RN'] += g1['data2'].rank(ascending=False) - 1

In [17]: df
Out[17]:
   data1  data2 key1  RN
0      1      1    a   1
1      2     10    a   2
2      2      2    a   3
3      3      3    b   1
4      3     30    a   4

Es fühlt sich an wie es sollte, um eine native Möglichkeit, dies zu tun (es kann gut sein!...).

InformationsquelleAutor der Antwort Andy Hayden

können Sie auch sort_values()groupby() und schließlich cumcount() + 1:

df['RN'] = df.sort_values(['data1','data2'], ascending=[True,False]) \
             .groupby(['key1']) \
             .cumcount() + 1
print(df)

ergibt:

   data1  data2 key1  RN
0      1      1    a   1
1      2     10    a   2
2      2      2    a   3
3      3      3    b   1
4      3     30    a   4

PS getestet mit pandas 0.18

InformationsquelleAutor der Antwort MaxU

Können Sie transform und Rank zusammen Hier ist ein Beispiel

df = pd.DataFrame({'C1' : ['a','a','a','b','b'],
           'C2' : [1,2,3,4,5]})
df['Rank'] = df.groupby(by=['C1'])['C2'].transform(lambda x: x.rank())
df

SQL-ähnliche Fensterfunktionen in PANDAS: Zeilennummerierung in Python Pandas Dataframe

Haben Sie einen Blick auf Pandas Rang-Methode für weitere Informationen

InformationsquelleAutor der Antwort sushmit

-1

pandas.lib.fast_zip() erstellen können, die ein Tupel array aus einer Liste von array. Sie können diese Funktion verwenden, erstellen Sie eine Tupel-Serie, und dann Rang es:

values = {'key1' : ['a','a','a','b','a','b'],
          'data1' : [1,2,2,3,3,3],
          'data2' : [1,10,2,3,30,20]}

df = pd.DataFrame(values, index=list("abcdef"))

def rank_multi_columns(df, cols, **kw):
    data = []
    for col in cols:
        if col.startswith("-"):
            flag = -1
            col = col[1:]
        else:
            flag = 1
        data.append(flag*df[col])
    values = pd.lib.fast_zip(data)
    s = pd.Series(values, index=df.index)
    return s.rank(**kw)

rank = df.groupby("key1").apply(lambda df:rank_multi_columns(df, ["data1", "-data2"]))

print rank

das Ergebnis:

a    1
b    2
c    3
d    2
e    4
f    1
dtype: float64

InformationsquelleAutor der Antwort HYRY

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.