Python pandas rolling_apply zwei-Spalte-input in die Funktion

Anschluss an diese Frage Python benutzerdefinierte Funktion mit rolling_apply für pandas, über die Verwendung rolling_apply. Ich habe zwar voran, mit meiner Funktion, die ich bin kämpfen, um mit einer Funktion, die erfordert, dass zwei oder mehr Spalten als Eingänge:

Erstellen das gleiche setup wie vor

import pandas as pd
import numpy as np
import random

tmp  = pd.DataFrame(np.random.randn(2000,2)/10000, 
                    index=pd.date_range('2001-01-01',periods=2000),
                    columns=['A','B'])

Aber die änderung der Funktion leicht zu nehmen, zwei Spalten.

def gm(df,p):
    df = pd.DataFrame(df)
    v =((((df['A']+df['B'])+1).cumprod())-1)*p
    return v.iloc[-1]

Produziert es die folgende Fehlermeldung:

pd.rolling_apply(tmp,50,lambda x: gm(x,5))

  KeyError: u'no item named A'

Ich denke, es ist, weil der Eingang für die lambda-Funktion ist ein ndarray der Länge 50 und nur von der ersten Spalte, die nicht zwei Spalten als Eingabe. Gibt es eine Möglichkeit, um sowohl die Spalten als Eingänge und verwenden Sie es in einem rolling_apply Funktion.

Wieder jegliche Hilfe würde sehr geschätzt werden...

Möglich, Duplikat der stackoverflow.com/questions/37486502/.... Siehe meine Antwort dort.

InformationsquelleAutor h.l.m | 2014-01-10

pandas python

7

Sieht aus wie rolling_apply werden versuchen, Sie zu konvertieren Eingabe von user-func in ndarray (http://pandas.pydata.org/pandas-docs/stable/generated/pandas.stats.moments.rolling_apply.html?highlight=rolling_apply#pandas.stats.moments.rolling_apply).

Workaround basiert auf der Verwendung von aux-Spalte ii, welches verwendet wird, wählen Sie "Fenster" innerhalb der Bearbeiten-Funktion gm:
```
import pandas as pd
import numpy as np
import random

tmp = pd.DataFrame(np.random.randn(2000,2)/10000, columns=['A','B'])
tmp['date'] = pd.date_range('2001-01-01',periods=2000)
tmp['ii'] = range(len(tmp))            

def gm(ii, df, p):
    x_df = df.iloc[map(int, ii)]
    #print x_df
    v =((((x_df['A']+x_df['B'])+1).cumprod())-1)*p
    #print v
    return v.iloc[-1]

#print tmp.head()
res = pd.rolling_apply(tmp.ii, 50, lambda x: gm(x, tmp, 5))
print res
```
Dieser ist glatt. Ich mag es.
In diesem Sinne, wie würden Sie abziehen eine ähnliche Kerbe, wenn der index waren, die ein multi-index? Oder alle nicht-numerischen index, für diese Angelegenheit? Immer notwendig ist, zuerst konvertieren Sie den index, der schwebt?
ich veränderte meine Antwort, damit es nicht mehr verwendet Indizes. gm noch immer array von floats, so habe ich diese zuordnen zu ints verwendet werden, mit iloc
Die Idee funktioniert, aber nach dem Versuch dieser Ansatz scheint es komplizierter als es sein muss. Ich habe jetzt nur noch eine for-Schleife verwenden, um durch Rollen des dataframe und können sowohl auswerten und berechnen in mehreren Spalten.
mit for-Schleifen können Sie am Ende mit code, das ist VIEL langsamer - manchmal ist es ein großes problem.

InformationsquelleAutor lowtech

Alle rolling_* funktioniert auf 1d-array. Ich bin sicher, man kann erfinden einige workarounds für die übergabe von 2d-arrays, aber in Ihrem Fall, Sie können einfach vorausberechnen zeilenweise Werte für die rollierende Auswertung:

>>> def gm(x,p):
...     return ((np.cumprod(x) - 1)*p)[-1]
...
>>> pd.rolling_apply(tmp['A']+tmp['B']+1, 50, lambda x: gm(x,5))
2001-01-01   NaN
2001-01-02   NaN
2001-01-03   NaN
2001-01-04   NaN
2001-01-05   NaN
2001-01-06   NaN
2001-01-07   NaN
2001-01-08   NaN
2001-01-09   NaN
2001-01-10   NaN
2001-01-11   NaN
2001-01-12   NaN
2001-01-13   NaN
2001-01-14   NaN
2001-01-15   NaN
...
2006-06-09   -0.000062
2006-06-10   -0.000128
2006-06-11    0.000185
2006-06-12   -0.000113
2006-06-13   -0.000962
2006-06-14   -0.001248
2006-06-15   -0.001962
2006-06-16   -0.003820
2006-06-17   -0.003412
2006-06-18   -0.002971
2006-06-19   -0.003882
2006-06-20   -0.003546
2006-06-21   -0.002226
2006-06-22   -0.002058
2006-06-23   -0.000553
Freq: D, Length: 2000

Vielen Dank dafür, aber das Beispiel der Funktion von gm war nur ein mock-Beispiel...also ich bin immer noch scharf, um herauszufinden, was die Arbeit ist, um zwei oder mehr Spalten...

InformationsquelleAutor alko

Hier ist eine andere version dieser Frage: Mit rolling_apply auf einem DataFrame-Objekt. Verwenden Sie diese Einstellung, wenn die Funktion liefert eine Reihe.

Seit Ihrig gibt einen Skalar, dies zu tun.

In [71]: df  = pd.DataFrame(np.random.randn(2000,2)/10000, 
                    index=pd.date_range('2001-01-01',periods=2000),
                    columns=['A','B'])

Definieren Sie Ihre Funktion geben Sie ein Tupel mit dem index, den Sie verwenden möchten, und skalaren Wert, der berechnet wird. Beachten Sie, dass dies ist etwas anders als wir sind die Rückkehr der erste index, hier (und nicht die normalerweise zurückgegebenen letzten, youy tun konnte, entweder).

In [72]: def gm(df,p):
              v =((((df['A']+df['B'])+1).cumprod())-1)*p
              return (df.index[0],v.iloc[-1])


In [73]: Series(dict([ gm(df.iloc[i:min((i+1)+50,len(df)-1)],5) for i in xrange(len(df)-50) ]))

Out[73]: 
2001-01-01    0.000218
2001-01-02   -0.001048
2001-01-03   -0.002128
2001-01-04   -0.003590
2001-01-05   -0.004636
2001-01-06   -0.005377
2001-01-07   -0.004151
2001-01-08   -0.005155
2001-01-09   -0.004019
2001-01-10   -0.004912
2001-01-11   -0.005447
2001-01-12   -0.005258
2001-01-13   -0.004437
2001-01-14   -0.004207
2001-01-15   -0.004073
...
2006-04-20   -0.006612
2006-04-21   -0.006299
2006-04-22   -0.006320
2006-04-23   -0.005690
2006-04-24   -0.004316
2006-04-25   -0.003821
2006-04-26   -0.005102
2006-04-27   -0.004760
2006-04-28   -0.003832
2006-04-29   -0.004123
2006-04-30   -0.004241
2006-05-01   -0.004684
2006-05-02   -0.002993
2006-05-03   -0.003938
2006-05-04   -0.003528
Length: 1950

InformationsquelleAutor Jeff

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.