Tut pandas iterrows haben performance Probleme?

Habe ich bemerkt, eine sehr schlechte Leistung bei Verwendung von iterrows von pandas.

Ist das etwas, was von anderen erfahren? Ist es spezifisch für iterrows und sollte diese Funktion erspart werden, Daten von einer bestimmten Größe (ich arbeite mit 2-3 Millionen Zeilen)?

Diese Diskussion auf GitHub führte mich zu glauben, es wird verursacht, wenn das mischen dtypes in der dataframe, jedoch das einfache Beispiel unten zeigt, ist es auch bei Verwendung eines dtype (float64). Dies dauert 36 Sekunden auf meiner Maschine:

import pandas as pd
import numpy as np
import time

s1 = np.random.randn(2000000)
s2 = np.random.randn(2000000)
dfa = pd.DataFrame({'s1': s1, 's2': s2})

start = time.time()
i=0
for rowindex, row in dfa.iterrows():
    i+=1
end = time.time()
print end - start

Warum sind vektorisierte Operationen wie bewerben so viel schneller? Ich vorstellen, es müssen einige Zeilen-iteration geht es auch.

Ich kann nicht herausfinden, wie man nicht verwenden, iterrows in meinem Fall (das werde ich sparen für eine Zukunft in Frage). Von daher würde ich schätzen, hören, wenn Sie konsequent in der Lage zu vermeiden, diese iteration. Ich mache Berechnungen basieren auf den Daten, die in separaten dataframes. Danke!

---Edit: eine vereinfachte version von dem, was ich ausführen will, wurde Hinzugefügt, unten---

import pandas as pd
import numpy as np

#%% Create the original tables
t1 = {'letter':['a','b'],
      'number1':[50,-10]}

t2 = {'letter':['a','a','b','b'],
      'number2':[0.2,0.5,0.1,0.4]}

table1 = pd.DataFrame(t1)
table2 = pd.DataFrame(t2)

#%% Create the body of the new table
table3 = pd.DataFrame(np.nan, columns=['letter','number2'], index=[0])

#%% Iterate through filtering relevant data, optimizing, returning info
for row_index, row in table1.iterrows():   
    t2info = table2[table2.letter == row['letter']].reset_index()
    table3.ix[row_index,] = optimize(t2info,row['number1'])

#%% Define optimization
def optimize(t2info, t1info):
    calculation = []
    for index, r in t2info.iterrows():
        calculation.append(r['number2']*t1info)
    maxrow = calculation.index(max(calculation))
    return t2info.ix[maxrow]

apply ist NICHT vektorisiert. iterrows ist umso schlimmer, als es Boxen alles (dass' das perf diff mit apply). Sie sollten nur verwendet werden iterrows in sehr sehr wenigen Situationen. IMHO nie. Zeigen Sie, was Sie tatsächlich tun, mit iterrows.
Das Problem, das Sie verknüpft, anstatt zu tun hat mit den Boxen von einem DatetimeIndex in Timestamps (implementiert in python-Platz), und dies wurde viel verbessert im master.
Siehe dieses Thema für eine Diskussion: github.com/pydata/pandas/issues/7194.
Link zu der betreffenden Frage (diese bleiben allgemein): stackoverflow.com/questions/24875096/...
Bitte empfehlen nicht die Verwendung von iterrows(). Es ist eine himmelschreiende enabler der schlimmsten anti-pattern in der Geschichte der pandas.

InformationsquelleAutor KieranPC | 2014-07-21

148

Generell iterrows sollte nur in sehr sehr speziellen Fällen. Dies ist die Allgemeine Rangfolge für die Ausführung verschiedener Operationen:
```
1) vectorization
2) using a custom cython routine
3) apply
    a) reductions that can be performed in cython
    b) iteration in python space
4) itertuples
5) iterrows
6) updating an empty frame (e.g. using loc one-row-at-a-time)
```
Mithilfe einer benutzerdefinierten cython-routine ist in der Regel zu kompliziert, so lassen Sie uns das für einen Moment überspringen.

1) Vektorisierung ist IMMER die erste und beste Wahl. Allerdings gibt es einen kleinen Satz von Fällen, die nicht vektorisiert in offensichtlicher Weise (meist mit einer Wiederholung). Weiter, auf einem eher kleinen Rahmen, kann es schneller sein, zu anderen Methoden.

3) Gelten beinhaltet kann normalerweise getan werden, indem ein iterator ist in Cython Raum (dies geschieht intern in pandas) (dies ist ein) Fall.

Dies ist davon abhängig, was Los ist in den Ausdruck gelten. z.B. df.apply(lambda x: np.sum(x)) ausgeführt werden, ziemlich schnell (natürlich df.sum(1) ist sogar besser). Aber so etwas wie: df.apply(lambda x: x['b'] + 1) ausgeführt werden, die in python-Platz, und ist somit langsamer.

4) itertuples nicht die box die Daten in eine Reihe, nur gibt es da ein Tupel

5) iterrows TUT-box die Daten in einer Reihe. Es sei denn, Sie wirklich brauchen, verwenden Sie eine andere Methode.

6) die Aktualisierung eines leeren frame-single-row-at-a-time. Ich habe gesehen, wie diese Methode verwendet viel zu viel. Es ist mit Abstand das langsamste. Es ist wohl Häufig (und Recht schnell für einige python-Strukturen), aber ein DataFrame hat eine ganze Reihe von Prüfungen auf die Indizierung, damit diese immer sehr langsam zu aktualisieren, eine Zeile zu einem Zeitpunkt. Viel besser, neue Strukturen und concat.
- Ja, ich hab Nummer 6 (und 5). Ich habe einige lernen zu tun. Es scheint, wie die offensichtliche Wahl für einen relativen Anfänger.
- Meiner Erfahrung nach ist der Unterschied zwischen 3, 4 und 5 begrenzt ist-je nach Anwendungsfall.
- Ich habe versucht, zu überprüfen, die Laufzeiten in diesem notebook. Irgendwie itertuples ist schneller als apply 🙁
- pd.DataFrame.apply ist oft langsamer als itertuples. Darüber hinaus ist es eine überlegung Wert Liste Verstehens, map, die schlecht benannt np.vectorize und numba (in keiner bestimmten Reihenfolge) für nicht-vectorisable Berechnungen, siehe z.B. die Antwort.
- aus Neugier, warum hast du nicht Hinzugefügt, Liste Verstehens hier? Während es wahr ist, dass Sie nicht damit umgehen, index Ausrichtung oder fehlende Daten (es sei denn, Sie verwenden eine Funktion mit einem try-catch), Sie sind gut für eine Menge von Anwendungsfällen (string/regex-Kram), wo die pandas Methoden nicht vektorisiert (im wahrsten Sinne des Wortes) - Implementierungen. Glaubst du, es ist erwähnenswert, LCs sind ein schneller, geringeren overhead alternative zu den pandas gelten und viele pandas string-Funktionen?
InformationsquelleAutor Jeff
15

Vektor-Operationen in Numpy und pandas sind viel schneller als Skalare Operationen in Vanille-Python gibt es mehrere Gründe:
- Fortgeführten Typ lookup: Python ist eine dynamisch typisierte Sprache, so gibt es Laufzeit-overhead für jedes element in einem array. Jedoch, Numpy (und damit pandas) durchführen von Berechnungen in C (oft über Cython). Der Typ des array ist bestimmt nur am Anfang der iteration ist; diese Einsparungen allein ist einer der größten Siege.
- Besser Zwischenspeichern: Iteration über ein C-array ist cache-freundlich und deshalb sehr schnell. Ein pandas DataFrame ist eine "spaltenorientierte Tabelle", was bedeutet, dass jede Spalte ist eigentlich nur ein array. Also die native Aktionen, die Sie durchführen können auf einen DataFrame (wie addieren aller Elemente in einer Spalte) haben nur wenige cache-misses.
- Mehr Möglichkeiten für Parallelität: Ein einfaches C-array betrieben werden kann mittels SIMD-Anweisungen. Einige Teile von Numpy ermöglichen, SIMD, je nach CPU und installation. Die Vorteile für die Parallelität nicht so dramatisch, wie die statische Typisierung und besser Zwischenspeichern, aber Sie sind immer noch eine solide gewinnen.
Moral von der Geschichte: das Vektor-Operationen in Numpy und pandas. Sie sind schneller als Skalare Operationen in Python-aus dem einfachen Grund, dass diese Vorgänge sind genau das, was ein C-Programmierer geschrieben hätte ohnehin von hand. (Außer, dass der array-Begriff ist viel einfacher zu Lesen als eine explizite Schleifen mit embedded-SIMD-Anweisungen.)

InformationsquelleAutor chrisaycock

Hier ist der Weg zum tun ist das Ihr problem. Das ist alles vektorisiert.

In [58]: df = table1.merge(table2,on='letter')

In [59]: df['calc'] = df['number1']*df['number2']

In [60]: df
Out[60]: 
  letter  number1  number2  calc
0      a       50      0.2    10
1      a       50      0.5    25
2      b      -10      0.1    -1
3      b      -10      0.4    -4

In [61]: df.groupby('letter')['calc'].max()
Out[61]: 
letter
a         25
b         -1
Name: calc, dtype: float64

In [62]: df.groupby('letter')['calc'].idxmax()
Out[62]: 
letter
a         1
b         2
Name: calc, dtype: int64

In [63]: df.loc[df.groupby('letter')['calc'].idxmax()]
Out[63]: 
  letter  number1  number2  calc
1      a       50      0.5    25
2      b      -10      0.1    -1

Ganz klare Antwort, danke. Ich werde versuchen das Zusammenführen, aber ich habe Zweifel, wie ich dann 5 Milliarden Zeilen (2,5 Millionen*2000). Um diese Q ich habe eine spezifische Frage: ich würde gerne eine alternative sehen, um zu vermeiden, diese Riesen Tabelle, wenn Sie wissen: hier:stackoverflow.com/questions/24875096/...
dies bedeutet nicht, erstellen Sie das kartesische Produkt - es ist ein komprimierter Speicherplatz und ist ziemlich Speicher effizient. was Sie tun, ist ein sehr standard-problem. einen Versuch geben. (deine verlinkte Frage hat eine sehr ähnliche soln)

InformationsquelleAutor Jeff

Andere Möglichkeit ist die Verwendung to_records(), die schneller ist als beide itertuples und iterrows.

Aber für deinen Fall gibt es viel Raum für andere Arten von Verbesserungen.

Hier mein final optimierte version

def iterthrough():
    ret = []
    grouped = table2.groupby('letter', sort=False)
    t2info = table2.to_records()
    for index, letter, n1 in table1.to_records():
        t2 = t2info[grouped.groups[letter].values]
        # np.multiply is in general faster than "x * y"
        maxrow = np.multiply(t2.number2, n1).argmax()
        # `[1:]`  removes the index column
        ret.append(t2[maxrow].tolist()[1:])
    global table3
    table3 = pd.DataFrame(ret, columns=('letter', 'number2'))

Benchmark-test:

-- iterrows() --
100 loops, best of 3: 12.7 ms per loop
  letter  number2
0      a      0.5
1      b      0.1
2      c      5.0
3      d      4.0

-- itertuple() --
100 loops, best of 3: 12.3 ms per loop

-- to_records() --
100 loops, best of 3: 7.29 ms per loop

-- Use group by --
100 loops, best of 3: 4.07 ms per loop
  letter  number2
1      a      0.5
2      b      0.1
4      c      5.0
5      d      4.0

-- Avoid multiplication --
1000 loops, best of 3: 1.39 ms per loop
  letter  number2
0      a      0.5
1      b      0.1
2      c      5.0
3      d      4.0

Vollständige code:

import pandas as pd
import numpy as np

#%% Create the original tables
t1 = {'letter':['a','b','c','d'],
      'number1':[50,-10,.5,3]}

t2 = {'letter':['a','a','b','b','c','d','c'],
      'number2':[0.2,0.5,0.1,0.4,5,4,1]}

table1 = pd.DataFrame(t1)
table2 = pd.DataFrame(t2)

#%% Create the body of the new table
table3 = pd.DataFrame(np.nan, columns=['letter','number2'], index=table1.index)


print('\n-- iterrows() --')

def optimize(t2info, t1info):
    calculation = []
    for index, r in t2info.iterrows():
        calculation.append(r['number2'] * t1info)
    maxrow_in_t2 = calculation.index(max(calculation))
    return t2info.loc[maxrow_in_t2]

#%% Iterate through filtering relevant data, optimizing, returning info
def iterthrough():
    for row_index, row in table1.iterrows():   
        t2info = table2[table2.letter == row['letter']].reset_index()
        table3.iloc[row_index,:] = optimize(t2info, row['number1'])

%timeit iterthrough()
print(table3)

print('\n-- itertuple() --')
def optimize(t2info, n1):
    calculation = []
    for index, letter, n2 in t2info.itertuples():
        calculation.append(n2 * n1)
    maxrow = calculation.index(max(calculation))
    return t2info.iloc[maxrow]

def iterthrough():
    for row_index, letter, n1 in table1.itertuples():   
        t2info = table2[table2.letter == letter]
        table3.iloc[row_index,:] = optimize(t2info, n1)

%timeit iterthrough()


print('\n-- to_records() --')
def optimize(t2info, n1):
    calculation = []
    for index, letter, n2 in t2info.to_records():
        calculation.append(n2 * n1)
    maxrow = calculation.index(max(calculation))
    return t2info.iloc[maxrow]

def iterthrough():
    for row_index, letter, n1 in table1.to_records():   
        t2info = table2[table2.letter == letter]
        table3.iloc[row_index,:] = optimize(t2info, n1)

%timeit iterthrough()

print('\n-- Use group by --')

def iterthrough():
    ret = []
    grouped = table2.groupby('letter', sort=False)
    for index, letter, n1 in table1.to_records():
        t2 = table2.iloc[grouped.groups[letter]]
        calculation = t2.number2 * n1
        maxrow = calculation.argsort().iloc[-1]
        ret.append(t2.iloc[maxrow])
    global table3
    table3 = pd.DataFrame(ret)

%timeit iterthrough()
print(table3)

print('\n-- Even Faster --')
def iterthrough():
    ret = []
    grouped = table2.groupby('letter', sort=False)
    t2info = table2.to_records()
    for index, letter, n1 in table1.to_records():
        t2 = t2info[grouped.groups[letter].values]
        maxrow = np.multiply(t2.number2, n1).argmax()
        # `[1:]`  removes the index column
        ret.append(t2[maxrow].tolist()[1:])
    global table3
    table3 = pd.DataFrame(ret, columns=('letter', 'number2'))

%timeit iterthrough()
print(table3)

Die final version ist fast 10x schneller als der ursprüngliche code. Die Strategie ist:

Verwenden groupby zu vermeiden, wiederholt den Vergleich von Werten.
Verwenden to_records Zugriff auf raw-numpy.Datensätze Objekte.
Nicht operieren, DataFrame, bis Sie zusammengestellt haben alle Daten.

InformationsquelleAutor Polor Beer

0

Ja, Pandas itertuples() ist schneller als iterrows().
Sie können finden Sie in der Dokumentation: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iterrows.html

"Zu bewahren dtypes während der Iteration über die Zeilen, es ist besser, itertuples (), die zurückgibt, namedtuples der Werte, und ist in der Regel schneller als iterrows."

InformationsquelleAutor Vandana Sharma

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.