Was ist die Auswirkung auf die Leistungsfähigkeit von non-unique-Indizes in pandas?

Aus der pandas Dokumentation, die ich gesammelt habe, die einzigartige geschätzten Indizes machen bestimmte Operationen effizienter, und das nicht-eindeutige Indizes werden gelegentlich geduldet.

Von außen, es sieht nicht wie nicht eindeutige Indizes in Anspruch genommen, in keiner Weise. Zum Beispiel, die folgenden ix Abfrage ist langsam genug, dass es scheint, um mit dem Scannen der gesamten dataframe

In [23]: import numpy as np
In [24]: import pandas as pd
In [25]: x = np.random.randint(0, 10**7, 10**7)
In [26]: df1 = pd.DataFrame({'x':x})
In [27]: df2 = df1.set_index('x', drop=False)
In [28]: %timeit df2.ix[0]
1 loops, best of 3: 402 ms per loop
In [29]: %timeit df1.ix[0]
10000 loops, best of 3: 123 us per loop

(Ich weiß die zwei ix Abfragen nicht das gleiche zurückgeben-es ist nur ein Beispiel, dass Anrufe zu ix auf einen nicht eindeutigen index erscheinen viel langsamer)

Gibt es eine Möglichkeit, Koax-pandas in schneller lookup-Methoden, wie binäre Suche auf nicht eindeutigen und/oder sortierte Indizes?

InformationsquelleAutor ChrisB | 2013-05-18

76

Wenn der index eindeutig ist, pandas verwenden einer hashtable-zu-Karte-Taste, um den Wert O(1). Wenn der index ist nicht eindeutig und sortiert, pandas verwenden Sie die binäre Suche O(logN), wenn der index ist zufällig bestellt pandas brauchen, um zu überprüfen, alle Schlüssel im index O(N).

Können Sie anrufen sort_index Methode:
```
import numpy as np
import pandas as pd
x = np.random.randint(0, 200, 10**6)
df1 = pd.DataFrame({'x':x})
df2 = df1.set_index('x', drop=False)
df3 = df2.sort_index()
%timeit df1.loc[100]
%timeit df2.loc[100]
%timeit df3.loc[100]
```
Ergebnis:
```
10000 loops, best of 3: 71.2 µs per loop
10 loops, best of 3: 38.9 ms per loop
10000 loops, best of 3: 134 µs per loop
```
- Ich verstehe nicht, die timings am Ende. df3 schneller sein soll?
- Irritiert war ich auch, aber df1 verwendet die Standard-index geht von 0 bis len(df1) - 1 und ist einzigartig, so df1.loc[] verwendet einen hashtable. df2 setzt den index auf 'x', die nicht eindeutig und nicht sortiert ist, so gibt es einen linearen scan O(N). df3 ist die gleiche wie df2, sondern sortiert und noch nicht eindeutig, so gibt es eine binäre Suche.
- Warum also ist der lineare scan df2 schneller?
- beachten Sie bitte auch die Einheit der Zeit.
- Ich verstehe nicht, warum pandas wechselt zur binären Suche hier. Für multimaps, die Indizierung kann noch sein getan in O(1+R) anstelle von O(logN + R) (wobei R die Anzahl der zurückgegebenen Ergebnisse.
- Wenn der index eindeutig ist, ist es egal, ob es auch sortiert? Und führt die Antwort auf diese hängt davon ab, ob der index ist ein MultiIndex?
InformationsquelleAutor HYRY

@HYRY sagte es auch, aber nichts sagt es ganz wie eine bunte Grafik mit den timings.

Was ist die Auswirkung auf die Leistungsfähigkeit von non-unique-Indizes in pandas?

Parzellen wurden generiert mit perfplot. Code für Ihre Referenz:

import pandas as pd
import perfplot

_rnd = np.random.RandomState(42)

def make_data(n):    
    x = _rnd.randint(0, 200, n)
    df1 = pd.DataFrame({'x':x})
    df2 = df1.set_index('x', drop=False)
    df3 = df2.sort_index()

    return df1, df2, df3

perfplot.show(
    setup=lambda n: make_data(n),
    kernels=[
        lambda dfs: dfs[0].loc[100],
        lambda dfs: dfs[1].loc[100],        
        lambda dfs: dfs[2].loc[100],
    ],
    labels=['Unique index', 'Non-unique, unsorted index', 'Non-unique, sorted index'],
    n_range=[2 ** k for k in range(8, 23)],
    xlabel='N',
    logx=True,
    logy=True,
    equality_check=False)

InformationsquelleAutor cs95

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.