Python: Pandas Serie - Warum mit der loc?

Warum verwenden wir 'loc' für pandas dataframes? es scheint, die folgenden code mit oder ohne Verwendung von loc beide kompilieren anr laufen simulular Geschwindigkeit

%timeit df_user1 = df.loc[df.user_id=='5561']

100 loops, best of 3: 11.9 ms per loop

oder

%timeit df_user1_noloc = df[df.user_id=='5561']

100 loops, best of 3: 12 ms per loop

Warum also loc?

Edit: Dies wurde gekennzeichnet als eine doppelte Frage. Aber obwohl pandas iloc vs ix vs loc Erklärung? erwähnt, dass *

können Sie tun, Spalte Abruf nur durch die Verwendung der Daten-frame ist
getitem:

df['time']    # equivalent to df.loc[:, 'time']

es nicht sagen, warum wir verwenden, loc, obwohl es erklärt viele Eigenschaften von loc, meine konkrete Frage ist: "warum nicht einfach weglassen loc insgesamt'? für die ich angenommen haben, eine sehr ausführliche Antwort unten.

Auch die anderen post die Antwort (was ich nicht glaube ist eine Antwort) ist sehr versteckt in der Diskussion und jede person, die nach dem suchen, was ich suchte, würde es schwierig finden, um die gewünschten Informationen finden und würde viel besser gedient, indem die Antwort auf meine Frage.

Mögliche Duplikate von pandas iloc vs ix vs loc Erklärung?
nicht wirklich, es sind Sie diskutieren Sie den Unterschied zwischen .loc .iloc und .- ix, aber hier bin ich einfach zu Fragen, warum .loc überhaupt nicht, warum es über .iloc oder .ix, Im nicht interessiert, iloc oder ix, Im Versuch zu verstehen, loc ersten und warum wir es verwenden, im Gegensatz zu nur verlassen Sie mit nichts in seinem Ort.
das Ende des Antwort von ajcr, die enthält eine Allgemeine Nutzung sowohl .loc und .iloc vs .ix: oder die relavent Teil ", wenn Sie nur die Indizierung durch die Verwendung von labels, oder nur die Indizierung unter Verwendung der integer-Positionen, stick mit loc oder iloc um unerwartete Ergebnisse zu vermeiden."
Pandas fällt zurück auf .iloc wenn .loc nichts zurück glaubwürdig. Hier ist eine aktuelle Diskussion zum Thema stackoverflow.com/questions/38860772/... Deine Frage ist eine exakte Kopie von dieser, leider.
Wie groß der dataframe ist ?
Im wesentlichen gibt es fallen Rücken und besten Vermutungen, dass pandas macht, wenn Sie nicht geben Sie die Indizierung Technik. So geht es durch jeden von Ihnen. Auf einen DataFrame, der Standardwert ist die Verwendung .loc auf Spalten. Reihe, der Standardwert ist die Verwendung .loc auf Zeilen, denn es gibt keine Spalten.
JGreenwell und Kartik - verstehe ich nicht. Ich bin nicht, ich wiederhole, ich bin nicht daran interessiert, irgendetwas zu tun .iloc, können nur so tun .iloc nicht vorhanden und können so tun .ix nicht vorhanden. Ich will nur wissen, warum ich verwenden soll .loc, anstatt einfach verlassen Sie alle zusammen wie in dem code in meiner Frage.
Die Verwendung von __getitem__ im Vergleich .loc ist erklärt, in der zweiten Antwort in die Frage, die ich verlinkt
Verwandte: der Umgang mit SettingWithCopyWarning in pandas? (insbesondere, siehe die Antwort von mir)

InformationsquelleAutor Runner Bean | 2016-08-11

44
- Explizit ist besser als implizit.
  
  df[boolean_mask] wählt Zeilen aus, in denen boolean_mask ist Wahr, aber es gibt eine Ecke Fall, wenn Sie nicht möchten, könnte es zu: wenn df hat boolean-Wert der Spalte Etiketten:
```
In [229]: df = pd.DataFrame({True:[1,2,3],False:[3,4,5]}); df
Out[229]: 
   False  True 
0      3      1
1      4      2
2      5      3
```
  Möchten Sie vielleicht die Verwendung df[[True]] wählen Sie die True Spalte. Stattdessen wirft er eine ValueError:
```
In [230]: df[[True]]
ValueError: Item wrong length 1 instead of 3.
```
  Vergleich loc:
```
In [231]: df.loc[[True]]
Out[231]: 
   False  True 
0      3      1
```
  Demgegenüber die folgenden nicht erhöhen ValueError obwohl die Struktur der df2 ist fast das gleiche wie df1 oben:
```
In [258]: df2 = pd.DataFrame({'A':[1,2,3],'B':[3,4,5]}); df2
Out[258]: 
   A  B
0  1  3
1  2  4
2  3  5

In [259]: df2[['B']]
Out[259]: 
   B
0  3
1  4
2  5
```
  So df[boolean_mask] nicht immer Verhalten sich genauso wie df.loc[boolean_mask]. Obwohl dies ist wohl einer unwahrscheinlichen Fall verwenden, würde ich empfehlen immer mit df.loc[boolean_mask] statt df[boolean_mask] weil die Bedeutung von df.loc's syntax ist eindeutig. Mit df.loc[indexer] Sie automatisch wissen, dass df.loc ist die Auswahl von Zeilen. Im Gegensatz, es ist nicht klar, ob df[indexer] wird, wählen Sie die Zeilen oder Spalten (oder erhöhen ValueError), ohne zu wissen, details über indexer und df.
- df.loc[row_indexer, column_index] können wählen Sie die Zeilen und Spalten. df[indexer] können nur wählen Sie die Zeilen oder Spalten je nach der Art der Werte in indexer und den Typ der Spalte Werte df hat (mal wieder, sind Sie boolean?).
```
In [237]: df2.loc[[True,False,True], 'B']
Out[237]: 
0    3
2    5
Name: B, dtype: int64
```
- Wenn ein slice übergeben df.loc die end-Punkte sind im Lieferumfang enthalten. Wenn ein slice übergeben df[...], wird das Stück interpretiert wird, als ein halb-offenes Intervall:
```
In [239]: df2.loc[1:2]
Out[239]: 
   A  B
1  2  4
2  3  5

In [271]: df2[1:2]
Out[271]: 
   A  B
1  2  4
```
- Warum nicht verwenden Sie Anführungszeichen um den Namen der Spalte? Würde nicht df[['True']] korrekt?
- scheint nicht zu funktionieren, richtig in dem Beispiel. die Spaltennamen sind nicht Saiten, Sie sind boolean-Objekte. sieht aus wie pandas nicht erforderlich, die Spalte Namen in Zeichenfolgen sein (anders als z.B. R wo names(df) Charakter ist und [[]] zwingt den Eingang zum Charakter)
InformationsquelleAutor unutbu

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.