Python: Zufällige Auswahl pro Gruppe

Sagen, dass ich ein dataframe, das aussieht wie:

Name Group_Id
AAA  1
ABC  1
CCC  2
XYZ  2
DEF  3 
YYH  3

Wie könnte ich nach dem Zufallsprinzip wählen Sie eine (oder mehrere) Zeile für jede Group_Id? Sagen, dass ich will eine Ziehung pro Group_Id würde ich bekommen:

Name Group_Id
AAA  1
XYZ  2
DEF  3

InformationsquelleAutor Plug4 | 2014-03-18

20
```
size = 2        # sample size
replace = True  # with replacement
fn = lambda obj: obj.loc[np.random.choice(obj.index, size, replace),:]
df.groupby('Group_Id', as_index=False).apply(fn)
```
- set replace=False, wenn Sie nicht wollen, um die gleichen Zeile pro Gruppe zweimal.
- Wenn Sie dies tun mit einer timestamp-Spalte, wo Sie ein Frequenz-basierte pd.Zackenbarsch(), die vorgeschlagene Methode liefert zwei identisch benannte Zeitstempel-index-Spalten. Weniger als ideale situation. Siehe auch unten, wo ich gebucht habe, eine weit einfachere (weniger code, einfacher zu merken, weniger Komplexität im Allgemeinen) - Methode, genau dasselbe zu tun.
InformationsquelleAutor behzad.nouri

Vom 0.16.x ab pd.DataFrame.- Beispiel bietet einen Weg, um wieder eine zufällige Auswahl von Elementen aus einer Achse des Objekts.

In [664]: df.groupby('Group_Id').apply(lambda x: x.sample(1)).reset_index(drop=True)
Out[664]:
  Name  Group_Id
0  ABC         1
1  XYZ         2
2  DEF         3

InformationsquelleAutor Zero

9

Mit groupby und zufällig.Wahl in einem eleganten one-liner:
```
df.groupby('Group_Id').apply(lambda x :x.iloc[random.choice(range(0,len(x)))])
```
- random.choice(range(0,len(x))) ist besser geschrieben als np.random.randint(0, len(x))
- Möglicherweise gibt es eine leichte Präferenz von einigen Menschen numpy.random.Wahl, die Sie angeben können, a) die Zahl der Proben, die von der Bevölkerung und b) wenn Sie eine Ersatzlieferung wünschen. docs.scipy.org/doc/numpy-1.9.2/reference/generated/...
- df.sample(frac = 1.0).groupby('Group_Id').head(1) ist so viel schneller
- Vorschlag ist mehr "pandaeic' und auch verallgemeinert zu n>1, obwohl Sie langsamer als die andere Antwort unten
InformationsquelleAutor grasshopper
6

Gibt es zwei Möglichkeiten, dies zu tun ist sehr einfach, ohne irgendetwas außer basic pandas syntax:
```
df[['x','y']].groupby('x').agg(pd.DataFrame.sample)
```
Dieser nimmt 14.4 ms mit 50k Zeilen-dataset.

Die andere, etwas schnellere Methode ist, beinhaltet numpy.
```
df[['x','y']].groupby('x').agg(np.random.choice)
```
Dieser nimmt 10.9 ms mit (der gleichen) 50k Zeilen-dataset.

Generell, bei der Verwendung von pandas, es ist besser, stick mit seiner nativen syntax. Vor allem für Anfänger.
- dies ist die pandaeic Antwort, aber wie sieht es möglicherweise verallgemeinern sampling n Elemente pro Gruppe? 🙂
InformationsquelleAutor mikkokotila
3

bei zufälliger Auswahl nur eine Zeile pro Gruppe versuchen df.sample(frac = 1.0).groupby('Group_Id').head(1)

InformationsquelleAutor ihadanny

Mit random.choice können Sie etwas wie das hier tun:

import random
name_group = {'AAA': 1, 'ABC':1, 'CCC':2, 'XYZ':2, 'DEF':3, 'YYH':3}

names = [name for name in name_group.iterkeys()] #create a list out of the keys in the name_group dict

first_name = random.choice(names)
first_group = name_group[first_name]
print first_name, first_group

random.choice(seq)

Return a random element from the non-empty sequence seq. If seq is empty, raises IndexError.

InformationsquelleAutor gravetii

Können Sie eine Kombination von pandas.groupby, pandas.concat und random.- Beispiel:

import pandas as pd
import random

df = pd.DataFrame({
        'Name': ['AAA', 'ABC', 'CCC', 'XYZ', 'DEF', 'YYH'],
        'Group_ID': [1,1,2,2,3,3]
     })

grouped = df.groupby('Group_ID')
df_sampled = pd.concat([d.ix[random.sample(d.index, 1)] for _, d in grouped]).reset_index(drop=True)
print df_sampled

Ausgabe:

   Group_ID Name
0         1  AAA
1         2  XYZ
2         3  DEF

InformationsquelleAutor YS-L

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.