Beispiel zufällige Zeilen innerhalb jeder Gruppe in einer Daten.Tabelle

Wie würden Sie die Daten verwenden.Tabelle effizient nehmen Sie eine Probe von Zeilen innerhalb jeder Gruppe in einen Daten-frame?

DT = data.table(a = sample(1:2), b = sample(1:1000,20))
DT
    a   b
 1: 2 562
 2: 1 183
 3: 2 180
 4: 1 874
 5: 2 533
 6: 1  21
 7: 2  57
 8: 1  20
 9: 2  39
10: 1 948
11: 2 799
12: 1 893
13: 2 993
14: 1  69
15: 2 906
16: 1 347
17: 2 969
18: 1 130
19: 2 118
20: 1 732

Ich dachte an etwas wie: DT[ , sample(??, 3), by = a] zurückgeben würde eine Probe von drei Zeilen für jedes "a" (die Reihenfolge der zurückgegebenen Zeilen ist nicht signifikant):

InformationsquelleAutor Christopher Manning | 2013-04-29

data.table r

40

Vielleicht so etwas?
```
> DT[,.SD[sample(.N, min(3,.N))],by = a]
   a   b
1: 1 744
2: 1 497
3: 1 167
4: 2 888
5: 2 950
6: 2 343
```
(Dank an Josh für die Korrektur, unten).
- Dies ist identisch in diesem Fall: DT[, sample(b, 3), by=a] (außer bei Namen)
- gutes Auge. Das wäre in meinen scheinbar grob vereinfachte Beispiel, aber in der Praxis möchte ich zu dem zurückkehren, die ganze Reihe wie joran die Antwort nicht.
- Ich kann nur raten, aber (wenn es wirklich wichtig ist), in einigen Fällen könnte dies schneller sein: DT[DT[, sample(.I, 3), by=a][[2]],]. (sample(.I,3) Proben Zeile zahlen relativ zu DT). Dieser Aufruf ist von Vorteil ist, dass es nicht erforderlich, dass jede Teilmenge .SD werden vollständig aufgefüllt, wie der Ruf verarbeitet wird.
- Vielen Dank für die Hilfe! Ich fand auch heraus, dass ich eine if - Anweisung bedingte änderung der Anzahl der Proben zurückgegeben, für jede Gruppe, basierend auf dem Wert von a: DT[,.SD[sample(.N, if(a == 1) 2 else 3)],by = a]
- Ich versuche zu verstehen, das Verhalten Ihrer Lösung. Ich denke, die Anwendung sample auf .I wenn es passiert, dass die Gruppierung ergibt nur eine Zeile kann zu unvorhergesehenen Ergebnissen führen. In solchen Fällen .I enthält nur ein integer-Wert (die position der Zeile in DT) und sample verhält sich anders als bei der fed mit einem Vektor. Die soltunion DT[DT[ , .I[sample(.N,3)] , by = a]$V1] wie vorgeschlagen, here durch @akrun könnte es zu beheben.
- Guter Punkt. Dein Kommentar hat mich auch bemerkt, dass es ein Fehler in der ursprünglichen Antwort, das würde nicht für alle Gruppen mit weniger als drei Zeilen. (Versuchen Sie sample(2,3) um zu sehen, was ich meine.) Ich habe es jetzt behoben, mit einem Update, das sollte vermutlich auch angewendet werden, um die von Ihnen vorgeschlagene Lösung. Vielen Dank für Ihren Kommentar!
- Hi Joran. Sorry -- irgendwie ging ich weiter und bearbeitete Ihre Antwort, dachte, es war meine eigene, und erst jetzt merkte er, dass es nicht! Verlasse den edit-in-place für jetzt, obwohl, so dass Sie halten können oder einen Rollback, wie Sie sehen, passen...
- Kein problem!
InformationsquelleAutor joran
8

Ich glaube, dass joran Antwort kann weiter verallgemeinert. Die details sind hier (Wie stellen Sie sample-Gruppen in Daten.Tabelle mit VORBEHALT) aber ich glaube, diese Lösung Konten für Fälle, wo es nicht die "3" Zeilen, die Probe aus.

Die aktuelle Lösung Fehler aus, wenn versucht wird, die Probe "x" - Zeiten aus den Zeilen, die weniger als "x" gemeinsame Werte. In der unten Fall x=3. Und es berücksichtigt, dass dieser VORBEHALT. (Die Lösung geschieht durch nrussell)
```
set.seed(123)
##
DT <- data.table(
  a=c(1,1,1,1:15,1,1), 
  b=sample(1:1000,20))
##
R> DT[,.SD[sample(.N,min(.N,3))],by = a]
     a   b
 1:  1 288
 2:  1 881
 3:  1 409
 4:  2 937
 5:  3  46
 6:  4 525
 7:  5 887
 8:  6 548
 9:  7 453
10:  8 948
11:  9 449
12: 10 670
13: 11 566
14: 12 102
15: 13 993
16: 14 243
17: 15  42
```
InformationsquelleAutor road_to_quantdom
2

Inspiriert von diese Antwort von David Arenburg, eine andere Methode zu vermeiden, die .SD Aufteilung wäre zum Beispiel die Gruppen, dann kommen Sie wieder auf die ursprünglichen Daten mit .EACHI
```
DT[ DT[, sample(.N, 3), by=a], b[i.V1], on="a", by=.EACHI]

#    a  V1
# 1: 2  42
# 2: 2 498
# 3: 2 179
# 4: 1 469
# 5: 1  93
# 6: 1 898
```
wo die DT[, sample(.N, 3), by=a] Linie gibt uns ein Beispiel für jede Gruppe
```
#         a V1
# 1:      1  9
# 2:      1  3
# 3:      1  2
# 4:      2  4
# 5:      2  9
# ---          
```
also wir können dann V1 zu geben, uns die b entspricht.

InformationsquelleAutor SymbolixAU

Stratified sampling > oversampling

size=don[y==1,.(strata=length(iden)),by=.(y,x)] # count of iden by strata   
table(don$x,don$y) 

don<-merge(don,size[,.(y,strata)],by="x") #merge strata values  
don_strata=don[,.SD[sample(.N,strata)],by=.(y,x)]

InformationsquelleAutor Marimono

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.