R - Halten erste Beobachtung pro Gruppe identifiziert, die durch mehrere Variablen (Stata-äquivalent "by var1 var2 : halten, wenn _n == 1")

So habe ich aktuell vor einem problem in R, dass ich genau wissen, wie man mit in Stata, aber verschwendet haben über zwei Stunden zu erreichen, in R.

Verwendung der Daten.Bild unten, die Ergebnisse, die ich will, ist zu erhalten, die exakt die ersten Beobachtungen pro Gruppe, während die Gruppen gebildet werden, die von mehreren Variablen und sortiert werden, durch eine andere variable, d.h. die Daten.Rahmen mydata erhalten:

id <- c(1,1,1,1,2,2,3,3,4,4,4)
day <- c(1,1,2,3,1,2,2,3,1,2,3)
value <- c(12,10,15,20,40,30,22,24,11,11,12)
mydata <- data.frame(id, day, value)

Sollte umgestaltet werden:

   id day value   
   1   1    10 
   1   2    15 
   1   3    20 
   2   1    40 
   2   2    30 
   3   2    22 
   3   3    24 
   4   1    11 
   4   2    11 
   4   3    12

Indem nur eine der Zeilen mit einem oder mehreren Gruppe-identificators (hier ist nur row[1]: (id,day)=(1,1)) Sortierung für den ersten Wert (also die Zeile mit dem niedrigsten Wert gehalten wird).

In Stata, würde dies einfach sein:

bys id day (value): keep if _n == 1

Fand ich eine Stück code auf der web -, die richtig funktioniert, wenn ich zuerst die Herstellung einer einzelnen Gruppe-id :

mydata$id1 <- paste(mydata$id,"000",mydata$day, sep="")  ### the single group identifier

myid.uni <- unique(mydata$id1)
a<-length(myid.uni)

last <- c()

for (i in 1:a) {
  temp<-subset(mydata, id1==myid.uni[i])
  if (dim(temp)[1] > 1) {
    last.temp<-temp[dim(temp)[1],]
  }
  else {
    last.temp<-temp
  }
  last<-rbind(last, last.temp)
}

last

Allerdings gibt es ein paar Probleme mit diesem Ansatz:

1. Ein einzelner Bezeichner erstellt werden muss (was schnell erledigt ist).

2. Es scheint wie eine schwerfällige Stück von code im Vergleich zu der einzigen code-Zeile in Stata.

3. Auf ein mittlerer Datensatz (unter 100.000 Beobachtungen gruppiert in viel zu 6) dieser Ansatz würde etwa 1,5 Stunden.

Gibt es eine effiziente entspricht Stata ist bys var1 var2: keep if _n == 1 ?

Ich bin ein Stata-person, aber ich würde nicht damit rechnen, Charme, R Benutzer hier durch, was impliziert, dass R ist lausig, selbst für eine detaillierte ganz Besondere Aufgabe zu. Besser zu implizieren, dass es eine ordentliche R Weg, es zu tun, nur, dass Sie nicht erkannt.
Ich wollte nicht zu beleidigen, in Richtung R, wenn es das ist, was es klingt. Ich habe in den Prozess der Migration von Stata für die letzten zwei Wochen und bin immer noch kämpfen, um die grundlegenden Funktionen Recht.
Für den Anfang bei der migration, während es möglich ist zu verwenden for loops effektiv in R, wenn es Ihr erstes resort, ist es vielleicht nicht die effektivste Weg, um zu gehen.
Kein Zweifel; ich bin einfach nur Beratung, wie die Menschen zu beeinflussen und Sie ermutigen, Ihre Frage zu beantworten.

InformationsquelleAutor iraserd | 2014-02-04

r stata

5

Bestellen würde ich die data.frame an welcher Stelle können Sie Einblick in die Verwendung by:
```
mydata <- mydata[with(mydata, do.call(order, list(id, day, value))), ]

do.call(rbind, by(mydata, list(mydata$id, mydata$day), 
                  FUN=function(x) head(x, 1)))
```
Alternativ, schau mal in den "Daten.Tabelle" Paket. Weiter mit dem bestellten data.frame von oben:
```
library(data.table)

DT <- data.table(mydata, key = "id,day")
DT[, head(.SD, 1), by = key(DT)]
#     id day value
#  1:  1   1    10
#  2:  1   2    15
#  3:  1   3    20
#  4:  2   1    40
#  5:  2   2    30
#  6:  3   2    22
#  7:  3   3    24
#  8:  4   1    11
#  9:  4   2    11
# 10:  4   3    12
```
Oder, von vorne anfangen, können Sie data.table in der folgenden Weise:
```
DT <- data.table(id, day, value, key = "id,day")
DT[, n := rank(value, ties.method="first"), by = key(DT)][n == 1]
```
Und durch die Erweiterung, in der Basis R:
```
Ranks <- with(mydata, ave(value, id, day, FUN = function(x) 
  rank(x, ties.method="first")))
mydata[Ranks == 1, ]
```
- Die alternative Verwendung von: nicht den job, aber auch dauert so lange, wie das Stück code, den ich ursprünglich gepostet. Ich werde zu haben, um die IT-Jungs zu installieren, Daten.Tabelle anschauen, ich werde auf Sie zurück, wenn das besser funktioniert später.
- Ich finde es auch schwer zu glauben, dass einer dieser Ansätze würde dauern 1,5 Stunden. Hinzufügen Sie können mehr Informationen über Ihre Daten?
- Gut, abgebrochen habe der for-Schleife ein Ansatz, den ich ursprünglich gepostet, nach über 15 Minuten und dann ist es verarbeitet hatte über 12k von 80k Beobachtungen.
- Mahto, okay, so für eine kleine teilstichprobe von meinem dataset, alle 3 von Ihrer alternativen Arbeit völlig in Ordnung. Jedoch auf den vollständigen Datensatz (über 500k Beobachtungen), durch() und DT[] scheinen deutlich länger dauern als (ave). Ave() einfach nur fertig, nach etwa 5 min, während ich abgebrochen() und DT[] nach etwa 10 Minuten. Ave (), also war die richtige Antwort für mich, danke!
- Ich finde das verwunderlich. Die "Daten.Tabelle" Paket sollte sehr effizient sein. Wie viele verschiedene Kombinationen von "id" - Variablen haben Sie? In meinem test 500k data.frame ich bin immer ~ 1 minute für die "Daten.Tabelle" - Ansatz, und zwei Minuten für ave.
- meine Daten.Rahmen hat ~590000 obs von 75 Variablen, wobei jede id-Gruppe sollte eine Beobachtung pro Tag, für 4 Tage insgesamt. Aber es gibt etwa 536000 obs. der ids mit 4 Tagen über 50000 ids mit 8 obs auf diese 4 Tage und ein paar hundert mehr bis zu einem maximum von 140 obs pro id. Mit test$idgroup <- tapply(test$id, test$id, function(x) seq(1,length(x),1)) Anzahl und Art der Beobachtungen pro id, die ich mit dem ave () - block stets nur die erste Beobachtung (Sortierung von idgroup) pro id und Tag. Hier die Ränge <- ... Linie dauert 1 min 15 zu laufen.
- mit Ihrem ersten DT[] Ansatz stattdessen habe ich einfach abgebrochen nach 10 Minuten. Ich kann nicht mit dem zweiten DT[] ein, da gibt es einen Fehler: einige Spalten sind nicht in den Daten.Tabelle: id, Zeit. Dasselbe für die durch ( - ) Ansatz: ich habe abgebrochen nach 15 Minuten, nur weil es viel zu lange schon, und das dataset wird viel größer über die Zeit.
InformationsquelleAutor A5C1D2H2I1M1N2O1R2T1
10

Paket dplyr macht diese Art von Dinge einfacher.
```
library(dplyr)
mydata %>% group_by(id, day) %>% filter(row_number(value) == 1)
```
Dieser Befehl erfordert mehr Speicher in R als in Stata: Zeilen werden nicht unterdrückt, kann eine neue Kopie des Datensatzes erstellt wird.
- Was ist das %>% ? Das Ergebnis im Fehler: es konnte keine finden, die Funktion "%>%" mit library(dplyr) geladen. Ist es, weil ich noch run 3.0.2?
- Wahrscheinlich. Es stellt das Objekt auf der linken Seite, wie das erste argument der Funktion auf der rechten Seite. die erste Zeile ist äquivalent zu schneiden(anordnen(group_by(mydata, id, Tag), Wert), 1)
InformationsquelleAutor Matthew
0

Mit Daten.Tabelle, vorausgesetzt, die mydata Objekt bereits sortiert, in der Weise, die Sie benötigen, ein anderer Ansatz wäre:
```
library(data.table)
mydata <- data.table(my.data)
mydata <- mydata[, .SD[1], by = .(id, day)]
```
Mit dplyr mit magrittr Rohre:
```
library(dplyr)
mydata <- mydata %>%
  group_by(id, day) %>%
  slice(1) %>%
  ungroup()
```
Wenn Sie nicht hinzufügen ungroup() zu Ende dplyr's Gruppierung Struktur noch vorhanden sein und vielleicht mess up einige der nachfolgenden Funktionen.

InformationsquelleAutor Feakster

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.