Wie kommt man zu aggregieren und zusammenfassen von Daten schnell?

Ich habe einen Datensatz, dessen Header ungefähr so Aussehen:

PID Time Site Rep Count

Möchte ich die Summe der Count durch Rep für jeden PID x Time x Site combo

auf die resultierenden Daten.Rahmen, ich möchte den Mittelwert von Count für PID x Time x Site combo.

Aktuelle Funktion ist wie folgt:

dummy <- function (data)
{
A<-aggregate(Count~PID+Time+Site+Rep,data=data,function(x){sum(na.omit(x))})
B<-aggregate(Count~PID+Time+Site,data=A,mean)
return (B)
}

Dies ist quälend langsam (original-Daten.Rahmen ist 510000 20). Gibt es eine Möglichkeit, diese Fahrt mit plyr?

Sie nicht Zustand, warum haben Sie das A< - - Linie. Sind Sie sicher, dass es eine Gewichtung gibt es? Entsprechend Ihrer angegebenen Kriterium müssen Sie nur die B< - - Linie. (plyr nicht machen es nicht schneller, aber die Daten.Rahmen)
Recht, Daten.Tisch war super schnell (und ich bin so froh, dass ich gelernt, über es). Einer war überflüssig, ja.
Dann die Eine Linie würde erklären, warum das Aggregat wurde so langsam. Wenn Sie gerade in Ausführung B sollte es gehen ziemlich schnell. Die Daten.Tabelle bereitgestellten Befehl auch entfernt REP. Es ist, dass Sie quasi einen neuen data frame in A die gleiche Größe wie das original, dass war eine Verlangsamung Dinge nach unten, so viel.

InformationsquelleAutor Maiasaura | 2011-10-11

22

Sollten Sie sich das Paket data.table für eine schnellere aggregation Operationen an großen Daten-frames. Für dein problem, die Lösung würde wie folgt Aussehen:
```
library(data.table)
data_t = data.table(data_tab)
ans = data_t[,list(A = sum(count), B = mean(count)), by = 'PID,Time,Site']
```
- wow, vielen Dank. Dies ist erstaunlich,. ddply dauerte ewig.
- Wow, Daten.Tabelle funktioniert wirklich schnell! Wie man diese Listen A und B sortiert nach PID, Time und Site (genau so, Aggregat funktioniert)?
- verwenden keyby statt by
- Was ist der Schnellste Weg, um Gruppe Aggregat für sehr große Daten-Tabellen? Das oben genannte ist es? Wenn Sie mit den Tasten, subsetting verwendet binäre Suche ist schneller, ist mein Verständnis. Aber es macht den code ein wenig weniger lesbar
- Es ist sehr wahrscheinlich, dass es schneller zu tun Aggregationen auf ein codierter Daten, aber ich glaube nicht, dass ich jemals getestet.
InformationsquelleAutor Ramnath

Lassen Sie uns sehen, wie schnell data.table ist und vergleichen Sie mit dplyr. Thishis wäre ungefähr der Weg, es zu tun in dplyr.

data %>% group_by(PID, Time, Site, Rep) %>%
    summarise(totalCount = sum(Count)) %>%
    group_by(PID, Time, Site) %>% 
    summarise(mean(totalCount))

Oder vielleicht, je nach genau, wie die Frage interpretiert wird:

    data %>% group_by(PID, Time, Site) %>%
        summarise(totalCount = sum(Count), meanCount = mean(Count)

Hier ist ein vollständiges Beispiel für diese alternativen gegenüber @Ramnath vorgeschlagene Antwort und die eine @David Arenburg vorgeschlagen, in den Kommentaren , die ich denke, ist äquivalent zu der zweiten dplyr - Anweisung.

nrow <- 510000
data <- data.frame(PID = sample(letters, nrow, replace = TRUE), 
                   Time = sample(letters, nrow, replace = TRUE),
                   Site = sample(letters, nrow, replace = TRUE),
                   Rep = rnorm(nrow),
                   Count = rpois(nrow, 100))


library(dplyr)
library(data.table)

Rprof(tf1 <- tempfile())
ans <- data %>% group_by(PID, Time, Site, Rep) %>%
    summarise(totalCount = sum(Count)) %>%
    group_by(PID, Time, Site) %>% 
    summarise(mean(totalCount))
Rprof()
summaryRprof(tf1)  #reports 1.68 sec sampling time

Rprof(tf2 <- tempfile())
ans <- data %>% group_by(PID, Time, Site, Rep) %>%
    summarise(total = sum(Count), meanCount = mean(Count)) 
Rprof()
summaryRprof(tf2)  # reports 1.60 seconds

Rprof(tf3 <- tempfile())
data_t = data.table(data)
ans = data_t[,list(A = sum(Count), B = mean(Count)), by = 'PID,Time,Site']
Rprof()
summaryRprof(tf3)  #reports 0.06 seconds

Rprof(tf4 <- tempfile())
ans <- setDT(data)[,.(A = sum(Count), B = mean(Count)), by = 'PID,Time,Site']
Rprof()
summaryRprof(tf4)  #reports 0.02 seconds

Den Daten-Tisch-Methode ist viel schneller, und die setDT ist noch schneller!

Es wäre noch schneller, wenn Sie verwenden würden setDT(data)[,.(A = sum(Count), B = mean(Count)), by = 'PID,Time,Site'] statt erstellen einer Kopie
Haben Sie überprüft, 50-100GB-benchmarks?
Noch nicht, schien interessanter im Kontext zu verwenden, einem Datensatz über die Größe der OP berichtet.

InformationsquelleAutor vpipkt

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.