Wie kann dplyr generieren von Daten-Frames für jede Gruppe nach der group_by-Betrieb?

War ich sehr schockiert von der Glätte des dplyr-package im flow-style-Daten-Verarbeitung. Vor kurzem habe ich in Eile ein problem erzeugen Sie einen neuen data frame für jede Gruppen-ID und kombinieren Sie diese kleinen Daten-frames zu einer letzten größeren Daten-frame. Ein Spielzeug Beispiel:

input.data.frame %>%
    group_by(gid) %>%
    {some operation to generate a new data frame for each group} ## FAILED!!!!

In dplyr, die Funktion mutate hinzufügen der neuen Spalte für jede Gruppe und summarise Generierung von Zusammenfassungen für jede Gruppe, die beide erfüllt nicht meine Anforderung. (Habe ich etwas übersehen?)

Alternativ mit ddply von plyr package, die bisherigen interation von dplyr, kann ich es über

ddply(input.data.frame, .(gid), function(x) {
     some operation to generate a new data frame for each group
}

Aber der Mangel ist einige funcs in dplyr maskiert, von Nutzbarkeit, wenn ich lade das plyr package.

Verwenden Sie die do Betreiber in einem solchen Fall. Allerdings wäre es besser, wenn Sie zeigte uns, was Sie wirklich wollen, zu tun / am Ende erreichen. Aus der Hilfe: "können Sie tun, um ausführen beliebigen Berechnung, Rückkehr entweder einen Daten-frame oder beliebige Objekte werden in einer Liste gespeichert."
Schöne Einleitung "ich war sehr schockiert, von der Glätte des dplyr-package im flow-style-Daten verarbeitet." 🙂
Und übrigens, wenn Sie das laden beider Pakete (plyr und dplyr) die Empfehlung zu laden plyr ersten und dann dplyr, so der "standard" - Paket für z.B. "zusammenfassen" wäre dplyr, aber wenn Sie es brauchen, von plyr, verwenden Sie einfach plyr::summarise um das Paket explizit.
do, das ist das, was ich Suche!! Eine wirklich Allgemeine Bedienung. Dank Kerl. 🙂

InformationsquelleAutor caesar0301 | 2014-11-07

dplyr r

3

Drehen mein Kommentar in eine Antwort..

Ja, dplyr bietet eine Möglichkeit zum erstellen von Daten.frames für jede Gruppe. Mit der do Betreiber auf eine gruppierte Daten.Rahmen /tbl-lassen Sie dies tun, genauer gesagt, er lässt Sie gelten beliebige Funktionen zu jeder Gruppe. Dies ist dokumentiert in der Hilfe-Datei für do:

[...] Können Sie tun, um ausführen beliebigen Berechnung, Rückkehr entweder
Daten-frame oder beliebige Objekte werden in einer Liste gespeichert. Diese
ist besonders nützlich bei der Arbeit mit Modellen: Sie können fit-Modelle
pro Gruppe mit machen und dann flexibel extrahieren von Komponenten, die entweder mit
ein anderer tun oder zusammenzufassen.

Meine Erfahrung bisher ist, dass, Wann immer es möglich ist, verwenden Sie eine der spezialisierten dplyr-Funktionen wie mutieren /zusammenfassen /mutate_each /etc. Sie sollten bevorzugt über do, denn Sie sind oft effizienter als die Verwendung von do, aber natürlich nicht so flexibel.
- Könnten Sie bitte eine Antwort auf deine Frage, würde zeigen, ein code-snippet, das wie Sie tun, um dies zu tun? Dank
- werfen Sie einen Blick auf Abschnitt mit den Beispielen in der Hilfe-Seite von ?do. Oder geben Sie einen minimal-Beispiel für dein problem, aber dann wäre es besser, wenn Sie eine neue Frage stellen
- Vielen Dank - ich habe und ich bin nicht klüger. Das Ergebnis der Beispiele gezeigte Ergebnis in einem grouped_df, nicht in einer Liste von Daten-frames, die, was die ursprüngliche Frage hier war, dachte ich:` by_cyl <- group_by(mtcars, Zyl); do(by_cyl, Kopf(., 2))` die Ergebnisse in einer gruppierten df. Ich möchte eine Liste der dfs. Habe die Frage jetzt hier: link
- dplyr ist speziell für die Arbeit mit tabellarischen Daten, wie data.frames data.tables tbl_dfs etc, nicht für die Listen. Der Punkt ist, dass wegen der Gruppierung der Funktionen in dplyr, normalerweise ist es nicht notwendig, eine explizite split als es notwendig werden könnte, wenn Sie nur die Basis-R.
- Ohne eine tatsächliche code-snippet ist es sehr schwer zu verstehen, wie zu erreichen, was, die Sie sagen.
InformationsquelleAutor docendo discimus

Hier ist ein Beispiel nach der Antwort von G. Grothendieck zu einer ähnlichen Frage. Hinzufügen von Zeilen in `dplyr` Ausgabe

Zuerst erstellen wir ein data-frame mit den x und g. Es sind 9 zufällige zahlen in x-und 3 Gruppen a,b,c in g. Wir möchten, wählen Sie die 2 größte Zahl aus jeder Gruppe. Es ist wichtig zu erinnern, dass zu tun, erfordert einen Daten-frame als Rückgabewert.

library(dplyr)
set.seed(1)
dat <- data.frame(x=runif(9),g=rep(letters[1:3],each=3))

dat
      x g
1 0.1765568 a
2 0.6870228 a
3 0.3841037 a
4 0.7698414 b
5 0.4976992 b
6 0.7176185 b
7 0.9919061 c
8 0.3800352 c
9 0.7774452 c

## this works
dat %>% dplyr::group_by( g ) %>% do( data.frame(x=tail(sort(.$x),2)) )

## this works too
dat %>% dplyr::group_by( g ) %>% do( .[tail(order(.$x),2),] )

          x      g
      (dbl) (fctr)
1 0.3841037      a
2 0.6870228      a
3 0.7176185      b
4 0.7698414      b
5 0.7774452      c
6 0.9919061      c

## no error, but x is treated as a 1x1 data frame
dat %>% dplyr::group_by( g ) %>% do( x=tail(sort(.$x),2) )
       g        x
  (fctr)    (chr)
1      a <dbl[2]>
2      b <dbl[2]>
3      c <dbl[2]>

## you need a function to do more complicated stuff 
top2x <- function(df) { df[tail(order(df$x),2),] }
dat %>% dplyr::group_by( g ) %>% do( top2x(.) )

InformationsquelleAutor YH Wu

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.