Die aggregierten Daten in einer Spalte basierend auf Werten in einer anderen Spalte

Ich weiß, es ist ein einfacher Weg, dies zu tun...aber, ich kann ' T es herausfinden.

Ich habe einen dataframe in mein R-Skript, das ungefähr so aussieht:

A      B    C
1.2    4    8
2.3    4    9
2.3    6    0
1.2    3    3
3.4    2    1 
1.2    5    1

Beachten Sie, dass A, B und C sind die Spaltennamen. Und ich versuche, Variablen wie diese:

sum1 <- [the sum of all B values such that A is 1.2]
num1 <- [the number of times A is 1.2]

Einen einfachen Weg, dies zu tun?
Ich wollen im Grunde, am Ende mit einem Daten-frame, das aussieht wie dieses:

    A     num     totalB
   1.2    3       12
   etc    etc     etc

Wo "num" ist die Anzahl der Zeiten, die insbesondere Einen Wert erschien, und "totalB" ist die Summe der B-Werte gegeben, die Einen Wert.

InformationsquelleAutor CodeGuy | 2011-09-26

Ich würde verwenden aggregate um die beiden Aggregate und dann merge Sie in einem einzelnen Daten-frame:

> df
    A B C
1 1.2 4 8
2 2.3 4 9
3 2.3 6 0
4 1.2 3 3
5 3.4 2 1
6 1.2 5 1

> num <- aggregate(B~A,df,length)
> names(num)[2] <- 'num'

> totalB <- aggregate(B~A,df,sum)
> names(totalB)[2] <- 'totalB'

> merge(num,totalB)
    A num totalB
1 1.2   3     12
2 2.3   2     10
3 3.4   1      2

in der Summe, es werden alle Zeilen in meine-Daten-frame. was ist, wenn ich sagen wollte, Aggregat nur für eine bestimmte Zeile mit einer bestimmten Bedingung (ex. wenn c==1)
Einfach subset es, z.B. aggregate(B~A,subset(df,C==1),sum)

InformationsquelleAutor NPE

Hier ist eine Lösung mit der plyr Paket

plyr::ddply(df, .(A), summarize, num = length(A), totalB = sum(B))

InformationsquelleAutor Ramnath

4

Hier ist eine Lösung mit data.table für Speicher-und Zeit-Effizienz
```
library(data.table)
DT <- as.data.table(df)
DT[, list(totalB = sum(B), num = .N), by = A]
```
Zur Teilmenge nur Zeilen, in denen C==1 (gemäß dem Kommentar zu @aix Antwort)
```
DT[C==1, list(totalB = sum(B), num = .N), by = A]
```
InformationsquelleAutor mnel

In dplyr:

library(tidyverse)
A <- c(1.2, 2.3, 2.3, 1.2, 3.4, 1.2)
B <- c(4, 4, 6, 3, 2, 5)
C <- c(8, 9, 0, 3, 1, 1)

df <- data_frame(A, B, C)

df %>%
    group_by(A) %>% 
    summarise(num = n(),
              totalB = sum(B))

InformationsquelleAutor leerssej

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.