Zählt die Anzahl der Zeilen in jeder Gruppe

Ich habe einen dataframe, und ich möchte die Anzahl der Zeilen in jeder Gruppe. Ich OIN verwenden Sie die aggregate - Funktion, um die Summe von Daten wie folgt:

df2 <- aggregate(x ~ Year + Month, data = df1, sum)

Nun möchte ich zählen Beobachtungen aber können nicht scheinen zu finden, das richtige argument für FUN. Intuitiv dachte ich, es würde sein, wie folgt:

df2 <- aggregate(x ~ Year + Month, data = df1, count)

Aber kein solches Glück.

Irgendwelche Ideen?

Einige Spielzeug-Daten:

set.seed(2)
df1 <- data.frame(x = 1:20,
                  Year = sample(2012:2014, 20, replace = TRUE),
                  Month = sample(month.abb[1:3], 20, replace = TRUE))

nrow, NROW, length...
Ich lese diese Frage als Frage für eine unterhaltsame Art und Weise zu zählen, die Dinge (im Gegensatz zu den vielen unfun Möglichkeiten, denke ich.)
nrow nicht für mich arbeiten, aber NROW und lengthfein gearbeitet. +1

InformationsquelleAutor MikeTP | 2012-03-21

dataframe r r-faq sql

45

Gibt es auch df2 <- count(x, c('Year','Month')) (plyr package)

Gibt es eine Möglichkeit, zu aggregieren eine variable tun und zählen auch (wie 2 Funktionen, aggregation: Mittelwert + count)? Ich brauche, um den Mittelwert einer Spalte und die Anzahl der Zeilen für den gleichen Wert in anderer Spalte
Ich würde cbind die Ergebnisse aggregate(Sepal.Length ~ Species, iris, mean) und aggregate(Sepal.Length ~ Species, iris, length)
Ich habe es getan, aber es scheint, dass ich 2 mal jede Spalte außer dem einen, das aggregiert; also ich habe eine Seriendruck auf Sie und es scheint ok zu sein
Ich weiß es nicht, aber dies könnte nützlich sein, als gut... df %>% group_by(group, variable) %>% mutate(count = n())
Ja dplyr ist die beste Praxis jetzt.

InformationsquelleAutor geotheory
53

Folgende @Joshua ' s Vorschlag, hier ist einer, der, wie Sie vielleicht die Anzahl der Beobachtungen in Ihrer df dataframe, wo Year = 2007 und Month = Nov (vorausgesetzt, Sie Spalten):
```
nrow(df[,df$YEAR == 2007 & df$Month == "Nov"])
```
und mit aggregate nach @GregSnow:
```
aggregate(x ~ Year + Month, data = df, FUN = length)
```
InformationsquelleAutor Ben

Können wir auch dplyr.

Zunächst einige Daten:

df <- data.frame(x = rep(1:6, rep(c(1, 2, 3), 2)), year = 1993:2004, month = c(1, 1:11))

Nun der Graf:

library(dplyr)
count(df, year, month)
#piping
df %>% count(year, month)

Können wir auch eine etwas längere version mit Keder und die n() Funktion:

df %>% 
  group_by(year, month) %>%
  summarise(number = n())

oder die tally Funktion:

df %>% 
  group_by(year, month) %>%
  tally()

InformationsquelleAutor jeremycg

31

Eine alte Frage ohne data.table Lösung. So hier geht...

Mit .N
```
library(data.table)
DT <- data.table(df)
DT[, .N, by = list(year, month)]
```
InformationsquelleAutor mnel
21

Die einfache option für die Verwendung mit aggregate ist die length - Funktion, die Ihnen die Länge des Vektors in der Teilmenge. Manchmal ist ein wenig mehr robust ist die Verwendung function(x) sum( !is.na(x) ).

InformationsquelleAutor Greg Snow
16

Alternative zu den aggregate() - Funktion wäre in diesem Fall table() mit as.data.frame(), das würde auch zeigen, welche Kombinationen aus Jahr und Monat zugeordnet sind, null vorkommen
```
df<-data.frame(x=rep(1:6,rep(c(1,2,3),2)),year=1993:2004,month=c(1,1:11))

myAns<-as.data.frame(table(df[,c("year","month")]))
```
Ohne die null vorkommenden Kombinationen
```
myAns[which(myAns$Freq>0),]
```
InformationsquelleAutor BenBarnes
16

Erstellen Sie eine neue variable Count mit einem Wert von 1 für jede Zeile:
```
df1["Count"] <-1
```
Aggregieren dataframe, Summen durch die Count Spalte:
```
df2 <- aggregate(df1[c("Count")], by=list(year=df1$year, month=df1$month), FUN=sum, na.rm=TRUE)
```
InformationsquelleAutor Leroy Tyrone

Für meine Aggregationen ich in der Regel bis Ende sehen zu wollen bedeutet, und "wie groß ist diese Gruppe" (ein.k.ein. Länge).
Also das ist mein praktisches snippet für jene Gelegenheiten;

agg.mean <- aggregate(columnToMean ~ columnToAggregateOn1*columnToAggregateOn2, yourDataFrame, FUN="mean")
agg.count <- aggregate(columnToMean ~ columnToAggregateOn1*columnToAggregateOn2, yourDataFrame, FUN="length")
aggcount <- agg.count$columnToMean
agg <- cbind(aggcount, agg.mean)

InformationsquelleAutor maze

sql - Lösung mit sqldf Paket:

library(sqldf)
sqldf("SELECT Year, Month, COUNT(*) as Freq
       FROM df1
       GROUP BY Year, Month")

InformationsquelleAutor M-M

0

Anbetracht @Ben die Antwort, die R würde einen Fehler auslösen, wenn df1 nicht enthalten x Spalte. Aber es kann gelöst werden elegant mit paste:
```
aggregate(paste(Year, Month) ~ Year + Month, data = df1, FUN = NROW)
```
Ähnlich, es kann verallgemeinert werden, wenn mehr als zwei Variablen verwendet werden, in der Gruppierung:
```
aggregate(paste(Year, Month, Day) ~ Year + Month + Day, data = df1, FUN = NROW)
```
InformationsquelleAutor paudan

Können Sie by Funktionen wie by(df1$Year, df1$Month, count) produzieren, die eine Liste von benötigten aggregation.

Die Ausgabe Aussehen wird,

df1$Month: Feb
     x freq
1 2012    1
2 2013    1
3 2014    5
--------------------------------------------------------------- 
df1$Month: Jan
     x freq
1 2012    5
2 2013    2
--------------------------------------------------------------- 
df1$Month: Mar
     x freq
1 2012    1
2 2013    3
3 2014    2
>

InformationsquelleAutor helcode

0

Gibt es viele wunderbare Antworten hier schon, aber ich wollte zu werfen, in 1 option für diejenigen, die zum hinzufügen einer neuen Spalte zu der original Datensatz enthält die Anzahl, wie oft die Zeile wiederholt wird.
```
df1$counts <- sapply(X = paste(df1$Year, df1$Month), 
                     FUN = function(x) { sum(paste(df1$Year, df1$Month) == x) })
```
Derselben erreicht werden könnte, durch die Kombination von einer der oben genannten Antworten mit der merge() Funktion.

InformationsquelleAutor filups21

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.