Tag: plyr

plyr ist ein R-Paket mit tools zur Lösung einer Vielzahl von Problemen bei der Verwendung der split-anwenden-kombinieren, Strategie

Wie kommt man zu aggregieren und zusammenfassen von Daten schnell?

Anzahl der Antworten 2 Antworten
Ich habe einen Datensatz, dessen Header ungefähr so Aussehen: PID Time Site Rep Count Möchte ich die Summe der Count durch Rep für jeden PID x Time x Site combo auf die resultierenden Daten.Rahmen, ich möchte den

lm genannt von innen dlply wirft "0 (non-NA) Fällen" Fehler [r]

Anzahl der Antworten 2 Antworten
Ich bin mit dlply() ist eine benutzerdefinierte Funktion, die Durchschnittswerte hängen von lm() passt auf die Daten enthalten NA Werte, und ich bekomme die Fehlermeldung "Fehler in der lm.fit(x, y, offset = offset in der Einzahl.ok =

Wie zu beschleunigen zusammenzufassen und ddply?

Anzahl der Antworten 2 Antworten
Habe ich einen Daten-frame mit 2 Millionen Zeilen und 15 Spalten. Ich möchte die Gruppe von 3 dieser Spalten mit ddply (alle 3 Faktoren, und es gibt die 780.000 einzigartige Kombinationen dieser Faktoren), und der gewichtete Mittelwert

Wie zu verwenden ddply, um eine Spalte hinzuzufügen, um einen Daten-frame?

Anzahl der Antworten 1 Antworten
Habe ich einen Daten-frame, das aussieht wie dieses: site date var dil 1 A 7.4 2 2 A 6.5 2 1 A 7.3 3 2 A 7.3 3 1 B 7.1 1 2 B 7.7 2 1

group by und Skalierung/Normierung einer Spalte in r

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe, der wie folgt aussieht: Store Temperature Unemployment Sum_Sales 1 1 42.31 8.106 1643691 2 1 38.51 8.106 1641957 3 1 39.93 8.106 1611968 4 1 46.63 8.106 1409728 5 1 46.50 8.106 1554807

Zusammenfassung von Subgruppen-Anteil in der R

Anzahl der Antworten 1 Antworten
Ich habe einen Datensatz so: df = data.frame(group = c(rep('A',4), rep('B',3)), subgroup = c('a', 'b', 'c', 'd', 'a', 'b', 'c'), value = c(1,4,2,1,1,2,3)) group | subgroup | value ------------------------ A | a | 1 A | b

Gibt es eine alternative zu "ordnen" - Funktion von plyr bei der Verwendung von dplyr?

Anzahl der Antworten 4 Antworten
Ich bin ein fan der revalue Funktion ist plyr für die Ersetzung von Zeichenfolgen. Es ist einfach und leicht zu merken. Allerdings habe ich migriert neuen code zu dplyr die scheint nicht zu haben eine revalue Funktion.

Fehler die Installation plyr / rcpp

Anzahl der Antworten 4 Antworten
Habe zwei Rechner und in einem von Ihnen ich kann nicht verwalten, installieren Sie das plyr package für R. Dies ist die Fehlermeldung die ich bekomme: * installing *source* package ‘plyr’ ... ** package ‘plyr’ successfully unpacked

Schnellste Methode zum hinzufügen von Zeilen für die fehlende Zeit, Schritte?

Anzahl der Antworten 4 Antworten
Ich habe eine Spalte in meiner Datensätze in denen Zeiträume (Time) sind die ganzen zahlen reichen von a-b. Manchmal gibt es möglicherweise fehlenden Zeiträume für jede Gruppe. Ich möchte, füllen Sie die Zeilen mit NA. Unten ist

Konvertieren R Liste dataframe mit fehlenden/UNGÜLTIGEN Elementen

Anzahl der Antworten 2 Antworten
Gegeben eine Liste: alist = list( list(name="Foo",age=22), list(name="Bar"), list(name="Baz",age=NULL) ) was ist der beste Weg zu konvertieren, das in einem dataframe mit dem Namen und Alter Spalten mit fehlenden Werten (ich nehme an NA-oder "" - in

Der Zusammenhang zwischen beiden dataframes durch die Zeile

Anzahl der Antworten 2 Antworten
Habe ich 2 Daten-frames w/5 Spalten und 100 Zeilen jeder. id price1 price2 price3 price4 price5 1 11.22 25.33 66.47 53.76 77.42 2 33.56 33.77 44.77 34.55 57.42 ... Ich würde gerne die Korrelation der entsprechenden Zeilen,

Problem beim laden der plyr package

Anzahl der Antworten 3 Antworten
Benutze ich R-2.13.1 und haben erfolglos versucht, laden Sie das Paket "plyr 1.6" in R. ich habe manuell installiert es in ein Verzeichnis "~/R/library". Mein code ist: .libPaths("~/R/library") library(plyr) Bekomme ich die Meldung: Fehler in der library(plyr)

Mit plyr::mapvalues mit dplyr

Anzahl der Antworten 1 Antworten
plyr::mapvalues kann z.B. so verwendet werden: mapvalues(mtcars$cyl, c(4, 6, 8), c("a", "b", "c")) Aber das funktioniert nicht: mtcars %>% dplyr::select(cyl) %>% mapvalues(c(4, 6, 8), c("a", "b", "c")) %>% as.data.frame() Wie kann ich plyr::mapvalues mit dplyr? Oder noch

Berechnen Proportionen innerhalb der Teilmengen eines data frame

Anzahl der Antworten 2 Antworten
Ich versuche zu erhalten, Proportionen innerhalb der Teilmengen eines data frame. Zum Beispiel, in dieser made-up-Daten-frame: DF<-data.frame(category1=rep(c("A","B"),each=9), category2=rep(rep(LETTERS[24:26],each=3),2), animal=rep(c("dog","cat","mouse"),6),number=sample(18)) Möchte ich gerne berechnen Sie den Anteil jedes der drei Tiere für jeden category1 durch category2 Kombination (z.B.:

aggregieren Sie die ID und finden Sie min() und max () - Zeit

Anzahl der Antworten 1 Antworten
Bekam ich einen Transaktions-Datenbank, die wie folgt aussieht: AccountID PaymentDate PaymentAmount 8 13 2020-02-09 1.00 9 13 2020-01-25 4.20 10 14 2020-01-01 30.68 11 14 2020-02-01 30.68 PaymentDate ist im posix-format. Mit der Transaktion die Daten, die

zusammenfassen() - Prozentrechnung und zählt der Faktor

Anzahl der Antworten 1 Antworten
Ich versuche, zusammenzufassen() aus dem plyr-packge zur Berechnung der Prozentwerte der vorkommen von jeder Ebene in einem Faktor. EDIT: Die Puromycin-Daten in den base-R installation Meine Daten wie folgt Aussehen: library(plyr) data.p <- as.data.frame(Puromycin[,3]) names(data.p) <- "Treat.group"

"dims [Produkt 0] nicht mit der Länge des Objekts" Fehler in R, wenn mit daply für Frequenz-Zählungen

Anzahl der Antworten 1 Antworten
Ich habe eine Liste von Daten.frames, die wie folgt aussieht: df=data.frame( data_id=rep(LETTERS[1:10],each=1), data_value=c(1,2,2,3,3,2,3,1,1,3)) df2=data.frame( data_id=rep(LETTERS[1:10],each=1), data_value=c(2,1,3,1,1,1,2,1,2,1)) df3=data.frame( data_id=rep(LETTERS[1:10],each=1), data_value=c(2,2,3,3,1,2,2,1,2,3)) df.list <- list(df, df2, df3) Einer einzigen Daten.Rahmen sieht wie folgt aus: data_id data_value 1 A 1 2

Aggregierte Zeilen nach gemeinsamen Werten in eine variable

Anzahl der Antworten 3 Antworten
Habe ich eine etwas dumme R-Frage. Wenn ich eine matrix (oder ein dataframe, je nachdem, was einfacher, mit zu arbeiten), wie: Year Match 2008 1808 2008 137088 2008 1 2008 56846 2007 2704 2007 169876 2007 75750

R ddply mit mehreren Variablen

Anzahl der Antworten 1 Antworten
Hier ist eine einfache Daten-Rahmen für meine realen Daten set: df <- data.frame(ID=rep(101:102,each=9),phase=rep(1:3,6),variable=rep(LETTERS[1:3],each=3,times=2),mm1=c(1:18),mm2=c(19:36),mm3=c(37:54)) Ich würde gerne erste group by ID und die variable dann für Werte(mm1, mm2, mm3), phase 3 abgezogen wird, alle Phasen(Phase 1 bis Phase

Probleme mit dplyr in einer Funktion (group_by)

Anzahl der Antworten 1 Antworten
Will ich mit dplyr für einige Daten-manipulation. Hintergrund: ich habe eine Umfrage, Gewicht und eine Reihe von Variablen (meist likert-items). Ich möchte, um die Summe der Frequenzen und Prozentsätze pro Kategorie mit und ohne survey Gewicht. Als

Wie für die Berechnung der durchschnittlichen Werte von großen Datensätzen

Anzahl der Antworten 3 Antworten
Ich arbeite mit einem Datensatz, Temperatur-Messwerte einmal pro Stunde, 24 Stunden pro Tag für 100+ Jahre. Ich möchte eine Durchschnittliche Temperatur für jeden Tag, um die Größe zu reduzieren von meinen Daten. Die überschriften so Aussehen: YR

So bekommen Sie den Namen der Daten.Rahmen innerhalb einer Liste?

Anzahl der Antworten 3 Antworten
Wie kann ich einen Daten-frame einen Namen aus einer Liste? Sicher, get() bekommt das Objekt selbst, sondern ich will seinen Namen für die Verwendung innerhalb einer anderen Funktion. Hier ist der use case, in den Fall, Sie

R: mit ddply zum anwenden von Funktionen auf Teilmengen von Daten

Anzahl der Antworten 2 Antworten
Ich versuche, die ddply Methode, um ein dataframe mit diversen Infos über 3000 Filme und berechnen Sie dann die mittlere grobe der einzelnen Genres. Ich bin neu in R, und ich habe gelesen, alle Fragen, hier in

Die Rückkehr der ersten Zeile der Gruppe

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe, bestehend aus einer ID, das ist das gleiche für jedes element in einer Gruppe, die zwei datetimes und das Zeitintervall zwischen diesen beiden. Eine der datetime-Objekte ist meine relevanten Zeit-marker. Nun ich mag,

ddply mehrere Quantile von Gruppe

Anzahl der Antworten 4 Antworten
wie kann ich diese Berechnung: library(ddply) quantile(baseball$ab) 0% 25% 50% 75% 100% 0 25 131 435 705 durch Gruppen, sagen wir von "team"? Ich möchte eine Daten.Rahmen mit rownames "team" - und Spaltennamen "0% 25% 50% 75%

Warum bin ich zu sehen: "Error: Länge(Zeilen) == 1 ist nicht WAHR" mit ddply?

Anzahl der Antworten 1 Antworten
Habe ich einen Daten-frame, sage payroll, wie: payroll <- read.table(text=" AgencyName Rate PayBasis Status NumRate HousingAuthority $26,843.00 Annual Full-Time 26843.00 HousingAuthority $14,970.00 ProratedAnnual Part-Time 14970.00 HousingAuthority $26,843.00 Annual Full-Time 26843.00 HousingAuthority $14,970.00 ProratedAnnual Part-Time 14970.00 HousingAuthority $13.50

R-Fehler: data_frames kann nur die 1d atomic-Vektoren und Listen

Anzahl der Antworten 1 Antworten
Ich bin versucht, das dplyr-package und berechnen Sie die Anzahl der Einträge für jede Karte, die Anzahl der in einem Datensatz mit der folgenden Funktion: freq<- function(data){ data <- complete.dupremoved[order(-complete.dupremoved$SUMMA),] aggregate(count ~., data=transform(complete.dupremoved,count=1), length) complete.dupremoved$count <-complete.dupremoved[complete.dupremoved$KLIENDIKAARDINR,] sample

Gelten t-test auf viele Spalten in einem dataframe-split-Faktor

Anzahl der Antworten 3 Antworten
Ich habe einen dataframe mit einem Faktor-Spalte mit zwei Ebenen, und viele numerische Spalten. Ich möchte die Spaltung des dataframe durch die Faktor-Spalte und mache t-test auf die colunm Paare. Mithilfe der Beispiel-dataset Puromycin ich will das

Wie man top n Unternehmen, die von einem Daten-frame in absteigender Reihenfolge

Anzahl der Antworten 4 Antworten
Ich versuche, die top 'n' Unternehmen von einem Daten-frame.Hier ist mein code unten. data("Forbes2000", package = "HSAUR") sort(Forbes2000$profits,decreasing=TRUE) Jetzt würde ich mag, um die top-50-Beobachtungen aus dieser sortierten Vektor. InformationsquelleAutor Teja | 2012-08-29

Zählen der vorkommen Faktor in R, mit null zählt, berichtet

Anzahl der Antworten 4 Antworten
Möchte ich die Anzahl der vorkommen eines Faktors in einem Daten-frame. Zum Beispiel, um die Anzahl der Ereignisse von einem bestimmten Typ in den folgenden code: library(plyr) events <- data.frame(type = c('A', 'A', 'B'), quantity = c(1,

dplyr: wenden Sie die Funktion Tabelle() auf jede Spalte von Daten.Rahmen

Anzahl der Antworten 3 Antworten
Anwenden der Funktion table() für jede Spalte von Daten.Rahmen mit dplyr Ich oft gelten die table-Funktion auf jede Spalte eines data Frames mit plyr, wie diese: library(plyr) ldply( mtcars, function(x) data.frame( table(x), prop.table( table(x) ) ) )

Wiederholen Sie die Elemente des Vektors in der R

Anzahl der Antworten 2 Antworten
Ich versuche zu wiederholen, die die Elemente des Vektors a, b Anzahl von Zeiten. Das heißt, a="abc" sollte "aabbcc", wenn y = 2. Warum nicht eine der folgenden code-Beispiele, die funktionieren? sapply(a, function (x) rep(x,b)) und aus

Wie zu füllen, NA das mit dem median?

Anzahl der Antworten 6 Antworten
Beispiel Daten: set.seed(1) df <- data.frame(years=sort(rep(2005:2010, 12)), months=1:12, value=c(rnorm(60),NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA)) head(df) years months value 1 2005 1 -0.6264538 2 2005 2 0.1836433 3 2005 3 -0.8356286 4 2005 4 1.5952808 5 2005 5 0.3295078 6 2005 6 -0.8204684

Summen-Zeilen, basierend auf spezifischen Faktor-Kombinationen

Anzahl der Antworten 2 Antworten
Dies ist wahrscheinlich eine dumme Frage, aber ich habe gelesen, durch Crawley Kapitel dataframes und das internet durchforstet und noch nicht in der Lage, irgendetwas zu arbeiten. Hier ist eine Beispiel-dataset ähnlich wie mir: > data<-data.frame(site=c("A","A","A","A","B","B"), plant=c("buttercup","buttercup",

Group by mehrere Spalten und Summe andere mehrere Spalten

Anzahl der Antworten 7 Antworten
Habe ich einen Daten-frame mit über 200 Spalten, von Ihnen möchte ich zu der Gruppe die Tabelle nach den ersten 10 oder so, die Faktoren und die Summe der restlichen Spalten. Habe ich Liste alle Spalten-Namen, die

für jede Gruppe zusammenzufassen bedeutet, dass für alle Variablen, die in dataframe (ddply? split?)

Anzahl der Antworten 6 Antworten
Vor einer Woche hätte ich dies getan, manuell: Teilmenge dataframe von der Gruppe, um neue dataframes. Für jede dataframe compute bedeutet für die einzelnen Variablen, dann rbind. sehr klobig ... Nun habe ich gelernt, über split und

R ggplot-und facet grid: wie die Kontrolle der x-Achse bricht

Anzahl der Antworten 1 Antworten
Ich versuche, um eine Darstellung der Veränderung in einer Zeitreihe für jedes Kalenderjahr mit ggplot und ich habe Probleme mit der Feineinstellung der x-Achse. Wenn ich nicht verwenden scale="free_x" dann Ende ich mit einer x-Achse, die zeigt,

ggplot2 nicht installieren, auf R 3.0.2

Anzahl der Antworten 5 Antworten
Ich bin nicht in der Lage zu installieren ggplot2 in R 3.0.2 auf Ubuntu. Wenn ich install.packages('ggplot2',dependencies = TRUE) Bekomme ich die folgende Fehlermeldung. > install.packages('ggplot2',dependencies = TRUE) Installing package into ‘/home/gowthamn/R/x86_64-pc-linux-gnu-library/3.0’ (as ‘lib’ is unspecified) Warning

Standard error bars mit stat_summary

Anzahl der Antworten 1 Antworten
Den folgenden code produziert bar-plots mit Standardfehler-Balken mit Hmisc, ddply und ggplot: means_se <- ddply(mtcars,.(cyl), function(df) smean.sdl(df$qsec,mult=sqrt(length(df$qsec))^-1)) colnames(means_se) <- c("cyl","mean","lower","upper") ggplot(means_se,aes(cyl,mean,ymax=upper,ymin=lower,group=1)) + geom_bar(stat="identity") + geom_errorbar() Aber die Umsetzung der oben mit Hilfe von helper-Funktionen, wie mean_sdl scheint

Was der Punkt bedeuten, in der R – persönliche Präferenz, Namenskonvention, oder mehr?

Anzahl der Antworten 2 Antworten
Ich bin (wahrscheinlich) bezieht sich NICHT auf das "alle anderen Variablen" Bedeutung wie var1~. hier. Ich wurde darauf hingewiesen plyr noch einmal um und schaute in mlplyund fragte sich, warum die Parameter definiert sind, mit führenden Punkt

Gewusst wie: ersetzen von NA mit einem Mittelwert von Teilmenge in R (unterstellen mit plyr?)

Anzahl der Antworten 3 Antworten
Ich habe einen dataframe mit den Längen und breiten der verschiedenen Arthropoden aus den Eingeweiden von Salamander. Weil manche Menschen haben den Mut hatte Tausende von bestimmter Beutetiere, habe ich nur gemessen, eine Teilmenge von jeder Beute

Ausführen einer Plyr-Operation für jede Zeile eines Datenrahmens in R

Anzahl der Antworten 1 Antworten
Ich mag das plyr syntax. Jede Zeit die ich habe zu verwenden eine der *apply () - Befehle, die ich am Ende treten Sie den Hund und gehen auf eine 3-Tages-bender. So zum Wohle meines Hundes und

Plyr lernen zu verstehen, ddply

Anzahl der Antworten 3 Antworten
Habe ich schon versucht zu verstehen, was und wie plyr funktioniert durch den Versuch, verschiedene Variablen und Funktionen und sehen, welche Ergebnisse. Also ich bin mehr auf der Suche nach einer Erklärung, wie plyr funktioniert, als zu

Warum sind meine dplyr group_by & amp; zusammenfassen funktioniert nicht richtig? (Namenskollision mit Plyr)

Anzahl der Antworten 3 Antworten
Habe ich einen Daten-frame, das aussieht wie dieses: #df ID DRUG FED AUC0t Tmax Cmax 1 1 0 100 5 20 2 1 1 200 6 25 3 0 1 NA 2 30 4 0 0 150

dplyr: "Fehler in n (): Funktion sollte nicht direkt aufgerufen werden"

Anzahl der Antworten 5 Antworten
Ich bin versucht zu reproduzieren eines der Beispiele, die im dplyr-package aber diese Fehlermeldung. Ich erwarte, um zu sehen, eine neue Spalte n produziert mit der Häufigkeit der einzelnen Kombinationen. Kann mir jemand sagen, was ich bin

Schnellste Möglichkeit zum Hinzufügen von Zeilen für fehlende Werte in einem dat.frame?

Anzahl der Antworten 4 Antworten
Ich habe eine Spalte in meiner Datensätze in denen Zeiträume (Time) sind die ganzen zahlen reichen von a-b. Manchmal gibt es möglicherweise fehlenden Zeiträume für jede Gruppe. Ich möchte, füllen Sie die Zeilen mit NA. Unten ist

Bedeutung des ddply-Fehlers: Attribut 'name' [9] muss die gleiche Länge wie der Vektor [1] haben

Anzahl der Antworten 7 Antworten
Werde ich durch maschinelles Lernen für Hacker, und ich komme nicht weiter bei dieser Linie: from.weight <- ddply(priority.train, .(From.EMail), summarise, Freq = length(Subject)) Generiert den folgenden Fehler: Error in attributes(out) <- attributes(col) : 'names' attribute [9] must

Wie füge ich zwei Datenrahmen auf gemeinsamen Spalten in R mit der Summe anderer zusammen?

Anzahl der Antworten 2 Antworten
R Version 2.11.1 32-bit auf Windows 7 Habe ich zwei Daten-sets: data_A und data_B: data_A USER_A USER_B ACTION 1 11 0.3 1 13 0.25 1 16 0.63 1 17 0.26 2 11 0.14 2 14 0.28 data_B

Aggregiere einen Datenrahmen für eine gegebene Spalte und zeige eine andere Spalte an

Anzahl der Antworten 8 Antworten
Ich habe einen dataframe in R der folgenden form: > head(data) Group Score Info 1 1 1 a 2 1 2 b 3 1 3 c 4 2 4 d 5 2 3 e 6 2 1

Objekt nicht gefunden Fehler mit ddply in einer Funktion

Anzahl der Antworten 5 Antworten
Dieser hat wirklich herausgefordert, meine Fähigkeit, zu Debuggen-R-code. Möchte ich ddply() um die gleichen Funktionen zu unterschiedlichen Spalten, die nacheinander benannt werden; zB. a, b, c. Dazu will ich wiederholt übergeben Sie den Namen der Spalte als