Berechnen von Daten.frame-Spalte Durchschnittswerte nach Datum

Ich habe einen Daten.frame in R, wo eine Spalte ist eine Liste von Terminen (viele Duplikate), während die andere Spalte ist eine Temperatur aufgezeichnet, auf dass Datum. Die Spalten in Frage, die wie folgt Aussehen (aber mehrere tausend Zeilen und ein paar andere unnötige cols):

Date    |    Temp
-----------------
1/2/13     34.4
1/2/13     36.4
1/2/13     34.3
1/4/13     45.6
1/4/13     33.5
1/5/13     45.2

Muss ich einen Weg finden, sich einen täglichen Mittelwert für die Temperatur. Also ideal, ich könnte sagen, R, um die Schleife durch die Daten.frame und für jedes Datum, das aufeinander abgestimmt ist, geben Sie mir einen Durchschnittswert für die Temperatur an diesem Tag. Ich habe schon gegoogelt und ich weiß, Schlaufen in R möglich sind, aber ich kann nicht umbrochen, mein Kopf herum diese konzeptionell gegeben, was wenig ich weiß, über R-code.

Ich weiß, ich kann das herausziehen einer einzelnen Spalte und die Durchschnittliche (d.h. mean(data.frame[[2]])), aber ich bin völlig verloren, wie Sie sagen, R, um zu entsprechen, dass bedeutet, dass, um einen einzigen Wert in der ersten Spalte.

Außerdem, wie könnte ich generieren, im Durchschnitt alle sieben Kalendertage (unabhängig davon, wie viele Einträge vorhanden sind, für einen einzigen Tag)? So, ein sieben Tage-Durchschnitt, d.h. wenn mein date Angebot beginnt am 1/1/13 ich würde einen Durchschnitt für alle temps zwischen 1/1/13 und 1/7/13, und dann zwischen 1/8/13 und 1/15/13 und so weiter...

Jede Hilfe hilft mir begreifen, R-loops ist sehr geschätzt. Danke!!!

BEARBEITEN

Hier ist die Ausgabe von dput(head(my.dataframe)) BITTE BEACHTEN Sie: ich bearbeitet, die sich beide "Datum" und "timestamp", weil Sie beide gehen für mehrere tausend Einträge ansonsten:

structure(list(RECID = 579:584, SITEID = c(101L, 101L, 101L, 
101L, 101L, 101L), MONTH = c(6L, 6L, 6L, 6L, 6L, 6L), DAY = c(7L, 
7L, 7L, 7L, 7L, 7L), DATE = structure(c(34L, 34L, 34L, 34L, 34L, 
34L), .Label = c("10/1/2013", "10/10/2013", "10/11/2013", "10/12/2013", 
"10/2/2013", "10/3/2013", "10/4/2013", "10/5/2013", "10/6/2013", 
"10/7/2013", "10/8/2013", "10/9/2013", "6/10/2013", "6/11/2013","9/9/2013"), class = "factor"), TIMESTAMP = structure(784:789, .Label = c("10/1/2013 0:00", 
"10/1/2013 1:00", "10/1/2013 10:00", "10/1/2013 11:00", "10/1/2013 12:00", 
"10/1/2013 13:00", "10/1/2013 14:00", "10/1/2013 15:00", "10/1/2013 16:00", 
"10/1/2013 17:00", "10/1/2013 18:00", "10/1/2013 19:00", "10/1/2013 2:00"), class = "factor"), TEMP = c(23.376, 23.376, 23.833, 24.146, 
24.219, 24.05), X.C = c(NA, NA, NA, NA, NA, NA)), .Names = c("RECID", 
"SITEID", "MONTH", "DAY", "DATE", "TIMESTAMP", "TEMP", "X.C"), row.names = c(NA, 
6L), class = "data.frame")

Dass dput sieht nichts, wie die sample-Daten!
'generieren der Durchschnitt für alle 7 Kalender-Tage': meinst du 'Durchschnitt-von-Woche-des-Jahres" , oder 'gleitenden 7-Tage-Durchschnitt'?
Beachten Sie auch, dass R ist case-sensitive. Date ist nicht das gleiche wie DATE.
Die Ausgabe von dput(head(my.dataframe), n=20) oder was auch immer ist in Ordnung.
Ich habe meine täglichen Durchschnitt, nachdem ich herausgefunden habe, die Kleinschreibung bit. 🙂 Ich bin jetzt nachdenken Durchschnitt... ich werde die Frage Bearbeiten, aber @smci, siehe mein Kommentar an Sie.
das ist eigentlich eine ganz andere Frage, aber mein Tipp steht: Blick auf die "xts" - Paket.

InformationsquelleAutor TheNovice | 2014-04-20

3
```
library(plyr)

ddply(df, .(Date), summarize, daily_mean_Temp = mean(Temp))
```
Dies ist ein einfaches Beispiel der Split-Anwenden-Kombinieren Paradigma.

Alternative #1 als Ananda Mahto erwähnt, dplyr Paket ist eine höhere performance neu plyr. Er zeigt die syntax.

Alternative #2: aggregate() ist auch funktionell gleichwertig, hat halt weniger Glocken-und-Pfeifen als plyr/dplyr.

Zusätzlich " erzeugen Durchschnitt für alle 7 Kalendertagen: meinst du 'Durchschnitt-von-Woche-des-Jahres', oder 'gleitenden 7-Tage-Durchschnitt (trailing/leading/zentriert)'?
- Gute, prägnante Antwort! OP: Sie wollen wahrscheinlich zu erkunden, das plyr package mehr generell zu, wenn du gehst zu werden, Durchlaufen die Daten-frames - es ist unendlich nützlich.
- Danke für die Antwort @smci, ich ging voran und heruntergeladen plyr. Ich wahrscheinlich, ich brauchte, um hinzuzufügen, spezifische Daten, weil ich bin immer folgende Fehlermeldung, wenn ich versuche den code: Fehler in der einzigartigen.default(x) : einmalig() gilt nur für Vektoren Irgendwelche Ideen?
- Ich empfehle Sie überspringen plyr und springen direkt zu dplyr. Sauberer syntax, eine viel bessere Leistung, neuer code, schöner idiom, mehr erweiterbar. Vertrauen Sie mir auf diesem.
- Ich habe es runtergeladen. Ich bin immer der folgende Fehler jetzt - Error in eval(expr, envir, enclos) : Objekt 'Date' nicht gefunden, Die mir Signale, die ich brauche, noch mehr zu tun w/ meine Spalten einfach der import meiner CSV?
- Sie laufen @AnandaMahto Beispiel dplyr-code, richtig? Wenn ja, poste den code, den Sie betreiben wollen, das nicht funktioniert - als Nachtrag oben in deiner ursprünglichen Frage, nicht hier in den Kommentaren.
- Ich meine GLEITENDEN Durchschnitt. Gleitender Durchschnitt. Also, wenn meine Daten beginnt am 1/1/13 würde ich durchschnittlich alle temps bis 1/7/13... dann meine nächste Durchschnitt wäre in Reichweite 1/8/13 - 1/15/13 und so weiter...
- Vielen, vielen Dank!!!
- Eigentlich ist nicht ein moving-average. Es sieht aus wie 'der Durchschnitt von Woche-des-Jahres" nicht 'gleitenden 7-Tage-Durchschnitt'. Weil Sie nicht berechnet, im Durchschnitt jeden Tag von der vorherigen (oder zentriert) 7 Tage für z.B. 1/10/2013 von 1/4/2013..1/10/2013.
InformationsquelleAutor smci
8

Hier sind ein paar Optionen:
```
aggregate(Temp ~ Date, mydf, mean)
#     Date     Temp
# 1 1/2/13 35.03333
# 2 1/4/13 39.55000
# 3 1/5/13 45.20000

library(dplyr)
mydf %.% group_by(Date) %.% summarise(mean(Temp))
# Source: local data frame [3 x 2]
# 
#     Date mean(Temp)
# 1 1/2/13   35.03333
# 2 1/4/13   39.55000
# 3 1/5/13   45.20000

library(data.table)
DT <- data.table(mydf)
DT[, mean(Temp), by = Date]
#      Date       V1
# 1: 1/2/13 35.03333
# 2: 1/4/13 39.55000
# 3: 1/5/13 45.20000

library(xts)
dfX <- xts(mydf$Temp, as.Date(mydf$Date))
apply.daily(dfX, mean)
#             [,1]
# 1-02-13 35.03333
# 1-04-13 39.55000
# 1-05-13 45.20000
```
Da Sie den Umgang mit Terminen ist, sollten Sie erkunden die xts - Paket, das Ihnen Zugriff auf Funktionen wie apply.daily, apply.weekly, apply.monthly und so weiter, das können Sie bequem sammeln von Daten.
- Vielen Dank für die durchdachte Antwort. Als ein total newb hier bin ich mir nicht sicher, was Sie machen diesen Fehler, aber es zeigt sich auch viel, wenn ich Versuch, Ihre Lösungen: Error in eval(expr, envir, enclos) : Objekt 'Date' nicht gefunden, muss ich etwas anderes zu tun, w/ meine cols andere als import der CSV? In R-studio sieht es aus wie es erkennt die Header einfach nur in Ordnung, aber...
- bitte Bearbeiten Sie Ihre Frage die Ausgabe von dput(head(your.actual.data.frame.name)). Es wird Aussehen wie ein structure(....) mit einer Menge Zeug statt der ..... Beitrag, die uns helfen wird, uns besser beheben.
- das ist eine Menge von Ausgabe. 🙂 Ich werde es bis.
- So, das ist ein bisschen peinlich, aber es erscheint R groß - / Kleinschreibung beachten. Oops. Ich habe täglich meine temp-Durchschnitt. Irgendwelche Ideen auf, wie man eine sieben-Tage-Durchschnitt?
InformationsquelleAutor A5C1D2H2I1M1N2O1R2T1

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.