Schnellste Weg zum ausfüllen von fehlenden Daten für die Daten.Tabelle

Ich bin laden ein data.table aus CSV-Datei, die Datum, Bestellungen, Menge etc. Felder.

In der input-Datei gelegentlich keine Daten für alle Termine. Zum Beispiel, wie unten gezeigt:

> NADayWiseOrders
           date orders  amount guests
  1: 2013-01-01     50 2272.55    149
  2: 2013-01-02      3   64.04      4
  3: 2013-01-04      1   18.81      0
  4: 2013-01-05      2   77.62      0
  5: 2013-01-07      2   35.82      2

In der obigen 03-Jan 06-Jan haben keine Einträge.

Möchten, füllen Sie die fehlenden Einträge mit default-Werten (z.B. null für Bestellungen, Menge etc.), oder tragen Sie den letzten vaue vorn (. e.g, 03-Jan wird die Wiederverwendung 02-Jan-Werten und 06-Jan wird die Wiederverwendung der 05-Jan-Werte usw..)

Was ist die beste/optimale Art und Weise zu füllen solche Lücken, fehlende Daten Daten mit solchen default-Werte?

Die Antwort hier schlägt mit allow.cartesian = TRUE, und expand.grid für die fehlenden Wochentage - es kann funktionieren, für Wochentage (da Sie nur 7 Wochentage) - aber nicht sicher, ob das der richtige Weg wäre, zu gehen zu Terminen, vor allem, wenn wir es mit multi-Jahres-Daten.

InformationsquelleAutor Gopalakrishna Palem | 2014-04-09

Nicht sicher, ob es das Schnellste, aber es wird funktionieren, wenn es keine NAs in die Daten:

# just in case these aren't Dates. 
NADayWiseOrders$date <- as.Date(NADayWiseOrders$date)
# all desired dates.
alldates <- data.table(date=seq.Date(min(NADayWiseOrders$date), max(NADayWiseOrders$date), by="day"))
# merge
dt <- merge(NADayWiseOrders, alldates, by="date", all=TRUE)
# now carry forward last observation (alternatively, set NA's to 0)
require(xts)
na.locf(dt)

Danke. Für die NA-Ersatz mit 0, ich Frage mich, ob es irgendeine schnellere Methode (vielleicht mithilfe der speziellen syntax der Daten.Tabelle), andere, als die der regulären dt$orders[is.na(dt$orders)] <- 0 Ersatz auf jedem Feld.

InformationsquelleAutor shadow

Den idiomatischen data.table Weg (mit Rollen verbindet) ist diese:

setkey(NADayWiseOrders, date)
all_dates <- seq(from = as.Date("2013-01-01"), 
                   to = as.Date("2013-01-07"), 
                   by = "days")

NADayWiseOrders[J(all_dates), roll=Inf]
         date orders  amount guests
1: 2013-01-01     50 2272.55    149
2: 2013-01-02      3   64.04      4
3: 2013-01-03      3   64.04      4
4: 2013-01-04      1   18.81      0
5: 2013-01-05      2   77.62      0
6: 2013-01-06      2   77.62      0
7: 2013-01-07      2   35.82      2

Danke. Nützlich. Wie Sie dies tun, wenn wir wollen, verwenden Sie die Standard-Werte (also 0) und nicht roll vorherigen Werte?
ja, bitte, wie Sie auf null gesetzt automatisch?? Dank
verwenden roll=0, dann NADayWiseOrders[is.na(orders), orders:=0]
Jeder Weg, dies zu tun auf Gruppen? I. e. zu seq von min zu max Datum innerhalb von Gruppen zu tun, die rolling join innerhalb der Gruppen als auch?
Schließung von Lücken innerhalb der Gruppe gebucht wird, eine andere Antwort

InformationsquelleAutor Arun

Hier ist, wie Sie in die Lücken zu füllen innerhalb der Untergruppe

# a toy dataset with gaps in the time series
dt <- as.data.table(read.csv(textConnection('"group","date","x"
"a","2017-01-01",1
"a","2017-02-01",2
"a","2017-05-01",3
"b","2017-02-01",4
"b","2017-04-01",5')))
dt[,date := as.Date(date)]

# the desired dates by group
indx <- dt[,.(date=seq(min(date),max(date),"months")),group]

# key the tables and join them using a rolling join
setkey(dt,group,date)
setkey(indx,group,date)
dt[indx,roll=TRUE]

#>    group       date x
#> 1:     a 2017-01-01 1
#> 2:     a 2017-02-01 2
#> 3:     a 2017-03-01 2
#> 4:     a 2017-04-01 2
#> 5:     a 2017-05-01 3
#> 6:     b 2017-02-01 4
#> 7:     b 2017-03-01 4
#> 8:     b 2017-04-01 5

Wirklich hilfreich ist.

InformationsquelleAutor Jthorpe

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.