Unlist alle Listenelemente in einem dataframe

Habe ich einen Daten-frame mit den folgenden Klassen von Variablen für jede Spalte:

"date" "numeric" "numeric" "list" "list" "numeric"

Die Daten in jeder Zeile sieht wie folgt aus:

    1978-01-01, 12.5, 6.3, c(0,0,0.25,0.45,0.3), c(0,0,0,0.1,0.9), 72

Möchte ich, um es zu transformieren in eine matrix oder ein data frame mit einem Wert pro Spalte, also das Ergebnis sollte so Aussehen:

1978-01-01, 12.5, 6.3, 0, 0, 0.25, 0.45, 0.3, 0, 0, 0, 0.1, 0.9, 72

Ich habe versucht mit:

j<-unlist(input)
output<-matrix(j,nrow=nrow(input),ncol=length(j)/nrow(input))

Aber es vermasselt die Reihenfolge der Zeilen in der Ausgabe.

Irgendeine Idee?

Zusätzliche Informationen:

Das obige Beispiel ist etwas vereinfacht und dput(head(input)) gibt das folgende Beispiel:

structure(list(DATE = structure(c(2924, 2925, 2926, 2927, 2928, 
2929), class = "Date"), TEMP_MEAN_M0 = c(-7.625, -7.375, -6, 
-5.5, -7.625, -9.625), SLP_MEAN_M0 = c(1012.125, 991.975, 989.825, 
986.675, 988.95, 993.075), WIND_DIR_RF_M0 = structure(list(`2.counts` = c(0, 
0.625, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.125, 0, 0, 0, 0.125), `3.counts` = c(0.75, 
0.25, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0), `4.counts` = c(0.375, 
0.125, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.125, 0.125, 0, 0, 0), `5.counts` = c(0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.125, 
0, 0, 0.125, 0.375, 0.25, 0, 0, 0, 0, 0, 0, 0, 0, 0), `6.counts` = c(0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.125, 
0, 0.25, 0.125, 0.25, 0.25, 0, 0, 0, 0, 0, 0, 0, 0, 0), `7.counts` = c(0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0.125, 0.5, 0.375, 0, 0, 0, 0, 0, 0, 0, 0, 0)), .Names = c("2.counts", 
"3.counts", "4.counts", "5.counts", "6.counts", "7.counts")), 
    CEIL_HGT_RF_M0 = structure(list(`2.counts` = c(0.625, 0, 
    0, 0, 0, 0, 0, 0, 0, 0.375), `3.counts` = c(0.75, 0.125, 
    0, 0.125, 0, 0, 0, 0, 0, 0), `4.counts` = c(0.25, 0.125, 
    0, 0.125, 0, 0, 0, 0, 0.25, 0.25), `5.counts` = c(0, 0, 0, 
    0, 0, 0, 0, 0, 0.125, 0.875), `6.counts` = c(0, 0, 0, 0, 
    0, 0, 0, 0, 0, 1), `7.counts` = c(0, 0, 0, 0, 0, 0, 0, 0, 
    0, 1)), .Names = c("2.counts", "3.counts", "4.counts", "5.counts", 
    "6.counts", "7.counts")), WIND_SPD_MEAN_M0 = c(12.8125, 18.7375, 
    6.175, 8.175, 10.5375, 16.5375)), .Names = c("DATE", "TEMP_MEAN_M0", 
"SLP_MEAN_M0", "WIND_DIR_RF_M0", "CEIL_HGT_RF_M0", "WIND_SPD_MEAN_M0"
), row.names = c(NA, 6L), class = "data.frame")

Matrizen und Atomare Vektoren müssen alle den gleichen Modus. Und die meisten Operationen (einschließlich unlist) betreiben Spalte weisen eher als row-wise. Wenn Sie bereit sind, Daten in Ganzzahlen konvertiert das könnte machbar sein, aber so wie es da steht Sie "cunna von hier". Wenn Sie möchten, Ihnen weiter zu helfen, sollte die post das Ergebnis der dput(head(input))

InformationsquelleAutor jatobat | 2013-04-10

dataframe r

Dies ist etwas unübersichtlich und wahrscheinlich ziemlich ineffizient, aber das sollte Ihnen den Einstieg erleichtern:

Hier einige Beispieldaten:

mydf <- data.frame(Date = as.Date(c("1978-01-01", "1978-01-02")),
                   V1 = c(10, 10),
                   V2 = c(11, 11))
mydf$V3 <- list(c(1:10),
                c(11:20))
mydf$V4 <- list(c(21:25),
                c(26:30))
mydf
#         Date V1 V2                                     V3                 V4
# 1 1978-01-01 10 11          1, 2, 3, 4, 5, 6, 7, 8, 9, 10 21, 22, 23, 24, 25
# 2 1978-01-02 10 11 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 26, 27, 28, 29, 30

Und, ein wenig Funktion, die überprüft, um zu sehen, welche Spalten Listen und für diejenigen Spalten, rbinds Ihnen zusammen, und letztlich cbinds mit den Spalten, die nicht Listen.

myFun <- function(data) {
  temp1 <- sapply(data, is.list)
  temp2 <- do.call(
    cbind, lapply(data[temp1], function(x) 
      data.frame(do.call(rbind, x), check.names=FALSE)))
  cbind(data[!temp1], temp2)
}

myFun(mydf)
#         Date V1 V2 V3.1 V3.2 V3.3 V3.4 V3.5 V3.6 V3.7 V3.8 V3.9 V3.10 V4.1
# 1 1978-01-01 10 11    1    2    3    4    5    6    7    8    9    10   21
# 2 1978-01-02 10 11   11   12   13   14   15   16   17   18   19    20   26
#   V4.2 V4.3 V4.4 V4.5
# 1   22   23   24   25
# 2   27   28   29   30

Wird dies nur funktionieren, wenn jede "Spalte" Liste enthalten die Vektoren die gleiche Länge haben (sonst base R s rbind wird nicht funktionieren).

Update

Erneuten Besuch dieser Frage einen halben Tag später, sehe ich, dass ein anderer Benutzer (@user1981275) geschrieben, eine Lösung, die einfacher ist, aber dann gelöscht Ihre Antwort. Vielleicht ist Sie gelöscht, weil Ihre Methode konvertiert die Daten in Ganzzahlen da, als DWin darauf hingewiesen, Elemente in den Matrizen müssen alle die gleiche mode.

Hier war Ihre Lösung:

t(apply(mydf, 1, unlist))
#      Date V1 V2 V31 V32 V33 V34 V35 V36 V37 V38 V39 V310 V41 V42 V43 V44 V45
# [1,] 2922 10 11   1   2   3   4   5   6   7   8   9   10  21  22  23  24  25
# [2,] 2923 10 11  11  12  13  14  15  16  17  18  19   20  26  27  28  29  30

Hier ist, wie es kann leicht geändert werden, um die gewünschte Ausgabe erhalten. Dies wird definitiv schneller sein als der frühere Ansatz:

cbind(mydf[!sapply(mydf, is.list)], 
      (t(apply(mydf[sapply(mydf, is.list)], 1, unlist))))
#         Date V1 V2 V31 V32 V33 V34 V35 V36 V37 V38 V39 V310 V41 V42 V43 V44 V45
# 1 1978-01-01 10 11   1   2   3   4   5   6   7   8   9   10  21  22  23  24  25
# 2 1978-01-02 10 11  11  12  13  14  15  16  17  18  19   20  26  27  28  29  30

Oder, wie ein Benutzer-Funktion:

myFun <- function(data) {
  ListCols <- sapply(data, is.list)
  cbind(data[!ListCols], t(apply(data[ListCols], 1, unlist)))
}
myFun(mydf)

Update 2

Habe ich auch geschrieben, mehr leistungsfähige Funktion namens col_flatten das ist Teil meiner "SOfun" - Paket.

Installieren Sie das Paket mit:

source("http://news.mrdwab.com/install_github.R")
install_github("mrdwab/SOfun")

Dann können Sie tun:

library(SOfun)
col_flatten(mydf, names(which(sapply(mydf, is.list))), drop = TRUE)
##          Date V1 V2 V3_1 V3_2 V3_3 V3_4 V3_5 V3_6 V3_7 V3_8 V3_9 V3_10 V4_1 V4_2 V4_3 V4_4 V4_5
## 1: 1978-01-01 10 11    1    2    3    4    5    6    7    8    9    10   21   22   23   24   25
## 2: 1978-01-02 10 11   11   12   13   14   15   16   17   18   19    20   26   27   28   29   30

Es basiert auf der transpose Funktion "Daten.Tisch", so werden Sie sicher, dass "Daten.Tisch" als gut.

Danke, Ananda, diese funktionierte perfekt 🙂
Dieser Ansatz ist der einzige, den ich gefunden, dass es ein .csv Ausgabe bei Verwendung der akzeptierten Antworten skizziert here. Leider konvertiert er alle meine Spalten die Faktoren. Gibt es eine Möglichkeit sicherzustellen, dass numerische Felder bleiben numerischen?
Wenn ich will unlist die Liste der Vektoren in mehrere Zeilen.Wie macht man das?

InformationsquelleAutor A5C1D2H2I1M1N2O1R2T1

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.