So gruppieren Sie einen Vektor in eine Liste von Vektoren?

Habe ich einige Daten, die sieht aus wie diese (gefälschte Daten, zum Beispiel halber):

dressId        color 
6              yellow 
9              red
10             green 
10             purple 
10             yellow 
12             purple 
12             red

wo Farbe ist ein Faktor, der Vektor. Es ist nicht garantiert, dass alle möglichen Ebenen der Faktor, der tatsächlich in den Daten auftauchen (z.B. die Farbe "blau" könnte auch eine der Ebenen).

Brauche ich eine Liste von Vektoren, welche Gruppen mit den verfügbaren Farben für jedes Kleid:

[[1]]
yellow  

[[2]] 
red    

[[3]] 
green purple yellow 

[[4]] 
purple red

Erhaltung der IDs der Kleider wäre schön (z.B. ein dataframe, wo diese Liste in der zweiten Spalte und die IDs sind die ersten), ist aber nicht notwendig.

Schrieb ich eine Schleife, die geht durch den dataframe Zeile für Zeile, und während der nächsten ID ist die gleiche, es fügt Farbe zu einem Vektor. (Ich bin sicher, dass die Daten sortiert nach ID). Wenn die ID in der ersten Spalte ändert, dann wird der Vektor in eine Liste:

result <- NULL 
while(blah blah) 
{
    some code which creates the vector called "colors" 
    result[[dressCounter]] <- colors 
    dressCounter <- dressCounter + 1
}

Nach dem Ringkampf mit dem Sie alle erforderlichen zähl-Variablen zu korrigieren, fand ich zu meiner Bestürzung, dass es nicht funktioniert. Das erste mal, colors ist

[1] yellow
Levels: green yellow purple red blue

und es wird gezwungen in eine ganze Zahl, so result wird 2.

In der zweiten Schleife Wiederholung colors enthält nur rot, und result wird eine einfache integer-Vektor, [1] 2 4.

In der Dritten Wiederholung, colors ist ein Vektor nun,

[1] green  purple yellow
Levels: green yellow purple red blue

bekommen und habe

result[[3]] <- colors

Fehler in result[[3]] <- Farben :

mehrere Elemente geliefert, als es zu ersetzen

Was mache ich falsch? Gibt es eine Möglichkeit zu initialisieren result damit es nicht umgewandelt in einen numeric-Vektor, sondern eine Liste von Vektoren?

Außerdem ist es ein weiterer Weg, um die ganze Sache als "roll meine eigene"?

InformationsquelleAutor rumtscho | 2014-02-01

grouping list r vector

9

split.data.frame ist ein guter Weg, um zu organisieren; extrahieren Sie die Farb-Komponente.
```
d <- data.frame(dressId=c(6,9,10,10,10,12,12),
               color=factor(c("yellow","red","green",
                              "purple","yellow",
                              "purple","red"),
                 levels=c("red","orange","yellow",
                          "green","blue","purple")))
```
Ich denke, dass die version, die Sie wollen, ist eigentlich diese:
```
ss <- split.data.frame(d,d$dressId)
```
Können Sie etwas mehr wie die Liste, die Sie angefordert durch Extraktion der Farb-Komponente:
```
lapply(ss,"[[","color")
```
- +1, Falls es nur die Liste, die Sie wollen (die sich nicht aus der Beschreibung), vielleicht ist es besser, zu tun, die mit split direkt und überspringen Sie die lapply Schritt.
- Aus der Beschreibung: "ich brauche eine Liste von Vektoren, welche Gruppen mit den verfügbaren Farben," vielleicht split(d$color, d$dressId) oder split(as.character(d$color), d$dressId) würde ausreichen.
InformationsquelleAutor Ben Bolker

Neben split, sollten Sie aggregate. Verwenden c oder I wie die aggregation-Funktion, um Ihre list Spalte:

out <- aggregate(color ~ dressId, mydf, c)
out
#   dressId                 color
# 1       6                yellow
# 2       9                   red
# 3      10 green, purple, yellow
# 4      12           purple, red
str(out)
# 'data.frame': 4 obs. of  2 variables:
#  $ dressId: int  6 9 10 12
#  $ color  :List of 4
#   ..$ 0: chr "yellow"
#   ..$ 1: chr "red"
#   ..$ 2: chr  "green" "purple" "yellow"
#   ..$ 3: chr  "purple" "red"
out$color
# $`0`
# [1] "yellow"
# 
# $`1`
# [1] "red"
# 
# $`2`
# [1] "green"  "purple" "yellow"
# 
# $`3`
# [1] "purple" "red"

Hinweis: Dies funktioniert auch, wenn die "color" variable ist eine factor, wie in Ben-sample-Daten (ich verpasste den Punkt, als ich geschrieben, die Antwort oben), aber Sie verwenden müssen I wie die aggregation-Funktion anstelle von c:

out <- aggregate(color ~ dressId, d, I)
str(out)
# 'data.frame': 4 obs. of  2 variables:
#  $ dressId: num  6 9 10 12
#  $ color  :List of 4
#   ..$ 0: Factor w/6 levels "red","orange",..: 3
#   ..$ 1: Factor w/6 levels "red","orange",..: 1
#   ..$ 2: Factor w/6 levels "red","orange",..: 4 6 3
#   ..$ 3: Factor w/6 levels "red","orange",..: 6 1
out$color
# $`0`
# [1] yellow
# Levels: red orange yellow green blue purple
# 
# $`1`
# [1] red
# Levels: red orange yellow green blue purple
# 
# $`2`
# [1] green  purple yellow
# Levels: red orange yellow green blue purple
# 
# $`3`
# [1] purple red   
# Levels: red orange yellow green blue purple

Seltsam, aber das Standard-display zeigt die integer-Werte:

out
#   dressId   color
# 1       6       3
# 2       9       1
# 3      10 4, 6, 3
# 4      12    6, 1

Wie man Zeichenketten statt integer-Werten?

InformationsquelleAutor A5C1D2H2I1M1N2O1R2T1

Vorausgesetzt, Ihre Daten-frame wird gespeichert in einer variable namens df, dann verwenden Sie einfach group_by und summarize mit list Funktion dplyr Paket wie dieses

library('dplyr')

df %>%
  group_by(dressId) %>%
  summarize(colors = list(color))

Angewendet auf dein Beispiel:

df <- tribble(
  ~dressId, ~color,
         6, 'yellow',
         9, 'red',
        10, 'green',
        10, 'purple',
        10, 'yellow',
        12, 'purple',
        12, 'red'
)

df %>%
  group_by(dressId) %>%
  summarize(colors = list(color))

# dressId                colors
#       6                yellow
#       9                   red
#      10 green, purple, yellow
#      12           purple, red

InformationsquelleAutor spren9er

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.