Split-Daten-frame string-Spalte in mehrere Spalten

Nehme ich gerne die Daten des Formulars

before = data.frame(attr = c(1,30,4,6), type=c('foo_and_bar','foo_and_bar_2'))
  attr          type
1    1   foo_and_bar
2   30 foo_and_bar_2
3    4   foo_and_bar
4    6 foo_and_bar_2

und verwenden split() auf die Spalte "type" von oben zu bekommen, so etwas wie dieses:

  attr type_1 type_2
1    1    foo    bar
2   30    foo  bar_2
3    4    foo    bar
4    6    foo  bar_2

Kam ich mit etwas unglaublich Komplex, mit irgendeiner form von apply das klappte auch, aber ich hab da verlegt dass. Es schien viel zu kompliziert, um es der beste Weg. Ich kann verwenden strsplit als unten, aber dann unklar, wie man das wieder in 2 Spalten in der Daten-frame.

> strsplit(as.character(before$type),'_and_')
[[1]]
[1] "foo" "bar"

[[2]]
[1] "foo"   "bar_2"

[[3]]
[1] "foo" "bar"

[[4]]
[1] "foo"   "bar_2"

Vielen Dank für jegliche Hinweise. Ich habe nicht ganz groked R Listen nur noch.

InformationsquelleAutor jkebinger | 2010-12-03

251

Verwenden stringr::str_split_fixed
```
library(stringr)
str_split_fixed(before$type, "_and_", 2)
```
- dies funktionierte ziemlich gut für meine problem heute auch.. aber es war das hinzufügen eines 'c' am Anfang jeder Zeile. Irgendeine Idee, warum das so ist??? left_right <- str_split_fixed(as.character(split_df),'\">',2)
- Ich möchte split mit einem Muster, das "...", wenn ich mich bewerben, dass die Funktion nichts zurückgibt. Was könnte das problem sein. meine Art ist so etwas wie "test-score..."
- alt-Abfrage von dir, ich weiß, aber das ist in der Dokumentation beschrieben - str_split_fixed("aaa...bbb", fixed("..."), 2) funktioniert gut mit fixed() zu "Match einen festen string" in der pattern= argument. . bedeutet 'alle Zeichen' in regex.
- Dank hadley, sehr praktisch Methode, aber es gibt eine Sache, die verbessert werden können, wenn NA in der ursprünglichen Spalte, nach der Trennung wird es etliche leere Zeichenfolge in den Ergebnis-Spalten, die nicht erwünscht ist, ich will, dass die NA noch NA nach der Trennung
- Funktioniert gut, d.h. wenn das Trennzeichen fehlt ! also wenn ich ein Vektor 'a<-c("1N", "2N")' das möchte ich trennen in Spalten '1,1, "N", "N"' I run 'str_split_fixed(s, "", 2)'. Ich bin mir nur nicht sicher, wie die Namen meiner neuen Spalten in diesem Ansatz, 'col1<-c(1,1)" und " col2<-c("N", "N")'
InformationsquelleAutor hadley

152

Weitere option ist die Verwendung der neuen tidyr Paket.

library(dplyr)
library(tidyr)

before <- data.frame(
  attr = c(1, 30 ,4 ,6 ), 
  type = c('foo_and_bar', 'foo_and_bar_2')
)

before %>%
  separate(type, c("foo", "bar"), "_and_")

##   attr foo   bar
## 1    1 foo   bar
## 2   30 foo bar_2
## 3    4 foo   bar
## 4    6 foo bar_2

Gibt es eine Möglichkeit, die Anzahl von Teilungen mit trennen? Sagen wir, ich will nach split auf '_' nur einmal (oder tun es mit str_split_fixed und hinzufügen von Spalten zu vorhandenen dataframe)?
Ja. Siehe die Dokumentation

InformationsquelleAutor hadley

53

5 Jahre später das hinzufügen der obligatorischen data.table Lösung
```
library(data.table) ## v 1.9.6+ 
setDT(before)[, paste0("type", 1:2) := tstrsplit(type, "_and_")]
before
#    attr          type type1 type2
# 1:    1   foo_and_bar   foo   bar
# 2:   30 foo_and_bar_2   foo bar_2
# 3:    4   foo_and_bar   foo   bar
# 4:    6 foo_and_bar_2   foo bar_2
```
Konnten wir auch die beiden stellen Sie sicher, dass die entstehenden Spalten werden die richtigen Arten und verbessern der Leistung durch das hinzufügen von type.convert und fixed Argumente (da "_and_" ist nicht wirklich ein regex)
```
setDT(before)[, paste0("type", 1:2) := tstrsplit(type, "_and_", type.convert = TRUE, fixed = TRUE)]
```
- wenn die Anzahl Ihrer '_and_' Muster zu variieren, können Sie die maximale Anzahl der Treffer (d.h. die zukünftigen Spalten) mit max(lengths(strsplit(before$type, '_and_')))
InformationsquelleAutor David Arenburg

Noch ein anderer Ansatz: Verwendung rbind auf out:

before <- data.frame(attr = c(1,30,4,6), type=c('foo_and_bar','foo_and_bar_2'))  
out <- strsplit(as.character(before$type),'_and_') 
do.call(rbind, out)

     [,1]  [,2]   
[1,] "foo" "bar"  
[2,] "foo" "bar_2"
[3,] "foo" "bar"  
[4,] "foo" "bar_2"

Und zu kombinieren:

data.frame(before$attr, do.call(rbind, out))

Eine weitere alternative, die auf neueren R Versionen ist strcapture("(.*)_and_(.*)", as.character(before$type), data.frame(type_1 = "", type_2 = ""))

InformationsquelleAutor Aniko

Beachten Sie, dass sapply mit "[" kann verwendet werden, um zu extrahieren, die entweder in der ersten oder zweiten Elemente in diesen Listen, so:

before$type_1 <- sapply(strsplit(as.character(before$type),'_and_'), "[", 1)
before$type_2 <- sapply(strsplit(as.character(before$type),'_and_'), "[", 2)
before$type <- NULL

Und hier ist eine gsub-Methode:

before$type_1 <- gsub("_and_.+$", "", before$type)
before$type_2 <- gsub("^.+_and_", "", before$type)
before$type <- NULL

InformationsquelleAutor 42-

28

hier ist ein one-liner entlang der gleichen Linien wie aniko Lösung, aber mit hadley ' s stringr Paket:
```
do.call(rbind, str_split(before$type, '_and_'))
```
- dies funktioniert auch mit strsplit aus dem Basis-Paket
- Guter Fang, beste Lösung für mich. Zwar ein bisschen langsamer als mit der stringr Paket.
InformationsquelleAutor Ramnath
19

Hinzufügen, um die Optionen, die Sie könnte auch mit meinem splitstackshape::cSplit Funktion wie diese:
```
library(splitstackshape)
cSplit(before, "type", "_and_")
#    attr type_1 type_2
# 1:    1    foo    bar
# 2:   30    foo  bar_2
# 3:    4    foo    bar
# 4:    6    foo  bar_2
```
- 3 Jahre später - ist diese option funktioniert am besten für ein ähnliches problem habe ich auch - aber das dataframe ich arbeite mit 54 Spalten und ich brauche split alle von Ihnen in zwei. Gibt es eine Möglichkeit, dies zu tun mit dieser Methode - kurz von der Eingabe aus dem obigen Befehl 54 mal? Vielen Dank, Nicki.
- Haben Sie versucht, die Bereitstellung, die den Vektor der Namen der Spalten oder der Spalte Positionen? Das sollte es tun....
- Es war nicht nur das umbenennen der Spalten - ich musste buchstäblich teilen Sie die Spalten wie oben Verdoppelung der Anzahl der Spalten in meiner df. Die unten war, was ich am Ende verwendet werden: df2 <- cSplit(df1, splitCols = 1:54, "/")
InformationsquelleAutor A5C1D2H2I1M1N2O1R2T1

Eine einfache Möglichkeit ist die Verwendung sapply() und die [ Funktion:

before <- data.frame(attr = c(1,30,4,6), type=c('foo_and_bar','foo_and_bar_2'))
out <- strsplit(as.character(before$type),'_and_')

Beispiel:

> data.frame(t(sapply(out, `[`)))
   X1    X2
1 foo   bar
2 foo bar_2
3 foo   bar
4 foo bar_2

sapply()'s Ergebnis ist eine matrix und benötigt zur Umsetzung und Gießen zurück, um einen Daten-frame. Es ist dann einige einfache Manipulationen, dass der Ertrag dem Ergebnis, das Sie wollte:

after <- with(before, data.frame(attr = attr))
after <- cbind(after, data.frame(t(sapply(out, `[`))))
names(after)[2:3] <- paste("type", 1:2, sep = "_")

Zu diesem Zeitpunkt after ist, was Sie wollte

> after
  attr type_1 type_2
1    1    foo    bar
2   30    foo  bar_2
3    4    foo    bar
4    6    foo  bar_2

InformationsquelleAutor Gavin Simpson

Hier ist ein Basis-R ein-Passagierschiff, das überschneidet sich mit einer Reihe von früheren Lösungen, gibt aber ein Daten.Rahmen mit den entsprechenden Namen.

out <- setNames(data.frame(before$attr,
                  do.call(rbind, strsplit(as.character(before$type),
                                          split="_and_"))),
                  c("attr", paste0("type_", 1:2)))
out
  attr type_1 type_2
1    1    foo    bar
2   30    foo  bar_2
3    4    foo    bar
4    6    foo  bar_2

Es nutzt strsplit zu brechen, bis die variable, und data.frame mit do.call/rbind zu setzen, die Daten wieder in eine Datenbank.frame. Der zusätzliche inkrementelle Verbesserung ist die Verwendung von setNames zum hinzufügen von Variablen Daten.frame.

InformationsquelleAutor lmo

Das Thema ist fast erschöpft, ich 'd, wie wenn eine Lösung anbieten, die zu einer etwas allgemeineren version, wo Sie nicht wissen, die Anzahl der Ausgabe-Spalten, a priori. So zum Beispiel haben Sie

before = data.frame(attr = c(1,30,4,6), type=c('foo_and_bar','foo_and_bar_2', 'foo_and_bar_2_and_bar_3', 'foo_and_bar'))
  attr                    type
1    1             foo_and_bar
2   30           foo_and_bar_2
3    4 foo_and_bar_2_and_bar_3
4    6             foo_and_bar

Können wir nicht verwenden, dplyr separate() weil wir nicht wissen, die Anzahl der Ergebnisspalten vor dem split, so habe ich dann erstellt eine Funktion, die verwendet stringr aufteilen einer Spalte, da das Muster und ein Präfix für die generierten Spalten. Ich hoffe, dass die Kodierung verwendeten Muster, sind zu korrigieren.

split_into_multiple <- function(column, pattern = ", ", into_prefix){
  cols <- str_split_fixed(column, pattern, n = Inf)
  # Sub out the ""'s returned by filling the matrix to the right, with NAs which are useful
  cols[which(cols == "")] <- NA
  cols <- as.tibble(cols)
  # name the 'cols' tibble as 'into_prefix_1', 'into_prefix_2', ..., 'into_prefix_m' 
  # where m = # columns of 'cols'
  m <- dim(cols)[2]

  names(cols) <- paste(into_prefix, 1:m, sep = "_")
  return(cols)
}

Dann verwenden wir split_into_multiple im dplyr-Rohr wie folgt:

after <- before %>% 
  bind_cols(split_into_multiple(.$type, "_and_", "type")) %>% 
  # selecting those that start with 'type_' will remove the original 'type' column
  select(attr, starts_with("type_"))

>after
  attr type_1 type_2 type_3
1    1    foo    bar   <NA>
2   30    foo  bar_2   <NA>
3    4    foo  bar_2  bar_3
4    6    foo    bar   <NA>

Und dann können wir gather zum Aufräumen...

after %>% 
  gather(key, val, -attr, na.rm = T)

   attr    key   val
1     1 type_1   foo
2    30 type_1   foo
3     4 type_1   foo
4     6 type_1   foo
5     1 type_2   bar
6    30 type_2 bar_2
7     4 type_2 bar_2
8     6 type_2   bar
11    4 type_3 bar_3

InformationsquelleAutor Yannis P.

Seit R version 3.4.0 können Sie strcapture() von der utils - Paket (enthalten in Basis-f-installiert), die Bindung der Ausgang auf die andere Spalte(N).

out <- strcapture(
    "(.*)_and_(.*)",
    as.character(before$type),
    data.frame(type_1 = character(), type_2 = character())
)

cbind(before["attr"], out)
#   attr type_1 type_2
# 1    1    foo    bar
# 2   30    foo  bar_2
# 3    4    foo    bar
# 4    6    foo  bar_2

InformationsquelleAutor Rich Scriven

Diese Frage ist ziemlich alt, aber ich ' ll fügen Sie die Lösung, die ich gefunden, die die einfachste zu präsentieren.

library(reshape2)
before = data.frame(attr = c(1,30,4,6), type=c('foo_and_bar','foo_and_bar_2'))
newColNames <- c("type1", "type2")
newCols <- colsplit(before$type, "_and_", newColNames)
after <- cbind(before, newCols)
after$type <- NULL
after

Dies ist bei weitem die einfachste, wenn es um die Verwaltung df Vektoren

InformationsquelleAutor Swifty McSwifterton

Anderen Ansatz, wenn Sie wollen stick mit strsplit() ist die Verwendung der unlist() Befehl. Hier ist eine Lösung entlang dieser Linien.

tmp <- matrix(unlist(strsplit(as.character(before$type), '_and_')), ncol=2,
   byrow=TRUE)
after <- cbind(before$attr, as.data.frame(tmp))
names(after) <- c("attr", "type_1", "type_2")

InformationsquelleAutor ashaw

Basis, aber wahrscheinlich langsam:

n <- 1
for(i in strsplit(as.character(before$type),'_and_')){
     before[n, 'type_1'] <- i[[1]]
     before[n, 'type_2'] <- i[[2]]
     n <- n + 1
}

##   attr          type type_1 type_2
## 1    1   foo_and_bar    foo    bar
## 2   30 foo_and_bar_2    foo  bar_2
## 3    4   foo_and_bar    foo    bar
## 4    6 foo_and_bar_2    foo  bar_2

InformationsquelleAutor Joe

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.