Mehrere Separatoren für die gleiche Datei-input-R

Ich habe einen Blick für die Antworten, aber habe nur Dinge bezogen auf C oder C#.
Ich erkennen, dass vieles von R ist in C geschrieben, aber mein wissen ist nicht existent.
Ich bin auch relativ neu zu R.
Ich bin mit dem aktuellen Rstudio.

Dies ist ähnlich zu dem, was ich will, denke ich.
Lesen Sie die Daten effizient mit mehreren Trenn-Linien in R

Ich habe eine csv-Datei sondern eine variable ist ein string mit den Werten, getrennt durch _ und -
Und ich würde gerne wissen, ob es ein Paket oder extra-code, die die folgenden auf das Lesen. Befehl.

"1","Client1","Name2","*Name3_Name1_KB_MobApp_M-13-44_AU_PI Likes by KB_ANDROID","2013-08-31 13:39:55.0","2013-10-16 13:58:00.0",0,218,4,93,1377907200000
"2","Client1","Name2","*Name3_Name1_KB_MobApp_M-13-44_AU_PI Likes by KB_ANDROID","2013-08-31 13:39:55.0","2013-10-16 13:58:00.0",0,390,5,157,1377993600000
"3","Client1","Name2","*Name3_Name1_KB_MobApp_M-13-44_AU_PI Likes by KB_ANDROID","2013-08-31 13:39:55.0","2013-10-16 13:58:00.0",0,376,5,193,1.37808e+12
"4","Client1","Name2","*Name3_Name1_KB_MobApp_M-13-44_AU_PI Likes by KB_ANDROID","2013-08-31 13:39:55.0","2013-10-16 13:58:00.0",1,35,1,15,1377907200000
"5","Client1","Name2","*Name3_Name1_KB_MobApp_M-13-44_AU_PI Likes by KB_ANDROID","2013-08-31 13:39:55.0","2013-10-16 13:58:00.0",12,11258,117,2843,1377993600000
"6","Client1","Name2","*Name3_Name1_KB_MobApp_M-13-44_AU_PI Likes by KB_ANDROID","2013-08-31 13:39:55.0","2013-10-16 13:58:00.0",5,4659,56,1826,1.37808e+12
"7","Client1","Name2","*Name3_Name1_KB_MobApp_M-13-44_AU_PI Likes by KB_ANDROID","2013-08-31 13:39:55.0","2013-10-16 13:58:00.0",7,7296,136,2684,1377907200000
"8","Client1","Name2","*Name3_Name1_KB_MobApp_M-13-44_AU_PI Likes by KB_IOS_IPAD","2013-08-31 13:18:21.0","2013-10-16 13:58:00.0",0,4533,35,1632,1377907200000
"9","Client1","Name2","*Name3_Name1_KB_MobApp_M-13-44_AU_PI Likes by KB_IOS_IPAD","2013-08-31 13:18:21.0","2013-10-16 13:58:00.0",0,421,6,161,1377993600000
"10","Client1","Name2","*Name3_Name1_KB_MobApp_M-13-44_AU_PI Likes by KB_IOS_IPAD","2013-08-31 13:18:21.0","2013-10-16 13:58:00.0",0,57,2,23,1.37808e+12

Beispiel Zeile:

Name    Name1   *XYZ_Name3_KB_MobApp_M-18-25_AU_PI ANDROID  2013-09-32 14:39:55.0   2013-10-16 13:58:00.0   0   218 4   93  1377907200000

So ist es einfach genug, um zu Lesen in

results <- read.delim("~/results", header=F)

aber dann habe ich noch den string *XYZ_Name3_KB_MobApp_M-18-25_AU_PI

Gewünschte Ausgabe(getrennt durch _ und durch -):

Name    Name1   *XYZ   Name3  KB   MobApp   M 18 25  AU  PI ANDROID 2013-09-32 14:39:55.0   2013-10-16 13:58:00.0   0   218 4   93  1377907200000

aber nicht Spalten die Uhrzeit-Zeichenfolge.

---- Danke @Henrik und @AnandaMahto für den code und package. ----

library(splitstackshape)

# split concatenated column by `_`
df4 <- concat.split(data = df3, split.col = "V3", sep = "_", drop = TRUE)

# split the remaining concatenated part by `-`
df5 <- concat.split(data = df4, split.col = "V3_5", sep = "-", drop = TRUE)

Ich habe die Möglichkeit, zu exportieren, erneut zu csv und dann in excel und mit text in Spalten doppelt. aber wie bin ich auf excel 2010 ist es mit einer begrenzten Anzahl von Zeilen.
Haben Sie einen Blick auf str_split oder stringr::str_split_fixed und sehen, ob das hilft.
Ah, so einfach. Glaubst du, ich sollte es tun, es mehrere Schritte dann? Statt auf "importieren".
Ich würde es tun, direkt nach dem import. Ich poste snippet unten.
Sie können angeben, mehr als eine split-Charakter in strsplit mit regex und | operator e.g strsplit("*XYZ_Name3_KB_MobApp_M-18-25_AU_PI ANDROID",split="\_|\\-")

InformationsquelleAutor CArnold | 2013-11-19

2

Versuchen Sie dies:
```
# dummy data
df <- read.table(text="
Name    Name1   *XYZ_Name3_KB_MobApp_M-18-25_AU_PI ANDROID  2013-09-32 14:39:55.0   2013-10-16 13:58:00.0   0   218 4   93  1377907200000
Name    Name2   *CCC_Name3_KB_MobApp_M-18-25_AU_PI ANDROID  2013-09-32 14:39:55.0   2013-10-16 13:58:00.0   0   218 4   93  1377907200000
", as.is = TRUE)

# replace "_" to "-"
df_V3 <- gsub(pattern="_", replacement="-", df$V3, fixed = TRUE)

# strsplit, make dataframe
df_V3 <- do.call(rbind.data.frame, strsplit(df_V3, split = "-"))

# output, merge columns
output <- cbind(df[, c(1:2)],
                df_V3,
                df[, c(4:ncol(df))])
```
Aufbauend auf den Kommentaren unten, hier ist noch eine entsprechende option, aber eine, die verwendet read.table statt strsplit.
```
splitCol <- "V3"
temp <- read.table(text = gsub("-", "_", df[, splitCol]), sep = "_")
names(temp) <- paste(splitCol, seq_along(temp), sep = "_")
cbind(df[setdiff(names(df), splitCol)], temp)
```
- zwei Ideen: (1) Wenn Sie zu gehen verwenden Sie die strsplit Ansatz, einen regulären Ausdruck verwenden, und überspringen Sie die gsub Schritt, und vielleicht verwenden Sie einfach do.call(rbind, ...) da (I glaube) rbind.data.frame langsamer ist (und es gibt Sie funky Namen). (2) Wenn Sie zu gehen verwenden Sie die gsub Ansatz, vergessen strsplit und verwenden read.table(text = df_V3, sep = "-").
- Aber +1 für eine Antwort, sollte zumindest Punkt, den der OP in die richtige Richtung 😉
- Ich würde upvote, wenn ich genug Ruf-Punkte. Aber leider noch nicht.
- Bearbeiten Sie Ihre Frage mit einigen reproduzierbare Daten und einige Beispiele von dem, was Sie versucht haben, und die Menschen sind sicher, um Ihnen mehr Stimmen auf Ihre Frage, die wiederum lassen Sie Ihre Stimme auf Antworten 😉
- einverstanden, code ist ein bisschen chaotisch, Absicht war, direkt die OP in die richtige Richtung, fühlen Sie sich frei zu Bearbeiten.
- Ich habe in 10 Zeilen von Daten, aber wird das helfen? Auch habe ich wiederholt mit Ihrem Paket und es funktioniert gut jetzt! 🙂
InformationsquelleAutor zx8754
4

Finde ich die Funktionen im Paket splitstackshape bequem in Fällen wie diesem.
```
library(splitstackshape)

# split concatenated column by `_`
results2 <- concat.split(data = results, split.col = "V3", sep = "_", drop = TRUE)

# split the remaining concatenated part by `-`
results3 <- concat.split(data = results2, split.col = "V3_5", sep = "-", drop = TRUE)
results3
```
- Ich bin immer ein "Fehler in FUN(NA_integer_[[1L]], ...) : argument must be coercible to non-negative integer" aber danke für das Paket, ich werde schauen, dass es funktioniert.
- OK. Möglicherweise gibt es einige Merkmale Ihres ursprünglichen Daten, die nicht durch die kleine Stichprobe, die in Ihrer Frage (die funktioniert gut für mich). Cheers.
- als das Paket Kommentares, wäre ich daran interessiert zu sehen, einige tatsächliche Daten, schafft diese Fehler und die Schritte um es zu reproduzieren. Fühlen Sie sich frei, dies zu tun, indem Sie erstellen ein Thema bei dem Paket den Github issue tracker. Danke!
InformationsquelleAutor Henrik

library(stringr)

results <- read.delim("~/results", header=F)
results <- cbind(results,str_split_fixed(results$V3, "[_-]", 9))

(dies wird vorausgesetzt, Sie sind OK mit, dass die Spalte "original" noch vorhanden)

InformationsquelleAutor hrbrmstr

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.