Erstellen Sie neue Spalte im dataframe basiert auf Teil-Zeichenkette andere Spalte

Ich habe einen dataframe mit 2 Spalten GL und GLDESC und wollen, fügen Sie eine 3. Säule genannt KIND auf Grundlage einiger Daten, die in der Spalte GLDESC.

Den dataframe ist wie folgt:

      GL                             GLDESC
1 515100         Payroll-Indir Salary Labor
2 515900 Payroll-Indir Compensated Absences
3 532300                           Bulk Gas
4 539991                     Area Charge In
5 551000        Repairs & Maint-Spare Parts
6 551100                 Supplies-Operating
7 551300                        Consumables

Für jede Zeile der Daten-Tabelle:

Wenn GLDESC enthält das Wort Payroll überall in der Zeichenfolge, dann will ich KIND zu Payroll
Wenn GLDESC enthält das Wort Gas überall in der Zeichenfolge, dann will ich KIND zu Materials
In allen anderen Fällen möchte ich KIND zu Other

Suchte ich nach ähnlichen Beispielen auf stackoverflow konnte aber keine finden, auch sah in R für dummies on-Schalter, grep, anwenden und reguläre Ausdrücke, um zu versuchen und passen nur ein Teil der GLDESC Spalte und füllen Sie dann die KIND Spalte mit der Art des Kontos aus, aber war nicht in der Lage, damit es funktioniert.

InformationsquelleAutor der Frage user2948714 | 2013-11-02

Da hast du nur zwei Bedingungen verwenden, können Sie eine verschachtelte ifelse:

#random data; it wasn't easy to copy-paste yours  
DF <- data.frame(GL = sample(10), GLDESC = paste(sample(letters, 10), 
  c("gas", "payroll12", "GaSer", "asdf", "qweaa", "PayROll-12", 
     "asdfg", "GAS--2", "fghfgh", "qweee"), sample(letters, 10), sep = " "))

DF$KIND <- ifelse(grepl("gas", DF$GLDESC, ignore.case = T), "Materials", 
         ifelse(grepl("payroll", DF$GLDESC, ignore.case = T), "Payroll", "Other"))

DF
#   GL         GLDESC      KIND
#1   8        e gas l Materials
#2   1  c payroll12 y   Payroll
#3  10      m GaSer v Materials
#4   6       t asdf n     Other
#5   2      w qweaa t     Other
#6   4 r PayROll-12 q   Payroll
#7   9      n asdfg a     Other
#8   5     d GAS--2 w Materials
#9   7     s fghfgh e     Other
#10  3      g qweee k     Other

BEARBEITEN 10/3/2016 (..nach dem Empfang von mehr Aufmerksamkeit als erwartet)

Eine mögliche Lösung zum Umgang mit mehr Muster sein könnte, zu iterieren über alle Muster und, Wann immer es passen, schrittweise Verringerung der Menge der Vergleiche:

ff = function(x, patterns, replacements = patterns, fill = NA, ...)
{
    stopifnot(length(patterns) == length(replacements))

    ans = rep_len(as.character(fill), length(x))    
    empty = seq_along(x)

    for(i in seq_along(patterns)) {
        greps = grepl(patterns[[i]], x[empty], ...)
        ans[empty[greps]] = replacements[[i]]  
        empty = empty[!greps]
    }

    return(ans)
}

ff(DF$GLDESC, c("gas", "payroll"), c("Materials", "Payroll"), "Other", ignore.case = TRUE)
# [1] "Materials" "Payroll"   "Materials" "Other"     "Other"     "Payroll"   "Other"     "Materials" "Other"     "Other"

ff(c("pat1a pat2", "pat1a pat1b", "pat3", "pat4"), 
   c("pat1a|pat1b", "pat2", "pat3"), 
   c("1", "2", "3"), fill = "empty")
#[1] "1"     "1"     "3"     "empty"

ff(c("pat1a pat2", "pat1a pat1b", "pat3", "pat4"), 
   c("pat2", "pat1a|pat1b", "pat3"), 
   c("2", "1", "3"), fill = "empty")
#[1] "2"     "1"     "3"     "empty"

InformationsquelleAutor der Antwort alexis_laz

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.