R Identifizierung text-string in Spalte dataframe
Einer Spalte meiner Daten-frame hat Wörter und Sätze. Ich bin versuchen, um eine dummy-variable für diese Felder in dieser Spalte mit bestimmten Zeichenketten, die irgendwo innerhalb.
Beispiel:
- kite
- Autos
- box-Drachen
- Modell Autos
- ich mag Drachen, die Fliegen
- Autos der Welt
myvector<-c("kite","cars","box kites","model cars","i like kites that fly", "cars of the world")
Ich würde wollen, um alle Felder, die mit der Zeichenfolge "kite"
Habe ich versucht, ein paar Dinge wie any()
, which()
und %in%
aber hat nichts geklappt so weit.
Jede Hilfe sehr dankbar
InformationsquelleAutor Will Phillips | 2012-09-13
Du musst angemeldet sein, um einen Kommentar abzugeben.
Du nicht, vorausgesetzt alle nachvollziehbaren Beispiel. Aber Ihre Antwort wird sein, grepl.
Es gibt eine logische Vektor, wenn das Wort in der Zeile.
Wenn Sie möchten, passen mehrere Wörter verwenden, die logische oder -
|
innerhalb der Zeichenfolge übereinstimmenIch aktualisiert meine Antwort, Sie waren sehr nah dran.
erstellen 1 dummy-variable (1 oder 0), aber es gibt ein paar Wörter, um die Suche auf, dass eine "1". Ich kann tun, grepl() für jedes Wort einzeln, Summe der resultierenden Vektoren und ifelse eine Letzte Vektor ist die Summe 0, dann 0 sonst 1. Obwohl, wenn es funktionieren könnte in einer einzigen grepl (), ist es effizienter.
oh, die | innerhalb der Anführungszeichen. genial! Dank
InformationsquelleAutor Luciano Selzer