dplyr mutieren mit bedingter Werte

In einem großen dataframe ("myfile") mit vier Spalten, die ich haben, um eine fünfte Spalte mit Werten bedingt auf die ersten vier Spalten.

Lieber Antworten mit dplyr und mutate vor allem wegen seiner Geschwindigkeit in großen Datenmengen.

Mein dataframe sieht wie folgt aus:

  V1 V2 V3 V4
1  1  2  3  5
2  2  4  4  1
3  1  4  1  1
4  4  5  1  3
5  5  5  5  4
...

Die Werte der fünften Spalte (V5) basieren auf einige bedingte Regeln:

if (V1==1 & V2!=4) {
  V5 <- 1
} else if (V2==4 & V3!=1) {
  V5 <- 2
} else {
  V5 <- 0
}

Jetzt will ich mit der mutate - Funktion verwenden Sie diese Regeln auf alle Zeilen (um zu vermeiden, langsam Schleifen). So etwas (und ja, ich weiß, es funktioniert nicht auf diese Weise!):

myfile <- mutate(myfile, if (V1==1 & V2!=4){V5 = 1}
    else if (V2==4 & V3!=1){V5 = 2}
    else {V5 = 0})

Sollte dies das Ergebnis:

  V1 V2 V3 V4 V5
1  1  2  3  5  1
2  2  4  4  1  2
3  1  4  1  1  0
4  4  5  1  3  0
5  5  5  5  4  0

Wie dies in dplyr?

Es ist nützlich, um Staat, wenn V1..4 sind alle ganzzahligen (nicht Faktor, logical, string oder float)? und kümmern Sie sich zur korrekten Handhabung NA, (NaN, +Inf, -Inf)?

InformationsquelleAutor rdatasculptor | 2014-03-11

Versuchen Sie dies:

myfile %>% mutate(V5 = (V1 == 1 & V2 != 4) + 2 * (V2 == 4 & V3 != 1))

geben:

  V1 V2 V3 V4 V5
1  1  2  3  5  1
2  2  4  4  1  2
3  1  4  1  1  0
4  4  5  1  3  0
5  5  5  5  4  0

oder so:

myfile %>% mutate(V5 = ifelse(V1 == 1 & V2 != 4, 1, ifelse(V2 == 4 & V3 != 1, 2, 0)))

geben:

  V1 V2 V3 V4 V5
1  1  2  3  5  1
2  2  4  4  1  2
3  1  4  1  1  0
4  4  5  1  3  0
5  5  5  5  4  0

Hinweis

Schlage vor, Sie bekommen einen besseren Namen für Ihre Daten-frame. myfile macht es den Anschein, als wenn es hält Sie einen Dateinamen ein.

Oben verwendet diese input:

myfile <- 
structure(list(V1 = c(1L, 2L, 1L, 4L, 5L), V2 = c(2L, 4L, 4L, 
5L, 5L), V3 = c(3L, 4L, 1L, 1L, 5L), V4 = c(5L, 1L, 1L, 3L, 4L
)), .Names = c("V1", "V2", "V3", "V4"), class = "data.frame", row.names = c("1", 
"2", "3", "4", "5"))

Update 1 Da Zitat dplyr geändert hat %.% zu %>% so geändert haben, dass Antworten entsprechend.

Update 2 dplyr jetzt hat case_when bietet eine andere Lösung:

myfile %>% 
       mutate(V5 = case_when(V1 == 1 & V2 != 4 ~ 1, 
                             V2 == 4 & V3 != 1 ~ 2,
                             TRUE ~ 0))

Ich habe versucht die zweite Lösung. Ich habe diesen Fehler: Fehler in mutate_impl(.Daten, named_dots(...), environment()) : REAL() kann nur angewendet werden, um eine 'numerische', nicht eine 'logische' wissen Sie, was mache ich falsch?
Ich entdeckte einen Weg, das können Sie nicht Schachteln Sie die ifelse Aussagen: myfile %>% mutate(V5 = ifelse(V1 == 1 & V2 != 4, 1, 0), V5 = ifelse(V2 == 4 & V3 != 1, 2, V5))

InformationsquelleAutor G. Grothendieck

18

Mit dplyr 0.7.2 verwenden, können Sie sehr nützlich case_when Funktion :
```
x=read.table(
 text="V1 V2 V3 V4
 1  1  2  3  5
 2  2  4  4  1
 3  1  4  1  1
 4  4  5  1  3
 5  5  5  5  4")
x$V5 = case_when(x$V1==1 & x$V2!=4 ~ 1,
                 x$V2==4 & x$V3!=1 ~ 2,
                 TRUE ~ 0)
```
Ausgedrückt mit dplyr::mutate es gibt:
```
x = x %>% mutate(
     V5 = case_when(
         V1==1 & V2!=4 ~ 1,
         V2==4 & V3!=1 ~ 2,
         TRUE ~ 0
     )
)
```
Bitte beachten Sie, dass NA sind nicht speziell behandelt, da es irreführend sein kann. Die Funktion zurück NA nur, wenn kein Zustand vorliegt. Wenn Sie eine Zeile mit TRUE ~ ..., wie ich in meinem Beispiel, ist der Rückgabewert wird dann nie NA.

Daher müssen Sie ausdrücklich sagen case_when zu setzen NA wo es hingehört durch hinzufügen einer Anweisung wie is.na(x$V1) | is.na(x$V3) ~ NA_integer_. Hinweis: die dplyr::coalesce() Funktion kann sehr hilfreich sein, hier auch mal!

Außerdem, bitte beachten Sie, dass NA allein in der Regel nicht arbeiten, Sie haben, um spezielle NA Werte : NA_integer_, NA_character_ oder NA_real_.
- Diese war deutlich schneller als derivedFactor.
InformationsquelleAutor Dan Chaltiel
11

Sieht es aus wie derivedFactor von der mosaic Paket wurde konzipiert für dieses. In diesem Beispiel würde es so Aussehen:
```
library(mosaic)
myfile <- mutate(myfile, V5 = derivedFactor(
    "1" = (V1==1 & V2!=4),
    "2" = (V2==4 & V3!=1),
    .method = "first",
    .default = 0
    ))
```
(Wenn Sie möchten, das Resultat numerisch statt eines Faktors, wickeln Sie die derivedFactor mit einem as.numeric.)

Beachten Sie, dass die .default option in Kombination mit .method = "first" legt die "else" - Bedingung -- dieser Ansatz ist beschrieben in der Hilfe-Datei für derivedFactor.
- Sie können auch verhindern, dass das Ergebnis ein Faktor, mit dem .asFactor = F option oder durch die Verwendung des (ähnlichen) derivedVariable Funktion im gleichen Paket.
- Es sieht aus wie recode von dplyr 0.5 tun. Ich habe nicht untersucht, es allerdings noch nicht. Siehe blog.rstudio.org/2016/06/27/dplyr-0-5-0
- Das war langsam für meine Daten mit 1e6 Zeilen.
- Ja, die mosaic::derivedFactor Familie von Funktionen sind sehr langsam. Wenn Sie herausfinden, warum, bitte beantworten Sie meine Frage ALSO dazu: stackoverflow.com/questions/33787691/.... Ich bin froh zu sehen, von Ihrem anderen Kommentar, dass dplyr::case_when schneller-ich werde wechseln Sie zu dieser.
InformationsquelleAutor Jake Fisher

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.