Verwenden, wenn andere auf einen dataframe über mehrere Spalten

Ich habe einen großen Datensatz der Proben mit Deskriptoren, ob die Probe durchführbar ist - es sieht (Art), wie diesem hier, wo 'desc', ist die Spalte "Beschreibung" und "leer" zeigt die Stichprobe ist nicht sinnvoll:

     desc        x        y        z
1   blank 4.529976 5.297952 5.581013
2   blank 5.906855 4.557389 4.901660
3  sample 4.322014 4.798248 4.995959
4  sample 3.997565 5.975604 7.160871
5   blank 4.898922 7.666193 5.551385
6   blank 5.667884 5.195825 5.232072
7   blank 5.524773 6.726074 4.767475
8  sample 4.382937 5.926217 5.203737
9  sample 4.976908 3.079191 4.614121
10  blank 4.572954 4.772373 6.077195

Will ich mit einer if-else-Anweisung, um die Zeilen mit Daten unbrauchbar zu NA. Der Letzte Datensatz sollte wie folgt Aussehen:

     desc        x        y        z
1   blank       NA       NA       NA
2   blank       NA       NA       NA
3  sample 4.322014 4.798248 4.995959
4  sample 3.997565 5.975604 7.160871
5   blank       NA       NA       NA
6   blank       NA       NA       NA
7   blank       NA       NA       NA
8  sample 4.382937 5.926217 5.203737
9  sample 4.976908 3.079191 4.614121
10  blank       NA       NA       NA

Habe ich versucht, eine for-Schleife, aber ich habe Probleme dabei, die for-Schleife zu ändern, werden alle Spalten in einer Schleife. Meine wirklichen Datenbestand hat 40 Spalten, so möchte ich lieber nicht haben, um es zu verarbeiten in separate Schleifen! Hier ist der code zum ändern einer Spalte:

for(i in 1:length(desc)){
    if(dat$desc[i] =="blank"){
    dat$x[i] <- NA
    } 
    else {
    dat$x[i] <- dat$x[i]
    }
}

Machte ich die sample-Daten mit diesem script:

desc <- c("blank", "blank", "sample", "sample", "blank", "blank", "blank",    "sample", "sample", "blank")
x <-  rnorm(10, mean=5, sd=1)
y <-  rnorm(10, mean=5, sd=1)
z <-  rnorm(10, mean=5, sd=1)

dat <- data.frame(desc,x,y,z)

Sorry, wenn dies ist eine grundlegende Frage, die ich damit verbracht habe, den ganzen Vormittag suchen in Foren und nicht in der Lage gewesen, eine Lösung zu finden.

Jede Hilfe ist sehr willkommen!

InformationsquelleAutor mlcyo | 2016-05-19

3

Für Ihre Beispiel-dataset, das wird funktionieren;

Option 1, den Namen der Spalten zu ändern:
```
dat[which(dat$desc == "blank"), c("x", "y", "z")] <- NA
```
In Ihrer aktuellen Daten mit 40 Spalten, wenn Sie wollen einfach nur, um die letzten 39 Spalten NA, dann die folgenden können einfacher sein als die Benennung der einzelnen Spalten zu ändern;

Option 2 wählen Sie Spalten mit Hilfe einer Reihe:
```
dat[which(dat$desc == "blank"), 2:40] <- NA
```
Option 3, schließen Sie die 1. Spalte:
```
dat[which(dat$desc == "blank"), -1] <- NA
```
Option 4, schließen Sie eine benannte Spalte:
```
dat[which(dat$desc == "blank"), !names(dat) %in% "desc"] <- NA
```
Wie Sie sehen können, gibt es viele Möglichkeiten, das zu tun diese Art der Bedienung (das ist weit von eine komplette Liste), und zu verstehen, wie jede dieser Möglichkeiten wird Ihnen helfen, ein besseres Verständnis der Sprache.
- Danke so viel, ich denke option 2 werden ein zu gehen mit 🙂 Und danke für die weiteren Beispiele! Ich hatte nicht in die() vor.
InformationsquelleAutor dww
2

Mit Ihrem ersten Ansatz mit Schleifen dachte ich dieses:
```
    for(i in 1:nrow(dat)){
  if(dat[i, 1] =="blank"){
    dat[i, 2:4] <- NA
  } 
  else {
    dat[i,length(dat)] <- dat[i, length(dat)]
  }
}
```
Getestet habe ich es mit Ihren Daten und gearbeitet. Hoffe, dies ist nützlich für alle die sich mit loops, die in Zeilen und Spalten mit Bedingungen.
- Awesome, vielen Dank für die Kommentare - ich bin sicher, jemand findet das nützlich, eines Tages 🙂
InformationsquelleAutor Carlos Ahumada

Können Sie dplyr und eine benutzerdefinierte Funktion zu mutieren Werte unter bestimmten Bedingungen.

library(dplyr)
mutate_cond <- function(.data, condition, ..., envir = parent.frame()) {
        condition <- eval(substitute(condition), .data, envir)
        .data[condition, ] <- .data[condition, ] %>% mutate(...)
        .data
}
data <- data %>% 
mutate_cond( desc == "blank", x = NA, y = NA, z = NA)

InformationsquelleAutor cardosof

1

Hier ist eine option, mit set aus data.table. Es sollte schneller sein als der Aufwand [.data.table vermieden wird. Wir konvertieren die Daten.frame' zu 'Daten.Tabelle' (setDT(df1)), eine Schleife über die Spalte Namen 'df1' (ohne die 'desc' Spalte'), weisen Sie die Elemente zu "NA", wo die logische Bedingung, 'ich' ist erfüllt.
```
library(data.table)
setDT(df1)
for(j in names(df1)[-1]){
   set(df1, i= which(df1[["desc"]]=="blank"), j= j, value= NA)
}
df1
#      desc        x        y        z
# 1:  blank       NA       NA       NA
# 2:  blank       NA       NA       NA
# 3: sample 4.322014 4.798248 4.995959
# 4: sample 3.997565 5.975604 7.160871
# 5:  blank       NA       NA       NA
# 6:  blank       NA       NA       NA
# 7:  blank       NA       NA       NA
# 8: sample 4.382937 5.926217 5.203737
# 9: sample 4.976908 3.079191 4.614121
#10:  blank       NA       NA       NA
```
Oder anderen option (basierend auf @dww Kommentar)
```
setDT(df1, key = "desc")["blank", names(df1)[-1] := NA][]
```
- oder, wenn die Verwendung von Daten, Tabellen, nur df1 ["desc=="leer", c(2:NCOL(df1)):=NA, mit=F] würde es tun.
- Es könnte getan werden, aber ich denke set wäre schnell
- microbenchmarking diese, so scheint es, dass die version in meinem Kommentar ist eine Größenordnung schneller. Wie Sie sagen, sollen sich schnell. Könnte es sein, den Aufwand, die(df1 [[, verlangsamt Ihr ein?
- microbenchmarking mit einem großen dataset oder das Beispiel zeigte sich von der OP?
- Ich benutzte 100.000 Zeilen, aber nur die 4 Spalten der OP.
- Okay, dann ist deine Methode sollte schnell sein
InformationsquelleAutor akrun
0

Sollte diese Arbeit. Aber mal ehrlich, wenn die Daten unbrauchbar ist, warum nicht löschen Sie die Zeilen insgesamt?
```
library(dplyr)

blanks = 
  dat %>%
  filter(desc == "blank") %>%
  select(desc)

dat %>%
  filter(desc == "sample") %>%
  bind_rows(blanks)
```
- Vielen Dank für die Zeit nehmen, um zu Antworten 🙂 ich auf jeden Fall brauchen, um mehr vertraut mit dplyr, es scheint wirklich nützlich. Und wie für das löschen, es ist ein timeseries (in 0,5-Sekunden-Intervallen) und ich denke, es würde mein Leben schwerer auf die Dauer, wenn ich Sie gelöscht, die schlechten Zeilen!
InformationsquelleAutor bramtayl

Hier ist ein weiterer dplyr-Lösung mit einer kleinen benutzerdefinierten Funktion und mutate_each().

library(dplyr)

f <- function(x) if_else(dat$desc == "blank", NA_real_, x)
dat %>% 
  mutate_each(funs(f), -desc)
#>      desc        x        y        z
#> 1   blank       NA       NA       NA
#> 2   blank       NA       NA       NA
#> 3  sample 3.624941 6.430955 5.486632
#> 4  sample 3.236359 4.935453 4.319202
#> 5   blank       NA       NA       NA
#> 6   blank       NA       NA       NA
#> 7   blank       NA       NA       NA
#> 8  sample 5.058725 6.751650 4.750529
#> 9  sample 5.837206 4.323562 4.914780
#> 10  blank       NA       NA       NA

Vielen Dank für die Lösung!!! Ich ging mit dww ist one-line-Lösung oben, aber das sieht auch gut aus 🙂

InformationsquelleAutor jennybryan

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.