Wie Teilmenge von Daten in R ohne NA-Zeilen?

Habe ich einige Daten, die ich auf der Suche bin in der R. Eine bestimmte Spalte mit der überschrift "Höhe", enthält ein paar Zeilen von NA.

Ich bin auf der Suche auf Teilmenge meine Daten-Rahmen, so dass Sie alle Höhen über einem bestimmten Wert, sind ausgeschlossen, aus meiner Analyse.

df2 <- subset ( df1 , Height < 40 )

Jedoch immer wenn ich dies tun, wird R automatisch entfernt alle Zeilen, die enthalten NA Werte für die Höhe. Ich will das nicht. Ich habe versucht, einschließlich der Argumente, die für na.rm

f1 <- function ( x , na.rm = FALSE ) {
df2 <- subset ( x , Height < 40 )
}
f1 ( df1 , na.rm = FALSE )

aber dieses scheint nicht, etwas zu tun; die Zeilen mit NA noch bis Ende verschwindet aus meinen Daten-frame. Gibt es eine Möglichkeit von Untergruppen meine Daten als solche, ohne dass die NA-Zeilen?

Alternativ können wir subset (df1 , Height < 40 | is.na(Height))
Der Vollständigkeits halber, ähnlich wie option aus dplyr Paket ist filter(df1, Height < 40 | is.na(Height))

InformationsquelleAutor Ryan Rothman | 2016-11-06

dataframe na r subset

12

Wenn wir uns entscheiden, die subset Funktion, dann müssen wir aufpassen:
```
For ordinary vectors, the result is simply ‘x[subset & !is.na(subset)]’.
```
Also nur nicht-NA-Werte beibehalten werden.

Wenn Sie möchten, um NA Fällen, verwenden Sie logische oder-Bedingung zu sagen, R Sie es nicht fallen NA Fällen:
```
subset(df1, Height < 40 | is.na(Height))
# or `df1[df1$Height < 40 | is.na(df1$Height), ]`
```
Nicht direkt verwenden (werden bald erklärt):
```
df2 <- df1[df1$Height < 40, ]
```
Beispiel
```
df1 <- data.frame(Height = c(NA, 2, 4, NA, 50, 60), y = 1:6)

subset(df1, Height < 40 | is.na(Height))

#  Height y
#1     NA 1
#2      2 2
#3      4 3
#4     NA 4

df1[df1$Height < 40, ]

#  Height  y
#1     NA NA
#2      2  2
#3      4  3
#4     NA NA
```
Dem Grund, dass dieser ausfällt, ist, dass die Indizierung von NA gibt NA. Betrachten Sie dieses einfache Beispiel mit einem Vektor:
```
x <- 1:4
ind <- c(NA, TRUE, NA, FALSE)
x[ind]
# [1] NA  2 NA
```
Müssen wir irgendwie ersetzen diejenigen NA mit TRUE. Die einfachste Möglichkeit ist das hinzufügen von weiteren "oder" - Bedingung is.na(ind):
```
x[ind | is.na(ind)]
# [1] 1 2 3
```
Dies ist genau das, was passieren wird in Ihrer situation. Wenn Ihr Height enthält NA, dann logische operation Height < 40 landet eine Mischung aus TRUE /FALSE /NA, so müssen wir ersetzen NA durch TRUE wie oben.

InformationsquelleAutor 李哲源

Könnten Sie auch tun:

df2 <- df1[(df1$Height < 40 | is.na(df1$Height)),]

InformationsquelleAutor dede

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.