Bedingt auswählen von Spalten in dplyr, wo bestimmter Anteil der Werte ist NA

Daten

Ich arbeite mit einem Datensatz, die wie die data.frame darunter generiert:

set.seed(1)
dta <- data.frame(observation = 1:20,
                  valueA = runif(n = 20),
                  valueB = runif(n = 20),
                  valueC = runif(n = 20),
                  valueD = runif(n = 20))
dta[2:5,3] <- NA
dta[2:10,4] <- NA
dta[7:20,5] <- NA

Spalten NA Werte mit der letzten Spalte mit mehr als 60% der Beobachtungen NAs.

> sapply(dta, function(x) {table(is.na(x))})
$observation

FALSE 
   20 

$valueA

FALSE 
   20 

$valueB

FALSE  TRUE 
   16     4 

$valueC

FALSE  TRUE 
   11     9 

$valueD

FALSE  TRUE 
    6    14

Problem

Möchte ich entfernen können diese Spalte in dplyr Rohrleitung irgendwie an die select argument.

Versuche

Dies kann leicht getan werden in base. Zum Beispiel können Sie Spalten auswählen, die mit weniger als 50% NAs ich tun kann:

dta[, colSums(is.na(dta)) < nrow(dta) / 2]

produziert:

> head(dta[, colSums(is.na(dta)) < nrow(dta) / 2], 2)
  observation    valueA    valueB    valueC
1           1 0.2655087 0.9347052 0.8209463
2           2 0.3721239        NA        NA

Aufgabe

Ich bin daran interessiert, erreichen Sie die gleiche Flexibilität in dplyr pipe-line:

Vectorize(require)(package = c("dplyr",         # Data manipulation
                               "magrittr"),     # Reverse pipe

char = TRUE)

dta %<>%
  # Some transformations I'm doing on the data
  mutate_each(funs(as.numeric)) %>% 
  # I want my select to take place here

Sie können Filter d.h. Filter(function(x) sum(is.na(x)) < length(x)/2, dta)
Wie immer vielen Dank für den hilfreichen Beitrag. Ich Frage mich nur, ist das nicht der filter sein soll, fallen die Beobachtungen? Ich interessiere mich für das entfernen von Spalten, nicht Zeilen.
Es ist die Entfernung der Spalten, d.h. Filter mit Kapital F
Nun, ich bekam Sie ?Filter != ?filter 🙂
Noch eine Frage mit Bezug auf das vorschlagen Filter Lösung, die ich sehe, dass Sie auf der Durchreise sind die dta Objekt, auf meine real-Daten ich bin die Anwendung von Transformationen auf die Daten (wie gather und spread) so in der Tat das Objekt an dem ich arbeite, entspricht nicht der erste dta Rahmen. Dies ist der Grund, warum ich fügte hinzu, diese mutate_each(funs(as.numeric)) %>% in meinem Beispiel zu zeigen, dass ich arbeite auf einer transformierten dta. Im Effekt, ich habe nicht wirklich dta weitergeben, nur einen verwandelt data.frame nach der Anwendung ein paar Rohre.
Ich habe eine Lösung mit summarise_each. Vielleicht hilft es dir.

InformationsquelleAutor Konrad | 2016-01-18

Wie dieses vielleicht?

dta %>% select(which(colMeans(is.na(.)) < 0.5)) %>% head
#  observation    valueA    valueB    valueC
#1           1 0.2655087 0.9347052 0.8209463
#2           2 0.3721239        NA        NA
#3           3 0.5728534        NA        NA
#4           4 0.9082078        NA        NA
#5           5 0.2016819        NA        NA
#6           6 0.8983897 0.3861141        NA

Aktualisiert mit colMeans statt colSums was bedeutet, dass Sie nicht brauchen, zu dividieren durch die Anzahl der Zeilen nicht mehr.

Und, just for the record, in base-R könnten Sie auch colMeans:

dta[,colMeans(is.na(dta)) < 0.5]

InformationsquelleAutor docendo discimus

Ich denke, das ist der job:

dta %>% select_if(~mean(is.na(.)) < 0.5) %>% head() 


 observation    valueA    valueB    valueC
  1           0.2655087 0.9347052 0.8209463
  2           0.3721239        NA        NA
  3           0.5728534        NA        NA
  4           0.9082078        NA        NA
  5           0.2016819        NA        NA
  6           0.8983897 0.3861141        NA

InformationsquelleAutor toscanouser

3

Wir können extract aus magrittr nachdem Sie einen logischen Vektor mit summarise_each/unlist
```
library(magrittr)
library(dplyr)
dta %>% 
    summarise_each(funs(sum(is.na(.)) < n()/2)) %>% 
    unlist() %>%
    extract(dta,.)
```
Oder verwenden Sie Filter aus base R
```
Filter(function(x) sum(is.na(x)) < length(x)/2, dta)
```
Oder eine etwas kompakte option ist
```
Filter(function(x) mean(is.na(x)) < 0.5, dta)
```
- Ich verstehe diese ganze Frage. Scheint, wie dta[colMeans(is.na(dta)) < .5] ist die prägnanteste/vektorisierter/einfach/lesbar ist Lösung, was ist der Punkt in all diesen Filter oder dplyr/magrittr Zeug? Ich bin wohl langsam alt.
- Sie verstehen, dass colMeans, colSums etc konvertieren die Daten zu matrix. Es kann nicht sein, dass eine effiziente (kann sein das ich mich Irre). Aber, ich mag Filter denn er fügt einen exotischen touch, um es (genauso wie filter in diesem question. Other than, die magrittr Zeug ist nur für dplyr/magritr fans (meine bescheidene Meinung).
- Eigentlich is.na bereits konvertiert von einer matrix. col* Funktionen funktionieren bereits auf der matrix. So könnten wir tun dta[colMeans(sapply(dta, is.na)) < .5] wenn Sie mögen und es ist immer noch sehr lesbar. Und in diesem verlinkten Frage, filter ist eigentlich das prägnanteste/vektorisierter/einfache Lösung, eher eine exotische. Aber ich denke, du bist nicht die Adresse hier für meine grange.
- Die Frage ist, über die Bereitstellung der transformation innerhalb der dplyr pipeline. Ich rechne damit, dass base Lösung beweisen können, in diesem Fall effizienter, aber mein Ehrgeiz war es, sich dieser transformation innerhalb die dplyr pipe-line. Diese meist motiviert durch eine persönliche Präferenz zu verpflichten, diese transformation entlang der anderen diejenigen, die innerhalb der dplyr Umfang, die meist Ergebnisse in einem code-Präsentations-und R-Skript, das mir passt besser. Ich bin damit einverstanden, dass base beweisen könnte, effizienter aber. Ich auch wie @akrun die Idee der Zugabe der Exotik an der Lösung.
- das dplyr-Lösung dta %>% select(which(colMeans(is.na(.)) < 0.5)) ist das gleiche wie das, was Sie beschreiben, als die meisten vektorisiert/prägnant/... Ansatz außer für einen Aufruf which - sind Sie wirklich besorgt? Für mich ist das durchaus verständlich, die OP ist zu Fragen, speziell für eine "Pipe" zu beantworten, da diese genau Ihren workflow. Es geht nicht um die Suche nach der maximalen Leistung. Und selbst wenn Sie waren, ich denke es ist eher unwahrscheinlich, dass diese Spalte-subsetting-Betrieb wäre eine tatsächliche performance-Engpass in der realen Welt Programme.
- Genau - es ist die gleiche Lösung, nur mit einem überflüssig/irrelevant ruft zu einer zusätzlichen Pakete/Funktionen (IMO). Das erinnert mich an die this. Aber, wie gesagt - ich denke, ich bin einfach nur alt.
- Sie verstehen immer noch nicht (oder vielleicht wollen Sie nicht zu?) Es geht um workflow, und Sie sind speziell mit dplyr sowieso. In diesem Sinne, mit base für diese Untergruppe wäre eine Unterbrechung
- Ich kann auch hinzufügen, dass diese transformation ist Teil viel länger workflow, einschließlich charting-am Ende. In Wirkung diese Transformationen sind nur dann angewendet, zum Zweck der Generierung eine bestimmte änderung zu verlassen, da ich auf der Seite performance-Problem, ist es sinnvoll, den code zu Lesen, mehr oder weniger auf den Linien nehmen Stammdaten -> noch ein paar Sachen drauf -> Erstellung von chart. Es macht einfach eine schöne, ich würde Tag mehr prägnant Lesen. Als von Lehre, lernen wir zu Recht darauf hingewiesen, meist über den workflow als alles andere. In meiner Verteidigung würde ich sagen, dass in einem Ausmaß, es ist Frage des Geschmacks.
InformationsquelleAutor akrun

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.