Dplyr - Filter, wenn eine variable gleich einen Wert

Ich habe einen Datensatz a mit 5 Variablen und filtern wollen es so:

a1 <- a %>% filter(var_1 != 1 , var_2 != 1 , var_3 != 1 , var_4 != 1 , variable_5 != 1)

Ich Frage mich, ob so etwas (pseudo code) Bestand:

a1 <- a %>% filter(anyvariable != 1)

In anderen Worten, ich möchte, um loszuwerden, alle die Zeilen mit dem Wert 1, egal wo es erscheint.
1 ist nur eine zufällige Zahl. Es hätte 9, 99, oder was auch immer sonst!
Danke!

Ihre | Zustand bedeutet, Sie filtern möchten, und halten Sie die Zeilen, in denen nicht alle Spalten eine 1, aber deine Formulierung sagt, loszuwerden, alle Zeilen mit einer 1 in jeder Spalte position. Können Sie das klären?
Hallo Gopala, danke. Es sollte mit Kommas anstatt |. Der Wortlaut korrekt ist.
Haben Sie gedacht, um eine Zeile zu entfernen mit einem Wert 1, da dein code ist verwirrend
Hallo Jungs, entschuldigt. Ich möchte zum entfernen alle Zeilen mit einer 1 egal wo es erscheint. In anderen Worten, ich möchte so entfernen Sie alle Zeilen mit mindestens einer 1.
Überprüfen Sie bitte mein update. Ich denke, es sollte funktionieren, für das, was Sie erwähnt

InformationsquelleAutor Gaspare | 2016-05-21

dplyr r

5

Könnten wir in der Lage sein zu verwenden rowSums
```
a %>% 
  filter(rowSums(. !=0) >0)
#    Col1 Col2
#1    1    1
#2    0   24
#3    9    1
```
Wenn ich es ändern zu !=1
```
a %>% 
   filter(rowSums(. != 1) > 0)
#   Col1 Col2
#1    0   24
#2    9    1
#3    0    0
```
Beachten Sie, dass das entfernen der Zeilen mit alle 1s. In dem vorherigen Fall, es entfernt die Zeilen, die mit allen 0EN, die konsistent ist mit dem, was der OP erwähnt in der post.

Update

Wenn der OP will, entfernen Sie Zeilen mit der 1 (nur eine Zahl, er kann mit 9 oder 99 oder 999)
```
a %>% 
   filter(!rowSums(.==1))
#    Col1 Col2
#1    0   24
#2    0    0
```
Daten
```
a <- data.frame(Col1 = c(1, 0, 9, 0), Col2 = c(1, 24, 1, 0))
```
- Ich sollte Hinzugefügt haben, die 1 ist nur ein zufälliger Wert. Es hätte 9 oder 99 oder was auch immer. Danke für die Anregung!
- Das ist der Grund, warum ich es als !=0 Sie es ändern können, basierend auf dem Wert, den Sie im Sinn haben
- Wenn NA ist in den Daten können auch hinzufügen müssen, na.rm=TRUE
- Das funktioniert mit dem Rohr, aber nicht ohne es: > a %>% filter - (!rowSums(.==1)) Col1 Col2 1 0 24 2 0 0 > filter(a,!rowSums(.==1)) Fehler: Objekt '.' nicht gefunden > Irgendwelche Vorschläge?
- In tidyverse wir sollen Pfeifen. oder aber es kann getan werden, in base R sich a[rowSums(a!=0)>0,]
InformationsquelleAutor akrun

Können Sie filter_all in Kombination mit all_vars aus dplyr wie folgt:

some_data <- tibble(var1 = c("a", "b", "c"),
                    var2 = c(2, 4, 1),
                    var3 = c(1, 6, 5))

# # A tibble: 3 x 3
#   var1   var2  var3
#   <chr> <dbl> <dbl>
# 1 a      2.00  1.00
# 2 b      4.00  6.00
# 3 c      1.00  5.00

some_data %>% filter_all(all_vars(. != 1))

# # A tibble: 1 x 3
#   var1   var2  var3
#   <chr> <dbl> <dbl>
# 1 b      4.00  6.00

Dadurch entfernen Sie Zeilen, in denen eine variable enthält 1. In dem obigen Beispiel, wird die erste und die Dritte Zeile. Jedoch vorsichtig sein mit NA-Werte:

some_data <- tibble(var1 = c("a", "b", "c"),
                    var2 = c(2, NA, 1),
                    var3 = c(1, 6, 5))
# # A tibble: 3 x 3
#   var1   var2  var3
#   <chr> <dbl> <dbl>
# 1 a      2.00  1.00
# 2 b     NA     6.00
# 3 c      1.00  5.00

some_data %>% filter_all(all_vars(. != 1))  

# # A tibble: 0 x 3
# # ... with 3 variables: var1 <chr>, var2 <dbl>, var3 <dbl>

Beachten Sie, dass die zweite Zeile nicht enthalten ist eine 1, aber gefiltert wird, sowieso. In diesem speziellen Beispiel, können Sie vermeiden dies, indem Sie:

some_data %>% filter_all(all_vars(. != 1 | is.na(.)))

Jedoch kann dies nicht verallgemeinern.

InformationsquelleAutor George Wood

Hier sind einige praktische Funktionen in form OP beantragt:

filter_any <- function(...,test_val,na.rm=T)
{
      # JAF 20170316 filter by comparing test_val to any column, returning rows that have test_val in any column
      out <- ... %>% filter(!!rowSums(.==test_val,na.rm=na.rm))
      return(out)
}
filter_exclude <- function(...,test_val,na.rm=T)
{
      # JAF 20170316 filter by comparing test_val to every column, excluding rows that have test_val in any column
      out <- ... %>% filter(!rowSums(.==test_val,na.rm=na.rm))
      return(out)
}

Hier ist das Ergebnis auf OP ' s test variable:

> a
  Col1 Col2
1    1    1
2    0   24
3    9    1
4    0    0
> a %>% filter_exclude(test_val=1)
  Col1 Col2
1    0   24
2    0    0
> a %>% filter_any(test_val=1)
  Col1 Col2
1    1    1
2    9    1
>

Diese Funktionen haben den Vorteil, zu arbeiten, ohne die pipe-Schreibweise:

> filter_exclude(a,test_val=1)
  Col1 Col2
1    0   24
2    0    0
> filter_any(a,test_val=1)
  Col1 Col2
1    1    1
2    9    1
>

InformationsquelleAutor jafelds

Können Sie versuchen, zu kombinieren mit der apply Funktion in der pipeline:

dput(df)
structure(list(x = c(1L, 1L, 2L, 3L, 3L, 2L, 2L, 1L), y = c(1L, 
2L, 2L, 1L, 1L, 2L, 3L, 3L), z = c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 
3L)), .Names = c("x", "y", "z"), class = "data.frame", row.names = c(NA, 
-8L))

df %>% filter(!apply(., 1, function(row) any(row == 1)))
  x y z
1 2 2 2
2 2 3 2

Das wird langsamer vs. selbst base Untergruppen auf rowSums.
Ich bin damit einverstanden, dass rowSum() ist ein viel besserer Weg, um dieses problem anzugehen.

InformationsquelleAutor Psidom

1

Gibt es keine filter_each im dplyr, so eine Lösung basierend auf rowSums ist ein tragfähiges. Dieses Posting sehr einfache Basis-option, obwohl man vielleicht lieber eine filter Lösung so zu integrieren, und die Ausgabe in die dplyr pipeline mit zusätzlichen Operationen.
```
set.seed(1)
df <- data.frame(x = sample(0:1, 10, replace = TRUE),
                 y = sample(0:1, 10, replace = TRUE))
df[rowSums(df == 1) == 0, ]
  x y
1 0 0
2 0 0
```
Ändern 1 oben auf was auch immer Wert, es Arbeit, die für die Filterung auf andere Werte. Diese Lösung ist deutlich schneller als die apply basiert filter Lösung und geringfügig langsamer als dplyr Paket ist filter mit rowSums.

InformationsquelleAutor Gopala

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Update

Daten