Entfernen bestimmter Zeilen aus einem Datenrahmen

Habe ich einen Daten-frame z.B.:

und ich möchte zu löschen, bestimmte Zeilen, die identifiziert werden können durch die Kombination von sub und Tag.
Zum Beispiel sagen die ich entfernen wollte Zeilen, in denen sub='1' and Tag='2' und sub=3 und Tag='4'. Wie könnte ich dies tun?
Ich merke, dass ich könnte geben Sie die Zeilen-Nummern, aber Sie muss angewendet werden, um eine riesige dataframe, das wäre langweilig, durch zu gehen und die ID jeder Zeile.

InformationsquelleAutor der Frage Gab_27 | 2011-08-18

dataframe r rows

29
```
DF[ ! ( ( DF$sub ==1 & DF$day==2) | ( DF$sub ==3 & DF$day==4) ) , ]   # note the ! (negation)
```
Oder wenn sub ist ein Faktor, wie vorgeschlagen, durch die Verwendung von Anführungszeichen:
```
DF[ ! paste(sub,day,sep="_") %in% c("1_2", "3_4"), ]
```
Könnte auch Teilmenge:
```
subset(DF,  ! paste(sub,day,sep="_") %in% c("1_2", "3_4") )
```
(Und ich befürworte den Einsatz von which in Dirk ' s Antwort, wenn Sie mit "[" auch wenn einige behaupten, es sei nicht notwendig).

InformationsquelleAutor der Antwort 42-

Diese läuft darauf hinaus, zwei unterschiedliche Schritte:

Herauszufinden, wenn Ihre Bedingung wahr ist, und damit die Berechnung eines Vektors boolescher Werte, oder, wie ich bevorzuge, deren Indizes durch das einwickeln von es in which()
Erstellen Sie eine aktualisierte data.frame durch den Ausschluss von Indizes aus dem vorherigen Schritt.

Hier ist ein Beispiel:

R> set.seed(42)
R> DF <- data.frame(sub=rep(1:4, each=4), day=sample(1:4, 16, replace=TRUE))
R> DF
   sub day
1    1   4
2    1   4
3    1   2
4    1   4
5    2   3
6    2   3
7    2   3
8    2   1
9    3   3
10   3   3
11   3   2
12   3   3
13   4   4
14   4   2
15   4   2
16   4   4
R> ind <- which(with( DF, sub==2 & day==3 ))
R> ind
[1] 5 6 7
R> DF <- DF[ -ind, ]
R> table(DF)
   day
sub 1 2 3 4
  1 0 1 0 3
  2 1 0 0 0
  3 0 1 3 0
  4 0 2 0 2
R>

Und wir sehen, dass sub==2 nur einen Eintrag, noch mit day==1.

Bearbeiten Der zusammengesetzten Bedingung getan werden kann, mit einem 'oder' wie folgt:

ind <- which(with( DF, (sub==1 & day==2) | (sub=3 & day=4) ))

und hier ist ein neues vollständiges Beispiel

R> set.seed(1)
R> DF <- data.frame(sub=rep(1:4, each=5), day=sample(1:4, 20, replace=TRUE))
R> table(DF)
   day
sub 1 2 3 4
  1 1 2 1 1
  2 1 0 2 2
  3 2 1 1 1
  4 0 2 1 2
R> ind <- which(with( DF, (sub==1 & day==2) | (sub==3 & day==4) ))
R> ind
[1]  1  2 15
R> DF <- DF[-ind, ]
R> table(DF)
   day
sub 1 2 3 4
  1 1 0 1 1
  2 1 0 2 2
  3 2 1 1 0
  4 0 2 1 2
R>

InformationsquelleAutor der Antwort Dirk Eddelbuettel

Hier eine Lösung für Ihr problem mit dplyr's filter Funktion.

Zwar können Sie übergeben Sie Ihre Daten-frame als erstes argument an jedem dplyr-Funktion, die ich verwendet habe seine %>% Betreiber, die Rohre Ihre Daten-frame an eine oder mehrere dplyr-Funktionen (filtern nur in diesem Fall).

Sobald Sie sind vertraut mit dplyr, die Spickzettel ist sehr praktisch.

> print(df <- data.frame(sub=rep(1:3, each=4), day=1:4))
   sub day
1    1   1
2    1   2
3    1   3
4    1   4
5    2   1
6    2   2
7    2   3
8    2   4
9    3   1
10   3   2
11   3   3
12   3   4
> print(df <- df %>% filter(!((sub==1 & day==2) | (sub==3 & day==4))))
   sub day
1    1   1
2    1   3
3    1   4
4    2   1
5    2   2
6    2   3
7    2   4
8    3   1
9    3   2
10   3   3

InformationsquelleAutor der Antwort Ken Lin

2

einer einfachen Lösung

cond1 <- df$sub == 1 & df$day == 2

cond2 <- df$sub == 3 & df$day == 4

df <- df[!cond1,]

df <- df[!cond2,]

InformationsquelleAutor der Antwort Ajay Choudhary

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.