Löschen Sie Datenrahmenspalten nach Namen

Ich habe eine Reihe von Spalten, die möchte ich entfernen, aus einem Daten-frame. Ich weiß, dass wir löschen können, die Sie einzeln mit so etwas wie:

df$x <- NULL

Aber ich hatte gehofft, dies mit weniger Befehle.

Auch, ich weiß, dass ich könnte löschen von Spalten mit ganzzahliger Indizierung wie diese:

df <- df[ -c(1, 3:6, 12) ]

Aber ich bin besorgt, dass die relative position der Variablen ändern kann.

Gegeben, wie mächtige R, ich dachte mir, es könnte einen besseren Weg geben als Drop jede Spalte einzeln.

InformationsquelleAutor der Frage Btibert3 | 2011-01-05

dataframe r r-faq

717

Können Sie eine einfache Liste von Namen :
```
DF <- data.frame(
  x=1:10,
  y=10:1,
  z=rep(5,10),
  a=11:20
)
drops <- c("x","z")
DF[ , !(names(DF) %in% drops)]
```
Oder, alternativ, Sie können machen Sie eine Liste von denen zu halten, und bezeichnen Sie mit Namen :
```
keeps <- c("y", "a")
DF[keeps]
```
BEARBEITEN :
Für diejenigen, die noch nicht vertraut mit den drop argument der Indizierung Funktion, wenn Sie möchten, um eine Spalte als Daten-frame, die Sie tun:
```
keeps <- "y"
DF[ , keeps, drop = FALSE]
```
drop=TRUE (oder nicht erwähnt wird) fallen unnötige Dimensionen, und damit die Rückkehr ein Vektor mit den Werten der Spalte y.

InformationsquelleAutor der Antwort Joris Meys
347

Gibt es auch die subset Befehl ist nützlich, wenn Sie wissen, welche Spalten Sie möchten:
```
df <- data.frame(a = 1:10, b = 2:11, c = 3:12)
df <- subset(df, select = c(a, c))
```
AKTUALISIERT, nach dem Kommentar von @hadley: Zu drop Spalten a,c, die Sie tun könnten:
```
df <- subset(df, select = -c(a, c))
```
InformationsquelleAutor der Antwort Prasad Chalasani
112
```
within(df, rm(x))
```
ist wahrscheinlich am einfachsten, oder für mehrere Variablen:
```
within(df, rm(x, y))
```
Oder wenn man sich mit data.tables (pro Wie löschen Sie eine Spalte mit Namen in Daten.Tabelle?):
```
dt[, x := NULL]   # deletes column x by reference instantly

dt[, !"x", with=FALSE]   # selects all but x into a new data.table
```
oder mehrere Variablen
```
dt[, c("x","y") := NULL]

dt[, !c("x", "y"), with=FALSE]
```
In der Entwicklung version von data.table (Montageanleitung), with = FALSE ist nicht mehr notwendig:
```
dt[ , !"x"]
dt[ , !c("x", "y")]
```
InformationsquelleAutor der Antwort Max Ghenis
90

Könnten Sie %in% wie diese:
```
df[, !(colnames(df) %in% c("x","bar","foo"))]
```
InformationsquelleAutor der Antwort Joshua Ulrich

Liste(NULL) funktioniert auch:

dat <- mtcars
colnames(dat)
# [1] "mpg"  "cyl"  "disp" "hp"   "drat" "wt"   "qsec" "vs"   "am"   "gear"
# [11] "carb"
dat[,c("mpg","cyl","wt")] <- list(NULL)
colnames(dat)
# [1] "disp" "hp"   "drat" "qsec" "vs"   "am"   "gear" "carb"

InformationsquelleAutor der Antwort Vincent

Wenn Sie wollen, entfernen Sie die Spalten, die durch Verweis und vermeiden Sie die interne kopieren im Zusammenhang mit data.frames dann können Sie die data.table Paket und die Funktion :=

Können Sie ein Zeichen-vector-Namen auf der linken Seite des := Betreiber, und NULL als die RHS.

library(data.table)

df <- data.frame(a=1:10, b=1:10, c=1:10, d=1:10)
DT <- data.table(df)
# or more simply  DT <- data.table(a=1:10, b=1:10, c=1:10, d=1:10) #

DT[, c('a','b') := NULL]

Wenn Sie wollen vorgeben, die Namen als Zeichen, Vektor außerhalb der Aufruf [wickeln Sie den Namen des Objekts in () oder {} zu zwingen, die LHS zu bewertet werden, in der aufrufenden Bereichs nicht als name im Rahmen der DT.

del <- c('a','b')
DT <- data.table(a=1:10, b=1:10, c=1:10, d=1:10)
DT[, (del) := NULL]
DT <-  <- data.table(a=1:10, b=1:10, c=1:10, d=1:10)
DT[, {del} := NULL]
# force or `c` would also work.

Können Sie auch set vermeidet den overhead der [.data.tableund arbeitet auch für data.frames!

df <- data.frame(a=1:10, b=1:10, c=1:10, d=1:10)
DT <- data.table(df)

# drop `a` from df (no copying involved)

set(df, j = 'a', value = NULL)
# drop `b` from DT (no copying involved)
set(DT, j = 'b', value = NULL)

InformationsquelleAutor der Antwort mnel

34

Es ist ein potenziell mächtiger Strategie basiert auf der Tatsache, dass grep() gibt einen numerischen Vektor. Wenn Sie eine lange Liste von Variablen, die wie ich in einem meiner dataset, einige Variablen, Ende in "."Und die anderen, dass Ende in ".B" und Sie wollen nur diejenigen, die beenden in ".Ein" (zusammen mit all den Variablen, die nicht entsprechen, entweder das Muster, dies zu tun:
```
dfrm2 <- dfrm[ , -grep("\\.B$", names(dfrm)) ]
```
Für den Fall an die hand, mit Joris Meys Beispiel, es ist vielleicht nicht so kompakt, aber es wäre:
```
DF <- DF[, -grep( paste("^",drops,"$", sep="", collapse="|"), names(DF) )]
```
InformationsquelleAutor der Antwort 42-
19

Interesse, diese Fahnen eine von R ist seltsam mehrere syntax-Ungereimtheiten. Zum Beispiel einen zwei-Spalte-Daten-frame:
```
df <- data.frame(x=1, y=2)
```
Dieser gibt einen Daten-frame
```
subset(df, select=-y)
```
aber das gibt einen Vektor
```
df[,-2]
```
Dies ist alles erklärt in ?[ aber es ist nicht genau das erwartete Verhalten. Naja zumindest nicht für mich...

InformationsquelleAutor der Antwort jkeirstead

Andere Möglichkeit:

df <- df[, setdiff(names(df), c("a", "c"))]

oder

df <- df[, grep('^(a|c)$', names(df), invert=TRUE)]

InformationsquelleAutor der Antwort scentoni

Anderen dplyr Antwort. Wenn Ihre Variablen haben einige gemeinsame Benennung von Struktur, könnten Sie versuchen, die starts_with(). Zum Beispiel

library(dplyr)
df <- data.frame(var1 = rnorm(5), var2 = rnorm(5), var3 = rnorm (5), 
                 var4 = rnorm(5), char1 = rnorm(5), char2 = rnorm(5))
df
#        var2      char1        var4       var3       char2       var1
#1 -0.4629512 -0.3595079 -0.04763169  0.6398194  0.70996579 0.75879754
#2  0.5489027  0.1572841 -1.65313658 -1.3228020 -1.42785427 0.31168919
#3 -0.1707694 -0.9036500  0.47583030 -0.6636173  0.02116066 0.03983268
df1 <- df %>% select(-starts_with("char"))
df1
#        var2        var4       var3       var1
#1 -0.4629512 -0.04763169  0.6398194 0.75879754
#2  0.5489027 -1.65313658 -1.3228020 0.31168919
#3 -0.1707694  0.47583030 -0.6636173 0.03983268

Wenn Sie eine Sequenz von Variablen im data frame, den Sie verwenden können :. Zum Beispiel, wenn Sie wollen, um die drop -var2var3und alle Variablen in zwischen, Sie würde nur mit der linken var1:

df2 <- df1 %>% select(-c(var2:var3) )  
df2
#        var1
#1 0.75879754
#2 0.31168919
#3 0.03983268

InformationsquelleAutor der Antwort Pat W.

DF <- data.frame(
  x=1:10,
  y=10:1,
  z=rep(5,10),
  a=11:20
)
DF

Ausgabe:

    x  y z  a
1   1 10 5 11
2   2  9 5 12
3   3  8 5 13
4   4  7 5 14
5   5  6 5 15
6   6  5 5 16
7   7  4 5 17
8   8  3 5 18
9   9  2 5 19
10 10  1 5 20

DF[c("a","x")] <- list(NULL)

Ausgabe:

InformationsquelleAutor der Antwort Kun Ren

14

Hier ist ein dplyr Weg, um darüber zu gehen:
```
#df[ -c(1,3:6, 12) ]  # original
df.cut <- df %>% select(-col.to.drop.1, -col.to.drop.2, ..., -col.to.drop.6)  # with dplyr::select()
```
Ich mag das, weil es intuitiv zu Lesen & verstehen, ohne Anmerkungen und robust zu Spalten, ändern der position innerhalb des Daten-Frames. Es folgt auch die vektorisierte idiom mit - zum entfernen von Elementen.

InformationsquelleAutor der Antwort c.gutierrez
10

Denke ich, es muss einen besseren idiom, aber für die Subtraktion der Spalten nach Namen, ich tendiere dazu, Folgendes zu tun:
```
df <- data.frame(a=1:10, b=1:10, c=1:10, d=1:10)

# return everything except a and c
df <- df[,-match(c("a","c"),names(df))]
df
```
InformationsquelleAutor der Antwort JD Long
9

Gibt es eine Funktion namens dropNamed() Bernd Bischl ist BBmisc - Paket, das tut genau dies.
```
BBmisc::dropNamed(df, "x")
```
Der Vorteil ist, dass es vermeidet die Wiederholung der Daten-frame-argument und ist somit geeignet für Rohrleitungen in magrittr (genau wie die dplyr Ansätze):
```
df %>% BBmisc::dropNamed("x")
```
InformationsquelleAutor der Antwort krlmlr
8

Ich bezweifle, dass diese wird viel Aufmerksamkeit erhalten, hier unten, aber wenn Sie haben eine Liste von Spalten, die Sie entfernen möchten, und Sie möchten, es zu tun in einer dplyr Kette ich verwenden one_of() im select Klausel:

Hier ist eine einfache, reproduzierbare Beispiel:
```
undesired <- c('mpg', 'cyl', 'hp')

mtcars %>%
  select(-one_of(undesired))
```
Dokumentation gefunden werden kann, durch ausführen ?one_of oder hier:

http://genomicsclass.github.io/book/pages/dplyr_tutorial.html

InformationsquelleAutor der Antwort User632716
5

Andere Lösung wenn Sie nicht möchten, verwenden Sie @hadley ' s vor: Wenn "COLUMN_NAME" ist der name der Spalte, die Sie löschen möchten:
```
df[,-which(names(df) == "COLUMN_NAME")]
```
InformationsquelleAutor der Antwort Nick Keramaris

Bieten die Daten-frame und eine Zeichenfolge von durch Komma getrennte Namen zu entfernen:

remove_features <- function(df, features) {
  rem_vec <- unlist(strsplit(features, ', '))
  res <- df[,!(names(df) %in% rem_vec)]
  return(res)
}

Nutzung:

remove_features(iris, "Sepal.Length, Petal.Width")

Löschen Sie Datenrahmenspalten nach Namen

InformationsquelleAutor der Antwort Cybernetic

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.