Hinzufügen einer Spalte zu einem data.frame

Habe ich die Daten.frame unten. Ich möchte eine Spalte hinzufügen, die klassifiziert werden meine Daten nach Spalte 1 (h_no) so, dass die erste Serie von h_no 1,2,3,4 ist Klasse 1, die zweite Serie von h_no (1 bis 7) Klasse 2 etc. wie angegeben in der letzten Spalte.

h_no  h_freq  h_freqsq
1     0.09091 0.008264628 1
2     0.00000 0.000000000 1
3     0.04545 0.002065702 1
4     0.00000 0.000000000 1  
1     0.13636 0.018594050 2
2     0.00000 0.000000000 2
3     0.00000 0.000000000 2
4     0.04545 0.002065702 2
5     0.31818 0.101238512 2
6     0.00000 0.000000000 2
7     0.50000 0.250000000 2 
1     0.13636 0.018594050 3 
2     0.09091 0.008264628 3
3     0.40909 0.167354628 3
4     0.04545 0.002065702 3

InformationsquelleAutor der Frage Susanne Dreisigacker | 2012-04-14

dataframe r

135

Können Sie eine Spalte hinzufügen, um Ihre Daten mit verschiedenen Techniken. Die Zitate unten stammen aus der "Details" Bereich auf der entsprechenden Hilfe-text, [[.data.frame.

Daten-frames indiziert werden können, die in verschiedenen Modi. Wenn [ und [[ verwendet werden, mit einem einzelnen Vektor-index (x[i] oder x[[i]]), Sie indizieren der Daten-frame, als ob es eine Liste.

my.dataframe["new.col"] <- a.vector
my.dataframe[["new.col"]] <- a.vector

Daten.frame-Methode für $ behandelt x als Liste

my.dataframe$new.col <- a.vector

Wenn [ und [[ verwendet werden mit zwei Indizes (x[i, j] und x[[i, j]]) handeln Sie wie die Indizierung einer matrix

my.dataframe[ , "new.col"] <- a.vector

Da die Methode für data.frame davon ausgegangen, dass, wenn Sie nicht angeben, wenn Sie arbeiten mit Spalten oder Zeilen, wird es nehme an, du meinst die Spalten.

Für dein Beispiel sollte das funktionieren:

# make some fake data
your.df <- data.frame(no = c(1:4, 1:7, 1:5), h_freq = runif(16), h_freqsq = runif(16))

# find where one appears and 
from <- which(your.df$no == 1)
to <- c((from-1)[-1], nrow(your.df)) # up to which point the sequence runs

# generate a sequence (len) and based on its length, repeat a consecutive number len times
get.seq <- mapply(from, to, 1:length(from), FUN = function(x, y, z) {
            len <- length(seq(from = x[1], to = y[1]))
            return(rep(z, times = len))
         })

# when we unlist, we get a vector
your.df$group <- unlist(get.seq)
# and append it to your original data.frame. since this is
# designating a group, it makes sense to make it a factor
your.df$group <- as.factor(your.df$group)


   no     h_freq   h_freqsq group
1   1 0.40998238 0.06463876     1
2   2 0.98086928 0.33093795     1
3   3 0.28908651 0.74077119     1
4   4 0.10476768 0.56784786     1
5   1 0.75478995 0.60479945     2
6   2 0.26974011 0.95231761     2
7   3 0.53676266 0.74370154     2
8   4 0.99784066 0.37499294     2
9   5 0.89771767 0.83467805     2
10  6 0.05363139 0.32066178     2
11  7 0.71741529 0.84572717     2
12  1 0.10654430 0.32917711     3
13  2 0.41971959 0.87155514     3
14  3 0.32432646 0.65789294     3
15  4 0.77896780 0.27599187     3
16  5 0.06100008 0.55399326     3

InformationsquelleAutor der Antwort Roman Luštrik

10

Leicht: Ihre Daten-frame ist Ein
```
b <- A[,1]
b <- b==1
b <- cumsum(b)
```
Dann bekommen Sie die Spalte b an.

InformationsquelleAutor der Antwort user1333396
7

Wenn ich verstehe die Frage richtig, Sie wollen erkennen, wenn die h_no nicht zu erhöhen und dann erhöht die class. (Ich bin gehen zu Fuß durch, wie ich dieses problem gelöst, es ist ein self-contained-Funktion am Ende.)

Arbeiten

Interessieren wir uns nur über die h_no Spalte für den moment, so können wir extrahieren, von den Daten-frame:
```
> h_no <- data$h_no
```
Wir wollen erkennen, wenn h_no lautet nicht, was wir tun können durch die Zusammenarbeit aus, wenn die Differenz zwischen aufeinander folgenden Elementen ist entweder negativ oder null ist. R stellt den diff Funktion, die es uns ermöglicht, die den Vektor der Differenzen:
```
> d.h_no <- diff(h_no)
> d.h_no
 [1]  1  1  1 -3  1  1  1  1  1  1 -6  1  1  1
```
Wenn man es einmal hat, ist es eine einfache Sache zu suchen, die sind nicht-positiv:
```
> nonpos <- d.h_no <= 0
> nonpos
 [1] FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE
[13] FALSE FALSE
```
In R TRUE und FALSE sind im Grunde das gleiche wie 1 und 0so dass, wenn wir bekommen die kumulierte Summe der nonpos es erhöht sich um 1, die in (fast) der entsprechenden stellen. Die cumsum - Funktion (das ist im Grunde das Gegenteil von diff) können dies tun.
```
> cumsum(nonpos)
 [1] 0 0 0 1 1 1 1 1 1 1 2 2 2 2
```
Aber es gibt zwei Probleme: die zahlen sind zu klein; und,, uns fehlt das erste element (es sollten vier in der ersten Klasse).

Das erste problem ist einfach gelöst: 1+cumsum(nonpos). Und die zweite nur erfordert das hinzufügen einer 1 auf der Vorderseite des Vektors, da das erste element ist immer in der Klasse 1:
```
 > classes <- c(1, 1 + cumsum(nonpos))
 > classes
  [1] 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3
```
Nun, wir hängen ihn wieder auf unsere Daten-frame mit cbind (mit der class= syntax, die wir geben können, die Spalte der class überschrift):
```
 > data_w_classes <- cbind(data, class=classes)
```
Sowie data_w_classes enthält nun das Ergebnis.

Endergebnis

Können wir komprimieren die Linien zusammen und Verpacken Sie alles in eine Funktion zu machen, einfacher zu bedienen:
```
classify <- function(data) {
   cbind(data, class=c(1, 1 + cumsum(diff(data$h_no) <= 0)))
}
```
Oder, da macht es Sinn, für die class einen Faktor:
```
classify <- function(data) {
   cbind(data, class=factor(c(1, 1 + cumsum(diff(data$h_no) <= 0))))
}
```
Verwenden Sie eine Funktion wie:
```
> classified <- classify(data) # doesn't overwrite data
> data <- classify(data) # data now has the "class" column
```
(Diese Methode, dieses problem zu lösen ist gut, denn es vermeidet die explizite iteration, die in der Regel empfehlen, für R, und vermeidet eine Vielzahl von intermediären Vektoren und Listen etc. Und auch, es ist irgendwie ordentlich, wie es sein kann, auf einer Linie geschrieben 🙂 )

InformationsquelleAutor der Antwort huon
2

In Ergänzung zu Roman ' s Antwort, so etwas wie dies sein könnte, noch einfacher. Beachten Sie, dass ich es noch nicht getestet, weil ich keinen Zugang zu R jetzt.
```
# Note that I use a global variable here
# normally not advisable, but I liked the
# use here to make the code shorter
index <<- 0
new_column = sapply(df$h_no, function(x) {
  if(x == 1) index = index + 1
  return(index)
})
```
Die Funktion iteriert über die Werte in n_ho und gibt immer die Kategorie, die den aktuellen Wert gehört zu werden. Wenn Sie einen Wert von 1 erkannt wird, erhöhen wir die Globale variable index und weiter.

InformationsquelleAutor der Antwort Paul Hiemstra

Data.frame[,'h_new_column'] <- as.integer(Data.frame[,'h_no'], breaks=c(1, 4, 7))

InformationsquelleAutor der Antwort user2759975

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Arbeiten

Endergebnis