R - Zählung in jeder Zeile die Anzahl der Spalten in der Zeile Nachbarschaft", die nur NA

Wie würden Sie erstellen ein Daten-frame einen Vektor, der für jede Zeile die Anzahl der Spalten, "NA" (oder einen benutzerdefinierten Wert) in dieser Zeile und die n Zeilen oben und m Zeilen weiter unten.

Also, wenn m = n = 1 (d.h., wie vielen Spalten in jeder Zeile sind NA und NA unmittelbar vor und nach) und mein dataframe ist

structure(list(X = 1:8, A = c(3L, NA, 10L, NA, 6L, NA, 5L, NA
), B = c(6L, NA, NA, NA, 8L, NA, 13L, NA), C = c(NA, 12L, 14L,  
NA, NA, NA, 9L, NA), D = c(NA, NA, NA, NA, NA, 11L, 7L, NA)), .Names = c("X", 
"A", "B", "C", "D"), class = "data.frame", row.names = c(NA, 
-8L))

d.h.

 t X  A  B  C  D
1 1  3  6 NA NA 
2 2 NA NA 12 NA 
3 3 10 NA 14 NA 
4 4 NA NA NA NA
5 5  6  8 NA NA
6 6 NA NA NA 11
7 7  5 13  9  7
8 8 NA NA NA NA

Möchte ich den Vektor

count
0
1
2
1
1
0
0
0

(wenn die ersten und letzten Einträge sind NA's, das ist in Ordnung). Ich bin versucht zu imitieren eine COUNTIFS Funktion in Excel, d.h. COUNTIFS(B2:F2,"",B3:F3,"",B4:F4,"") für Zeile 3.

Ich verstehe nicht, wie deine Beschreibung erzeugt das gewünschte Ergebnis. Wie kommt es, dass Graf hat 1 in Zeile 2?
Spalte D hat eine NA in Zeile 2 und in den Zeilen 1 und 3. Die anderen Spalten nicht, so count ist 1 gibt.
Ich glaube, was Sie meinen, ist: nehmen wir an, wir betrachten Zeile i Spalte j: wenn Spalte j hat NAs für die n Zeilen vor und m Zeilen nach der Zeile i zählen wir es. Also für die zweite Reihe, nur die NA in der 'D' - Spalte hat eine NA unmittelbar oberhalb und unterhalb es.
Ja, mathematischen.Kaffee ist korrekt.
könnte ich eine Klarstellung - in der Zeile 1 die NA in Spalte D die NA, nachdem Sie, aber keiner vor, weil es keine vorherigen Zeile - Sie wollen diese auf 0 zurück, immer? (d.h. die ersten und letzten Elemente Ihrer count Vektor immer 0?)
Return 0 oder NA, aber ich bin nicht viel Aufhebens. Der "wahre" Wert in dieser Zeile ist, dass der Zustand ist bedeutungslos, aber ich bin wohl mit 0. Für höhere m oder n das gleiche gilt für die ersten n und die letzten m Zeilen.

InformationsquelleAutor Hugh | 2013-04-09

apply r

2

Ich denke, dass ich bekomme, was du meinst.

Vermute, dass der dataframe heißt x.

Erste, für jede (row, column) in x müssen wir sehen, ob es eine NA in die Zelle, UND ein NA im gleichen Spalte für die n Zeilen vor und m Zeilen nach.

Erste, lassen Sie uns dies tun im Fall einer einzelnen Zeile, Zeile i = 2 sagen.
Wir haben auch n = 1 und m = 1 (aus dem Beispiel in der Frage).
```
i <- 2
n <- 1
m <- 1
```
Lassen Sie uns zählen Sie die Anzahl der NAs in jeder Spalte für die Zeilen i - n zu i + m inclusive (is.na zurück TRUE wenn der aktuelle Wert NA, colSums gibt Spalte Summen)
```
y <- colSums(is.na(x[(i - n):(i + m), ]))
# X A B C D 
# 0 1 2 1 3 
```
Jetzt haben wir nur noch eine NA in der früheren, die aktuelle und die nächste Zeile, wenn wir gezählt 3 NAs (d.h. nur in der Spalte D qualifiziert hier):
```
y == n + m + 1
#     X     A     B     C     D 
# FALSE FALSE FALSE FALSE  TRUE
```
also die Anzahl von Spalten, erfüllen unsere Kriterien (daher der ite element des output):
```
sum(y == n + m + 1)
# 1 
```
Dann verwenden wir sapply für diesen über jede Zeile:
```
countifs <- function (df, n, m) {
    sapply(1:nrow(df),
           function (i) {
               nrows <- nrow(df)
               startRow <- max(i - n, 1)
               endRow   <- min(i + m, nrows)
               y <- colSums(is.na(x[startRow:endRow, ]))
               sum(y == n + m + 1)
           })
}

countifs(x, 1, 1)
# [1] 0 1 2 1 1 0 0 0
```
Du hast auch erwähnt, dass Sie vielleicht vergleichen wollen, um einen benutzerdefinierten Wert eher als NA. In diesem Fall, anstatt das zu tun is.na(x[...]) können Sie nur tun x[...] == value (aber nicht, wenn value ist NA, in dem Sie is.na)

Auch, das Sie retten könnte ein bisschen Arbeit, nur mit sapply auf Zeilen n + 1 zu nrow(df) - m - 1 und Einstellung der ersten n und letzten m Elemente automatisch auf 0.
- Alle Antworten sehr hilfreich, aber das beantwortet alles. Danke!!!
InformationsquelleAutor mathematical.coffee
3

Diese sollten die erwünschten Ergebnis -
```
y = is.na(yourDataFrame)

rowSums(y & rbind(rep(F,5), y[-nrow(yourDataFrame),]) & rbind(y[-1,], rep(F,5)))
```
- Wow. Ich bin beeindruckt. Hier ist eine version mit m und n: rowSums(y & rbind(matrix(FALSE, nrow = m, ncol = 5), y[-((length(yourDataFrame)-(m-1)):length(yourDataFrame)),]) & rbind(y[-(1:n),], matrix(FALSE, nrow = n, ncol = 5)))
- Nein, Ihre version zählt die Anzahl, wo die Spalte n Zeilen vor und m Zeilen nach ist NA, nicht dort, wo alle Zeilen aus n vor m nach sind NA - (in dieser Spalte). Wirklich wie die Glattheit dieser Antwort aber leider nicht skalieren, um beliebige n und m
- Vereinbart. Ich verpasste den Punkt in der Beschreibung. Und es scheint schwierig, die Anpassung dieser Lösung an das gewünschte Verhalten.
InformationsquelleAutor Nishanth

Hier ist eine Funktion, die Ermittlung der NA Werte in der Mitte einer Auflage von length = .length

foo <- function(x,.length){
  x <- is.na(x)
  if( .length < 2L ||.length %%2L == 0L ){stop('.length must be an odd number greater than 2')}
  lx <- length(x)
  if(lx <.length) {return(rep_len(FALSE, lx))}
  midpoints <- seq.int(2L, lx-1L, by = 1L)
  c(FALSE,sapply(midpoints, function(xx) all(x[(xx-1L):(xx+1L)])),FALSE)
}

Wir können diese mit rowSums und sapply zu bekommen, was Sie wollen.

rowSums(sapply(xx, foo, .length = 3))
## [1] 0 1 2 1 1 0 0 0

ohne das Rad neu erfinden (etwas rollt)

Oder verwenden Sie rollapply von der zoo Paket

library(zoo)
rowSums(sapply(xx, function(x) {
    rollapply(is.na(x), width = 3, fill = FALSE, FUN = all)
   }))

oder auch nur

rowSums(rollapply(is.na(xx),width=3, FUN=all, fill = FALSE))

Ist xx den Daten-frame?
ja, es ist.

InformationsquelleAutor mnel

1

Ich konnte nicht kommen, mit eine vektorisierte version, so ist hier eine gute alte for-Schleife:
```
x <- structure(list(X = 1:8, A = c(3L, NA, 10L, NA, 6L, NA, 5L, NA
), B = c(6L, NA, NA, NA, 8L, NA, 13L, NA), C = c(NA, 12L, 14L,  
NA, NA, NA, 9L, NA), D = c(NA, NA, NA, NA, NA, 11L, 7L, NA)), .Names = c("X", 
"A", "B", "C", "D"), class = "data.frame", row.names = c(NA, 
-8L))

y <- x
y[is.na(y)] <- -99
out <- vector("numeric", nrow(y))

n <- 1
m <- 1
for (c in (1+n):(nrow(y)-m)) {
    out[c] <- sum((y[(c-n),] == -99) & (y[(c),] == -99) & (y[(c+m),] == -99))
}
out
```
Dies sollte den trick tun (auch mit so dass für n und m):
```
> out
[1] 0 1 2 1 1 0 0 0
```
Beachten Sie, dass ich mit zwei tricks. Wie die Arbeit mit NAs ist etwas problematisch ich den Austausch mit -99 (obwohl, das ist nicht absolut notwendig). Dann weiß ich nicht Schleife über die ersten n und die letzten m Zeilen.

Wenn jemand eine vektorisierte version, die er/Sie erhält auf jeden Fall mein upvote.
- Yep, löst dies das *n*=*m*=1 Fall. (Der Allgemeine Fall ist wahrscheinlich zu viel verlangt.) Gibt es einen bestimmten Grund, warum Ihr gewählt habt, -99?
- Wie bereits von mathematischen.Kaffee über die Verwendung von m und n hier ist nicht korrekt. verwenden rollapply statt.
InformationsquelleAutor Henrik
1

Können Sie describe nur um die Anzahl der NAs in jeder Spalte.
```
describe(traindata)
```
Die Ausgabe sieht wie folgt aus:
```
Column_3 
      n missing  unique    Mean     .05     .10     .25     .50     .75     .90     .95 
    646      23     283  0.2792  0.0000  0.0000  0.0000  0.1455  0.4798  0.9305  1.0000 
```
Check für missing Werte.
- Wir haben gelernt, etwas von jedem anderen heute 🙂
- Ich glaube nicht, dass wird für diese Arbeit. Ich muss wissen, die position der Zeile der NA-Bedingung nicht nur die Gesamtanzahl der vorkommen dieser Bedingung für jede Spalte. Sorry, mein Titel ist verwirrend.
InformationsquelleAutor Panos Kal.

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.