R elegante Weg, um das Gleichgewicht unbalanced panel data

Ist es ein eleganter Weg, um das Gleichgewicht einer unausgeglichenen panel-Datensatz? Beginnen möchte ich mit einem unbalanced-panel (ie, einige Personen fehlen einige Daten) und am Ende mit einem balanced-panel (dh alle Individuen fehlen keine Daten). Nachfolgend finden Sie einige Beispiel-code. Die richtige end-Ergebnis ist für alle Erfassungen an 'Frank' und 'Edward' zu bleiben und für alle Beobachtungen auf 'Tony' entfernt werden, da er einige Daten fehlen. Danke.

unbal <- data.frame(PERSON=c(rep('Frank',5),rep('Tony',5),rep('Edward',5)), YEAR=c(2001,2002,2003,2004,2005,2001,2002,2003,2004,2005,2001,2002,2003,2004,2005), Y=c(21,22,23,24,25,5,6,NA,7,8,31,32,33,34,35), X=c(1:15))
unbal

InformationsquelleAutor user1491868 | 2014-09-04

6

Einen Weg zu Ausgeglichenheit, ein panel zu entfernen, Personen mit unvollständigen Daten, ein anderer Weg ist, zu füllen, in einen Wert, wie NA oder 0 für die fehlenden Beobachtungen. Für den ersten Ansatz, die Sie verwenden können complete.cases Zeilen suchen, die keine NA in Ihnen. Dann finden Sie alle PERSON mit mindestens einem fehlenden Fall.
```
missing.at.least.one <- unique(unbal$PERSON[!complete.cases(unbal)])
unbal[!(unbal$PERSON %in% missing.at.least.one),]
#    PERSON YEAR  Y  X
# 1   Frank 2001 21  1
# 2   Frank 2002 22  2
# 3   Frank 2003 23  3
# 4   Frank 2004 24  4
# 5   Frank 2005 25  5
# 11 Edward 2001 31 11
# 12 Edward 2002 32 12
# 13 Edward 2003 33 13
# 14 Edward 2004 34 14
# 15 Edward 2005 35 15
```
- Wenn man interessiert ist die andere Weg-Runde zu machen (ein unbalanced panel ausgeglichen durch ausfüllen NAs), könnte man die Funktion make.pbalanced aus Paket plm (neueste Entwicklung erforderliche version von r-forge.r-project.org/R/?group_id=406)
- Die offizielle CRAN release (1.6-4) plm-jetzt hat make.pbalanced aufgenommen (und mit argument balance.type = c("fill", "shared") kann man wählen, ob die Daten erweitern oder zu reduzieren.
InformationsquelleAutor nograpes

So, ich bin nicht sicher, es erfüllt die "elegante" Anforderung, aber hier ist eine Allgemeine Funktion, die Sie verwenden können, um symmetrische Daten.

balanced<-function(data, ID, TIME, VARS, required=c("all","shared")) {
    if(is.character(ID)) {
        ID <- match(ID, names(data))
    }
    if(is.character(TIME)) {
        TIME <- match(TIME, names(data))
    }
    if(missing(VARS)) { 
        VARS <- setdiff(1:ncol(data), c(ID,TIME))
    } else if (is.character(VARS)) {
        VARS <- match(VARS, names(data))
    }
    required <- match.arg(required)
    idf <- do.call(interaction, c(data[, ID, drop=FALSE], drop=TRUE))
    timef <- do.call(interaction, c(data[, TIME, drop=FALSE], drop=TRUE))
    complete <- complete.cases(data[, VARS])
    tbl <- table(idf[complete], timef[complete])
    if (required=="all") {
        keep <- which(rowSums(tbl==1)==ncol(tbl))
        idx <- as.numeric(idf) %in% keep
    } else if (required=="shared") {
        keep <- which(colSums(tbl==1)==nrow(tbl))
        idx <- as.numeric(timef) %in% keep
    }
    data[idx, ]
}

Können Sie Ihre gewünschte Ergebnis mit

balanced(unbal, "PERSON","YEAR")

#    PERSON YEAR  Y  X
# 1   Frank 2001 21  1
# 2   Frank 2002 22  2
# 3   Frank 2003 23  3
# 4   Frank 2004 24  4
# 5   Frank 2005 25  5
# 11 Edward 2001 31 11
# 12 Edward 2002 32 12
# 13 Edward 2003 33 13
# 14 Edward 2004 34 14
# 15 Edward 2005 35 15

Der erste parameter ist die Daten.frame, den Sie möchten Teilmenge. Der zweite parameter (ID=) ist ein Charakter-Vektor der Spaltennamen, identifizieren jede "person" im Datensatz. Dann die TIME= parameter ist auch ein Charakter-Vektor Angabe der verschiedenen Beobachtungszeiten für jede ID. Schließlich können Sie Optional angeben, eine VARS= - argument, um anzugeben, welche Felder müssen NA (der Standardwert ist alle andere als ID-oder Zeitwerten). Schließlich gibt es eine Letzte parameter namens required die Mitgliedstaaten, ob für jede ID muss über eine Beobachtung, die für jeden ZEITPUNKT (Verzug) oder wenn du es auf "freigegeben", es werden nur die ZEITEN, dass alle IDs haben, die nicht fehlenden Werte.

So zum Beispiel

balanced(unbal, "PERSON","YEAR", "X")

#    PERSON YEAR  Y  X
# 1   Frank 2001 21  1
# 2   Frank 2002 22  2
# 3   Frank 2003 23  3
# 4   Frank 2004 24  4
# 5   Frank 2005 25  5
# 6    Tony 2001  5  6
# 7    Tony 2002  6  7
# 8    Tony 2003 NA  8
# 9    Tony 2004  7  9
# 10   Tony 2005  8 10
# 11 Edward 2001 31 11
# 12 Edward 2002 32 12
# 13 Edward 2003 33 13
# 14 Edward 2004 34 14
# 15 Edward 2005 35 15

nur verlangt, dass "X" sein, NA für alle PERSON/JAHRE und da dies wahr ist, für alle Datensätze, kein sub-Einstellung erfolgt.

Wenn Sie

balanced(unbal, "PERSON","YEAR", required="shared")

#    PERSON YEAR  Y  X
# 1   Frank 2001 21  1
# 2   Frank 2002 22  2
# 4   Frank 2004 24  4
# 5   Frank 2005 25  5
# 6    Tony 2001  5  6
# 7    Tony 2002  6  7
# 9    Tony 2004  7  9
# 10   Tony 2005  8 10
# 11 Edward 2001 31 11
# 12 Edward 2002 32 12
# 14 Edward 2004 34 14
# 15 Edward 2005 35 15

dann bekommen Sie die Daten für die Jahre 2001, 2002, 2004, 2005 für ALLE Personen, da Sie alle Daten für die Jahre.

Lassen Sie uns nun verwenden, erstellen Sie ein etwas anderes Beispiel-Datensatz

unbal2 <- unbal 
unbal2[15, 2] <- 2006
tail(unbal2)

#    PERSON YEAR  Y  X
# 10   Tony 2005  8 10
# 11 Edward 2001 31 11
# 12 Edward 2002 32 12
# 13 Edward 2003 33 13
# 14 Edward 2004 34 14
# 15 Edward 2006 35 15

Merke jetzt, dass Edward ist der einzige Mensch, hat einen Wert für 2006. Dies bedeutet, dass

balanced(unbal2, "PERSON","YEAR")
# [1] PERSON YEAR   Y      X     
# <0 rows> (or 0-length row.names)

gibt jetzt nichts, aber

balanced(unbal2, "PERSON","YEAR", required="shared")

#    PERSON YEAR  Y  X
# 1   Frank 2001 21  1
# 2   Frank 2002 22  2
# 4   Frank 2004 24  4
# 6    Tony 2001  5  6
# 7    Tony 2002  6  7
# 9    Tony 2004  7  9
# 11 Edward 2001 31 11
# 12 Edward 2002 32 12
# 14 Edward 2004 34 14

werden die Daten zurück, die für 2001,2002, 2004, da alle Personen, die Daten für diese Jahre.

Sehr schön. Ich gebe zu, nicht verstanden zu haben was gemeint war von "balanced" bis ich Lesen Sie über es. Dies ist eine viel bessere Allgemeine Lösung.
Ich habe versucht, diese Methode, und ich kann sagen, es ist sehr langsam

InformationsquelleAutor MrFlick

3

Einer Lösung, die ich verwendet habe, ist vorübergehend Umformen der Daten-frame in wide format mit Jahren als Spalten und Einheiten, die als Zeilen, und dann schauen Sie für eine vollständige Fällen durch die Reihe. Dies ist am einfachsten zu tun, wenn Sie nur eine einzige variable von Interesse, dass-wenn Sie fehlt-bedeutet, dass die gesamte Beobachtung fehlt.

Verwende ich die folgenden Bibliotheken:
```
library(data.table)
library(reshape2)
```
Nehmen Sie sich zuerst eine Teilmenge von Ihren wichtigsten Daten-frame (Asym), die nur die ID-variable ("NAME"), die Zeit-variable ("JAHR"), und eine interessierende variable ("X" oder "Y").
```
df<- unbal[c("NAME", "YEAR", "X" )]
```
Zweite, gestalten Sie die neue Daten-frame zu machen, wide-format. Dies macht einen Daten-frame, in dem die einzelnen "NAMEN" ist eine einzelne Zeile, und "X" für jedes Jahr eine Spalte.
```
df <- dcast(df, NAME ~ YEAR, value.var = "X")
```
Dritte, vollständige.Fälle für jede Zeile. Jeder NAME mit fehlenden Daten wird komplett entfernt.
```
df <- df[complete.cases(df),]
```
Vierten, Umgestaltung der data frame wieder ins long-format (standardmäßig gibt diese Variablen generische Namen sind, so möchten Sie vielleicht ändern Sie den Namen zurück zu dem, was Sie vorher waren).
```
df <- melt(df, id.vars = "ID")
setnames(df, "variable", "YEAR")
```
HINWEIS: das JAHR wird eine Faktor-variable standardmäßig mit dem Ansatz. Wenn das JAHR der variable numerisch ist, werden Sie wollen, ändern Sie die variable entsprechend. Zum Beispiel:
```
test4$year <- as.character(test4$year)
test4$year <- as.numeric(test4$year)
```
Fünften und sechsten, nehmen Sie nur den "NAME" und "JAHR" - Variablen im data frame, den Sie erstellt haben, und dann verschmelzen Sie mit Ihrem ursprünglichen Daten-frame (und sicher sein, um die drop-Fällen in den ursprünglichen Daten-frame, der nicht gefunden werden in der d-Daten-frame, den Sie erstellt haben)
```
df <- df[c("NAME", "YEAR")]
balanced <- merge.data.frame(df, unbal, by = c("NAME", "YEAR"), all.x = TRUE)
```
InformationsquelleAutor R. Buchanan

Dies ist die Lösung, die ich benutze - es macht die Nutzung der praktischen Funktionen (einschließlich der netten Zusammenführen von Fähigkeiten) von der data.table Paket und geht davon aus, dass Ihre Daten bereits eine data.table Objekt. Es ist relativ einfach und hoffentlich leicht zu Folgen. Es gibt eine balanced panel mit Einträgen für jede eindeutige Kombination von "Individuen" und die "Zeit-Perioden", d.h. ein panel, wo es eine Beobachtung, die für jeden einzelnen in jeder Zeit.

library(data.table)
Balance_Panel = function(Data, Indiv_ColName, Time_ColName){
    Individuals = unique(Data[, get(Indiv_ColName)])
    Times = unique(Data[, get(Time_ColName)])

    Full_Panel = data.table(expand.grid(Individuals, Times))
    setnames(Full_Panel, c(Indiv_ColName, Time_ColName))
    setkeyv(Full_Panel, c(Indiv_ColName, Time_ColName))
    setkeyv(Data, c(Indiv_ColName, Time_ColName))
    return(Data[Full_Panel])
}

Beispiel Für Die Nutzung:

Balanced_Data = Balance_Panel(Data, "SubjectID", "ObservationTime")

InformationsquelleAutor Michael Ohlrogge

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.