multinomiale logistische Multilevel-Modelle in R

Problem: ich brauchen, um abzuschätzen, eine Reihe von multinomiale Logistische multilevel-Modelle, und kann nicht finden, eine geeignete R-Paket. Was ist die beste R-Paket zur Schätzung solcher Modelle? STATA 13 vor kurzem Hinzugefügt, diese Funktion, um Ihre multilevel mixed-effects Modellen – so ist die Technik zur Schätzung solcher Modelle scheint verfügbar zu sein.

Details: Eine Reihe von Forschungs-Fragen erfordern die Einschätzung des multinomial logistic regression-Modelle, in denen die Zielvariable ist kategorisch. Zum Beispiel, Biologen von Interesse sein könnten, zu untersuchen, welche Art von Bäumen (z.B., Kiefern, Ahornbäumen, Eichen) sind am stärksten betroffen sind durch den sauren Regen. Die Marktforscher von Interesse sein könnten, ob es eine Beziehung zwischen dem Alter der Kunden und der Häufigkeit des Einkaufs im Target, Safeway oder Walmart. Diese Fälle haben gemeinsam, dass die Ergebnis-variable ist die kategoriale (ungeordnete) und multinomiale Logistische Regressionen sind die bevorzugte Methode der Schätzung. In meinem Fall, ich untersuche Unterschiede in den Formen der menschlichen migration, mit der outcome-variable (mig) codiert 0=nicht migriert, 1=internen migration, 2=internationale migration. Hier ist eine vereinfachte version meiner Daten set:

migDat=data.frame(hhID=1:21,mig=rep(0:2,times=7),age=ceiling(runif(21,15,90)),stateID=rep(letters[1:3],each=7),pollution=rep(c("high","low","moderate"),each=7),stringsAsFactors=F)

   hhID mig age stateID pollution
1     1   0  47       a      high
2     2   1  53       a      high
3     3   2  17       a      high
4     4   0  73       a      high
5     5   1  24       a      high
6     6   2  80       a      high
7     7   0  18       a      high
8     8   1  33       b       low
9     9   2  90       b       low
10   10   0  49       b       low
11   11   1  42       b       low
12   12   2  44       b       low
13   13   0  82       b       low
14   14   1  70       b       low
15   15   2  71       c  moderate
16   16   0  18       c  moderate
17   17   1  18       c  moderate
18   18   2  39       c  moderate
19   19   0  35       c  moderate
20   20   1  74       c  moderate
21   21   2  86       c  moderate

Mein Ziel ist die Abschätzung der Auswirkungen von Alter (unabhängige variable) auf die Verschiedenheit der (1) Migration intern vs. keine Migration, (2) International Migration vs. keine Migration, (3) Migration intern vs. Migration International. Eine zusätzliche Komplikation ist, dass meine Daten operieren auf verschiedenen aggregationsebenen (z.B. Umweltverschmutzung betreibt auf der staatlichen Ebene) und ich interessiere mich auch für die Vorhersage der Auswirkungen von Luftverschmutzung (Umweltverschmutzung) auf die Verschiedenheit der Einschiffung auf eine bestimmte Art von Bewegung.

Klobig Lösungen: Man einschätzen könnte eine Reihe von separaten logistischen regressionsmodellen durch die Reduzierung des Datensatzes für jedes Modell nur zwei migrationstypen (z.B. Modell 1: nur Fälle codiert mig=0 mig=1; Modell 2: nur Fälle codiert mig=0 mig=2; Modell 3: nur Fälle codiert mig=1 und mig=2). So eine einfache mehrstufigen logistischen Regressionsmodells abgeschätzt werden konnte, mit lme4, aber dieser Ansatz ist weniger ideal, weil es nicht angemessen berücksichtigt, für die Auswirkungen der ausgelassenen Fälle. Eine zweite Lösung wäre, um auszuführen, multinomial logistic multilevel models in MLWiN durch R mit dem R2MLwiN Paket. Aber da MLWiN ist nicht open source und das erzeugte Objekt schwer zu verwenden, ich würde es bevorzugen, vermeiden Sie diese option. Basierend auf einer umfassenden internet-recherche scheint es einige Nachfrage für solche Modelle, aber ich bin mir nicht bewusst eine gute R-Paket. Es wäre also toll, wenn einige Experten, die laufen solche Modelle könnten eine Empfehlung und wenn es mehr als ein Paket, vielleicht geben einige vor - /Nachteile. Ich bin sicher, dass solche Informationen würden eine sehr nützliche Ressource für mehrere R-Nutzer. Danke!!

Besten,
Raphael

Kommentar zu dem Problem

zwei Vorschläge: (1) in die MCMCglmm - Paket; (2) Ihre "klobig Methode" ist eigentlich die standard-Methode (siehe Z. B. Dobson und Barnett Einführung in Verallgemeinerte Lineare Modelle, 3d ed.); man parametrisiert eine multinomiale Modell als eine Reihe von binomial-Kontraste (Ebene 1 vs Ebene 2, Ebene 1 vs Ebene 3) und passen eine Reihe von Modellen. Dies ist eigentlich ein komplettes Modell, weil keine zwei-Kategorie Teilmenge einer multinomial-Modell ist bedingt binomial (d.h. wenn Sie wissen, dass es A oder B, dann A ist ein binomial-Probe aus (A+B)); jede vollständige Menge von Paaren ist eine gültige Parametrierung. Kommentarautor: Ben Bolker

In Ihrem Fall, da Ihre Kategorien sind etwas bestellt, würde ich wahrscheinlich parametrieren Sie diese wie (keine migration vs. interne oder internationale migration), (interne vs. internationale migration); dies setzt auch Sie sich für einen Vergleich mit einer ordinalen Modell (siehe Ordnungszahl - Paket). Kommentarautor: Ben Bolker

Vielen Dank, Ben Bolker! Beide Vorschläge sind in der Tat sehr hilfreich und ich werde Sie erkunden mehr. Kommentarautor: Raphael

InformationsquelleAutor der Frage Raphael | 2014-01-13

22

Grundsätzlich gibt es zwei Möglichkeiten der Montage, eine multinomiale Modelle eine kategoriale variable mit J-Gruppen: (1) Gleichzeitig die Schätzung der J-1 Kontraste; (2) Schätzung eines separaten logit-Modell für jeden Kontrast.

Produzieren diese beiden Methoden die gleichen Ergebnisse? Nein, aber die Ergebnisse sind oft ähnlich

Welche Methode ist besser? Gleichzeitig Armatur ist genauer (siehe unten für eine Erklärung, warum)

, Warum würde jemand verwenden Sie separate logit-Modelle dann? (1) die lme4 Paket hat keine routine zur gleichzeitigen Einsatz multinomiale Modelle und es gibt keine andere multilevel-R-Paket, das dies tun könnte. Also separate logit-Modelle sind derzeit die einzig praktische Lösung, wenn jemand will, um zu schätzen, mehrstufige multinomiale Modelle in R. (2), Wie einige mächtige Statistiker haben argumentiert, (Begg und Gray, 1984; Allison, 1984, S. 46-47), separate logit-Modelle sind viel flexibler, da Sie erlauben, die für die unabhängige Spezifikation der Modell-Gleichung für jeden Kontrast.

Ist es legitim, verwenden Sie separate logit-Modelle? Ja, mit einigen Ausschlüssen. Diese Methode wird aufgerufen, die "Begg und Gray Annäherung". Begg und Gray (1984, S. 16) zeigte, dass diese "individualisierte Methode ist sehr effizient". Allerdings gibt es einige Effizienz-Verlust-und den Begg und Gray Annäherung, umso größer wird der Standardfehler (Agresti 2002, S. 274). Als solche, es ist schwieriger zu erreichen signifikante Ergebnisse mit dieser Methode, und die Ergebnisse können als konservative. Dieser wirkungsgradverlust ist am kleinsten, wenn der Referenz-Kategorie ist groß (Begg und Gray, 1984; Agresti 2002). R-Pakete, mit denen der Begg und Gray-Näherung (kein multilevel) gehören mlogitBMA (Sevcikova und Raftery, 2012).

, Warum ist eine Reihe von einzelnen logit-Modelle ungenau?
In meinem ersten Beispiel haben wir eine variable (migration) , kann drei Werte haben A (keine migration) B (interne migration), C (internationale migration). Mit nur einem Prädiktor-variable x (Alter), multinomiale Modelle, parametrisiert als eine Reihe von binomial-Kontraste wie folgt (Lang und Cheng, 2004 p. 277):
```
Eq. 1:  Ln(Pr(B|x)/Pr(A|x)) = b0,B|A + b1,B|A (x) 
Eq. 2:  Ln(Pr(C|x)/Pr(A|x)) = b0,C|A + b1,C|A (x)
Eq. 3:  Ln(Pr(B|x)/Pr(C|x)) = b0,B|C + b1,B|C (x)
```
Diese Kontraste die folgende Gleichungen muss gelten:
```
Eq. 4: Ln(Pr(B|x)/Pr(A|x)) + Ln(Pr(C|x)/Pr(A|x)) = Ln(Pr(B|x)/Pr(C|x))
Eq. 5: b0,B|A + b0,C|A = b0,B|C
Eq. 6: b1,B|A + b1,C|A = b1,B|C
```
Das problem ist, dass diese Gleichungen (Gl. 4-6) wird in der praxis halt nicht genau, weil die Koeffizienten, die geschätzt werden, basierend auf leicht unterschiedlichen Proben, da nur Fälle aus den beiden kontrastierenden Gruppen verwendet werden und Fälle aus der Dritten Gruppe sind weggelassen. Programme, die gleichzeitig schätzen Sie die multinomiale Kontraste stellen Sie sicher, dass der Eq. 4-6 halten (Lang und Cheng, 2004 p. 277). Ich weiß nicht genau, wie dieses "gleichzeitige" Modell-Lösung funktioniert – vielleicht kann jemand eine Erklärung? Software, die gleichzeitige Montage von mehrstufigen multinomiale Modelle sind mit MLwiN (Steele 2013, S. 4) und STATA (xlmlogit Befehl, Papst, 2014).

Referenzen:

Agresti, A. (2002). Kategoriale Datenanalyse (2. Aufl.). Hoboken, NJ: John Wiley & Sons.

Allison, P. D. (1984). Ereignis-Geschichte-Analyse. Thousand Oaks, CA: Sage Publications.

Begg, C. B., & Gray, R. (1984). Berechnung des polychotomous Logistische regression Parameter mit individuellen Regressionen. Biometrika, 71(1), 11-18.

Lange, S. J., & Cheng, S. (2004). REGRESSIONSMODELLE für kategoriale Ergebnisse. In M. Hardy & A. Bryman (Hrsg.), Handbook of data analysis (S. 258-285). London: SAGE Publications, Ltd.

Papst, R. (2014). Im spotlight: Meet Stata neue xlmlogit Befehl. Stata News, 29(2), 2-3.

Sevcikova, H., & Raftery, A. (2012). Einschätzung der multinomial-logit-Modell mit der Begg & Gray Annäherung.

Steele, F. (2013). Modul 10: Single-level-und multilevel-Modelle für Nominale Antworten Konzepte. Bristol, U. K,: Centre for Multilevel Modelling.

InformationsquelleAutor der Antwort Raphael
8

Eine ältere Frage, aber ich denke eine realistische option ist vor kurzem entstanden ist brms verwendet die Bayes - Stan Programm ausführen, tatsächlich das Modell Zum Beispiel, wenn Sie ausführen möchten, eine multinomiale Logistische regression für die iris Daten:
```
b1 <- brm (Species ~ Petal.Length + Petal.Width + Sepal.Length + Sepal.Width,
           data=iris, family="categorical",
           prior=c(set_prior ("normal (0, 8)")))
```
Und um eine ordinale regression -- nicht geeignet für iris natürlich-Sie würde es wechseln die family="categorical" zu family="acat" (oder cratio oder sratio je nach Art der ordinalen regression Sie wollen) und stellen Sie sicher, dass die abhängige variable ist ordered.

Klärung pro Raphael ' s Kommentar: Diese brm Aufruf kompiliert, Ihre Formel und Argumente in Stan code. Stan kompiliert in C++ und nutzt Ihre system-C++ compiler -- was erforderlich ist. Auf einem Mac, zum Beispiel, müssen Sie möglicherweise installieren Sie die Kostenlose Entwickler-Tools für C++. Nicht sicher über Windows. Linux sollte C++ standardmäßig installiert.)

InformationsquelleAutor der Antwort Wayne
2

Werde ich empfehlen, Sie nutzen das Paket "mlogit"

InformationsquelleAutor der Antwort Anom
1

Hier ist eine Umsetzung (nicht meine eigenen). Ich würde arbeiten, nur aus diesem code. Plus, auf diese Weise werden Sie wirklich wissen, was Los ist unter der Haube.

http://www.nhsilbert.net/docs/rcode/multilevel_multinomial_logistic_regression.R

InformationsquelleAutor der Antwort Henry David Thorough
1

Ich bin verwundert, dass diese Technik entdeckte als "standard" und "äquivalent", wenn es vielleicht auch eine gute praktische Lösung. (Glaube, ich würde besser zu überprüfen, die Allison und Dobson & Barnett Verweise).
Für das einfache multinomiale Fall ( keine Cluster, wiederholt Maßnahmen etc.) Begg und Gray (1984) vorschlagen, die Verwendung von k-1 binomial-logits gegen eine Referenz Kategorie als eine Annäherung (aber eine gute), die in vielen Fällen vollständige geblasen multinomial logit. Sie zeigen einige Verlust der Effizienz bei der Verwendung einer einzigen Referenz-Kategorie, obwohl es klein ist, für Fälle, in denen eine einzelne high-frequency baseline-Kategorie ist die Verwendung als Referenz.
Agresti (2002: p. 274), bietet ein Beispiel, wo eine kleine Steigerung in der standard-Fehler, auch wenn die baseline-Kategorie stellt mehr als 70% von 219 Fällen in einem fünf-Beispiel Kategorie.

Vielleicht ist es keine große Sache, aber ich sehe nicht, wie die Angleichung wäre besser, das hinzufügen einer zweiten Schicht von Zufälligkeit.

Referenzen

Agresti, A. (2002). Kategorische Daten-Analyse. Hoboken NJ: Wiley.

Begg, C. B., & Gray, R. (1984). Berechnung des polychotomous Logistische regression Parameter mit individuellen Regressionen. Biometrika, 71(1), 11-18.

InformationsquelleAutor der Antwort tmn
0

Beschäftige ich mich mit dem gleichen Problem und eine mögliche Lösung, die ich gefunden, scheint zu greifen, um die poisson - (hier log-lineares/count) entspricht das multinomiale Logistische Modell beschrieben, in dieser Mailingliste, diese schöne Folien oder Agresti (2013: 353-356). Somit sollte es möglich sein, die glmer(... family=poisson) Funktion aus dem Paket lme4 mit einigen aggregation der Daten.

Referenz:

Agresti, A. (2013) Analyse von Kategorischen Daten. Hoboken, NJ: Wiley.

InformationsquelleAutor der Antwort non-numeric_argument

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.