Am ehesten entspricht der Faktor-variable in Python Pandas
Was ist die nächste Entsprechung zu R-Faktor-variable in Python pandas?
- Siehe dieser. Es sieht aus, dass die zusätzlichen
pandas.Factor
als Faktor Spalten. Aber ich glaube nicht, dass dies streng äquivalent., vor allem bei fehlenden Daten. - stackoverflow.com/questions/7813132/...
Du musst angemeldet sein, um einen Kommentar abzugeben.
Diese Frage scheint von einem Jahr wieder da aber es ist noch offen, hier ist ein update. pandas wurde ein
categorical
"dtype" und es funktioniert sehr ähnlich wiefactors
im R. finden Sie in diesem link für weitere Informationen:http://pandas-docs.github.io/pandas-docs-travis/categorical.html
Reproduktion ein Ausschnitt aus dem obigen link, der zeigt, wie man erstellen Sie eine "Faktor" - variable in pandas.
Wenn Sie schauen, um zu tun, Modellierung, etc, viele leckereien für Faktor innerhalb der patsy Bibliothek. Ich gebe zu, kämpfte mit diesem mich. Ich fand diese Folien hilfreich. Wünschte, ich könnte geben, ein besseres Beispiel, aber das ist so weit wie ich habe mich.
Wenn Sie schauen, um anzeigen einer kategorialen variable eine Zahl als R macht, Pandas implementiert eine Funktion, die Ihnen genau das: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.factorize.html
Diese Funktion gibt sowohl die aufgezählten mapping sowie eine Liste eindeutiger Werte. Wenn Sie nur das tut, variable, Zuweisung, Sie haben zu werfen letztere Weg wie oben.
Wenn Sie möchten, eine selbstentwickelte Lösung, die Sie verwenden können, eine Kombination von set und ein Wörterbuch in einer Funktion. Diese Methode ist etwas einfacher in der Anwendung über mehrere Spalten, aber Sie haben zu beachten, dass Keine, NaN, etc. wird ein als Kategorie, die in dieser Methode: