Pandas scatter_matrix - plot kategoriale Variablen

Ich freue mich auf die berühmte Titanic-Datensatz vom Kaggle-Wettbewerb finden Sie hier: http://www.kaggle.com/c/titanic-gettingStarted/data

Habe ich geladen und verarbeitet die Daten unter Verwendung von:

# import required libraries
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

# load the data from the file
df = pd.read_csv('./data/train.csv')

# import the scatter_matrix functionality
from pandas.tools.plotting import scatter_matrix

# define colors list, to be used to plot survived either red (=0) or green (=1)
colors=['red','green']

# make a scatter plot
scatter_matrix(df,figsize=[20,20],marker='x',c=df.Survived.apply(lambda x:colors[x]))

df.info()

Pandas scatter_matrix - plot kategoriale Variablen

Wie kann ich den kategorischen Spalten wie Sex und Begab sich zu dem Grundstück?

Ein Streudiagramm ist nicht eine gute Wahl für kategoriale Variablen, so wäre es nicht wirklich sinnvoll auf "hinzufügen", die Variablen zu diesem scatter-matrix. Sie könnten einen anderen Satz von plots für die Variablen (z.B. boxplots für jede numerische variable gruppiert nach Kategorien).
BrenBarn - danke.... Ich Stimme nicht ganz mit dir... wenn die Faktoren beschränkt sind (z.B. Geschlecht: Männlich, weiblich, unbekannt). Ich finde es sehr insightfull diesen Ansatz wie ganze zahlen wie 1, 2, 3 und zeichnen Sie diese in ein Streudiagramm. Wenn ich mich richtig erinnere von Herzen, R behandelt seine Faktoren in einen dataframe, wie dies beim Plotten ein scattermatrix. Hatte gehofft, das gleiche tun könnte mit pandas.
ich denke, Sie werden wollen suchen Sie bei seaborn ' s facetgrids und pairgrids für diese Art des Grundstücks: web.stanford.edu/~mwaskom/software/seaborn/examples/...

InformationsquelleAutor Geoffrey Stoel | 2015-01-19

Schreibe einen Kommentar