Pandas scatter_matrix - plot kategoriale Variablen
Ich freue mich auf die berühmte Titanic-Datensatz vom Kaggle-Wettbewerb finden Sie hier: http://www.kaggle.com/c/titanic-gettingStarted/data
Habe ich geladen und verarbeitet die Daten unter Verwendung von:
# import required libraries
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
# load the data from the file
df = pd.read_csv('./data/train.csv')
# import the scatter_matrix functionality
from pandas.tools.plotting import scatter_matrix
# define colors list, to be used to plot survived either red (=0) or green (=1)
colors=['red','green']
# make a scatter plot
scatter_matrix(df,figsize=[20,20],marker='x',c=df.Survived.apply(lambda x:colors[x]))
df.info()
Wie kann ich den kategorischen Spalten wie Sex und Begab sich zu dem Grundstück?
Ein Streudiagramm ist nicht eine gute Wahl für kategoriale Variablen, so wäre es nicht wirklich sinnvoll auf "hinzufügen", die Variablen zu diesem scatter-matrix. Sie könnten einen anderen Satz von plots für die Variablen (z.B. boxplots für jede numerische variable gruppiert nach Kategorien).
BrenBarn - danke.... Ich Stimme nicht ganz mit dir... wenn die Faktoren beschränkt sind (z.B. Geschlecht: Männlich, weiblich, unbekannt). Ich finde es sehr insightfull diesen Ansatz wie ganze zahlen wie 1, 2, 3 und zeichnen Sie diese in ein Streudiagramm. Wenn ich mich richtig erinnere von Herzen, R behandelt seine Faktoren in einen dataframe, wie dies beim Plotten ein scattermatrix. Hatte gehofft, das gleiche tun könnte mit pandas.
ich denke, Sie werden wollen suchen Sie bei seaborn ' s facetgrids und pairgrids für diese Art des Grundstücks: web.stanford.edu/~mwaskom/software/seaborn/examples/...
BrenBarn - danke.... Ich Stimme nicht ganz mit dir... wenn die Faktoren beschränkt sind (z.B. Geschlecht: Männlich, weiblich, unbekannt). Ich finde es sehr insightfull diesen Ansatz wie ganze zahlen wie 1, 2, 3 und zeichnen Sie diese in ein Streudiagramm. Wenn ich mich richtig erinnere von Herzen, R behandelt seine Faktoren in einen dataframe, wie dies beim Plotten ein scattermatrix. Hatte gehofft, das gleiche tun könnte mit pandas.
ich denke, Sie werden wollen suchen Sie bei seaborn ' s facetgrids und pairgrids für diese Art des Grundstücks: web.stanford.edu/~mwaskom/software/seaborn/examples/...
InformationsquelleAutor Geoffrey Stoel | 2015-01-19
Du musst angemeldet sein, um einen Kommentar abzugeben.
Müssen Sie verwandeln die kategorischen Variablen in zahlen zu zeichnen.
Beispiel (unter der Annahme, dass die Spalte 'Geschlecht' ist die Abhaltung der gender-Daten, die mit 'M' für Männer & 'F' für Frauen)
Nun alle Frauen werden repräsentiert durch 0 & Männchen von 1. Unbekannte Geschlechter (falls vorhanden) werden ignoriert.
Den rest des Codes sollte der Prozess der Aktualisierung dataframe schön.
InformationsquelleAutor knightofni
nach googeln und an etwas zu denken wie die .map () - Funktion habe ich repariert, in der folgenden Weise:
nun kann ich zeichnen Sie es wieder...und fallen die zusätzlichen Spalten danach.
danke an alle für die Antworten.....
InformationsquelleAutor Geoffrey Stoel