Anwenden von benutzerdefinierten Spalte, um die pandas boxplot?

Bekomme ich eine boxplot Gehalt-Spalte in ein pandas DataFrame...

train.boxplot(column='PredictionError',by='Category',sym='')

...aber ich kann nicht herausfinden, wie definieren Sie den index-Reihenfolge auf die Spalte 'Kategorie' - ich will meine eigenen Auftrag, nach einem anderen Kriterium:

category_order_by_mean_salary = train.groupby('Category')['Salary'].mean().order().keys()

Wie kann ich meine benutzerdefinierte Spalte, um die boxplot Spalten? (andere als hässlich kludging die Spalte Namen mit einem Präfix, um zu erzwingen, Bestellung)

'Kategorie' ist eine string-Spalte unter 27 unterschiedliche Werte: ['Accounting & Finance Jobs','Admin Jobs',...,'Travel Jobs']. So kann es leicht faktorisierten mit pd.Categorical.from_array()

Bei der Prüfung der Verjährung ist innerhalb pandas.tools.plotting.py:boxplot(), wandelt der Spalte Objekt, ohne dass der Bestellung:

pandas.core.frame.py.boxplot() ist ein passthrough
pandas.tools.Plotten.py:boxplot()
die instanziiert ...
matplotlib.pyplot.py:boxplot() , die instanziiert ...
matplotlib.Achsen.py:boxplot()

Ich glaube, ich könnte entweder hacken bis eine benutzerdefinierte version des pandas boxplot(), oder gelangen in das innere des Objekts. Und auch Datei, die eine Verbesserung verlangen.

EDIT: diese Frage stellte sich mit pandas ~0.13-und hat wahrscheinlich schon überholt ist von neueren (0.19+?) Versionen wie pro @Cireo die späte Antwort.

InformationsquelleAutor smci | 2013-03-21

7

Schwer zu sagen, wie dies zu tun, ohne ein funktionierendes Beispiel. Meine erste Vermutung wäre, fügen Sie einfach eine integer-Spalte mit den Anweisungen, die Sie wollen.

Einfache, brute-force-Weg wäre um jeden boxplot ein zu einer Zeit.
```
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

df = pd.DataFrame(np.random.rand(37,4), columns=list('ABCD'))
columns_my_order = ['C', 'A', 'D', 'B']
fig, ax = plt.subplots()
for position, column in enumerate(columns_my_order):
    ax.boxplot(df[column], positions=[position])

ax.set_xticks(range(position+1))
ax.set_xticklabels(columns_my_order)
ax.set_xlim(xmin=-0.5)
plt.show()
```
Hinzugefügt details für Sie, und Ideen, workarounds. Hinzufügen eines separaten standalone-integer-Spalte nicht mit einer anständigen Grafik, weil Sie jetzt Ihre Spalte Etiketten (unleserlich) ganze zahlen, nicht text. (Kludging ein text-Präfix in der Kategorie-Namen zu erzwingen benutzerdefinierte Sortierung-Reihenfolge ist vielleicht der Schnellste hack. Aber immer noch hässlich)
pandas DataFrame nicht in den Griff eine Kategorische Spalte, im Gegensatz zu R.
nicht, wo ich war headed. Ich in der Regel verwenden Sie einfach apply mit einem hard-codierten lookup-Tabelle. siehe meine bearbeitete Antwort für einen anderen Ansatz, aber.
Duh! Warum habe ich nicht daran denke! Gute Idee.

InformationsquelleAutor Paul H

Eigentlich kam ich nicht weiter mit der gleichen Frage. Und ich löste es, indem Sie eine Karte, und setzen Sie die xticklabels, mit code wie folgt:

df = pd.DataFrame({"A":["d","c","d","c",'d','c','a','c','a','c','a','c']})
df['val']=(np.random.rand(12))
df['B']=df['A'].replace({'d':'0','c':'1','a':'2'})
ax=df.boxplot(column='val',by='B')
ax.set_xticklabels(list('dca'))

InformationsquelleAutor Zhenyu

2

Beachten Sie, dass pandas können nun kategorischen Spalten. Wenn Sie nichts dagegen haben, dass alle Spalten, die in Ihrer Grafik, oder kürzen Sie entsprechend, können Sie etwas tun, wie die unten:

http://pandas.pydata.org/pandas-docs/stable/categorical.html
```
df['Category'] = df['Category'].astype('category', ordered=True)
```
Letzten pandas scheint auch zu ermöglichen positions passieren den ganzen Weg durch von Rahmen, Achsen.
Ooh, ausgezeichnet. Welche version hast Sie fügen hinzu, dass? 0.20?
Der link sagte, 0.15, aber ich war misstrauisch. Ich bin mir nicht sicher, ob die Funktion vollständig integriert. Ich war in der Lage, all dies zu tun in 0.19.2
Vielen Dank für die überprüfung.

InformationsquelleAutor Cireo

Hinzufügen einer separaten Antwort, die vielleicht sein könnte, eine andere Frage - feedback willkommen.

Wollte ich eine benutzerdefinierte Spalte hinzuzufügen, um innerhalb eines groupby, die früher viele Probleme für mich. Am Ende hatte ich zu vermeiden versucht - boxplot aus einer groupby Objekt, und stattdessen gehen Sie durch jede Nebenhandlung mich, die explizite Positionen.

import matplotlib.pyplot as plt
import pandas as pd

df = pd.DataFrame()
df['GroupBy'] = ['g1', 'g2', 'g3', 'g4'] * 6
df['PlotBy'] = [chr(ord('A') + i) for i in xrange(24)]
df['SortBy'] = list(reversed(range(24)))
df['Data'] = [i * 10 for i in xrange(24)]

# Note that this has no effect on the boxplot
df = df.sort_values(['GroupBy', 'SortBy'])
for group, info in df.groupby('GroupBy'):
    print 'Group: %r\n%s\n' % (group, info)

# With the below, cannot use
#  - sort data beforehand (not preserved, can't access in groupby)
#  - categorical (not all present in every chart)
#  - positional (different lengths and sort orders per group)
# df.groupby('GroupBy').boxplot(layout=(1, 5), column=['Data'], by=['PlotBy'])

fig, axes = plt.subplots(1, df.GroupBy.nunique(), sharey=True)
for ax, (g, d) in zip(axes, df.groupby('GroupBy')):
    d.boxplot(column=['Data'], by=['PlotBy'], ax=ax, positions=d.index.values)
plt.show()

In meinem endgültigen code, es war sogar etwas mehr beteiligt, um zu bestimmen, Positionen, denn ich hatte mehrere Datenpunkte für jeden sortby Wert, und ich landete mit zu tun, die folgenden:

to_plot = data.sort_values([sort_col]).groupby(group_col)
for ax, (group, group_data) in zip(axes, to_plot):
    # Use existing sorting
    ordering = enumerate(group_data[sort_col].unique())
    positions = [ind for val, ind in sorted((v, i) for (i, v) in ordering)]
    ax = group_data.boxplot(column=[col], by=[plot_by], ax=ax, positions=positions)

Nun, die ursprüngliche Frage wurde geschlossen, die seit Jahren, warum nicht fügen Sie eine neue Frage für diese Antwort? Geben Sie pandas 0.20+
War nicht sicher, wie die Etikette der Entsendung eine Frage dann beantwortet es sich selbst =/
das ist vollkommen ok. Auch in diesem Fall wünschenswert - diese Frage obsolet geworden ist, irgendwann von pandas 0.19

InformationsquelleAutor Cireo

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.