Pandas: .groupby().size() und Prozentsätze

Ich habe einen DataFrame, der stammt aus einem df.groupby().size() Betrieb, und sieht wie folgt aus:

Localization                           RNA level      
cytoplasm                              1 Non-expressed     7
                                       2 Very low         13
                                       3 Low               8
                                       4 Medium            6
                                       5 Moderate          8
                                       6 High              2
                                       7 Very high         6
cytoplasm & nucleus                    1 Non-expressed     5
                                       2 Very low          8
                                       3 Low               2
                                       4 Medium           10
                                       5 Moderate         16
                                       6 High              6
                                       7 Very high         5
cytoplasm & nucleus & plasma membrane  1 Non-expressed     6
                                       2 Very low          3
                                       3 Low               3
                                       4 Medium            7
                                       5 Moderate          8
                                       6 High              4
                                       7 Very high         1

Was ich will zu tun ist, um die Berechnung der getrennten vorkommen (d.h. die Letzte Spalte aus .size()) als Prozentsatz der Gesamtanzahl der vorkommen in den geltenden Localization.

Zum Beispiel: es gibt insgesamt 50 vorkommen in der cytoplasm Lokalisierung (7 + 13 + 8 + 6 + 8 + 2 + 6), nachgeben, 14 und 26 % für die Non-expressed und Very low RNA-levels, respectively.

Ist es ein schöner Weg, dies zu tun? Ich habe schon darüber mit, was ich denke, ist ein sehr Umweg, D. H. einen neuen DataFrame für jeden Localization und arbeiten von dort aus, aber es gibt eine Menge von Linien und das problem, dass Sie alle verbinden die daraus resultierenden DataFrames in die Ende. Ich hoffe, es gibt eine intelligentere Art und Weise, es zu tun, mindestens!

InformationsquelleAutor erikfas | 2014-05-13

Hier ist das komplette Beispiel basiert auf pandas groupby, Summe Funktionen.
Die grundlegende Idee ist die Gruppierung von Daten basierend auf 'Localization' und anwenden einer Funktion auf die Gruppe.

import pandas as pd
from StringIO import StringIO
#For Python 3: from io import StringIO

data = \
"""Localization,RNA level,Size
cytoplasm                            ,1 Non-expressed, 7
cytoplasm                            ,2 Very low     ,13
cytoplasm                            ,3 Low          , 8
cytoplasm                            ,4 Medium       , 6
cytoplasm                            ,5 Moderate     , 8
cytoplasm                            ,6 High         , 2
cytoplasm                            ,7 Very high    , 6
cytoplasm & nucleus                  ,1 Non-expressed, 5
cytoplasm & nucleus                  ,2 Very low     , 8
cytoplasm & nucleus                  ,3 Low          , 2
cytoplasm & nucleus                  ,4 Medium       ,10
cytoplasm & nucleus                  ,5 Moderate     ,16
cytoplasm & nucleus                  ,6 High         , 6
cytoplasm & nucleus                  ,7 Very high    , 5
cytoplasm & nucleus & plasma membrane,1 Non-expressed, 6
cytoplasm & nucleus & plasma membrane,2 Very low     , 3
cytoplasm & nucleus & plasma membrane,3 Low          , 3
cytoplasm & nucleus & plasma membrane,4 Medium       , 7
cytoplasm & nucleus & plasma membrane,5 Moderate     , 8
cytoplasm & nucleus & plasma membrane,6 High         , 4
cytoplasm & nucleus & plasma membrane,7 Very high    , 1"""

# Create the dataframe
df = pd.read_csv(StringIO(data))
df['Localization'].str.strip()
df['RNA level'].str.strip()
df['Size'].astype(int)
df['Percent'] = df.groupby('Localization')['Size'].transform(lambda x: x/sum(x))

sollten Sie verwenden df['RNA level'].str.strip() für Vektorgrafik-string-Reinigung (statt Wandler), und df['Size'].astype(int) für vektorisierte int Konvertierungen
Ihre groupby kann reduziert werden, nach unten zu: df.groupby('Localization')['Size'].transform(lambda x: x/len(x))
Du meinst df.groupby('Localization')['Size'].transform(lambda x: x/sum(x))
ja..sorry..das ist richtig
Danke, das war es!

InformationsquelleAutor Guillaume Jacquenot

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.