Tag: pandas

Pandas ist eine Python-Bibliothek für Panel-Daten-manipulation und-Analyse, z.B. mehrdimensionale Zeitreihen-und Querschnitts-Datensätzen, die üblicherweise in der Statistik, Ergebnisse der experimentellen Wissenschaft, ökonometrie oder finance. WICHTIG: Wenn Sie eine Frage stellen, die dieses tag enthält, Kennzeichnen Sie bitte Ihre Fragen: [python]; [pandas]; [dataframe]/[Reihe]; (optional) [groupby]/[merge]/etc. je nach Ihren spezifischen Anforderungen.

Anwenden von benutzerdefinierten Spalte, um (auf Kategorische) pandas boxplot?

Anzahl der Antworten 5 Antworten
EDIT: diese Frage stellte sich mit pandas ~0.13-und wurde überholt durch die direkte Unterstützung der irgendwo zwischen version 0.15-0.18 (als pro @Cireo die späte Antwort) Bekomme ich eine boxplot eines salary-Spalte in ein pandas DataFrame... train.boxplot(column='Salary', by='Category',

Seaborn Heatmap mit logarithmischer Maßstab colorbar

Anzahl der Antworten 3 Antworten
Gibt es eine Möglichkeit, die Farbe bar-Skala zu melden, die auf ein seaborn heat-map-Diagramm? Ich bin mit einer pivot-Tabelle-Ausgabe von pandas als Eingabe für den Aufruf sns.heatmap(df_pivot_mirror,annot=False,xticklabels=256,yticklabels=128,cmap=plt.cm.YlOrRd_r) Danke. InformationsquelleAutor fulatoro | 2016-04-27

Pandas: Summe von zwei boolean-Serie

Anzahl der Antworten 2 Antworten
In Python: In [1]: True+True Out[1]: 2 Also nach folgendem set-up: import pandas as pd ser1 = pd.Series([True,True,False,False]) ser2 = pd.Series([True,False,True,False]) Was ich will, ist das finden der element-wise Summe ser1 und ser2 mit den booleans behandelt

Konvertieren einer Spalte von pandas dataframe von float zu int

Anzahl der Antworten 1 Antworten
Wenn ich will, tun Sie den folgenden Befehl(gelernt von die andere Frage), es ist eine Warnung. Wie, diese Warnung zu vermeiden? df['Class'] = df['Class'].astype(int) /home/ubuntu/src/anaconda3/lib/Python ist3.5/site-packages/ipykernel/main.py:2: SettingWithCopyWarning: Ein Wert, versucht zu werden, auf eine Kopie von einer

Dichtemosaik von Geopandas GeoDataFame

Anzahl der Antworten 2 Antworten
Ich versuche, mich ein dichtemosaik von Polygonen in einem Geopandas GeoDataFrame. Ich möchte symbolisieren die Polygone durch die Quantile zu einem Wert in einer der GeoDataFrame Spalten. Ich versuche, herauszufinden, die verschiedenen Optionen und sehen, was am

Wie verwandeln Sie eine riesige CSV in SQLite mit Pandas?

Anzahl der Antworten 3 Antworten
Ich habe eine große Tabelle (über 60 GB) in form einer CSV-Datei archiviert. Ich möchte, um es zu transformieren in eine SQLite-Datei. Was ich im moment tun im folgenden: import pandas import sqlite3 cnx = sqlite3.connect('db.sqlite') df

Sortieren eines pandas DataMatrix-in aufsteigender Reihenfolge

Anzahl der Antworten 2 Antworten
Den pandas DataFrame-Objekt hat eine sort-Methode aber pandas DataMatrix-Objekt nicht. Was ist der beste Weg, um diese Art DataMatrix-Objekt per index (der Datum-Spalte) in aufsteigender Reihenfolge? >>> dm compound_ret 2/16/2011 0:00 0.006275682 2/15/2011 0:00 0.003098208 2/14/2011 0:00

Python: UserWarning: Dieses Muster hat match-Gruppen. Tatsächlich erhalten die Gruppen verwenden, str.Extrakt

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe und ich versuche, string, wo auf der Spalte enthalten, die einen string Df sieht aus wie member_id,event_path,event_time,event_duration 30595,"2016-03-30 12:27:33",yandex.ru/,1 30595,"2016-03-30 12:31:42",yandex.ru/,0 30595,"2016-03-30 12:31:43",yandex.ru/search/?lr=10738&msid=22901.25826.1459330364.89548&text=%D1%84%D0%B8%D0%BB%D1%8C%D0%BC%D1%8B+%D0%BE%D0%BD%D0%BB%D0%B0%D0%B9%D0%BD&suggest_reqid=168542624144922467267026838391360&csg=3381%2C3938%2C2%2C3%2C1%2C0%2C0,0 30595,"2016-03-30 12:31:44",yandex.ru/search/?lr=10738&msid=22901.25826.1459330364.89548&text=%D1%84%D0%B8%D0%BB%D1%8C%D0%BC%D1%8B+%D0%BE%D0%BD%D0%BB%D0%B0%D0%B9%D0%BD&suggest_reqid=168542624144922467267026838391360&csg=3381%2C3938%2C2%2C3%2C1%2C0%2C0,0 30595,"2016-03-30 12:31:45",yandex.ru/search/?lr=10738&msid=22901.25826.1459330364.89548&text=%D1%84%D0%B8%D0%BB%D1%8C%D0%BC%D1%8B+%D0%BE%D0%BD%D0%BB%D0%B0%D0%B9%D0%BD&suggest_reqid=168542624144922467267026838391360&csg=3381%2C3938%2C2%2C3%2C1%2C0%2C0,0 30595,"2016-03-30 12:31:46",yandex.ru/search/?lr=10738&msid=22901.25826.1459330364.89548&text=%D1%84%D0%B8%D0%BB%D1%8C%D0%BC%D1%8B+%D0%BE%D0%BD%D0%BB%D0%B0%D0%B9%D0%BD&suggest_reqid=168542624144922467267026838391360&csg=3381%2C3938%2C2%2C3%2C1%2C0%2C0,0 30595,"2016-03-30 12:31:49",kinogo.co/,1 30595,"2016-03-30 12:32:11",kinogo.co/melodramy/,0

konvertieren pandas series float zu int

Anzahl der Antworten 1 Antworten
Ich bin Diskretisierung von meiner Serie für einen Anfänger. Ich brauche wirklich die Serie für die float -, und ich wirklich Notwendigkeit der Vermeidung von for-Schleifen. Wie konvertiere ich diese Serie von float nach int? Hier ist

Pandas: Holen Sie sich entsprechende Spalte Wert in der Zeile basierend auf eindeutigen Wert

Anzahl der Antworten 1 Antworten
Ich habe herausgefunden, wie man die Informationen, die ich will, aber ich wäre überrascht, wenn es nicht eine besser lesbare Möglichkeit, dies zu tun. Ich möchte den Wert in einer anderen Spalte in der Zeile mit den

Entfernung berechnen, zur Nächsten Funktion mit Geopandas

Anzahl der Antworten 2 Antworten
Ich bin auf der Suche nach der Entsprechung des ArcPy Erzeugen Sie In Der Nähe Von Tabelle mit Geopandas /Formschöne. Ich bin sehr neu in Geopandas und Formschöne und haben eine Methodik entwickelt, die funktioniert, aber ich

Python, Wie zu finden, Durchschnitt von Spalten mit dataframes-Methode anwenden

Anzahl der Antworten 5 Antworten
Dies ist eine Frage, auf Udacity Daten Wissenschaft Nanodegree und ich kann ' T es herausfinden. Die Anweisungen sind: Verwenden Sie das dataframe ' s Methode anwenden, erstellen Sie eine neue Serie namens avg_medal_count zeigt, dass die

Datetime in pandas dataframe wird nicht subtrahieren von jeder anderen

Anzahl der Antworten 3 Antworten
Ich bin auf der Suche nach dem Unterschied der Zeiten zwischen zwei Spalten in ein pandas dataframe sowohl im datetime-format. Nachfolgend finden Sie einige der Daten im dataframe und der code, den ich verwendet wurde. Ich habe

Erstellen pandas DataFrame iterativ

Anzahl der Antworten 2 Antworten
Bin ich die Liste erstellen Sie wie folgt: myList = for i in range(0,10): val0 = 1 # some formula for obtaining values val1 = 2.5 val2 = 1.8 myList.append([val0,val1,val2]) Wie kann ich die Schleife für

anfügen der Daten an bereits vorhandene Tabelle in pandas mit to_sql

Anzahl der Antworten 1 Antworten
Habe ich die folgenden Daten-frame ipdb> csv_data country sale date trans_factor 0 India 403171 12/01/2012 1 1 Bhutan 394096 12/01/2012 2 2 Nepal super 12/01/2012 3 3 madhya 355883 12/01/2012 4 4 sudan man 12/01/2012 5 Ab

Grundstück pandas DataFrame mit Bedingung Spalten

Anzahl der Antworten 1 Antworten
Ich habe diese Art von pandas.DataFrame. "a","b" sind die Bedingungen, wenn man "x" und "y". df = pd.DataFrame([[10,20,0,.1], [10,20,1,.5], [100,200,0,.33], [100,200,1,.11]], columns=["a", "b", "x", "y"]) df Muss ich plot-Diagramme der (x,y) - Säule mit Bezug auf den

Pandas Erstellen-Daten-Frame-Spalte aus Liste

Anzahl der Antworten 1 Antworten
Die folgende Liste: list=['a','b','c'] Ich möchte einen Daten-frame, wo die Liste ist die Spalte mit Werten. Ich würde gerne den header "header". Wie diese: header a b c Vielen Dank im Voraus! InformationsquelleAutor Dance Party | 2016-05-26

Pandas und Python ist3.4 co-Existenz mit Python 2.7

Anzahl der Antworten 3 Antworten
Ich habe pandas installiert mit python2.7. Ich habe auch python 3.4 installiert. Kann ich nicht laden pandas in Python ist3 Python 3.4.1 (v3.4.1:c0e311e010fc, May 18 2014, 00:54:21) [GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin

Plot-Linien in verschiedenen Farben von color dictionary in Python

Anzahl der Antworten 1 Antworten
Ich versuche, die Handlung der Weg von 15 verschiedenen Stürme auf einer Karte in 15 verschiedenen Farben. Die Farbe des Pfades abhängen soll der name des Sturms. Zum Beispiel, wenn der Sturm name ist AUDREY, die Farbe

pandas gesamte Zählung in dataframe

Anzahl der Antworten 1 Antworten
Ich habe einen DataFrame, und ich bin mit .aggregate({'col1': np.sum}) diese führen eine Summierung der Werte in col1 und aggregieren Sie Sie zusammen. Ist es möglich, eine Zählung, so etwas wie .aggregate({'col1': some count function here})? {'col1':

Balkendiagramm mit mehreren labels

Anzahl der Antworten 3 Antworten
Folgende code zeigt nur die Haupt-Kategorie ['eins', 'zwei', 'drei', 'vier', 'fünf', 'sechs'] als x-Achsen Beschriftung. Gibt es eine Möglichkeit zeigen Unterkategorie ['A', 'B', 'C', 'D'], die als sekundäre x-Achsen Beschriftung? df = pd.DataFrame(np.random.rand(6, 4), index=['one', 'two', 'three',

pandas-Inkrement-Wert der Zelle von dataframe mit gemischten Spaltentypen

Anzahl der Antworten 1 Antworten
Ich würde gerne Inkrement eine Zelle von einem dataframe: from pandas import DataFrame foo = DataFrame([[1,'a'],[2,'b'],[3,'c']],columns=['a','z']) foo.ix[0,['a']] += 1 welche gibt die folgende Fehlermeldung: --------------------------------------------------------------------------- TypeError Traceback (most recent call last) <ipython-input-141-cf9b905bd544> in <module>() 1 foo =

Pandas Dataframe line-plot-Anzeige, Datum auf der x-Achse

Anzahl der Antworten 1 Antworten
Vergleichen Sie den folgenden code: test = pd.DataFrame({'date':['20170527','20170526','20170525'],'ratio1':[1,0.98,0.97]}) test['date'] = pd.to_datetime(test['date']) test = test.set_index('date') ax = test.plot() Fügte ich DateFormatter am Ende: test = pd.DataFrame({'date':['20170527','20170526','20170525'],'ratio1':[1,0.98,0.97]}) test['date'] = pd.to_datetime(test['date']) test = test.set_index('date') ax = test.plot() ax.xaxis.set_minor_formatter(dates.DateFormatter('%d\n\n%a')) ## Added

pandas Kreisdiagramm Grundstück entfernen Sie das Etikett text auf den Keil

Anzahl der Antworten 1 Antworten
Kreisdiagramm Beispiel auf pandas zeichnen tutorial http://pandas.pydata.org/pandas-docs/version/0.15.0/visualization.html generiert die folgende Abbildung: mit diesem code: import matplotlib.pyplot as plt plt.style.use('ggplot') import numpy as np np.random.seed(123456) import pandas as pd df = pd.DataFrame(3 * np.random.rand(4, 2), index=['a', 'b', 'c',

Konvertieren Pandas DataFrame Spalte Von String zu Int-Basierend auf Bedingten

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe, der aussieht wie df viz a1_count a1_mean a1_std n 3 2 0.816497 y 0 NaN NaN n 2 51 50.000000 Ich konvertieren wollen die "viz" - Spalte auf 0 und 1, basierend auf

Pandas DataFrame.merge MemoryError

Anzahl der Antworten 2 Antworten
Ziel Mein Ziel ist es, Zusammenführen von zwei DataFrames durch Ihre gemeinsame Spalte (gen-Namen), so kann ich ein Produkt jedes gen score über jedes gen Reihe. Ich würde dann einen groupby auf Patienten und Zellen und der

AttributeError: 'DataFrame' - Objekt hat kein Attribut

Anzahl der Antworten 2 Antworten
Ich immer unterschiedliche attribute Fehler beim ausführen dieser Datei in ipython...Anfänger mit pandas also vielleicht bin ich etwas fehlt Code: from pandas import Series, DataFrame import pandas as pd import json nan=float('NaN') data = with open('file.json')

Fehler Installation mit pip

Anzahl der Antworten 2 Antworten
Versuchen, ein Paket zu deinstallieren installiert mit pip, die ich deinstallieren einige und jetzt pip nicht funktionieren. Ich versuche zu installieren pandas: [sudo] pip install pandas - Und dies ist der Fehler: Requirement already satisfied (use --upgrade

Tut pandas iterrows haben performance Probleme?

Anzahl der Antworten 5 Antworten
Habe ich bemerkt, eine sehr schlechte Leistung bei Verwendung von iterrows von pandas. Ist das etwas, was von anderen erfahren? Ist es spezifisch für iterrows und sollte diese Funktion erspart werden, Daten von einer bestimmten Größe (ich

Berechnen Sie die Korrelation zwischen allen Spalten des DataFrame und alle Spalten von einem anderen DataFrame?

Anzahl der Antworten 3 Antworten
Ich habe einen DataFrame-Objekt stocks gefüllt mit Lager zurück. Ich habe ein anderes DataFrame-Objekt industries gefüllt mit der Industrie gibt. Ich möchte jede Aktie der Korrelation mit der jeweiligen Branche. import numpy as np np.random.seed(123) df1=pd.DataFrame( {'s1':np.random.randn(10000),

So entfernen Sie die letzten zwei Ziffern in einer Spalte vom Typ integer?

Anzahl der Antworten 2 Antworten
Wie kann ich entfernen Sie die letzten beiden Ziffern der DataFrame Spalte des Typs int64? Beispielsweise df['DATE'] umfasst: DATE 20110708 20110709 20110710 20110711 20110712 20110713 20110714 20110815 20110816 20110817 Was ich möchte ist: DATE 201107 201107 201107

Wie übergeben Sie mehrere Argumente an die Funktion anwenden

Anzahl der Antworten 2 Antworten
Habe ich eine Methode namens " zählen, nimmt 2 Argumente an. Ich muss diese Methode aufrufen, mithilfe der apply () - Methode. Allerdings, wenn ich übergeben Sie die zwei Parameter an die Methode anwenden es gibt die

pandas, matplotlib, verwenden Sie dataframe index als Beschriftung der hilfsstriche

Anzahl der Antworten 3 Antworten
Ich bin mit matplotlib ist imshow() Funktion zu zeigen pandas.DataFrame. Möchte ich die Etiketten und die hilfsstriche für x-und y-Achsen gezeichnet werden, aus dem DataFrame.index und DataFrame®.Spalten Listen, aber ich kann nicht herausfinden, wie es zu tun.

Wie man ein Pandas DataFrame, die durch den index?

Anzahl der Antworten 2 Antworten
Wenn es einen DataFrame, wie die folgenden: import pandas as pd df = pd.DataFrame([1, 1, 1, 1, 1], index=[100, 29, 234, 1, 150], columns=['A']) Wie kann ich die Sortierung dieser dataframe, die durch den index mit jeder

Pandas: .groupby().size() und Prozentsätze

Anzahl der Antworten 1 Antworten
Ich habe einen DataFrame, der stammt aus einem df.groupby().size() Betrieb, und sieht wie folgt aus: Localization RNA level cytoplasm 1 Non-expressed 7 2 Very low 13 3 Low 8 4 Medium 6 5 Moderate 8 6 High

Pandas: Benennen Sie einzelne DataFrame Spalte, ohne zu wissen, Spalte name

Anzahl der Antworten 1 Antworten
Ich weiß, ich kann umbenennen einzigen pandas.DataFrame Spalten mit: drugInfo.rename(columns = {'col_1': 'col_1_new_name'}, inplace = True) Aber ich würde mich gerne umbenennen einer Spalte, ohne zu wissen, seinen Namen (basierend auf dem index - ich weiß zwar,

StringIO und pandas read_csv

Anzahl der Antworten 1 Antworten
Ich versuche zu mischen, StringIO und BytesIO mit pandas und kämpfen mit ein paar grundlegenden Sachen. Zum Beispiel, ich kann nicht "Ausgang" unten zu arbeiten, in der Erwägung, dass "output2" weiter unten funktioniert. Aber "Ausgang" ist näher

Erkennen und ausschließen von Ausreißern in der Pandas-Daten-frame

Anzahl der Antworten 17 Antworten
Habe ich ein pandas dataframe mit wenigen Spalten. Jetzt weiß ich, dass gewisse Zeilen sind-Ausreißer, basierend auf einer bestimmten Spalte Wert. Beispielsweise Spalten - 'Vol' hat alle Werte um 12xx und ein Wert 4000 (Ausreißer). Nun würde

Im HDF5 mehr Raum einnimmt als CSV?

Anzahl der Antworten 1 Antworten
Betrachten Sie das folgende Beispiel: Vorbereiten der Daten: import string import random import pandas as pd matrix = np.random.random((100, 3000)) my_cols = [random.choice(string.ascii_uppercase) for x in range(matrix.shape[1])] mydf = pd.DataFrame(matrix, columns=my_cols) mydf['something'] = 'hello_world' , Die höchstmögliche

Zusammenführen und Subtraktion DataFrame Spalten in pandas?

Anzahl der Antworten 3 Antworten
Habe ich ein pandas DataFrame, so etwas wie: col1 col2 col3 col5 NaN 1 2 8 2 NaN 4 8 4 NaN 4 8 Möchte ich zwei Dinge tun: 1) Verschmelzen, Spalten 1 und 2: newcol1 col3

Erstellen Perzentil Eimer in der pandas

Anzahl der Antworten 1 Antworten
Ich versuche zu klassifizieren, meine Daten in % - Perzentil Eimer basierend auf Ihren Werten. Meine Daten aussieht, a = pnd.DataFrame(index = ['a','b','c','d','e','f','g','h','i','j'], columns=['data']) a.data = np.random.randn(10) print a print '\nthese are ranked as shown' print a.rank()

Pandas read_csv ignorieren Spalte dtypes wenn ich den pass skip_footer arg

Anzahl der Antworten 2 Antworten
Wenn ich versuche zu importieren einer csv-Datei in ein pandas dataframe (0.13.1) ist die Nichtbeachtung der dtype-parameter. Gibt es eine Möglichkeit zu stoppen pandas aus der Herleitung der Datentyp, auf seine eigene? Ich bin die Zusammenlegung mehrerer

Python pandas Spalte Reihenfolge nach den Werten in einer Zeile

Anzahl der Antworten 4 Antworten
Wie kann ich die Reihenfolge der Spalten nach den Werten der letzten Zeile? In dem folgenden Beispiel, meine Letzte df werden die Spalten in der folgenden Reihenfolge: 'ddd' 'aaa' 'ppp' 'fff'. >>> df = DataFrame(np.random.randn(10, 4), columns=['ddd',

Gruppe durch und finden Sie top-n-value_counts pandas

Anzahl der Antworten 2 Antworten
Habe ich ein dataframe von taxi-Daten mit zwei Spalten, die wie folgt aussieht: Neighborhood Borough Time Midtown Manhattan X Melrose Bronx Y Grant City Staten Island Z Midtown Manhattan A Lincoln Square Manhattan B Grundsätzlich, jede Zeile

pandas Grundstück dataframe barplot mit Farben nach Kategorie

Anzahl der Antworten 1 Antworten
Möchte ich nutzen, pandas, zeichnen ein barplot mit verschiede Farben für Kategorien in der Spalte. Hier ist ein einfaches Beispiel: (index-variable) df: value group variable a 10 1 b 9 1 c 8 1 d 7 2

Serialisierung eines pandas DataFrame

Anzahl der Antworten 3 Antworten
Gibt es eine schnelle Möglichkeit der Serialisierung eines DataFrame? Habe ich ein grid-system ausgeführt werden können pandas Analyse parallel. Am Ende, ich will sammeln alle Ergebnisse (als DataFrame) aus jeder grid-job und aggregieren Sie Sie in einen

pandas DataFrame Diagonale

Anzahl der Antworten 3 Antworten
Was ist ein effizienter Weg, um die Diagonale eines Quadrats DataFrame. Ich würde erwarten, dass das Ergebnis ein Series mit einem MultiIndex mit zwei Ebenen, die erste ist die index der DataFrame der zweiten Ebene werden die

python 2.7 Modul pandas nicht installieren "cannot import name hashtable"

Anzahl der Antworten 4 Antworten
Ich habe versucht, auf der Suche nach einer Antwort auf diese rund um das forum/google, aber ich kann nichts finden. Mein Problem ist dieser (aus python-Konsole): >>> import pandas cannot import name hashtable Traceback (most recent call

Am schnellsten Datei-format für read/write-Operationen mit Pandas und/oder Numpy

Anzahl der Antworten 4 Antworten
Ich arbeite seit einer Weile mit sehr großen DataFrames und ich habe mit dem csv-format zum speichern von Eingabedaten und der Ergebnisse. Ich habe bemerkt, dass viel Zeit ins Lesen und schreiben diese Dateien, die, zum Beispiel,

Wie zum extrahieren von einem bestimmten Wert aus der OLS-Zusammenfassung in Pandas?

Anzahl der Antworten 2 Antworten
ist es möglich, dass andere Werte (derzeit kenne ich nur einen Weg, um beta-und Achsenabschnitt) aus der Zusammenfassung der linearen regression in pandas? Ich brauche, um R-Quadrat. Hier ein Auszug aus dem Handbuch: In [244]: model =