Tag: pandas
Pandas ist eine Python-Bibliothek für Panel-Daten-manipulation und-Analyse, z.B. mehrdimensionale Zeitreihen-und Querschnitts-Datensätzen, die üblicherweise in der Statistik, Ergebnisse der experimentellen Wissenschaft, ökonometrie oder finance. WICHTIG: Wenn Sie eine Frage stellen, die dieses tag enthält, Kennzeichnen Sie bitte Ihre Fragen: [python]; [pandas]; [dataframe]/[Reihe]; (optional) [groupby]/[merge]/etc. je nach Ihren spezifischen Anforderungen.
2
Antworten
Habe ich Folgendes DataFrame von einer SQL-Abfrage: (Pdb) pp total_rows ColumnID RespondentCount 0 -1 2 1 3030096843 1 2 3030096845 1 und ich will pivot es so: total_data = total_rows.pivot_table(cols=['ColumnID']) (Pdb) pp total_data ColumnID -1 3030096843 3030096845
6
Antworten
Habe ich ein pandas dataframe im folgenden format: df = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list('AAABBBBABCBDDD'), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8], ['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w'],['1','3','3','2','4','2','5','3','6','3','5','1','1','1']]).T df.columns = ['col1','col2','col3','col4','col5'] df: col1 col2 col3 col4 col5 0 1.1 A 1.1
5
Antworten
Ich habe eine CSV-Datei "value.txt" mit folgendem Inhalt: die ersten paar Zeilen der Datei sind : Date,"price","factor_1","factor_2" 2012-06-11,1600.20,1.255,1.548 2012-06-12,1610.02,1.258,1.554 2012-06-13,1618.07,1.249,1.552 2012-06-14,1624.40,1.253,1.556 2012-06-15,1626.15,1.258,1.552 2012-06-16,1626.15,1.263,1.558 2012-06-17,1626.15,1.264,1.572 In R können wir diese Datei zu Lesen, in mit price <- read.csv("value.txt")
1
Antworten
Ich habe zwei pandas dataframes nannte man 'Aufträge' und ein anderer namens 'daily_prices'. daily_prices ist wie folgt: AAPL GOOG IBM XOM 2011-01-10 339.44 614.21 142.78 71.57 2011-01-13 342.64 616.69 143.92 73.08 2011-01-26 340.82 616.50 155.74 75.89 2011-02-02
3
Antworten
Möchte ich alle Spaltenüberschriften in meine pandas data frame Kleinschreibung Beispiel Wenn ich: data = country country isocode year XRAT tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 957299.91586 2 Canada CAN 2003
6
Antworten
Lud ich eine Datei in Google spreadsheets (auf einem öffentlich zugänglichen Beispiel IPython-Notebook, mit Daten) war ich mit der Datei in seiner ursprünglichen form gelesen werden konnte in ein Pandas Dataframe. Also ich benutze jetzt folgenden code
2
Antworten
Habe ich einen Daten-frame, von dem ich entfernen Sie einige Zeilen. Als Ergebnis bekomme ich einen Daten-frame in dem index ist so etwas wie die: [1,5,6,10,11] und ich möchte es zurücksetzen zu [0,1,2,3,4]. Wie kann ich es
2
Antworten
Hier ist mein code: import pandas as pd data = pd.DataFrame({'Odd':[1,3,5,6,7,9], 'Even':[0,2,4,6,8,10]}) for i in reversed(data): print(data['Odd'], data['Even']) Wenn ich diesen code ausführen, bekomme ich folgende Fehlermeldung: Traceback (most recent call last): File "C:\Python33\lib\site-packages\pandas\core\generic.py", line 665, in
4
Antworten
Habe ich einen wirklich großen csv-Datei, die ich geöffnet in pandas wie folgt.... import pandas df = pandas.read_csv('large_txt_file.txt') Sobald ich das meine Arbeitsspeicher-Auslastung steigt von 2 GB, was ist zu erwarten, denn diese Datei enthält Millionen von
2
Antworten
Die Daten, die ich habe, mit zu arbeiten ist ein bisschen chaotisch.. Es hat header-Namen innerhalb Ihrer Daten. Wie kann ich wählen Sie eine Zeile aus einem vorhandenen pandas dataframe und machen (umbenennen) die Kopfzeile einer Spalte?
3
Antworten
Ich habe einen DataFrame wie diese: In [7]: frame.head() Out[7]: Communications and Search Business General Lifestyle 0 0.745763 0.050847 0.118644 0.084746 0 0.333333 0.000000 0.583333 0.083333 0 0.617021 0.042553 0.297872 0.042553 0 0.435897 0.000000 0.410256 0.153846 0
4
Antworten
Ich bin gefragt wird, erzeugen einige Excel-Berichte. Ich bin derzeit mit den pandas sehr stark für meine Daten, also natürlich würde ich gerne die pandas.ExcelWriter Methode zum generieren dieser Berichte. Aber die Feste Spaltenbreiten sind ein problem.
6
Antworten
Ich bin nur bewusst describe() Funktion. Gibt es irgendwelche anderen Funktionen ähnlich str()summary()und head()? InformationsquelleAutor der Frage megashigger | 2014-12-24
4
Antworten
Ich lese eine csv-Datei und geschwenkt, um Sie zu erhalten, um folgende Struktur: pivoted = df.pivot('user_id', 'group', 'value') lookup = df.drop_duplicates('user_id')[['user_id', 'group']] lookup.set_index(['user_id'], inplace=True) result = pivoted.join(lookup) result = result.fillna(0) Abschnitt das Ergebnis: 0 1 2 3
2
Antworten
Mit dem folgenden code: import matplotlib matplotlib.style.use('ggplot') import matplotlib.pyplot as plt import pandas as pd df = pd.DataFrame({ 'celltype':["foo","bar","qux","woz"], 's1':[5,9,1,7], 's2':[12,90,13,87]}) df = df[["celltype","s1","s2"]] df.set_index(["celltype"],inplace=True) df.plot(kind='bar',alpha=0.75) plt.xlabel("") Ich aus diesem plot: Wie kann ich drehen Sie die
1
Antworten
Ich habe einen dataframe mit den Spalten A,B. Ich brauche zum erstellen einer Spalte C so dass für jeden Datensatz /Zeile: C = max(A, B). Wie gehe ich dabei vor? Dank. InformationsquelleAutor der Frage Navneet | 2012-08-28
2
Antworten
Ich habe einen Pandabären Daten frame-Objekt der Form (X,Y), die wie folgt aussieht: [[1, 2, 3], [4, 5, 6], [7, 8, 9]] und ein numpy sparse matrix (CSC) der Form (X,Z), die wie folgt aussieht [[0, 1,
3
Antworten
Ich habe eine Menge von dataframes erstellt, als Teil der Vorverarbeitung. Da habe ich begrenzt, 6GB ram, ich will löschen Sie alle unnötigen dataframes aus dem RAM zu vermeiden, läuft der Arbeitsspeicher beim ausführen GRIDSEARCHCV in scikit-learn.
4
Antworten
In Pandas, wenn ich wählen Sie ein label, dass nur ein Eintrag in den index bekomme ich wieder eine Serie, aber wenn ich wählen Sie einen Eintrag, der mehr als einen Eintrag, den ich wieder einen Daten-frame.
8
Antworten
CSV-Datei, die ich Lesen will nicht passen in Hauptspeicher. Wie kann ich Lesen Sie ein paar (~10K) zufällige Linien und einige einfache Statistiken für die ausgewählten Daten-frame? InformationsquelleAutor der Frage P.Escondido | 2014-03-07
2
Antworten
Standard-Ausgabe-format von to_csv() ist: 12/14/2012 12:00:00 AM Ich kann nicht herausfinden, wie die Ausgabe nur das Datum Teil mit spezifischen format: 20121214 oder Datum und Uhrzeit in zwei getrennten Spalten in der csv-Datei: 20121214, 084530 In der
7
Antworten
Die Python-Bibliothek, pandas Lesen kann Excel-Tabellen und konvertiert Sie in ein pandas.DataFrame mit pandas.read_excel(file) Befehl. Unter der Haube, verwendet er xlrd Bibliothek, die nicht unterstützt ods-Dateien. Gibt es ein äquivalent von pandas.read_excel für ods-Dateien? Wenn nicht, wie
2
Antworten
Möchte ich anfügen eine Zeichenfolge an den Anfang einer jeden Wert in einer der besagten Spalte ein pandas dataframe (aus). Ich habe bereits herausgefunden, wie Art, dies zu tun und ich bin derzeit mit: df.ix[(df['col'] != False),
3
Antworten
Sagen, ich habe eine Tabelle mit Daten 1 2 3 4 5 6 .. n A x x x x x x .. x B x x x x x x .. x C x x x
1
Antworten
Lerne ich Python pandas-Bibliothek. Aus einem R-hintergrund, die Indizierung und Auswahl von Funktionen scheinen komplizierter als Sie sein müssen. Mein Verständnis ist es, dass .loc() ist nur label basiert und .iloc() nur integer-basiert. Warum sollte ich jemals
3
Antworten
Ich arbeite mit einer großen csv-Datei und die vorletzte Spalte ist ein string der text, den ich aufteilen will, die durch ein bestimmtes Trennzeichen. Ich Frage mich, ob es eine einfache Möglichkeit, dies zu tun mit pandas
4
Antworten
Ich würde gerne eine Spalte in einem Pandabären-Daten-frame, der eine Ganzzahl-Darstellung der Anzahl der Tage in einer timedelta-Spalte. Ist es möglich, 'datetime.Tagen " oder muss ich etwas tun, mehr Anleitung? timedelta Spalte 7 Tage, 23:29:00 Tag integer-Spalte
2
Antworten
Erstellen Sie eine Tag-der-Woche-Spalte in ein Pandas dataframe mit Python Würd ich gern Lesen einer csv-Datei in ein pandas dataframe, analysieren eine Spalte mit Datumsangaben aus dem string-format in ein date-Objekt, und erstellen Sie dann eine neue
2
Antworten
Ich habe eine dataFrame in pandas und mehrere Spalten haben, werden alle null-Werte. Gibt es eine eingebaute Funktion, die lassen Sie mich entfernen Sie diese Spalten? Danke! InformationsquelleAutor der Frage shelly | 2012-06-01
3
Antworten
Ich bin auf der Suche zu verringern, die Dichte der hilfsstrichbeschriftungen auf unterschiedlichen Nebenhandlung import pandas as pd import matplotlib.pyplot as plt import matplotlib.gridspec as gridspec from StringIO import StringIO data = """\ a b c d
3
Antworten
Habe ich folgende 2 Daten-frames: df_a = mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 df_b = mukey niccdcd 0 190236 4
5
Antworten
Habe ich zwei DataFrames, die ich Zusammenführen möchten, basierend auf einer Spalte. Jedoch, aufgrund von alternativen Schreibweisen, unterschiedliche Anzahl von Leerzeichen, die Abwesenheit/Anwesenheit von diakritischen Zeichen, ich möchte in der Lage sein zu verschmelzen, solange Sie einander
8
Antworten
Will ich zu finden, alle Werte in ein Pandas dataframe, die Leerzeichen enthalten darf (in beliebiger Menge), und ersetzen Sie diese Werte mit NaN. Irgendwelche Ideen, wie dieses verbessert werden kann? Grundsätzlich möchte ich drehen: A B
2
Antworten
Ich Umgerechnet ein pandas dataframe um eine html-Ausgabe, die DataFrame.to_html Funktion. Wenn ich speichern Sie diese auf einer separaten html-Datei, die Datei zeigt die Ausgabe abgeschnitten. Zum Beispiel in meinem TEXT-Spalte, df.head(1) zeigen Der film war ein
6
Antworten
Ich bin erstellen Sie ein dataframe von einer csv wie folgt: stock = pd.read_csv('data_in/' + filename + '.csv', skipinitialspace=True) Den dataframe hat eine Spalte Datum. Gibt es eine Möglichkeit, erstellen Sie ein neues dataframe (oder eben überschreiben
4
Antworten
Ich bin mit python pandas-Daten-frame , habe ich eine erste Daten-frame sagen, D. ich nutze zwei Daten-frames von es so: A = D[D.label == k] B = D[D.label != k] Wechsel ich dann die label A und
3
Antworten
Ist es möglich, hinzufügen von QuickInfos zu einem Timeseries-Diagramm? In der vereinfachten code-Beispiel unten möchte ich sehen, eine einzelne Spalte name ('a','b' oder 'c'), wenn der Mauszeiger über die entsprechende Zeile. Stattdessen ein "???" wird angezeigt, und
2
Antworten
Arbeite ich mit survey-Daten geladen, aus einem h5-Datei als hdf = pandas.HDFStore('Survey.h5') durch die pandas Paket. Innerhalb dieser DataFrame alle Zeilen sind die Ergebnisse einer einzigen Umfrage, in der Erwägung, dass die Spalten sind die Antworten für
2
Antworten
Lassen Sie uns davon ausgehen, dass ich eine XML wie diese: <author type="XXX" language="EN" gender="xx" feature="xx" web="foobar.com"> <documents count="N"> <document KEY="e95a9a6c790ecb95e46cf15bee517651" web="www.foo_bar_exmaple.com"><![CDATA[A large text with lots of strings and punctuations symbols [...] ]]> </document> <document KEY="bc360cfbafc39970587547215162f0db" web="www.foo_bar_exmaple.com"><![CDATA[A
5
Antworten
Habe ich ein Pandabären-Daten-frame, der eine der Spalten enthält Datumsangaben im format 'YYYY-MM-DD' z.B. '2013-10-28'. Im moment die dtype der Spalte "Objekt". Wie wandle ich die Werte in der Spalte Pandas Datum format? InformationsquelleAutor der Frage user7289
16
Antworten
Bin ich mit den Pandas Paket und es entsteht ein DataFrame-Objekt, das ist im Grunde eine matrix beschriftet. Oft habe ich Spalten mit einem langen string-Felder, oder dataframes mit vielen Spalten, also die einfachen print-Befehl funktioniert nicht
2
Antworten
Habe ich Folgendes DataFrame: a b c b 2 1 2 3 5 4 5 6 Wie Sie sehen können, Spalte b wird verwendet als index. Ich möchte die Ordnungszahl der Zeile Erfüllung ('b' == 5)in diesem
3
Antworten
Will ich suchen von Zeilen, die eine Zeichenfolge enthalten, etwa so: DF[DF.col.str.contains("foo")] Dies schlägt jedoch fehl, weil einige Elemente sind NaN: ValueError: keine index-Vektor mit NA /NaN-Werte Also ich resort zu den verborgenen DF[DF.col.notnull()][DF.col.dropna().str.contains("foo")] Gibt es eine
2
Antworten
In python, wie kann ich die Referenz der vorherigen Reihe und berechnen Sie etwas gegen ihn? Speziell arbeite ich mit dataframes im pandas - ich habe einen Daten-frame voll von Kursinformationen, die wie folgt aussieht: Date Close
4
Antworten
Werde ich konvertieren eine Django-QuerySet eines pandas DataFrame wie folgt: qs = SomeModel.objects.select_related().filter(date__year=2012) q = qs.values('date', 'OtherField') df = pd.DataFrame.from_records(q) Funktioniert es, aber gibt es da eine effizientere Möglichkeit? InformationsquelleAutor der Frage Franco Mariluis | 2012-07-28
3
Antworten
Ist es möglich, zum Anhängen an eine leere Daten-frame, der enthält keine Indizes oder Spalten? Habe ich versucht, dies zu tun, aber halten Sie immer eine leere dataframe am Ende. z.B. df = pd.DataFrame() data = ['some
2
Antworten
Habe ich ein pandas dataframe mit einer Spalte mit dem Namen 'Stadt, Staat, Land'. Ich trennen möchte diese Spalte in drei Spalten, die 'Stadt 'Staat' und 'Land'. 0 HUN 1 ESP 2 GBR 3 ESP 4 FRA
4
Antworten
Wenn ich mir die Plotten Stil in der Pandas-Dokumentationdie Parzellen unterscheiden sich von der Standard-Einstellung. Es scheint zu imitieren, die ggplot "look and feel". Gleiche mit der seaborn ' s package. Wie kann ich laden, der Stil?
1
Antworten
Habe ich einen Daten-frame, das aussieht wie dieses: company Amazon Apple Yahoo name A 0 130 0 C 173 0 0 Z 0 0 150 Es wurde erstellt mit diesem code: import pandas as pd df =
3
Antworten
Ich brauche, um diese einfache Sache: dates = p.to_datetime(p.Series(['20010101', '20010331']), format = '%Y%m%d') dates.str Aber eine Fehlermeldung erhalten. Wie soll ich das transformieren von datetime in string Vielen Dank im Voraus InformationsquelleAutor der Frage Diego | 2015-05-08