Tag: pandas
Pandas ist eine Python-Bibliothek für Panel-Daten-manipulation und-Analyse, z.B. mehrdimensionale Zeitreihen-und Querschnitts-Datensätzen, die üblicherweise in der Statistik, Ergebnisse der experimentellen Wissenschaft, ökonometrie oder finance. WICHTIG: Wenn Sie eine Frage stellen, die dieses tag enthält, Kennzeichnen Sie bitte Ihre Fragen: [python]; [pandas]; [dataframe]/[Reihe]; (optional) [groupby]/[merge]/etc. je nach Ihren spezifischen Anforderungen.
4
Antworten
prob in den Titel. stehen im Beispiel: x=[('a','a','c') for i in range(5)] df = DataFrame(x,columns=['col1','col2','col3']) df.to_csv('test.csv') df1 = read_csv('test.csv') Unnamed: 0 col1 col2 col3 0 0 a a c 1 1 a a c 2 2 a
1
Antworten
Ich habe 2 ähnliche Daten-frames strukturiert wie folgt : ind = pd.MultiIndex.from_product([['Day 1','Day 2'],['D1','D2'],['Mean','StDev','StErr']], names = ['interval','device','stats']) df = pd.DataFrame({'col1':[1,2,3,4,5,6,7,8,9,10,11,12]}, index = ind) print(df) col1 interval device stats Day 1 D1 Mean 1 StDev 2 StErr 3
1
Antworten
Gibt es eine Funktion um zu überprüfen, ob ein Wert vorhanden ist, in alle Zeilen der Spalten in pandas, wie columnA columnB columnC "john" 3 True "mike" 1 False "bob" 0 False auf dem dataframe oben, ich
1
Antworten
Habe ich ein pandas DataFrame wie folgt: In [108]: df1 Out[108]: v t 2014-02-21 10:30:43 False 2014-02-21 10:31:34 False 2014-02-21 10:32:25 False 2014-02-21 10:33:17 False 2014-02-21 10:34:09 False 2014-02-21 10:35:00 False 2014-02-21 10:35:51 False Ich brauche, um
1
Antworten
Möchte ich eine rollierende Berechnung auf fehlende Daten. Beispielcode: (Zur Vereinfachung gebe ich ein Beispiel für eine rollende Summe, aber ich möchte etwas tun, mehr generische.) foo = lambda z: z[pandas.notnull(z)].sum() x = np.arange(10, dtype="float") x[6] =
3
Antworten
Habe ich installiert Anaconda, also ich bin mir ziemlich sicher, dass ich installiert haben Pandas. Allerdings, wenn ich dieses in einer Erhabenen: import pandas as pd Bekomme ich diese Meldung: Traceback (most recent call last): File "/Users/user/Documents/Programming/Python/Python
3
Antworten
Den to_csv Methode der pandas nicht die Erhaltung der Reihenfolge der Spalten. Wählt es alphabetisch ordnen Sie die Spalten in der CSV-Datei. Dies ist ein Fehler und wurde gemeldet und soll behoben in version 0.11.0. Ich habe
3
Antworten
Vorausgesetzt, ich habe Folgendes DataFrame: A | B 1 | Ms 1 | PhD 2 | Ms 2 | Bs Ich möchten entfernen Sie die doppelten Zeilen mit Bezug auf Spalte A und ich möchte Sie behalten
2
Antworten
Ich habe panda als dataframe df mit zwei Parametern df.man (=x) und df.zwei (=y). Nun, ich möchte plot scatter-plot für diese Daten-Punkte. Ich verwendet ax1 = fig.add_subplot(111) ax1.scatter(df.one,df.two,c = 'g',marker = 'o',alpha = 0.2) Nun, ich möchte
1
Antworten
In python, ich bin auf der Suche nach der schnellsten hash jeder Wert in einem Pandabären-Daten-frame. Ich weiß, eine beliebige Zeichenfolge sein kann, Hash-Verwendung: hash('a string') Aber wie Wende ich diese Funktion auf jedes element eines pandas-Daten-frame?
2
Antworten
Meine Daten-frame data hat eine date-variable dateOpen mit dem folgenden format date_format = "%Y-%m-%d %H:%M:%S.%f" und ich würde gerne eine neue Spalte namens openDay was ist die Tag-Nummer ein, basierend auf 365 Tagen im Jahr. Ich habe
1
Antworten
Ich habe ein series-Objekt (1 Spalte einer DataFrame) und würde gerne extrahieren Sie den Wert des ersten Elements. Gibt es eine Möglichkeit, dies zu tun, einfach ohne Konvertierung in eine Liste und ohne Schlüssel? Oder ist der
2
Antworten
Habe ich eine option-pricing-Modell (sehr einfache Black-Scholes -) das funktioniert auch mit Daten, die in dieser Weise: In [18]: BS2(100.,100.,1.,.001,.3) Out[18]: 11.96762435837207 die Funktion ist hier: Black Sholes Function def BS2(S,X,T,r,v): d1 = (log(S/X)+(.001+v*v/2)*T)/(v*sqrt(T)) d2 = d1-v*sqrt(T)
2
Antworten
Habe ich fünf Aktienportfolios, die habe ich importiert aus Yahoo! Finanz-und müssen, erstellen Sie einen DataFrame mit den schlusskursen für 2016 aller Aktien. Jedoch bin ich kämpfen, um Sie zu beschriften Sie die Spalten mit den entsprechenden
2
Antworten
Die fill-Funktion zu füllen, dass alle nicht-verfügbaren Daten in titanic mit dem durchschnittlichen Alter der jeweiligen Klasse der Passagiere titanic['Age']=titanic[['Age','Pclass']].apply(fill,axis=1) sex=pd.get_dummies(titanic['Sex'],drop_first=True) embarked=pd.get_dummies(titanic['Embarked'],drop_first=True) titanic.drop(['Cabin','Embarked'],axis=1,inplace=True) titanic.dropna(inplace=True) titanic=pd.concat(['titanic','sex','embarked'],axis=1) InformationsquelleAutor VaibhavSka | 2017-07-29
1
Antworten
Mein Programm hält das Lesen der input-Datei als string, obwohl es alle Werte sind Fließkommazahlen. pd.read_csv('input.txt', sep=' ', dtype=np.float32) Auch, mein array enthält mehrere Punkte in die float-Werte für einige Grund, auch wenn das format ist in
1
Antworten
from pandas.core.base import FrozenList Type: type String form: <class 'pandas.core.base.FrozenList'> File: /site-packages/pandas/core/base.py Docstring: Container that doesn't allow setting item *but* because it's technically non-hashable, will be used for lookups, appropriately, etc. Warum nicht einfach Tupel? Welche zusätzliche
1
Antworten
Habe ich ein dataframe, das hat Monate für Spalten, und verschiedene Abteilungen für die Zeilen. 2013April 2013May 2013June Dep1 0 10 15 Dep2 10 15 20 Ich bin auf der Suche, um eine Spalte hinzuzufügen, dass zählt
1
Antworten
Warum erhalte ich eine Fehlermeldung: import pandas as pd a = pd.Series(index=[4,5,6], data=0) print a.loc[4:5] a.loc[4:5] += 1 Ausgabe: 4 0 5 0 Traceback (most recent call last): File "temp1.py", line 9, in <module> dtype: int64 a.loc[4:5]
3
Antworten
Wenn ich eine Serie, die entweder NULL oder einen Wert ungleich null. Wie finde ich die 1. Zeile, wo der Wert nicht NULL ist, so kann ich berichten, der Datentyp, der für den Benutzer. Wenn der Wert
3
Antworten
import pandas as pd numbers = {1,2,3,4,5} ser = pd.Series(numbers) print ser Schreibe ich diesen code in python für pandas-Serie. aber es gibt diese "AttributeError: 'module' Objekt hat kein Attribut ' - Serie,'" bitte helfen Sie mir
4
Antworten
Ich habe eine csv-große Datei, die ich nicht behandeln kann in Speicher mit python. Ich bin Aufspaltung es in mehrere Stücke nach der Gruppierung nach dem Wert einer bestimmten Spalte mit der folgenden Logik: def splitDataFile(self, data_file):
1
Antworten
Ich versuche zu sparen, die Ausgabe von den folgenden code in ein Unterverzeichnis: for gp in g: filename = gp[0] + '.csv' print(filename) gp[1].to_csv(filename) Ich habe das Unterverzeichnis erste: os.makedirs('MonthlyDataSplit') Aber ich finde keine Informationen wie zu
4
Antworten
Habe ich einen Daten-frame mit index (year, foo), wo ich möchte wählen Sie die X größten Beobachtungen von foo wo year == someYear. Mein Ansatz war df.sort_index(level=[0, 1], ascending=[1, 0], inplace=True) df.loc[pd.IndexSlice[2002, :10], :] aber ich bekomme
1
Antworten
Habe ich dataframe: df = pd.DataFrame({'ID':[1,1,2,2,3,3], 'YEAR' : [2011,2012,2012,2013,2013,2014], 'V': [0,1,1,0,1,0], 'C':[00,11,22,33,44,55]}) Möchte ich group by-ID, und markieren Sie die Zeile mit V = 0 in jeder Gruppe. Diese scheint nicht zu funktionieren: print(df.groupby(['ID']).filter(lambda x: x['V'] ==
3
Antworten
Habe ich einen DataFrame so : col1 col2 col3 col4 col5 col6 col7 col8 0 5345 rrf rrf rrf rrf rrf rrf 1 2527 erfr erfr erfr erfr erfr erfr 2 2727 f f f f f
1
Antworten
Ich versuche zu generieren, ein box-plot in Python 2.7 für jede kategoriale Wert in Spalte E aus der Pandas dataframe unten A B C D E 0 0.647366 0.317832 0.875353 0.993592 1 1 0.504790 0.041806 0.113889 0.445370
1
Antworten
Habe ich aktualisiert meine Frage, um ein klareres Beispiel. Ist es möglich, die drop_duplicates Methode in Pandas entfernen Sie doppelte Zeilen basierend auf einer Spalte id, wo die Werte enthalten eine Liste. Betrachten Sie die Spalte 'drei',
2
Antworten
Ich versuche eine neue Spalte hinzufügen, um ein dataframe basiert auf einer if-Anweisung abhängig von den Werten der beiden Spalten. d.h. wenn Spalte x == Keine dann die y-Spalte andere Spalte x unten ist das Skript, das
7
Antworten
Habe ich Folgendes dataframe: user_id purchase_date 1 2015-01-23 14:05:21 2 2015-02-05 05:07:30 3 2015-02-18 17:08:51 4 2015-03-21 17:07:30 5 2015-03-11 18:32:56 6 2015-03-03 11:02:30 sowie purchase_date ist ein datetime64[ns] Spalte. Muss ich eine neue Spalte hinzufügen df[month]
2
Antworten
Finde ich die passende Zeile, aber wie bekomme ich die Nummer der Zeile des df? y = df.loc [ df [ 'month' ] == df3 [ 'month' ] ] Brauche ich y, um die Zeile zu zählen.
1
Antworten
Ich würde die Anzeige alle Informationen über meine Daten-frame enthält mehr als 100 Spalten mit .info() von panda, aber es wird nicht : data_train.info() <class 'pandas.core.frame.DataFrame'> RangeIndex: 85529 entries, 0 to 85528 Columns: 110 entries, ID to
3
Antworten
Den pandas.DataFrame.query() Methode ist der große Verwendung für (pre/post)-filtern von Daten beim laden oder der Darstellung. Es kommt besonders nützlich für die Verkettung von Methoden. Ich finde mich oft zu wollen, gilt die gleiche Logik auf eine
1
Antworten
Ich habe einen DataFrame df, die enthält drei Spalten: ['mid','2014_amt','2015_amt'] Ich zu extrahierenden Zeilen von einem bestimmten Händler. Betrachten Sie beispielsweise meine Daten: df['mid'] = ['as','fsd','qww','fd'] df['2014_amt] = [144,232,45,121] df['2015_amt] = [676,455,455,335] Möchte ich extrahieren Sie die
1
Antworten
Ich versuche, die Rückkehr der index eines Wertes als string. Andere Fragen hier, die ich sah, hatte es wieder Indizes als Listen. Den Fehler, der geworfen wird ist: Zurückgegeben wird eine variable vom Typ und wir erwarteten
3
Antworten
Ich habe einen dataframe und würde gerne abschneiden, jedes Feld bis zu 20 Zeichen. Ich habe naiv versucht, die folgenden: df = df.astype(str).apply(lambda x: x[:20]) allerdings hat es keinerlei Auswirkungen. Wenn, jedoch wollte ich hinzufügen, dass ein
2
Antworten
Bekam ich ein Pandas DataFrame suchen wie den folgenden: values max_val_idx 0 np.array([-0.649626, -0.662434, -0.611351]) 2 1 np.array([-0.994942, -0.990448, -1.01574]) 1 2 np.array([-1.012, -1.01034, -1.02732]) 0 df['values'] enthält numpy-arrays eine Feste Länge von 3 Elementen df['max_val_idx] enthält
1
Antworten
Mein Code: samples = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data", sep=',',header=None) varieties = pd.DataFrame(samples.iloc[:,0]) kmeans = KMeans(n_clusters = 3) labels = kmeans.fit_predict(samples) #setting 'labels' according to given data labels += 1 #converting 'labels' to pandas DataFrame labels = pd.DataFrame(labels) df = pd.DataFrame({'labels':[labels],
2
Antworten
Ich habe einen dataframe: cost month para prod_code 040201060AAAIAI 43 2016-01-01 0402 040201060AAAIAJ 45 2016-02-01 0402 040201060AAAIAI 46 2016-03-01 0402 040201060AAAIAI 41 2016-01-01 0402 040201060AAAIAI 48 2016-02-01 0402 Wie kann ich iteriert über die Zeilen, und den
1
Antworten
Hallo ich versuche den Namen der Spalte ein dataframe enthält ein bestimmtes Wort, zB: ich habe einen dataframe, NA good employee Not available best employer not required well manager not eligible super reportee my_word=["well"] wie um zu
3
Antworten
Ich habe 2 dataframes derzeit 1 Spender und 1 für Spendenaktionen. Im Idealfall, was ich versuche zu finden ist, wenn irgendwelche Spendenaktionen gab auch Spenden, und wenn ja, kopieren Sie diese Informationen in meine Spendenaktion data set
1
Antworten
Hallo ich habe es geschafft, fügen Sie eine Linie in einem bar-plot, aber die position ist nicht richtig. Ich möchte, um die Punkte genau in der Mitte der einzelnen Balken. Könnte mir jemand helfen? >>> df price
1
Antworten
Habe ich Folgendes pandas Dataframe: import pandas as pd data = {'one' : pd.Series([1.], index=['a']), 'two' : pd.Series([1., 2.], index=['a', 'b']), 'three' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])} df = pd.DataFrame(data) df = df[["one",
1
Antworten
Habe ich ein Pandabären-Daten-frame mit folgendem format: year col1 y1 val_1 y1 val_2 y1 val_3 y2 val_4 y2 val_5 y2 val_6 y3 val_7 y3 val_8 y3 val_9 Wie wähle ich nur die Werte bis zum Jahr 2
2
Antworten
Viele Informationen zum Lesen einer csv in ein pandas dataframe, aber ich, was ich habe, ist ein pyTable Tabelle und wollen ein pandas DataFrame. Habe ich gefunden, wie meine pandas DataFrame zu pytables... dann lese ich es
2
Antworten
Ich bin mit ein pandas DataFrame, in der eine Spalte enthält numpy-arrays. Wenn Sie versuchen, um die Summe dieser Spalte über die aggregation bekomme ich eine Fehlermeldung, die besagt "Muss aggregierte Wert'. z.B. import pandas as pd
2
Antworten
Bin ich-Spaltung "vollständiger name" Felder "Vorname", Vorname" und "Nachname" Felder von Daten aus einer excel-Datei. Ich konnte nicht herausfinden, wie zu tun, dass in pandas, so wandte ich mich openpyxl. Ich habe die Variablen aufteilen, wie ich
2
Antworten
Ich Häufig den Umgang mit Daten, die ist schlecht formatiert (I. e. Anzahl der Felder sind nicht konsistent, etc) Möglicherweise gibt es andere Wege, die ich bin mir nicht bewusst, aber so wie ich das formatieren einer
1
Antworten
Arbeite ich in zipline und pandas und haben Umgerechnet eine pandas.Panel zu einem pandas.DataFrame mit der to_frame() Methode. Dies ist die daraus resultierende pandas.DataFrame die, wie Sie sehen können, ist multi-indiziert: price major minor 2008-01-03 00:00:00+00:00 SPY
1
Antworten
Ich habe die Dokumentation. Ich verstehe nicht, die Art und Weise index ein Pandas DataFrame. Ich würde gerne teilen ein DataFrame von Aktienkursen durch Ihre jeweiligen anfänglichen Werte-index der verschiedenen Aktien auf 100. Ich möchte vergleichen Ihre