Tag: dataframe
Ein data frame ist eine tabellarische Datenstruktur. In der Regel enthält es Daten, in denen Zeilen sind Beobachtungen und die Spalten sind Variablen der verschiedenen Typen. Während „data frame“ oder „dataframe“ ist der Begriff für dieses Konzept in mehreren Sprachen (R, Apache Spark, deedle, Ahorn, die pandas-Bibliothek in Python und die DataFrames library in Julia), „Tabelle“ ist der Begriff in MATLAB und SQL.
1
Antworten
Siehe Titel. Ehrlich gesagt bin ich ein bisschen krank manuell zu tun, die Einstellung die ganze Zeit. Sollte dies eine einfache Frage, aber ich kann einfach nicht herausfinden, wie es zu lösen ist. Danke. InformationsquelleAutor der Frage
2
Antworten
Sagen, ich habe ein Wörterbuch, das wie folgt aussieht: dictionary = {'A' : {'a': [1,2,3,4,5], 'b': [6,7,8,9,1]}, 'B' : {'a': [2,3,4,5,6], 'b': [7,8,9,1,2]}} und ich will einen dataframe, der ungefähr so aussieht: A B a b a
3
Antworten
Ich lösche ich alle Zeilen in ein dataframe, in dem eine bestimmte Zeile entspricht einem string-match-Kriterien? Beispiel: A,B,C 4,3,Foo 2,3,Bar 7,5,Zap Wie würde ich wieder ein dataframe, das schließt alle Zeilen, in denen C = Foo: A,B,C
8
Antworten
Ich habe einen dataframe, und für jede Zeile in dieser dataframe ich zu tun haben einige komplizierte Suchvorgänge und fügen Sie einige Daten in eine Datei. Den dataFrame enthält wissenschaftliche Ergebnisse, die für die ausgewählte wells von
7
Antworten
Ich habe zwei Vektoren, wie dies x <-c(1,2,3) y <-c(100,200,300) x_name <- "cond" y_name <- "rating" Ich würde gerne die Ausgabe der dataframe wie diese: > print(df) cond rating 1 x 1 2 x 2 3 x
6
Antworten
Ich habe eine sehr große dataframe (rund 1 million Zeilen) mit Daten aus einem experiment (60 Teilnehmer). Ich möchte die Spaltung des dataframe in 60 dataframes (dataframe für jeden Teilnehmer). In der dataframe genannt (= Daten) es
4
Antworten
Ich habe folgende DataFrame: from pandas import * df = DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]}) Sieht es wie folgt aus: bar foo 0 1 a 1 2 b 2 3 c Jetzt will ich sowas haben: bar 0
4
Antworten
Aus diesen Fragen - Zufällige Stichprobe von Zeilen aus der Teilmenge eines R-dataframe & Beispiel zufällige Zeilen in dataframe ich kann mir gut vorstellen, wie zufällig Probe (wählen Sie) 'n' Zeilen aus einer df oder 'n' Zeilen
3
Antworten
Ich versuche zu füllen, keine Werte in ein Pandas dataframe mit 0 ist für Sie nur eine Teilmenge der Spalten. Wenn ich das mache: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df
20
Antworten
Habe ich Folgendes indiziert DataFrame mit benannten Spalten und Zeilen, die nicht - fortlaufenden Nummern: a b c d 2 0.671399 0.101208 -0.181532 0.241273 3 0.446172 -0.243316 0.051767 1.577318 5 0.614758 0.075793 -0.451460 -0.012493 Möchte ich eine
6
Antworten
Wie bekomme ich den index der Spalte name in python pandas? Hier ist ein Beispiel dataframe: Column 1 Index Title Apples 1 Oranges 2 Puppies 3 Ducks 4 Was ich versuche zu tun, ist get/set der dataframe
4
Antworten
Ich umbenennen möchten ein paar zufällige Spalten einer großen Daten-frame, und ich möchte, um die aktuelle Spalte die Namen, nicht die Indizes. Spalte Indizes könnte sich ändern, wenn ich Spalten hinzufügen oder entfernen, um die Daten, so
6
Antworten
Ich habe einen dataframe in den pandas würde ich gerne schreiben, um eine CSV-Datei. Ich mache dies mit: df.to_csv('out.csv') Und bekommen die Fehlermeldung: UnicodeEncodeError: 'ascii' codec can't encode character u'\u03b1' in position 20: ordinal not in range(128)
4
Antworten
Ich habe einige Probleme mit den Pandas gelten-Funktion, wenn Sie mehrere Spalten mit den folgenden dataframe df = DataFrame ({'a' : np.random.randn(6), 'b' : ['foo', 'bar'] * 3, 'c' : np.random.randn(6)}) und die folgende Funktion def my_test(a,
5
Antworten
Gegeben zwei dataframes a und b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284
3
Antworten
Ich versuche zu entfernen NAs von meiner Daten-Frames durch interpolation mit na.approx() kann aber nicht entfernen Sie alle der NAs. Meine Daten-frame ist ein 4096x4096 mit 270.15 als Kennzeichen für die nicht gültigen Wert. Ich brauche die
5
Antworten
Habe ich einen Daten-frame mit (an beliebigen Orten) ein Zeichen mit dem Wert (sagen "foo"), die ich ersetzen wollen mit einem NA. Was ist der beste Weg, dies zu tun über die gesamte Daten-frame? InformationsquelleAutor der Frage
12
Antworten
Sollte jemand fragte dies bereits, aber ich konnte nicht eine Antwort finden. Sage ich: x = data.frame(q=1,w=2,e=3, ...and many many columns...) was ist der eleganteste Weg zum umbenennen einer beliebigen Teilmenge der Spalten, deren position, die ich
4
Antworten
Ich habe Schwierigkeiten, herauszufinden, die meisten elegante und flexible Art und Weise zu wechseln, Daten aus lang-format wide format, wenn ich mehr als eine Kennzahl-variable, die ich möchte zu bringen. Zum Beispiel, hier ist eine einfache Daten-frame
6
Antworten
Möchte ich, um einen Daten-frame basiert auf verschiedenen Säulen, eine an eine Wende. Ich habe einen character-Vektor mit den entsprechenden Spaltennamen, auf denen die order beruhen soll: parameter <- c("market_value_LOCAL", "ep", "book_price", "sales_price", "dividend_yield", "beta", "TOTAL_RATING_SCORE", "ENVIRONMENT",
2
Antworten
Was ist die idiomatische Weise zu normalisieren, jede Zeile ein pandas DataFrame? Die Normalisierung der Spalten ist leicht, so eine (sehr hässlich!) option: (df.T / df.T.sum()).T Pandas Rundfunk Regeln, die verhindern, dass df /df.sum(axis=1) zu tun, diese
2
Antworten
Was ist der beste Weg, um eine Reihe von scatter-plots mit matplotlib aus einer pandas dataframe in Python? Wenn ich zum Beispiel einen dataframe df hat einige Spalten von Interesse, ich finde mich in der Regel konvertieren
10
Antworten
Habe ich ein pandas dataframe mit wenigen Spalten. Jetzt weiß ich, dass gewisse Zeilen sind-Ausreißer, basierend auf einer bestimmten Spalte Wert. Beispielsweise Spalten - 'Vol' hat alle Werte um 12.xx und einem Wert, der 4000 Nun würde
17
Antworten
Ich habe eine verschachtelte Liste von Daten. Seine Länge ist 132 und jedes Element ist eine Liste der Länge 20. Gibt es eine schnell Weg zur Umwandlung dieser Struktur in einen Daten-frame, 132 Zeilen und 20 Spalten
9
Antworten
Den Daten-frame hat n Spalten und ich würde gerne n Parzellen, ein Grundstück für jede Spalte. Ich bin ein Neuling und ich bin nicht fließend in R, ja, ich fand zwei Lösungen. Die erste funktioniert, aber es
6
Antworten
Ich versuche, um Zeilen auszuwählen, die in einem dataframe, in denen die Zeichenfolge, die in einer Spalte entspricht entweder ein regulärer Ausdruck oder ein Teilstring: dataframe: aName bName pName call alleles logRatio strength AX-11086564 F08_ADN103 2011-02-10_R10 AB
5
Antworten
Ich habe eine (ziemlich lange) Liste von Vektoren. Die Vektoren bestehen aus Russischen Wörtern, die ich mithilfe der strsplit() Funktion auf Sätze. Das folgende ist, was head() gibt: [[1]] [1] "модно" "создавать" "резюме" "в" "виде" [[2]] [1]
2
Antworten
Machte ich einen Daten.frame in R, ist nicht sehr groß, aber es nimmt ziemlich etwas Zeit zu bauen. Ich würde, um es zu speichern als eine Datei, die kann ich als wieder offen in R? InformationsquelleAutor der
10
Antworten
Ich habe einen dataframe mit mehreren Spalten. Für jede Zeile des dataframe, ich möchte eine Funktion aufrufen, die auf die Zeile und die Eingabe der Funktion über mehrere Spalten aus dieser Zeile. Zum Beispiel, sagen wir, ich
2
Antworten
Ich habe einen dataframe mit numerischen Einträgen wie diesem test <- data.frame(x=c(26,21,20),y=c(34,29,28)) Wie bekomme ich den folgenden Vektor? > 26,34,21,29,20,28 Ich war in der Lage, es mit den folgenden, aber ich denke, es sollte eine viel elegantere
3
Antworten
So, ich bin versucht zu schreiben .csv-Datei basierend auf einen Daten-frame in R, aber aus irgendeinem Grund bekomme ich immer die folgende Fehlermeldung: Error in .External2(C_writetable, x, file, nrow(x), p, rnames, sep, eol, : unimplemented type 'list'
4
Antworten
Habe ich ein pandas dataframe und ich wünschte, teilen Sie es 3 separate Sätze. Ich weiß, dass mit train_test_split von sklearn.cross_validation kann man aufteilen der Daten in zwei Gruppen (Schulen und zu testen). Allerdings konnte ich keine
5
Antworten
Ich lief in ein kleines problem mit R... In der folgenden Daten-frame test <- data.frame(v1=c(rep(1,3),rep(2,3)),v2=0) Möchte ich eine änderung der Werte für v2 in den Zeilen, wo die v1 ist 1. test[test$v1==1,"v2"] <- 10 funktioniert Prima. test
2
Antworten
Betrachten Sie den folgenden R-code. > x = cbind(c(10, 20), c("", ""), c("[[1,2]]","[[1,3]]")) > x [,1] [,2] [,3] [1,] "10" "" "[[1,2]]" [2,] "20" "" "[[1,3]]" Ähnlich > x = rbind(c(10, "", "[[1,2]]"), c(20, "", "[[1,3]]")) >
1
Antworten
Ich versuche, einige bereinigen von code in Python zu Vektorisieren eine Reihe von features, und ich Frage mich, ob es ein guter Weg, um zu verwenden, gelten für vergehen mehrere Argumente. Betrachten Sie das folgende (aktuelle version):
4
Antworten
Ich habe eine dataframe und ich möchte eine Funktion, die Werte der drei Spalten und berechnet die minimale Differenz zwischen den drei Werten. #dataset df <- data.frame(a= sample(1:100, 10),b = sample(1:100, 10),c= sample(1:100, 10)) #function minimum_distance <-
3
Antworten
Ich soll aufhören Zustand innerhalb einer Funktion. Die Bedingung ist, dass, wenn die ersten und zweiten Elemente passen perfekt in Reihenfolge und Länge. A <- c("A", "B", "C", "D") B <- A C <- c("A", "C", "C",
6
Antworten
Bin ich angefangen zu verwenden Spark-Dataframes und ich muss in der Lage sein, um die pivot-Daten zu erstellen, die mehrere Spalten 1 Spalte mit mehreren Zeilen. Es gibt eingebaute Funktionen, die in den Brüh-und ich glaube, in
4
Antworten
Ich würde gerne Anzeige ein pandas dataframe mit einem bestimmten format mit print() und die IPython display(). Zum Beispiel: df = pd.DataFrame([123.4567, 234.5678, 345.6789, 456.7890], index=['foo','bar','baz','quux'], columns=['cost']) print df cost foo 123.4567 bar 234.5678 baz 345.6789 quux
3
Antworten
Ich bin kämpfen, mit variable labels von Daten.frame-Spalten. Sagen, ich habe einen Daten-frame, wie diese (Teil von viel größeren Daten-frame): data <- data.frame(age = c(21, 30, 25, 41, 29, 33), sex = factor(c(1, 2, 1, 2, 1,
2
Antworten
Habe ich zwei dataframes und jeder hat zwei index-Spalten. Ich möchte Sie Zusammenführen. Für Beispiel, der erste dataframe ist die folgende: V1 A 1/1/2012 12 2/1/2012 14 B 1/1/2012 15 2/1/2012 8 C 1/1/2012 17 2/1/2012 9
4
Antworten
Wenn die Daten so Aussehen: Store,Dept,Date,Weekly_Sales,IsHoliday 1,1,2010-02-05,24924.5,FALSE 1,1,2010-02-12,46039.49,TRUE 1,1,2010-02-19,41595.55,FALSE 1,1,2010-02-26,19403.54,FALSE 1,1,2010-03-05,21827.9,FALSE 1,1,2010-03-12,21043.39,FALSE 1,1,2010-03-19,22136.64,FALSE 1,1,2010-03-26,26229.21,FALSE 1,1,2010-04-02,57258.43,FALSE Und ich will doppelte Zeilen mit IsHoliday gleich TRUE ist, was ich tun kann: is_hol = df['IsHoliday'] == True df_try = df[is_hol]
3
Antworten
In R, können Sie kombinieren zwei dataframes durch kleben die Spalten auf der Unterseite der Spalten der anderen mit rbind. In pandas, wie Sie das gleiche erreichen? Es scheint seltsam, schwierig. Benutzung von append Ergebnisse in einem
2
Antworten
Ich habe ein sehr großes dataset möchte ich ersetzen von Zeichenfolgen mit zahlen. Ich möchte den Betrieb auf den Datensatz ohne die Eingabe einer mapping-Funktion für jede Taste (Spalte) in das dataset. (ähnlich wie die fillna Methode,
6
Antworten
Ich bin neugierig, warum df[2] wird nicht unterstützt, während df.ix[2] und df[2:3] beide arbeiten. In [26]: df.ix[2] Out[26]: A 1.027680 B 1.514210 C -1.466963 D -0.162339 Name: 2000-01-03 00:00:00 In [27]: df[2:3] Out[27]: A B C D
2
Antworten
A <- c(1,6) B <- c(2,7) C <- c(3,8) D <- c(4,9) E <- c(5,0) df <- data.frame(A,B,C,D,E) df A B C D E 1 1 2 3 4 5 2 6 7 8 9 0 Ich
3
Antworten
Angenommen, Sie haben einen Daten-frame mit vielen Zeilen und vielen Spalten. Die Spalten Namen haben. Sie möchten Zugriff auf Zeilen-Nummer, und die Spalten mit Namen. Beispielsweise eine (möglicherweise langsame) Weg, um eine Schleife über die Zeilen ist
3
Antworten
Was ist die beste Möglichkeit, eine Funktion über den index eines Pandas DataFrame? Zurzeit bin ich mit dieser ausführlichen Ansatz: pd.DataFrame({"Month": df.reset_index().Date.apply(foo)}) wo Date ist der name des index und die foo ist der name der Funktion,
3
Antworten
Habe ich ein Pandas DataFrame, und ich will zu kombinieren, die 'lat' und 'long' Spalten bilden ein Tupel. <class 'pandas.core.frame.DataFrame'> Int64Index: 205482 entries, 0 to 209018 Data columns: Month 205482 non-null values Reported by 205482 non-null values
10
Antworten
Ich habe einen großen Datensatz und möchte ich Lesen bestimmter Spalten oder drop all die anderen. data <- read.dta("file.dta") Ich die Spalten auswählen, die ich bin nicht daran interessiert, in: var.out <- names(data)[!names(data) %in% c("iden", "name", "x_serv",