Tag: dataframe

Ein data frame ist eine tabellarische Datenstruktur. In der Regel enthält es Daten, in denen Zeilen sind Beobachtungen und die Spalten sind Variablen der verschiedenen Typen. Während „data frame“ oder „dataframe“ ist der Begriff für dieses Konzept in mehreren Sprachen (R, Apache Spark, deedle, Ahorn, die pandas-Bibliothek in Python und die DataFrames library in Julia), „Tabelle“ ist der Begriff in MATLAB und SQL.

Wie kann stringsAsFactors = TRUE in data.frame dauerhaft deaktiviert werden?

Anzahl der Antworten 1 Antworten
Siehe Titel. Ehrlich gesagt bin ich ein bisschen krank manuell zu tun, die Einstellung die ganze Zeit. Sollte dies eine einfache Frage, aber ich kann einfach nicht herausfinden, wie es zu lösen ist. Danke. InformationsquelleAutor der Frage

Verschachtelte Wörterbuch zu Multiindex-Datenrahmen, wobei Wörterbuchschlüssel Spaltenbeschriftungen sind

Anzahl der Antworten 2 Antworten
Sagen, ich habe ein Wörterbuch, das wie folgt aussieht: dictionary = {'A' : {'a': [1,2,3,4,5], 'b': [6,7,8,9,1]}, 'B' : {'a': [2,3,4,5,6], 'b': [7,8,9,1,2]}} und ich will einen dataframe, der ungefähr so aussieht: A B a b a

Zeilen aus Datenrahmen entfernen, in denen eine Zeile mit einer Zeichenfolge übereinstimmt

Anzahl der Antworten 3 Antworten
Ich lösche ich alle Zeilen in ein dataframe, in dem eine bestimmte Zeile entspricht einem string-match-Kriterien? Beispiel: A,B,C 4,3,Foo 2,3,Bar 7,5,Zap Wie würde ich wieder ein dataframe, das schließt alle Zeilen, in denen C = Foo: A,B,C

Für jede Zeile in einem R-Datenrahmen

Anzahl der Antworten 8 Antworten
Ich habe einen dataframe, und für jede Zeile in dieser dataframe ich zu tun haben einige komplizierte Suchvorgänge und fügen Sie einige Daten in eine Datei. Den dataFrame enthält wissenschaftliche Ergebnisse, die für die ausgewählte wells von

Wie man zwei Vektoren zu einem Datenrahmen kombiniert

Anzahl der Antworten 7 Antworten
Ich habe zwei Vektoren, wie dies x <-c(1,2,3) y <-c(100,200,300) x_name <- "cond" y_name <- "rating" Ich würde gerne die Ausgabe der dataframe wie diese: > print(df) cond rating 1 x 1 2 x 2 3 x

Aufteilen des Datenrahmens in mehrere Datenrahmen

Anzahl der Antworten 6 Antworten
Ich habe eine sehr große dataframe (rund 1 million Zeilen) mit Daten aus einem experiment (60 Teilnehmer). Ich möchte die Spaltung des dataframe in 60 dataframes (dataframe für jeden Teilnehmer). In der dataframe genannt (= Daten) es

Pandas: Kombinieren Sie String- und Int-Spalten

Anzahl der Antworten 4 Antworten
Ich habe folgende DataFrame: from pandas import * df = DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]}) Sieht es wie folgt aus: bar foo 0 1 a 1 2 b 2 3 c Jetzt will ich sowas haben: bar 0

Probieren Sie n zufällige Zeilen pro Gruppe in einem Datenrahmen aus

Anzahl der Antworten 4 Antworten
Aus diesen Fragen - Zufällige Stichprobe von Zeilen aus der Teilmenge eines R-dataframe & Beispiel zufällige Zeilen in dataframe ich kann mir gut vorstellen, wie zufällig Probe (wählen Sie) 'n' Zeilen aus einer df oder 'n' Zeilen

Pandas Datenrahmen fillna () nur einige Spalten an Ort und Stelle

Anzahl der Antworten 3 Antworten
Ich versuche zu füllen, keine Werte in ein Pandas dataframe mit 0 ist für Sie nur eine Teilmenge der Spalten. Wenn ich das mache: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df

Hinzufügen einer neuen Spalte zum vorhandenen DataFrame in Python-Pandas

Anzahl der Antworten 20 Antworten
Habe ich Folgendes indiziert DataFrame mit benannten Spalten und Zeilen, die nicht - fortlaufenden Nummern: a b c d 2 0.671399 0.101208 -0.181532 0.241273 3 0.446172 -0.243316 0.051767 1.577318 5 0.614758 0.075793 -0.451460 -0.012493 Möchte ich eine

Titel oder Name der Pandas-Indexspalte

Anzahl der Antworten 6 Antworten
Wie bekomme ich den index der Spalte name in python pandas? Hier ist ein Beispiel dataframe: Column 1 Index Title Apples 1 Oranges 2 Puppies 3 Ducks 4 Was ich versuche zu tun, ist get/set der dataframe

Benennen Sie mehrere Datenframe-Spalten um, die durch aktuelle Namen referenziert werden

Anzahl der Antworten 4 Antworten
Ich umbenennen möchten ein paar zufällige Spalten einer großen Daten-frame, und ich möchte, um die aktuelle Spalte die Namen, nicht die Indizes. Spalte Indizes könnte sich ändern, wenn ich Spalten hinzufügen oder entfernen, um die Daten, so

Pandas schreiben Daten in eine CSV-Datei

Anzahl der Antworten 6 Antworten
Ich habe einen dataframe in den pandas würde ich gerne schreiben, um eine CSV-Datei. Ich mache dies mit: df.to_csv('out.csv') Und bekommen die Fehlermeldung: UnicodeEncodeError: 'ascii' codec can't encode character u'\u03b1' in position 20: ordinal not in range(128)

Wie verwende ich Pandas 'anwenden' Funktion für mehrere Spalten?

Anzahl der Antworten 4 Antworten
Ich habe einige Probleme mit den Pandas gelten-Funktion, wenn Sie mehrere Spalten mit den folgenden dataframe df = DataFrame ({'a' : np.random.randn(6), 'b' : ['foo', 'bar'] * 3, 'c' : np.random.randn(6)}) und die folgende Funktion def my_test(a,

R - Verketten Sie zwei Datenrahmen?

Anzahl der Antworten 5 Antworten
Gegeben zwei dataframes a und b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284

Interpoliere NA-Werte in einem Datenrahmen mit na

Anzahl der Antworten 3 Antworten
Ich versuche zu entfernen NAs von meiner Daten-Frames durch interpolation mit na.approx() kann aber nicht entfernen Sie alle der NAs. Meine Daten-frame ist ein 4096x4096 mit 270.15 als Kennzeichen für die nicht gültigen Wert. Ich brauche die

Ersetzen von Zeichenwerten durch NA in einem Datenrahmen

Anzahl der Antworten 5 Antworten
Habe ich einen Daten-frame mit (an beliebigen Orten) ein Zeichen mit dem Wert (sagen "foo"), die ich ersetzen wollen mit einem NA. Was ist der beste Weg, dies zu tun über die gesamte Daten-frame? InformationsquelleAutor der Frage

Benennen Sie mehrere Spalten nach Namen um

Anzahl der Antworten 12 Antworten
Sollte jemand fragte dies bereits, aber ich konnte nicht eine Antwort finden. Sage ich: x = data.frame(q=1,w=2,e=3, ...and many many columns...) was ist der eleganteste Weg zum umbenennen einer beliebigen Teilmenge der Spalten, deren position, die ich

Konvertieren Sie Daten vom langen Format in das breite Format mit mehreren Taktspalten

Anzahl der Antworten 4 Antworten
Ich habe Schwierigkeiten, herauszufinden, die meisten elegante und flexible Art und Weise zu wechseln, Daten aus lang-format wide format, wenn ich mehr als eine Kennzahl-variable, die ich möchte zu bringen. Zum Beispiel, hier ist eine einfache Daten-frame

Wählen Sie dynamisch Datenrahmenspalten mit $ und einem Vektor von Spaltennamen aus

Anzahl der Antworten 6 Antworten
Möchte ich, um einen Daten-frame basiert auf verschiedenen Säulen, eine an eine Wende. Ich habe einen character-Vektor mit den entsprechenden Spaltennamen, auf denen die order beruhen soll: parameter <- c("market_value_LOCAL", "ep", "book_price", "sales_price", "dividend_yield", "beta", "TOTAL_RATING_SCORE", "ENVIRONMENT",

Normalisieren eines Pandas DataFrame nach Zeile

Anzahl der Antworten 2 Antworten
Was ist die idiomatische Weise zu normalisieren, jede Zeile ein pandas DataFrame? Die Normalisierung der Spalten ist leicht, so eine (sehr hässlich!) option: (df.T / df.T.sum()).T Pandas Rundfunk Regeln, die verhindern, dass df /df.sum(axis=1) zu tun, diese

Erstellen von Matplotlib-Streudiagrammen aus Datenrahmen in Pythons Pandas

Anzahl der Antworten 2 Antworten
Was ist der beste Weg, um eine Reihe von scatter-plots mit matplotlib aus einer pandas dataframe in Python? Wenn ich zum Beispiel einen dataframe df hat einige Spalten von Interesse, ich finde mich in der Regel konvertieren

Erkennen und Ausschließen von Ausreißern im Pandas-Datenrahmen

Anzahl der Antworten 10 Antworten
Habe ich ein pandas dataframe mit wenigen Spalten. Jetzt weiß ich, dass gewisse Zeilen sind-Ausreißer, basierend auf einer bestimmten Spalte Wert. Beispielsweise Spalten - 'Vol' hat alle Werte um 12.xx und einem Wert, der 4000 Nun würde

R - Liste zu Datenrahmen

Anzahl der Antworten 17 Antworten
Ich habe eine verschachtelte Liste von Daten. Seine Länge ist 132 und jedes Element ist eine Liste der Länge 20. Gibt es eine schnell Weg zur Umwandlung dieser Struktur in einen Daten-frame, 132 Zeilen und 20 Spalten

So zeichnen Sie alle Spalten eines Datenrahmens in R

Anzahl der Antworten 9 Antworten
Den Daten-frame hat n Spalten und ich würde gerne n Parzellen, ein Grundstück für jede Spalte. Ich bin ein Neuling und ich bin nicht fließend in R, ja, ich fand zwei Lösungen. Die erste funktioniert, aber es

Verwenden von regexp zum Auswählen von Zeilen im R-Datenframe

Anzahl der Antworten 6 Antworten
Ich versuche, um Zeilen auszuwählen, die in einem dataframe, in denen die Zeichenfolge, die in einer Spalte entspricht entweder ein regulärer Ausdruck oder ein Teilstring: dataframe: aName bName pName call alleles logRatio strength AX-11086564 F08_ADN103 2011-02-10_R10 AB

Wie konvertiert man eine Liste bestehend aus Vektoren unterschiedlicher Länge in einen nutzbaren Datenrahmen in R?

Anzahl der Antworten 5 Antworten
Ich habe eine (ziemlich lange) Liste von Vektoren. Die Vektoren bestehen aus Russischen Wörtern, die ich mithilfe der strsplit() Funktion auf Sätze. Das folgende ist, was head() gibt: [[1]] [1] "модно" "создавать" "резюме" "в" "виде" [[2]] [1]

Wie speichert man einen data.frame in R?

Anzahl der Antworten 2 Antworten
Machte ich einen Daten.frame in R, ist nicht sehr groß, aber es nimmt ziemlich etwas Zeit zu bauen. Ich würde, um es zu speichern als eine Datei, die kann ich als wieder offen in R? InformationsquelleAutor der

Rufen Sie eine anwendungsähnliche Funktion für jede Zeile des Datenrahmens mit mehreren Argumenten aus jeder Zeile auf

Anzahl der Antworten 10 Antworten
Ich habe einen dataframe mit mehreren Spalten. Für jede Zeile des dataframe, ich möchte eine Funktion aufrufen, die auf die Zeile und die Eingabe der Funktion über mehrere Spalten aus dieser Zeile. Zum Beispiel, sagen wir, ich

Konvertieren eines Datenrahmens in einen Vektor (nach Zeilen)

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe mit numerischen Einträgen wie diesem test <- data.frame(x=c(26,21,20),y=c(34,29,28)) Wie bekomme ich den folgenden Vektor? > 26,34,21,29,20,28 Ich war in der Lage, es mit den folgenden, aber ich denke, es sollte eine viel elegantere

Ausgabe eines Datenrahmens in R an eine .csv

Anzahl der Antworten 3 Antworten
So, ich bin versucht zu schreiben .csv-Datei basierend auf einen Daten-frame in R, aber aus irgendeinem Grund bekomme ich immer die folgende Fehlermeldung: Error in .External2(C_writetable, x, file, nrow(x), p, rnames, sep, eol, : unimplemented type 'list'

Wie teilt man Daten in 3 Sätze auf (Zug, Validierung und Test)?

Anzahl der Antworten 4 Antworten
Habe ich ein pandas dataframe und ich wünschte, teilen Sie es 3 separate Sätze. Ich weiß, dass mit train_test_split von sklearn.cross_validation kann man aufteilen der Daten in zwei Gruppen (Schulen und zu testen). Allerdings konnte ich keine

Update Datenrahmen über Funktion funktioniert nicht

Anzahl der Antworten 5 Antworten
Ich lief in ein kleines problem mit R... In der folgenden Daten-frame test <- data.frame(v1=c(rep(1,3),rep(2,3)),v2=0) Möchte ich eine änderung der Werte für v2 in den Zeilen, wo die v1 ist 1. test[test$v1==1,"v2"] <- 10 funktioniert Prima. test

Erstellen eines Datenrahmens aus zwei Vektoren mit Hilfe von cbind

Anzahl der Antworten 2 Antworten
Betrachten Sie den folgenden R-code. > x = cbind(c(10, 20), c("", ""), c("[[1,2]]","[[1,3]]")) > x [,1] [,2] [,3] [1,] "10" "" "[[1,2]]" [2,] "20" "" "[[1,3]]" Ähnlich > x = rbind(c(10, "", "[[1,2]]"), c(20, "", "[[1,3]]")) >

Übergeben mehrerer anzuwendender Argumente (Python)

Anzahl der Antworten 1 Antworten
Ich versuche, einige bereinigen von code in Python zu Vektorisieren eine Reihe von features, und ich Frage mich, ob es ein guter Weg, um zu verwenden, gelten für vergehen mehrere Argumente. Betrachten Sie das folgende (aktuelle version):

Verwenden Sie mehrere Spalten als Variablen mit Sapply

Anzahl der Antworten 4 Antworten
Ich habe eine dataframe und ich möchte eine Funktion, die Werte der drei Spalten und berechnet die minimale Differenz zwischen den drei Werten. #dataset df <- data.frame(a= sample(1:100, 10),b = sample(1:100, 10),c= sample(1:100, 10)) #function minimum_distance <-

Vergleich zweier Vektoren in einer if-Anweisung

Anzahl der Antworten 3 Antworten
Ich soll aufhören Zustand innerhalb einer Funktion. Die Bedingung ist, dass, wenn die ersten und zweiten Elemente passen perfekt in Reihenfolge und Länge. A <- c("A", "B", "C", "D") B <- A C <- c("A", "C", "C",

Wie schwenken Sie Spark DataFrame?

Anzahl der Antworten 6 Antworten
Bin ich angefangen zu verwenden Spark-Dataframes und ich muss in der Lage sein, um die pivot-Daten zu erstellen, die mehrere Spalten 1 Spalte mit mehreren Zeilen. Es gibt eingebaute Funktionen, die in den Brüh-und ich glaube, in

Wie man pandas DataFrame von Fließkommazahlen unter Verwendung einer Formatzeichenkette für Spalten anzeigt?

Anzahl der Antworten 4 Antworten
Ich würde gerne Anzeige ein pandas dataframe mit einem bestimmten format mit print() und die IPython display(). Zum Beispiel: df = pd.DataFrame([123.4567, 234.5678, 345.6789, 456.7890], index=['foo','bar','baz','quux'], columns=['cost']) print df cost foo 123.4567 bar 234.5678 baz 345.6789 quux

R: Weisen Sie Variablenbeschriftungen von Datenrahmenspalten zu

Anzahl der Antworten 3 Antworten
Ich bin kämpfen, mit variable labels von Daten.frame-Spalten. Sagen, ich habe einen Daten-frame, wie diese (Teil von viel größeren Daten-frame): data <- data.frame(age = c(21, 30, 25, 41, 29, 33), sex = factor(c(1, 2, 1, 2, 1,

Zusammenführen von Datenrahmen im Index mit Pandas

Anzahl der Antworten 2 Antworten
Habe ich zwei dataframes und jeder hat zwei index-Spalten. Ich möchte Sie Zusammenführen. Für Beispiel, der erste dataframe ist die folgende: V1 A 1/1/2012 12 2/1/2012 14 B 1/1/2012 15 2/1/2012 8 C 1/1/2012 17 2/1/2012 9

Python Pandas replizieren Zeilen im Datenrahmen

Anzahl der Antworten 4 Antworten
Wenn die Daten so Aussehen: Store,Dept,Date,Weekly_Sales,IsHoliday 1,1,2010-02-05,24924.5,FALSE 1,1,2010-02-12,46039.49,TRUE 1,1,2010-02-19,41595.55,FALSE 1,1,2010-02-26,19403.54,FALSE 1,1,2010-03-05,21827.9,FALSE 1,1,2010-03-12,21043.39,FALSE 1,1,2010-03-19,22136.64,FALSE 1,1,2010-03-26,26229.21,FALSE 1,1,2010-04-02,57258.43,FALSE Und ich will doppelte Zeilen mit IsHoliday gleich TRUE ist, was ich tun kann: is_hol = df['IsHoliday'] == True df_try = df[is_hol]

Pandas-Version von rbind

Anzahl der Antworten 3 Antworten
In R, können Sie kombinieren zwei dataframes durch kleben die Spalten auf der Unterseite der Spalten der anderen mit rbind. In pandas, wie Sie das gleiche erreichen? Es scheint seltsam, schwierig. Benutzung von append Ergebnisse in einem

Ersetze Zeichenfolge / Wert im gesamten Datenrahmen

Anzahl der Antworten 2 Antworten
Ich habe ein sehr großes dataset möchte ich ersetzen von Zeichenfolgen mit zahlen. Ich möchte den Betrieb auf den Datensatz ohne die Eingabe einer mapping-Funktion für jede Taste (Spalte) in das dataset. (ähnlich wie die fillna Methode,

Auswählen einer Reihe von Pandas-Reihen / Datenrahmen nach ganzzahligem Index

Anzahl der Antworten 6 Antworten
Ich bin neugierig, warum df[2] wird nicht unterstützt, während df.ix[2] und df[2:3] beide arbeiten. In [26]: df.ix[2] Out[26]: A 1.027680 B 1.514210 C -1.466963 D -0.162339 Name: 2000-01-03 00:00:00 In [27]: df[2:3] Out[27]: A B C D

Ändern Sie die Spalte data.frame in Zeilen in R

Anzahl der Antworten 2 Antworten
A <- c(1,6) B <- c(2,7) C <- c(3,8) D <- c(4,9) E <- c(5,0) df <- data.frame(A,B,C,D,E) df A B C D E 1 1 2 3 4 5 2 6 7 8 9 0 Ich

Wie schleift man in R die Zeilen eines Datenrahmens wirklich schnell?

Anzahl der Antworten 3 Antworten
Angenommen, Sie haben einen Daten-frame mit vielen Zeilen und vielen Spalten. Die Spalten Namen haben. Sie möchten Zugriff auf Zeilen-Nummer, und die Spalten mit Namen. Beispielsweise eine (möglicherweise langsame) Weg, um eine Schleife über die Zeilen ist

Übernehmen Sie die Funktion im Dataframe-Index

Anzahl der Antworten 3 Antworten
Was ist die beste Möglichkeit, eine Funktion über den index eines Pandas DataFrame? Zurzeit bin ich mit dieser ausführlichen Ansatz: pd.DataFrame({"Month": df.reset_index().Date.apply(foo)}) wo Date ist der name des index und die foo ist der name der Funktion,

Wie man eine Tupelsäule aus zwei Spalten in Pandas bildet

Anzahl der Antworten 3 Antworten
Habe ich ein Pandas DataFrame, und ich will zu kombinieren, die 'lat' und 'long' Spalten bilden ein Tupel. <class 'pandas.core.frame.DataFrame'> Int64Index: 205482 entries, 0 to 209018 Data columns: Month 205482 non-null values Reported by 205482 non-null values

So löschen Sie Spalten nach Namen in einem Datenrahmen

Anzahl der Antworten 10 Antworten
Ich habe einen großen Datensatz und möchte ich Lesen bestimmter Spalten oder drop all die anderen. data <- read.dta("file.dta") Ich die Spalten auswählen, die ich bin nicht daran interessiert, in: var.out <- names(data)[!names(data) %in% c("iden", "name", "x_serv",