Tag: dataframe

Ein data frame ist eine tabellarische Datenstruktur. In der Regel enthält es Daten, in denen Zeilen sind Beobachtungen und die Spalten sind Variablen der verschiedenen Typen. Während „data frame“ oder „dataframe“ ist der Begriff für dieses Konzept in mehreren Sprachen (R, Apache Spark, deedle, Ahorn, die pandas-Bibliothek in Python und die DataFrames library in Julia), „Tabelle“ ist der Begriff in MATLAB und SQL.

Wie kann stringsAsFactors = TRUE in data.frame dauerhaft deaktiviert werden?

1 Antworten

Siehe Titel. Ehrlich gesagt bin ich ein bisschen krank manuell zu tun, die Einstellung die ganze Zeit. Sollte dies eine einfache Frage, aber ich kann einfach nicht herausfinden, wie es zu lösen ist. Danke. InformationsquelleAutor der Frage

dataframe r string

Verschachtelte Wörterbuch zu Multiindex-Datenrahmen, wobei Wörterbuchschlüssel Spaltenbeschriftungen sind

2 Antworten

Sagen, ich habe ein Wörterbuch, das wie folgt aussieht: dictionary = {'A' : {'a': [1,2,3,4,5], 'b': [6,7,8,9,1]}, 'B' : {'a': [2,3,4,5,6], 'b': [7,8,9,1,2]}} und ich will einen dataframe, der ungefähr so aussieht: A B a b a

dataframe dictionary multi-index pandas python

Zeilen aus Datenrahmen entfernen, in denen eine Zeile mit einer Zeichenfolge übereinstimmt

3 Antworten

Ich lösche ich alle Zeilen in ein dataframe, in dem eine bestimmte Zeile entspricht einem string-match-Kriterien? Beispiel: A,B,C 4,3,Foo 2,3,Bar 7,5,Zap Wie würde ich wieder ein dataframe, das schließt alle Zeilen, in denen C = Foo: A,B,C

dataframe r

Für jede Zeile in einem R-Datenrahmen

8 Antworten

Ich habe einen dataframe, und für jede Zeile in dieser dataframe ich zu tun haben einige komplizierte Suchvorgänge und fügen Sie einige Daten in eine Datei. Den dataFrame enthält wissenschaftliche Ergebnisse, die für die ausgewählte wells von

dataframe r rows

Wie man zwei Vektoren zu einem Datenrahmen kombiniert

7 Antworten

Ich habe zwei Vektoren, wie dies x <-c(1,2,3) y <-c(100,200,300) x_name <- "cond" y_name <- "rating" Ich würde gerne die Ausgabe der dataframe wie diese: > print(df) cond rating 1 x 1 2 x 2 3 x

dataframe r

Aufteilen des Datenrahmens in mehrere Datenrahmen

6 Antworten

Ich habe eine sehr große dataframe (rund 1 million Zeilen) mit Daten aus einem experiment (60 Teilnehmer). Ich möchte die Spaltung des dataframe in 60 dataframes (dataframe für jeden Teilnehmer). In der dataframe genannt (= Daten) es

dataframe pandas python split

Pandas: Kombinieren Sie String- und Int-Spalten

4 Antworten

Ich habe folgende DataFrame: from pandas import * df = DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]}) Sieht es wie folgt aus: bar foo 0 1 a 1 2 b 2 3 c Jetzt will ich sowas haben: bar 0

dataframe numpy pandas python

Probieren Sie n zufällige Zeilen pro Gruppe in einem Datenrahmen aus

4 Antworten

Aus diesen Fragen - Zufällige Stichprobe von Zeilen aus der Teilmenge eines R-dataframe & Beispiel zufällige Zeilen in dataframe ich kann mir gut vorstellen, wie zufällig Probe (wählen Sie) 'n' Zeilen aus einer df oder 'n' Zeilen

dataframe r random sample

Pandas Datenrahmen fillna () nur einige Spalten an Ort und Stelle

3 Antworten

Ich versuche zu füllen, keine Werte in ein Pandas dataframe mit 0 ist für Sie nur eine Teilmenge der Spalten. Wenn ich das mache: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df

dataframe pandas pandas-fillna python python-2.7

Hinzufügen einer neuen Spalte zum vorhandenen DataFrame in Python-Pandas

20 Antworten

Habe ich Folgendes indiziert DataFrame mit benannten Spalten und Zeilen, die nicht - fortlaufenden Nummern: a b c d 2 0.671399 0.101208 -0.181532 0.241273 3 0.446172 -0.243316 0.051767 1.577318 5 0.614758 0.075793 -0.451460 -0.012493 Möchte ich eine

chained-assignment dataframe pandas python

Titel oder Name der Pandas-Indexspalte

6 Antworten

Wie bekomme ich den index der Spalte name in python pandas? Hier ist ein Beispiel dataframe: Column 1 Index Title Apples 1 Oranges 2 Puppies 3 Ducks 4 Was ich versuche zu tun, ist get/set der dataframe

columnname dataframe pandas python

Benennen Sie mehrere Datenframe-Spalten um, die durch aktuelle Namen referenziert werden

4 Antworten

Ich umbenennen möchten ein paar zufällige Spalten einer großen Daten-frame, und ich möchte, um die aktuelle Spalte die Namen, nicht die Indizes. Spalte Indizes könnte sich ändern, wenn ich Spalten hinzufügen oder entfernen, um die Daten, so

dataframe r rename

Pandas schreiben Daten in eine CSV-Datei

6 Antworten

Ich habe einen dataframe in den pandas würde ich gerne schreiben, um eine CSV-Datei. Ich mache dies mit: df.to_csv('out.csv') Und bekommen die Fehlermeldung: UnicodeEncodeError: 'ascii' codec can't encode character u'\u03b1' in position 20: ordinal not in range(128)

csv dataframe pandas python

Wie verwende ich Pandas 'anwenden' Funktion für mehrere Spalten?

4 Antworten

Ich habe einige Probleme mit den Pandas gelten-Funktion, wenn Sie mehrere Spalten mit den folgenden dataframe df = DataFrame ({'a' : np.random.randn(6), 'b' : ['foo', 'bar'] * 3, 'c' : np.random.randn(6)}) und die folgende Funktion def my_test(a,

apply dataframe pandas python python-2.7

R - Verketten Sie zwei Datenrahmen?

5 Antworten

Gegeben zwei dataframes a und b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284

concatenation dataframe r

Interpoliere NA-Werte in einem Datenrahmen mit na

3 Antworten

Ich versuche zu entfernen NAs von meiner Daten-Frames durch interpolation mit na.approx() kann aber nicht entfernen Sie alle der NAs. Meine Daten-frame ist ein 4096x4096 mit 270.15 als Kennzeichen für die nicht gültigen Wert. Ich brauche die

dataframe interpolation r

Ersetzen von Zeichenwerten durch NA in einem Datenrahmen

5 Antworten

Habe ich einen Daten-frame mit (an beliebigen Orten) ein Zeichen mit dem Wert (sagen "foo"), die ich ersetzen wollen mit einem NA. Was ist der beste Weg, dies zu tun über die gesamte Daten-frame? InformationsquelleAutor der Frage

dataframe na r

Benennen Sie mehrere Spalten nach Namen um

12 Antworten

Sollte jemand fragte dies bereits, aber ich konnte nicht eine Antwort finden. Sage ich: x = data.frame(q=1,w=2,e=3, ...and many many columns...) was ist der eleganteste Weg zum umbenennen einer beliebigen Teilmenge der Spalten, deren position, die ich

dataframe r r-faq rename

Konvertieren Sie Daten vom langen Format in das breite Format mit mehreren Taktspalten

4 Antworten

Ich habe Schwierigkeiten, herauszufinden, die meisten elegante und flexible Art und Weise zu wechseln, Daten aus lang-format wide format, wenn ich mehr als eine Kennzahl-variable, die ich möchte zu bringen. Zum Beispiel, hier ist eine einfache Daten-frame

dataframe plyr r

Wählen Sie dynamisch Datenrahmenspalten mit $ und einem Vektor von Spaltennamen aus

6 Antworten

Möchte ich, um einen Daten-frame basiert auf verschiedenen Säulen, eine an eine Wende. Ich habe einen character-Vektor mit den entsprechenden Spaltennamen, auf denen die order beruhen soll: parameter <- c("market_value_LOCAL", "ep", "book_price", "sales_price", "dividend_yield", "beta", "TOTAL_RATING_SCORE", "ENVIRONMENT",

dataframe r r-faq

Normalisieren eines Pandas DataFrame nach Zeile

2 Antworten

Was ist die idiomatische Weise zu normalisieren, jede Zeile ein pandas DataFrame? Die Normalisierung der Spalten ist leicht, so eine (sehr hässlich!) option: (df.T / df.T.sum()).T Pandas Rundfunk Regeln, die verhindern, dass df /df.sum(axis=1) zu tun, diese

dataframe normalization pandas python

Erstellen von Matplotlib-Streudiagrammen aus Datenrahmen in Pythons Pandas

2 Antworten

Was ist der beste Weg, um eine Reihe von scatter-plots mit matplotlib aus einer pandas dataframe in Python? Wenn ich zum Beispiel einen dataframe df hat einige Spalten von Interesse, ich finde mich in der Regel konvertieren

dataframe matplotlib pandas plot python

Erkennen und Ausschließen von Ausreißern im Pandas-Datenrahmen

10 Antworten

Habe ich ein pandas dataframe mit wenigen Spalten. Jetzt weiß ich, dass gewisse Zeilen sind-Ausreißer, basierend auf einer bestimmten Spalte Wert. Beispielsweise Spalten - 'Vol' hat alle Werte um 12.xx und einem Wert, der 4000 Nun würde

dataframe filtering outliers pandas python

R - Liste zu Datenrahmen

17 Antworten

Ich habe eine verschachtelte Liste von Daten. Seine Länge ist 132 und jedes Element ist eine Liste der Länge 20. Gibt es eine schnell Weg zur Umwandlung dieser Struktur in einen Daten-frame, 132 Zeilen und 20 Spalten

dataframe list r

So zeichnen Sie alle Spalten eines Datenrahmens in R

9 Antworten

Den Daten-frame hat n Spalten und ich würde gerne n Parzellen, ein Grundstück für jede Spalte. Ich bin ein Neuling und ich bin nicht fließend in R, ja, ich fand zwei Lösungen. Die erste funktioniert, aber es

dataframe plot r

Verwenden von regexp zum Auswählen von Zeilen im R-Datenframe

6 Antworten

Ich versuche, um Zeilen auszuwählen, die in einem dataframe, in denen die Zeichenfolge, die in einer Spalte entspricht entweder ein regulärer Ausdruck oder ein Teilstring: dataframe: aName bName pName call alleles logRatio strength AX-11086564 F08_ADN103 2011-02-10_R10 AB

dataframe r regex

Wie konvertiert man eine Liste bestehend aus Vektoren unterschiedlicher Länge in einen nutzbaren Datenrahmen in R?

5 Antworten

Ich habe eine (ziemlich lange) Liste von Vektoren. Die Vektoren bestehen aus Russischen Wörtern, die ich mithilfe der strsplit() Funktion auf Sätze. Das folgende ist, was head() gibt: [[1]] [1] "модно" "создавать" "резюме" "в" "виде" [[2]] [1]

dataframe r vector

Wie speichert man einen data.frame in R?

2 Antworten

Machte ich einen Daten.frame in R, ist nicht sehr groß, aber es nimmt ziemlich etwas Zeit zu bauen. Ich würde, um es zu speichern als eine Datei, die kann ich als wieder offen in R? InformationsquelleAutor der

dataframe r

Rufen Sie eine anwendungsähnliche Funktion für jede Zeile des Datenrahmens mit mehreren Argumenten aus jeder Zeile auf

10 Antworten

Ich habe einen dataframe mit mehreren Spalten. Für jede Zeile des dataframe, ich möchte eine Funktion aufrufen, die auf die Zeile und die Eingabe der Funktion über mehrere Spalten aus dieser Zeile. Zum Beispiel, sagen wir, ich

dataframe r

Konvertieren eines Datenrahmens in einen Vektor (nach Zeilen)

2 Antworten

Ich habe einen dataframe mit numerischen Einträgen wie diesem test <- data.frame(x=c(26,21,20),y=c(34,29,28)) Wie bekomme ich den folgenden Vektor? > 26,34,21,29,20,28 Ich war in der Lage, es mit den folgenden, aber ich denke, es sollte eine viel elegantere

dataframe r vector

Ausgabe eines Datenrahmens in R an eine .csv

3 Antworten

So, ich bin versucht zu schreiben .csv-Datei basierend auf einen Daten-frame in R, aber aus irgendeinem Grund bekomme ich immer die folgende Fehlermeldung: Error in .External2(C_writetable, x, file, nrow(x), p, rnames, sep, eol, : unimplemented type 'list'

csv dataframe output r

Wie teilt man Daten in 3 Sätze auf (Zug, Validierung und Test)?

4 Antworten

Habe ich ein pandas dataframe und ich wünschte, teilen Sie es 3 separate Sätze. Ich weiß, dass mit train_test_split von sklearn.cross_validation kann man aufteilen der Daten in zwei Gruppen (Schulen und zu testen). Allerdings konnte ich keine

dataframe machine-learning numpy pandas scikit-learn

Update Datenrahmen über Funktion funktioniert nicht

5 Antworten

Ich lief in ein kleines problem mit R... In der folgenden Daten-frame test <- data.frame(v1=c(rep(1,3),rep(2,3)),v2=0) Möchte ich eine änderung der Werte für v2 in den Zeilen, wo die v1 ist 1. test[test$v1==1,"v2"] <- 10 funktioniert Prima. test

dataframe function r

Erstellen eines Datenrahmens aus zwei Vektoren mit Hilfe von cbind

2 Antworten

Betrachten Sie den folgenden R-code. > x = cbind(c(10, 20), c("", ""), c("[[1,2]]","[[1,3]]")) > x [,1] [,2] [,3] [1,] "10" "" "[[1,2]]" [2,] "20" "" "[[1,3]]" Ähnlich > x = rbind(c(10, "", "[[1,2]]"), c(20, "", "[[1,3]]")) >

dataframe r

Übergeben mehrerer anzuwendender Argumente (Python)

1 Antworten

Ich versuche, einige bereinigen von code in Python zu Vektorisieren eine Reihe von features, und ich Frage mich, ob es ein guter Weg, um zu verwenden, gelten für vergehen mehrere Argumente. Betrachten Sie das folgende (aktuelle version):

apply dataframe python

Verwenden Sie mehrere Spalten als Variablen mit Sapply

4 Antworten

Ich habe eine dataframe und ich möchte eine Funktion, die Werte der drei Spalten und berechnet die minimale Differenz zwischen den drei Werten. #dataset df <- data.frame(a= sample(1:100, 10),b = sample(1:100, 10),c= sample(1:100, 10)) #function minimum_distance <-

apply dataframe r

Vergleich zweier Vektoren in einer if-Anweisung

3 Antworten

Ich soll aufhören Zustand innerhalb einer Funktion. Die Bedingung ist, dass, wenn die ersten und zweiten Elemente passen perfekt in Reihenfolge und Länge. A <- c("A", "B", "C", "D") B <- A C <- c("A", "C", "C",

dataframe loops operators r

Wie schwenken Sie Spark DataFrame?

6 Antworten

Bin ich angefangen zu verwenden Spark-Dataframes und ich muss in der Lage sein, um die pivot-Daten zu erstellen, die mehrere Spalten 1 Spalte mit mehreren Zeilen. Es gibt eingebaute Funktionen, die in den Brüh-und ich glaube, in

apache-spark apache-spark-sql dataframe pivot scala

Wie man pandas DataFrame von Fließkommazahlen unter Verwendung einer Formatzeichenkette für Spalten anzeigt?

4 Antworten

Ich würde gerne Anzeige ein pandas dataframe mit einem bestimmten format mit print() und die IPython display(). Zum Beispiel: df = pd.DataFrame([123.4567, 234.5678, 345.6789, 456.7890], index=['foo','bar','baz','quux'], columns=['cost']) print df cost foo 123.4567 bar 234.5678 baz 345.6789 quux

dataframe ipython pandas python python-2.7

R: Weisen Sie Variablenbeschriftungen von Datenrahmenspalten zu

3 Antworten

Ich bin kämpfen, mit variable labels von Daten.frame-Spalten. Sagen, ich habe einen Daten-frame, wie diese (Teil von viel größeren Daten-frame): data <- data.frame(age = c(21, 30, 25, 41, 29, 33), sex = factor(c(1, 2, 1, 2, 1,

assign dataframe hmisc labels r

Zusammenführen von Datenrahmen im Index mit Pandas

2 Antworten

Habe ich zwei dataframes und jeder hat zwei index-Spalten. Ich möchte Sie Zusammenführen. Für Beispiel, der erste dataframe ist die folgende: V1 A 1/1/2012 12 2/1/2012 14 B 1/1/2012 15 2/1/2012 8 C 1/1/2012 17 2/1/2012 9

dataframe merge pandas python

Python Pandas replizieren Zeilen im Datenrahmen

4 Antworten

Wenn die Daten so Aussehen: Store,Dept,Date,Weekly_Sales,IsHoliday 1,1,2010-02-05,24924.5,FALSE 1,1,2010-02-12,46039.49,TRUE 1,1,2010-02-19,41595.55,FALSE 1,1,2010-02-26,19403.54,FALSE 1,1,2010-03-05,21827.9,FALSE 1,1,2010-03-12,21043.39,FALSE 1,1,2010-03-19,22136.64,FALSE 1,1,2010-03-26,26229.21,FALSE 1,1,2010-04-02,57258.43,FALSE Und ich will doppelte Zeilen mit IsHoliday gleich TRUE ist, was ich tun kann: is_hol = df['IsHoliday'] == True df_try = df[is_hol]

dataframe pandas python

Pandas-Version von rbind

3 Antworten

In R, können Sie kombinieren zwei dataframes durch kleben die Spalten auf der Unterseite der Spalten der anderen mit rbind. In pandas, wie Sie das gleiche erreichen? Es scheint seltsam, schwierig. Benutzung von append Ergebnisse in einem

dataframe pandas python r

Ersetze Zeichenfolge / Wert im gesamten Datenrahmen

2 Antworten

Ich habe ein sehr großes dataset möchte ich ersetzen von Zeichenfolgen mit zahlen. Ich möchte den Betrieb auf den Datensatz ohne die Eingabe einer mapping-Funktion für jede Taste (Spalte) in das dataset. (ähnlich wie die fillna Methode,

dataframe pandas python replace

Auswählen einer Reihe von Pandas-Reihen / Datenrahmen nach ganzzahligem Index

6 Antworten

Ich bin neugierig, warum df[2] wird nicht unterstützt, während df.ix[2] und df[2:3] beide arbeiten. In [26]: df.ix[2] Out[26]: A 1.027680 B 1.514210 C -1.466963 D -0.162339 Name: 2000-01-03 00:00:00 In [27]: df[2:3] Out[27]: A B C D

dataframe indexing pandas python

Ändern Sie die Spalte data.frame in Zeilen in R

2 Antworten

A <- c(1,6) B <- c(2,7) C <- c(3,8) D <- c(4,9) E <- c(5,0) df <- data.frame(A,B,C,D,E) df A B C D E 1 1 2 3 4 5 2 6 7 8 9 0 Ich

dataframe r rows

Wie schleift man in R die Zeilen eines Datenrahmens wirklich schnell?

3 Antworten

Angenommen, Sie haben einen Daten-frame mit vielen Zeilen und vielen Spalten. Die Spalten Namen haben. Sie möchten Zugriff auf Zeilen-Nummer, und die Spalten mit Namen. Beispielsweise eine (möglicherweise langsame) Weg, um eine Schleife über die Zeilen ist

dataframe iteration performance r rows

Übernehmen Sie die Funktion im Dataframe-Index

3 Antworten

Was ist die beste Möglichkeit, eine Funktion über den index eines Pandas DataFrame? Zurzeit bin ich mit dieser ausführlichen Ansatz: pd.DataFrame({"Month": df.reset_index().Date.apply(foo)}) wo Date ist der name des index und die foo ist der name der Funktion,

dataframe indexing pandas python

Wie man eine Tupelsäule aus zwei Spalten in Pandas bildet

3 Antworten

Habe ich ein Pandas DataFrame, und ich will zu kombinieren, die 'lat' und 'long' Spalten bilden ein Tupel. <class 'pandas.core.frame.DataFrame'> Int64Index: 205482 entries, 0 to 209018 Data columns: Month 205482 non-null values Reported by 205482 non-null values

dataframe pandas python tuples

So löschen Sie Spalten nach Namen in einem Datenrahmen

10 Antworten

Ich habe einen großen Datensatz und möchte ich Lesen bestimmter Spalten oder drop all die anderen. data <- read.dta("file.dta") Ich die Spalten auswählen, die ich bin nicht daran interessiert, in: var.out <- names(data)[!names(data) %in% c("iden", "name", "x_serv",

dataframe r subset