Tag: dataframe

Ein data frame ist eine tabellarische Datenstruktur. In der Regel enthält es Daten, in denen Zeilen sind Beobachtungen und die Spalten sind Variablen der verschiedenen Typen. Während „data frame“ oder „dataframe“ ist der Begriff für dieses Konzept in mehreren Sprachen (R, Apache Spark, deedle, Ahorn, die pandas-Bibliothek in Python und die DataFrames library in Julia), „Tabelle“ ist der Begriff in MATLAB und SQL.

Auswahl mehrerer Spalten in ein pandas dataframe

15 Antworten

Ich habe Daten in verschiedenen Spalten, aber ich weiß nicht, wie um Sie zu extrahieren, um es zu speichern in einer anderen variable. index a b c 1 2 3 4 2 3 4 5 Wie wähle

Die aggregierten Daten in einer Spalte basierend auf Werten in einer anderen Spalte

4 Antworten

Ich weiß, es ist ein einfacher Weg, dies zu tun...aber, ich kann ' T es herausfinden. Ich habe einen dataframe in mein R-Skript, das ungefähr so aussieht: A B C 1.2 4 8 2.3 4 9 2.3

aggregate dataframe r

Unlist alle Listenelemente in einem dataframe

1 Antworten

Habe ich einen Daten-frame mit den folgenden Klassen von Variablen für jede Spalte: "date" "numeric" "numeric" "list" "list" "numeric" Die Daten in jeder Zeile sieht wie folgt aus: 1978-01-01, 12.5, 6.3, c(0,0,0.25,0.45,0.3), c(0,0,0,0.1,0.9), 72 Möchte ich, um

dataframe r

Wählen Sie durch partielle string aus ein pandas DataFrame

8 Antworten

Ich habe eine DataFrame mit 4 Säulen, von denen 2 enthält string-Werte. Ich Frage mich, ob es einen Weg, um Zeilen auszuwählen, die basierend auf eine teilweise übereinstimmung mit einem gegen eine bestimmte Spalte? In anderen Worten,

dataframe pandas python string

Pandas DataFrame merge-Summen-Spalte

3 Antworten

Ich versuche zum Zusammenführen von zwei DataFrames Summierung der Spalten Wert. df1 id name weight 1 A 0 2 B 10 3 C 10 df2 id name weight 2 B 15 3 C 10 Muss ich Summe

dataframe pandas python

Zum extrahieren von nicht-nan-Werte aus mehreren Zeilen in ein pandas dataframe

3 Antworten

Arbeite ich an mehreren taxi-datasets. Ich habe verwendet, pandas zu concat alle datasets in einer einzigen dataframe. Mein dataframe so aussieht. 675 1039 #and rest 125 taxis longitude latitude longitude latitude date 2008-02-02 13:31:21 116.56359 40.06489 Nan

dataframe numpy pandas python python-2.7

Benennen Sie bestimmte Spalte(N) in pandas

3 Antworten

Habe ich einen dataframe genannt data. Wie würde ich umbenennen, die nur eine Spalte mit header? Zum Beispiel gdp zu log(gdp)? data = y gdp cap 0 1 2 5 1 2 3 9 2 8 7

dataframe pandas python rename

Wie die Rückkehr ein "Tupel-Typ" in einer UDF in PySpark?

3 Antworten

Alle Datentypen in pyspark.sql.Typen werden: __all__ = [ "DataType", "NullType", "StringType", "BinaryType", "BooleanType", "DateType", "TimestampType", "DecimalType", "DoubleType", "FloatType", "ByteType", "IntegerType", "LongType", "ShortType", "ArrayType", "MapType", "StructField", "StructType"] Ich zu schreiben, ein UDF (in pyspark) gibt ein array von

apache-spark apache-spark-sql dataframe pyspark python

Wie print pandas DataFrame ohne index

6 Antworten

Will ich drucken Sie das ganze dataframe, aber ich don ' T wollen drucken Sie den index Außerdem eine Spalte ist datetime-Typ, ich will nur drucken, nicht Datum. Den dataframe aussieht: User ID Enter Time Activity Number

dataframe datetime pandas python

Warum testen `NaN == NaN` nicht für das fallenlassen von ein pandas dataFrame?

2 Antworten

Bitte erklären, wie NaN ' s behandelt werden, in der pandas, da die folgende Logik scheint "kaputt" zu mir, ich habe versucht, verschiedene Möglichkeiten (siehe unten) fallen die leeren Werte. Mein dataframe, die lade ich aus einer

dataframe nan pandas python

Pandas groupby mit bin zählt

1 Antworten

Ich habe einen DataFrame, der wie folgt aussieht: +----------+---------+-------+ | username | post_id | views | +----------+---------+-------+ | john | 1 | 3 | | john | 2 | 23 | | john | 3 | 44

dataframe pandas pandas-groupby python

hinzufügen von dummy-Spalten der ursprünglichen dataframe

1 Antworten

Ich habe einen dataframe sieht wie folgt aus: JOINED_CO GESCHLECHT EXEC_FULLNAME GVKEY JAHR CONAME BECAMECEO WIEDER LEFTOFC LEFTCO RELEFT GRUND SEITE CO_PER_ROL 5622 NaN STECKER Ira A. Eichner 1004 1992 AAR CORP 19550101 NaN 19961001 19990531

dataframe one-hot-encoding pandas python

Wählen Sie Spalte 2 bis Letzte Spalte in R

2 Antworten

Habe ich einen Daten-frame mit mehreren Spalten. Nun, ich möchte, um loszuwerden, die Zeile.Namen-Spalte (Spalte 1), und so versuche ich zu wählen, alle anderen Spalten. E. g., newdata <- olddata[,2:10] ist es ein Standard-symbol für die Letzte

dataframe multiple-columns r

Summen-Zeilen, indem Sie Monat für Monat in R

4 Antworten

Also ich habe einen Daten-frame, der hat eine Spalte Datum, eine Stunde, Spalte und eine Reihe von anderen numerischen Spalten. Jede Zeile in der Daten-frame ist 1 Stunde 1 Tag für ein ganzes Jahr. Den Daten-frame sieht

aggregate dataframe dplyr lubridate r

Putting viele python pandas dataframes zu einem excel-Arbeitsblatt

3 Antworten

Ist es ganz einfach hinzufügen viele pandas dataframes in excel-arbeiten, buchen Sie, solange es verschiedene Arbeitsblätter. Aber, es ist etwas schwierig zu bekommen, viele dataframes in einem Arbeitsblatt, wenn Sie verwenden möchten pandas gebaut-in df.to_excel Funktionalität. #

dataframe excel pandas python xlsxwriter

Entfernen Sie Zeilen mit Inf und NaN in R

1 Antworten

Habe ich folgende Daten: > dat ID Gene Value1 Value2 1 NM_013468 Ankrd1 Inf Inf 2 NM_023785 Ppbp Inf Inf 3 NM_178666 Themis NaN Inf 4 NM_001161790 Mefv Inf Inf 5 NM_001161791 Mefv Inf Inf 6 NM_019453

dataframe r

pandas dataframe resample, - pro Tag ohne Datum, Zeit, index

1 Antworten

Ich habe einen dataframe pandas in der folgenden form: timestamps light 7 2004-02-28 00:58:45 150.88 26 2004-02-28 00:59:45 143.52 34 2004-02-28 01:00:45 150.88 42 2004-02-28 01:01:15 150.88 59 2004-02-28 01:02:15 150.88 Hier beachten, dass der index nicht

dataframe pandas python time-series

Definieren und anwenden von eigenen Ordnern auf einem dataframe

0 Antworten

Mit python habe ich erstellt nach Daten-frame enthält ähnlichkeit Werte: cosinFcolor cosinEdge cosinTexture histoFcolor histoEdge histoTexture jaccard 1 0.770 0.489 0.388 0.57500000 0.5845137 0.3920000 0.00000000 2 0.067 0.496 0.912 0.13865546 0.6147309 0.6984127 0.00000000 3 0.514 0.426 0.692

binning dataframe r summarize

das zählen der vorkommen in den Daten.frame in r

2 Antworten

Habe ich einen Daten-frame 200 Spalten mit 150 Gene (Zeilen) in jeder Spalte. Möchte ich die Anzahl der vorkommen für jedes gen in das gesamte Daten-frame mydat <- V1 V2 V3 V4 V5 V6 V7 V8 1

dataframe r

'Ungültiger Typ Vergleich" in den code

1 Antworten

Ich habe eine pandas dataframe die viele Spalten hat. Diese Spalten haben kann 3 Werte - True, False und NaN. Ich bin replcaing die NaN mit der Zeichenfolge missing. Die sample-Werte für eine meiner Spalten ist wie

dataframe pandas python

Wie swap-Werte zwischen zwei Spalten

3 Antworten

Habe ich einen Daten-frame mit drei Variablen und 250K Datensätze. Als Beispiel betrachten wir df <- data.frame(V1=c(1,2,4), V2=c("a","a","b"), V3=c(2,3,1)) V1 V2 V3 1 a 2 2 a 3 4 b 1 wollen und swap-Werte zwischen V1 und

dataframe r

PySpark: mehrere Bedingungen in der wenn-Klausel

4 Antworten

Möchte ich ändern Sie die Werte von Zellen eines dataframe Spalte (Alter), wo es derzeit ist leer und ich würde es nur tun, wenn eine andere Spalte (Überlebt) hat den Wert 0 für die entsprechende Zeile, wo

apache-spark apache-spark-sql dataframe pyspark python

Umgang mit Nullen in pandas DataFrames Spalte Divisionen in Python

1 Antworten

Was ist der beste Weg zu handhaben null Nenner bei der Division pandas DataFrame Spalten von einander in Python? zum Beispiel: df = pandas.DataFrame({"a": [1, 2, 0, 1, 5], "b": [0, 10, 20, 30, 50]}) df.a /

dataframe numpy pandas python

Wie man den Wert von Spalte name in R?

2 Antworten

Habe ich eine Registerkarte getrennte Datei. cat-Datei A B C 2 3 4 3 4 5 2 6 6 infile " <-read.table("Datei",header=TRUE) Ich brauche, um Wert für die Spalte die header = "A". A 2 3 2

dataframe r

Wie konvertiert index ein pandas dataframe in eine Spalte?

6 Antworten

Dies scheint ziemlich offensichtlich, aber ich kann nicht scheinen, um herauszufinden, wie konvertiert einen index der Daten-frame an eine Spalte? Beispiel: df= gi ptt_loc 0 384444683 593 1 384444684 594 2 384444686 596 Zu, df= index1 gi

dataframe pandas python

Ändern Sie negative Werte in dataframe Spalte zu absoluten Wert

2 Antworten

Ich habe eine data.frame wie diese: Col1 Col2 Col3 Col4 Col5 Col6 1 1982 0 0 -211 107 0 2 4412 0 989 0 296 0 3 0 -5051 0 -267 389 920 4 0 -2983 0

dataframe r

berechnen Sie tägliche log-return in einen Daten-frame

2 Antworten

Ich bin ein Neuling in R und habe nur eine kurze Frage. Habe ich einen Daten-frame mit Zeitreihen finanzieller Daten und möchten berechnen Sie die log-returns von bestimmten Spalten. Als ich versuchte, es zu tun mit diff(log())

dataframe r time-series

Konvertieren Zeile Namen in mehrere Daten-frames, um die Spalte in der Daten-frame

1 Antworten

Habe ich eine Liste von .csv Dateien, die ich gelesen habe, die in R und in einem großen data frame namens data besteht aus 6 Daten.frames, die sind die 6 Dateien in filenames. Mein code bisher ist:

dataframe r rowname

Wie berechnen die gewichtete Summe aller Elemente in einer Zeile in pandas?

2 Antworten

Habe ich ein Pandabären-Daten-frame mit mehreren Spalten. Ich will eine neue Spalte erstellen weighted_sum von den Werten in der Zeile und eine weitere Spalte vector-dataframe weight weighted_sum sollte den folgenden Wert haben: row[weighted_sum] = row[col0]*weight[0] + row[col1]*weight[1]

calculated-columns dataframe pandas python weighted-average

Konvertieren von Daten.frame-Spalte in einen Vektor?

9 Antworten

Ich habe einen dataframe, wie: a1 = c(1, 2, 3, 4, 5) a2 = c(6, 7, 8, 9, 10) a3 = c(11, 12, 13, 14, 15) aframe = data.frame(a1, a2, a3) Ich habe Folgendes versucht, zu konvertieren,

dataframe r type-conversion vector

Wie man Spalte bedeuten für bestimmte Zeilen nur?

2 Antworten

Ich brauche, um den Mittelwert einer Spalte (hier: score-Wert) für bestimmte Zeilen (hier: Jahre). Speziell würde ich gerne wissen, die Durchschnittliche Punktzahl für die drei Perioden: Zeit 1: Jahr <= 1983 2 Zeitraum: Jahr >= 1984 &

dataframe mean r

Erstellen dataframe aus einer matrix

5 Antworten

Wie man einen Daten-frame mit den gleichen Daten wie eine bereits vorhandene matrix hat? Ein Vereinfachtes Beispiel meine matrix: mat <- matrix(c(0, 0.5, 1, 0.1, 0.2, 0.3, 0.3, 0.4, 0.5), ncol = 3, nrow = 3, dimnames

dataframe matrix r

R: Wenden Sie die Funktion auf bestimmte Spalten die Erhaltung der rest der dataframe

3 Antworten

Ich würde gerne lernen, wie man anwenden von Funktionen auf bestimmte Spalten der mein dataframe ohne "ohne" die anderen Spalten aus meiner df. Zum Beispiel würde ich gerne multiplizieren einige bestimmte Spalten durch 1000 und lassen Sie

dataframe r sapply

Verwendung von loc zu aktualisieren dataframe python pandas

2 Antworten

Habe ich ein pandas dataframe (df) mit der Spalten-Struktur : month a b c d dieser dataframe Daten für sagen Jan, Feb, Mar, Apr. A,B,C,D sind numerische Spalten. Für den Monat Februar möchte ich die Neuberechnung Spalte

dataframe loc pandas python updating

Die Bestimmung, wenn eine Spalte Wert ändert sich in pandas dataframe

1 Antworten

Ich bin auf der Suche an, schreiben Sie eine kurze Skript, das ausgeführt wird durch eine csv-Datei mit zwei Spalten und geben Sie mir die Zeilen, in denen die Werte in Spalte B wechseln Sie von einem

csv dataframe pandas python search

Wie zu Sortieren dataframe in R mit der angegebenen Spalten um die Erhaltung?

3 Antworten

Sagen wir, ich habe ein Daten.Rahmen x <- data.frame(a = c('A','A','A','A','A', 'C','C','C','C', 'B','B','B'), b = c('a','c','a','a','c', 'd', 'e','e','d', 'b','b','b'), c = c( 7, 3, 2, 4, 5, 3, 1, 1, 5, 5, 2, 3), stringsAsFactors = FALSE)

dataframe r sorting

Logische Operatoren für Boolesche Indexierung Pandas

3 Antworten

Arbeite ich mit boolean-index in der Pandas. Die Frage ist, warum die Aussage: a[(a['some_column']==some_number) & (a['some_other_column']==some_other_number)] funktioniert in der Erwägung, dass a[(a['some_column']==some_number) and (a['some_other_column']==some_other_number)] beendet sich mit Fehler? Beispiel: a=pd.DataFrame({'x':[1,1],'y':[10,20]}) In: a[(a['x']==1)&(a['y']==10)] Out: x y 0 1

boolean dataframe filtering pandas python

Wie fügen Sie einen Funken Dataframe an der Unterseite eines anderen dataframe?

1 Antworten

Kann ich verwenden withcolumnneue Spalten hinzuzufügen, um ein Dataframe. Aber in scala-wie kann ich neue Zeilen hinzufügen ein DataFrame? Ich versuche, fügen Sie ein dataframe an der Unterseite des anderen. Also entweder, wie fügen Sie Zeilen in

apache-spark dataframe scala

Was Sie tun können, mit Daten.Rahmen, Sie können nicht mit Daten.Tabelle?

1 Antworten

Ich gerade angefangen mit R, und kam über Daten.Tabelle. Ich fand es genial. Eine ganz naive Frage: Kann ich das ignorieren Daten.- frame-Daten.Tabelle zu vermeiden syntax Verwirrung zwischen zwei Paketen? Siehe die Daten.Tabelle faq speziell 1,8 und

data.table dataframe r

Ersetzen Sie ungültige Werte, die mit Keiner in Pandas DataFrame

6 Antworten

Gibt es eine Methode, um Werte zu ersetzen mit None im Pandas in Python? Können Sie df.replace('pre', 'post') und ersetzen können Sie einen Wert mit einem anderen, aber dies kann nicht getan werden, wenn Sie ersetzen möchten,

dataframe nan pandas python replace

Versuchen, drop von NaN indizierten Zeile in dataframe

6 Antworten

Ich bin mit python 2.7.3 und Pandas version 0.12.0. Möchte ich drop die Zeile mit der NaN-index, so dass ich nur noch gültig site_id Werte. print df.head() special_name site_id NaN Banana OMG Apple df.drop(df.index[0]) TypeError: 'NoneType' object

dataframe pandas python

So wählen Sie einige Zeilen mit bestimmten rownames aus einem dataframe?

3 Antworten

Habe ich einen Daten-frame mit mehreren Zeilen. Ich möchte bestimmte Zeilen mit bestimmten rownames (wie stu2,stu3,stu5,stu9) aus dieser dataframe. Der Eingang Beispiel dataframe ist wie folgt: attr1 attr2 attr3 attr4 stu1 0 0 1 0 stu2 -1

dataframe r rowname subset

Speicher effiziente alternative zu rbind - in-place-rbind?

4 Antworten

Muss ich rbind zwei großen Daten-frames. Jetzt benutze ich df <- rbind(df, df.extension) aber ich (fast) sofort run out of memory. Ich Schätze sein, weil df ist gehalten in der Erinnerung doppelt. Ich könnte sehen, noch größere

dataframe r rbind

Alle Zeilen eines Daten-Frames mit einem bestimmten Wert

2 Antworten

Habe ich einen Daten-frame mit mehreren Spalten, eine davon (genannt: drift.N) ist eine Reihe von TRUE und FALSES ist. Wie würde ich mich über die Trennung der "WAHREN" Zeilen aus der "FALSCHEN" Zeilen oder Fragen Sie R,

dataframe r subset

Zusammenführung von Daten-frames ohne doppelte Zeilen

1 Antworten

Ich würde gerne Zusammenführen von zwei Daten-frames, aber nicht wollen, um doppelte Zeilen, wenn es mehr als ein Spiel. Stattdessen würde ich mag, um die Summe der Beobachtungen an diesem Tag. Aus ?merge: Die Zeilen in den

dataframe r

Wählen Sie aus pandas dataframe mit boolean-Serie/array

1 Antworten

Ich habe einen dataframe: High Low Close Date 2009-02-11 30.20 29.41 29.87 2009-02-12 30.28 29.32 30.24 2009-02-13 30.45 29.96 30.10 2009-02-17 29.35 28.74 28.90 2009-02-18 29.35 28.56 28.92 und ein boolean-Serie: bools 1 True 2 False 3

dataframe python

Kombinieren Sie zwei oder mehr Spalten in einem dataframe in eine neue Spalte mit einem neuen Namen

5 Antworten

Zum Beispiel wenn ich diese habe: n = c(2, 3, 5) s = c("aa", "bb", "cc") b = c(TRUE, FALSE, TRUE) df = data.frame(n, s, b) n s b 1 2 aa TRUE 2 3 bb FALSE

dataframe multiple-columns r r-faq

Grundstück pandas Termine matplotlib

1 Antworten

Habe ich eine fixed-width-Daten-Datei mit den Terminen, aber wenn ich versuche zu Plotten der Daten die Daten werden nicht richtig dargestellt, auf der x-Achse. Meine Dateien sieht wie 2014-07-10 11:49:14.377102 45 2014-07-10 11:50:14.449150 45 2014-07-10 11:51:14.521168 21

dataframe datetime matplotlib pandas python

Bekommen dot-Produkt von dataframe mit vector und zurück dataframe, in Pandas

3 Antworten

Ich bin nicht in der Lage, den Eingang zu finden auf der Methode dot() in der offiziellen Dokumentation. Aber die Methode gibt es und ich kann es benutzen. Warum ist das so? Zu diesem Thema, gibt es

dataframe dot-product pandas python

Zahlen als Spaltennamen des data frames

2 Antworten

Gibt es einen Grund, warum R wird nicht lassen Sie mich eine Zahl als name der Spalte meiner dataframe? Ist auch aufgefallen, dass wenn ich data.frame(XX) es fügt ein X alle Spaltenüberschriften, die zahlen auf der Vorderseite.

dataframe names r