Tag: dataframe

Ein data frame ist eine tabellarische Datenstruktur. In der Regel enthält es Daten, in denen Zeilen sind Beobachtungen und die Spalten sind Variablen der verschiedenen Typen. Während „data frame“ oder „dataframe“ ist der Begriff für dieses Konzept in mehreren Sprachen (R, Apache Spark, deedle, Ahorn, die pandas-Bibliothek in Python und die DataFrames library in Julia), „Tabelle“ ist der Begriff in MATLAB und SQL.

Auswahl mehrerer Spalten in ein pandas dataframe

Anzahl der Antworten 15 Antworten
Ich habe Daten in verschiedenen Spalten, aber ich weiß nicht, wie um Sie zu extrahieren, um es zu speichern in einer anderen variable. index a b c 1 2 3 4 2 3 4 5 Wie wähle

Die aggregierten Daten in einer Spalte basierend auf Werten in einer anderen Spalte

Anzahl der Antworten 4 Antworten
Ich weiß, es ist ein einfacher Weg, dies zu tun...aber, ich kann ' T es herausfinden. Ich habe einen dataframe in mein R-Skript, das ungefähr so aussieht: A B C 1.2 4 8 2.3 4 9 2.3

Unlist alle Listenelemente in einem dataframe

Anzahl der Antworten 1 Antworten
Habe ich einen Daten-frame mit den folgenden Klassen von Variablen für jede Spalte: "date" "numeric" "numeric" "list" "list" "numeric" Die Daten in jeder Zeile sieht wie folgt aus: 1978-01-01, 12.5, 6.3, c(0,0,0.25,0.45,0.3), c(0,0,0,0.1,0.9), 72 Möchte ich, um

Wählen Sie durch partielle string aus ein pandas DataFrame

Anzahl der Antworten 8 Antworten
Ich habe eine DataFrame mit 4 Säulen, von denen 2 enthält string-Werte. Ich Frage mich, ob es einen Weg, um Zeilen auszuwählen, die basierend auf eine teilweise übereinstimmung mit einem gegen eine bestimmte Spalte? In anderen Worten,

Pandas DataFrame merge-Summen-Spalte

Anzahl der Antworten 3 Antworten
Ich versuche zum Zusammenführen von zwei DataFrames Summierung der Spalten Wert. df1 id name weight 1 A 0 2 B 10 3 C 10 df2 id name weight 2 B 15 3 C 10 Muss ich Summe

Zum extrahieren von nicht-nan-Werte aus mehreren Zeilen in ein pandas dataframe

Anzahl der Antworten 3 Antworten
Arbeite ich an mehreren taxi-datasets. Ich habe verwendet, pandas zu concat alle datasets in einer einzigen dataframe. Mein dataframe so aussieht. 675 1039 #and rest 125 taxis longitude latitude longitude latitude date 2008-02-02 13:31:21 116.56359 40.06489 Nan

Benennen Sie bestimmte Spalte(N) in pandas

Anzahl der Antworten 3 Antworten
Habe ich einen dataframe genannt data. Wie würde ich umbenennen, die nur eine Spalte mit header? Zum Beispiel gdp zu log(gdp)? data = y gdp cap 0 1 2 5 1 2 3 9 2 8 7

Wie die Rückkehr ein "Tupel-Typ" in einer UDF in PySpark?

Anzahl der Antworten 3 Antworten
Alle Datentypen in pyspark.sql.Typen werden: __all__ = [ "DataType", "NullType", "StringType", "BinaryType", "BooleanType", "DateType", "TimestampType", "DecimalType", "DoubleType", "FloatType", "ByteType", "IntegerType", "LongType", "ShortType", "ArrayType", "MapType", "StructField", "StructType"] Ich zu schreiben, ein UDF (in pyspark) gibt ein array von

Wie print pandas DataFrame ohne index

Anzahl der Antworten 6 Antworten
Will ich drucken Sie das ganze dataframe, aber ich don ' T wollen drucken Sie den index Außerdem eine Spalte ist datetime-Typ, ich will nur drucken, nicht Datum. Den dataframe aussieht: User ID Enter Time Activity Number

Warum testen `NaN == NaN` nicht für das fallenlassen von ein pandas dataFrame?

Anzahl der Antworten 2 Antworten
Bitte erklären, wie NaN ' s behandelt werden, in der pandas, da die folgende Logik scheint "kaputt" zu mir, ich habe versucht, verschiedene Möglichkeiten (siehe unten) fallen die leeren Werte. Mein dataframe, die lade ich aus einer

Pandas groupby mit bin zählt

Anzahl der Antworten 1 Antworten
Ich habe einen DataFrame, der wie folgt aussieht: +----------+---------+-------+ | username | post_id | views | +----------+---------+-------+ | john | 1 | 3 | | john | 2 | 23 | | john | 3 | 44

hinzufügen von dummy-Spalten der ursprünglichen dataframe

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe sieht wie folgt aus:             JOINED_CO GESCHLECHT    EXEC_FULLNAME  GVKEY  JAHR  CONAME  BECAMECEO  WIEDER   LEFTOFC    LEFTCO  RELEFT    GRUND  SEITE CO_PER_ROL                                                                                                                                      5622              NaN   STECKER   Ira A. Eichner   1004  1992  AAR CORP   19550101     NaN  19961001  19990531

Wählen Sie Spalte 2 bis Letzte Spalte in R

Anzahl der Antworten 2 Antworten
Habe ich einen Daten-frame mit mehreren Spalten. Nun, ich möchte, um loszuwerden, die Zeile.Namen-Spalte (Spalte 1), und so versuche ich zu wählen, alle anderen Spalten. E. g., newdata <- olddata[,2:10] ist es ein Standard-symbol für die Letzte

Summen-Zeilen, indem Sie Monat für Monat in R

Anzahl der Antworten 4 Antworten
Also ich habe einen Daten-frame, der hat eine Spalte Datum, eine Stunde, Spalte und eine Reihe von anderen numerischen Spalten. Jede Zeile in der Daten-frame ist 1 Stunde 1 Tag für ein ganzes Jahr. Den Daten-frame sieht

Putting viele python pandas dataframes zu einem excel-Arbeitsblatt

Anzahl der Antworten 3 Antworten
Ist es ganz einfach hinzufügen viele pandas dataframes in excel-arbeiten, buchen Sie, solange es verschiedene Arbeitsblätter. Aber, es ist etwas schwierig zu bekommen, viele dataframes in einem Arbeitsblatt, wenn Sie verwenden möchten pandas gebaut-in df.to_excel Funktionalität. #

Entfernen Sie Zeilen mit Inf und NaN in R

Anzahl der Antworten 1 Antworten
Habe ich folgende Daten: > dat ID Gene Value1 Value2 1 NM_013468 Ankrd1 Inf Inf 2 NM_023785 Ppbp Inf Inf 3 NM_178666 Themis NaN Inf 4 NM_001161790 Mefv Inf Inf 5 NM_001161791 Mefv Inf Inf 6 NM_019453

pandas dataframe resample, - pro Tag ohne Datum, Zeit, index

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe pandas in der folgenden form: timestamps light 7 2004-02-28 00:58:45 150.88 26 2004-02-28 00:59:45 143.52 34 2004-02-28 01:00:45 150.88 42 2004-02-28 01:01:15 150.88 59 2004-02-28 01:02:15 150.88 Hier beachten, dass der index nicht

Definieren und anwenden von eigenen Ordnern auf einem dataframe

Anzahl der Antworten 0 Antworten
Mit python habe ich erstellt nach Daten-frame enthält ähnlichkeit Werte: cosinFcolor cosinEdge cosinTexture histoFcolor histoEdge histoTexture jaccard 1 0.770 0.489 0.388 0.57500000 0.5845137 0.3920000 0.00000000 2 0.067 0.496 0.912 0.13865546 0.6147309 0.6984127 0.00000000 3 0.514 0.426 0.692

das zählen der vorkommen in den Daten.frame in r

Anzahl der Antworten 2 Antworten
Habe ich einen Daten-frame 200 Spalten mit 150 Gene (Zeilen) in jeder Spalte. Möchte ich die Anzahl der vorkommen für jedes gen in das gesamte Daten-frame mydat <- V1 V2 V3 V4 V5 V6 V7 V8 1

'Ungültiger Typ Vergleich" in den code

Anzahl der Antworten 1 Antworten
Ich habe eine pandas dataframe die viele Spalten hat. Diese Spalten haben kann 3 Werte - True, False und NaN. Ich bin replcaing die NaN mit der Zeichenfolge missing. Die sample-Werte für eine meiner Spalten ist wie

Wie swap-Werte zwischen zwei Spalten

Anzahl der Antworten 3 Antworten
Habe ich einen Daten-frame mit drei Variablen und 250K Datensätze. Als Beispiel betrachten wir df <- data.frame(V1=c(1,2,4), V2=c("a","a","b"), V3=c(2,3,1)) V1 V2 V3 1 a 2 2 a 3 4 b 1 wollen und swap-Werte zwischen V1 und

PySpark: mehrere Bedingungen in der wenn-Klausel

Anzahl der Antworten 4 Antworten
Möchte ich ändern Sie die Werte von Zellen eines dataframe Spalte (Alter), wo es derzeit ist leer und ich würde es nur tun, wenn eine andere Spalte (Überlebt) hat den Wert 0 für die entsprechende Zeile, wo

Umgang mit Nullen in pandas DataFrames Spalte Divisionen in Python

Anzahl der Antworten 1 Antworten
Was ist der beste Weg zu handhaben null Nenner bei der Division pandas DataFrame Spalten von einander in Python? zum Beispiel: df = pandas.DataFrame({"a": [1, 2, 0, 1, 5], "b": [0, 10, 20, 30, 50]}) df.a /

Wie man den Wert von Spalte name in R?

Anzahl der Antworten 2 Antworten
Habe ich eine Registerkarte getrennte Datei. cat-Datei A B C 2 3 4 3 4 5 2 6 6 infile " <-read.table("Datei",header=TRUE) Ich brauche, um Wert für die Spalte die header = "A". A 2 3 2

Wie konvertiert index ein pandas dataframe in eine Spalte?

Anzahl der Antworten 6 Antworten
Dies scheint ziemlich offensichtlich, aber ich kann nicht scheinen, um herauszufinden, wie konvertiert einen index der Daten-frame an eine Spalte? Beispiel: df= gi ptt_loc 0 384444683 593 1 384444684 594 2 384444686 596 Zu, df= index1 gi

Ändern Sie negative Werte in dataframe Spalte zu absoluten Wert

Anzahl der Antworten 2 Antworten
Ich habe eine data.frame wie diese: Col1 Col2 Col3 Col4 Col5 Col6 1 1982 0 0 -211 107 0 2 4412 0 989 0 296 0 3 0 -5051 0 -267 389 920 4 0 -2983 0

berechnen Sie tägliche log-return in einen Daten-frame

Anzahl der Antworten 2 Antworten
Ich bin ein Neuling in R und habe nur eine kurze Frage. Habe ich einen Daten-frame mit Zeitreihen finanzieller Daten und möchten berechnen Sie die log-returns von bestimmten Spalten. Als ich versuchte, es zu tun mit diff(log())

Konvertieren Zeile Namen in mehrere Daten-frames, um die Spalte in der Daten-frame

Anzahl der Antworten 1 Antworten
Habe ich eine Liste von .csv Dateien, die ich gelesen habe, die in R und in einem großen data frame namens data besteht aus 6 Daten.frames, die sind die 6 Dateien in filenames. Mein code bisher ist:

Wie berechnen die gewichtete Summe aller Elemente in einer Zeile in pandas?

Anzahl der Antworten 2 Antworten
Habe ich ein Pandabären-Daten-frame mit mehreren Spalten. Ich will eine neue Spalte erstellen weighted_sum von den Werten in der Zeile und eine weitere Spalte vector-dataframe weight weighted_sum sollte den folgenden Wert haben: row[weighted_sum] = row[col0]*weight[0] + row[col1]*weight[1]

Konvertieren von Daten.frame-Spalte in einen Vektor?

Anzahl der Antworten 9 Antworten
Ich habe einen dataframe, wie: a1 = c(1, 2, 3, 4, 5) a2 = c(6, 7, 8, 9, 10) a3 = c(11, 12, 13, 14, 15) aframe = data.frame(a1, a2, a3) Ich habe Folgendes versucht, zu konvertieren,

Wie man Spalte bedeuten für bestimmte Zeilen nur?

Anzahl der Antworten 2 Antworten
Ich brauche, um den Mittelwert einer Spalte (hier: score-Wert) für bestimmte Zeilen (hier: Jahre). Speziell würde ich gerne wissen, die Durchschnittliche Punktzahl für die drei Perioden: Zeit 1: Jahr <= 1983 2 Zeitraum: Jahr >= 1984 &

Erstellen dataframe aus einer matrix

Anzahl der Antworten 5 Antworten
Wie man einen Daten-frame mit den gleichen Daten wie eine bereits vorhandene matrix hat? Ein Vereinfachtes Beispiel meine matrix: mat <- matrix(c(0, 0.5, 1, 0.1, 0.2, 0.3, 0.3, 0.4, 0.5), ncol = 3, nrow = 3, dimnames

R: Wenden Sie die Funktion auf bestimmte Spalten die Erhaltung der rest der dataframe

Anzahl der Antworten 3 Antworten
Ich würde gerne lernen, wie man anwenden von Funktionen auf bestimmte Spalten der mein dataframe ohne "ohne" die anderen Spalten aus meiner df. Zum Beispiel würde ich gerne multiplizieren einige bestimmte Spalten durch 1000 und lassen Sie

Verwendung von loc zu aktualisieren dataframe python pandas

Anzahl der Antworten 2 Antworten
Habe ich ein pandas dataframe (df) mit der Spalten-Struktur : month a b c d dieser dataframe Daten für sagen Jan, Feb, Mar, Apr. A,B,C,D sind numerische Spalten. Für den Monat Februar möchte ich die Neuberechnung Spalte

Die Bestimmung, wenn eine Spalte Wert ändert sich in pandas dataframe

Anzahl der Antworten 1 Antworten
Ich bin auf der Suche an, schreiben Sie eine kurze Skript, das ausgeführt wird durch eine csv-Datei mit zwei Spalten und geben Sie mir die Zeilen, in denen die Werte in Spalte B wechseln Sie von einem

Wie zu Sortieren dataframe in R mit der angegebenen Spalten um die Erhaltung?

Anzahl der Antworten 3 Antworten
Sagen wir, ich habe ein Daten.Rahmen x <- data.frame(a = c('A','A','A','A','A', 'C','C','C','C', 'B','B','B'), b = c('a','c','a','a','c', 'd', 'e','e','d', 'b','b','b'), c = c( 7, 3, 2, 4, 5, 3, 1, 1, 5, 5, 2, 3), stringsAsFactors = FALSE)

Logische Operatoren für Boolesche Indexierung Pandas

Anzahl der Antworten 3 Antworten
Arbeite ich mit boolean-index in der Pandas. Die Frage ist, warum die Aussage: a[(a['some_column']==some_number) & (a['some_other_column']==some_other_number)] funktioniert in der Erwägung, dass a[(a['some_column']==some_number) and (a['some_other_column']==some_other_number)] beendet sich mit Fehler? Beispiel: a=pd.DataFrame({'x':[1,1],'y':[10,20]}) In: a[(a['x']==1)&(a['y']==10)] Out: x y 0 1

Wie fügen Sie einen Funken Dataframe an der Unterseite eines anderen dataframe?

Anzahl der Antworten 1 Antworten
Kann ich verwenden withcolumnneue Spalten hinzuzufügen, um ein Dataframe. Aber in scala-wie kann ich neue Zeilen hinzufügen ein DataFrame? Ich versuche, fügen Sie ein dataframe an der Unterseite des anderen. Also entweder, wie fügen Sie Zeilen in

Was Sie tun können, mit Daten.Rahmen, Sie können nicht mit Daten.Tabelle?

Anzahl der Antworten 1 Antworten
Ich gerade angefangen mit R, und kam über Daten.Tabelle. Ich fand es genial. Eine ganz naive Frage: Kann ich das ignorieren Daten.- frame-Daten.Tabelle zu vermeiden syntax Verwirrung zwischen zwei Paketen? Siehe die Daten.Tabelle faq speziell 1,8 und

Ersetzen Sie ungültige Werte, die mit Keiner in Pandas DataFrame

Anzahl der Antworten 6 Antworten
Gibt es eine Methode, um Werte zu ersetzen mit None im Pandas in Python? Können Sie df.replace('pre', 'post') und ersetzen können Sie einen Wert mit einem anderen, aber dies kann nicht getan werden, wenn Sie ersetzen möchten,

Versuchen, drop von NaN indizierten Zeile in dataframe

Anzahl der Antworten 6 Antworten
Ich bin mit python 2.7.3 und Pandas version 0.12.0. Möchte ich drop die Zeile mit der NaN-index, so dass ich nur noch gültig site_id Werte. print df.head() special_name site_id NaN Banana OMG Apple df.drop(df.index[0]) TypeError: 'NoneType' object

So wählen Sie einige Zeilen mit bestimmten rownames aus einem dataframe?

Anzahl der Antworten 3 Antworten
Habe ich einen Daten-frame mit mehreren Zeilen. Ich möchte bestimmte Zeilen mit bestimmten rownames (wie stu2,stu3,stu5,stu9) aus dieser dataframe. Der Eingang Beispiel dataframe ist wie folgt: attr1 attr2 attr3 attr4 stu1 0 0 1 0 stu2 -1

Speicher effiziente alternative zu rbind - in-place-rbind?

Anzahl der Antworten 4 Antworten
Muss ich rbind zwei großen Daten-frames. Jetzt benutze ich df <- rbind(df, df.extension) aber ich (fast) sofort run out of memory. Ich Schätze sein, weil df ist gehalten in der Erinnerung doppelt. Ich könnte sehen, noch größere

Alle Zeilen eines Daten-Frames mit einem bestimmten Wert

Anzahl der Antworten 2 Antworten
Habe ich einen Daten-frame mit mehreren Spalten, eine davon (genannt: drift.N) ist eine Reihe von TRUE und FALSES ist. Wie würde ich mich über die Trennung der "WAHREN" Zeilen aus der "FALSCHEN" Zeilen oder Fragen Sie R,

Zusammenführung von Daten-frames ohne doppelte Zeilen

Anzahl der Antworten 1 Antworten
Ich würde gerne Zusammenführen von zwei Daten-frames, aber nicht wollen, um doppelte Zeilen, wenn es mehr als ein Spiel. Stattdessen würde ich mag, um die Summe der Beobachtungen an diesem Tag. Aus ?merge: Die Zeilen in den

Wählen Sie aus pandas dataframe mit boolean-Serie/array

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe: High Low Close Date 2009-02-11 30.20 29.41 29.87 2009-02-12 30.28 29.32 30.24 2009-02-13 30.45 29.96 30.10 2009-02-17 29.35 28.74 28.90 2009-02-18 29.35 28.56 28.92 und ein boolean-Serie: bools 1 True 2 False 3

Kombinieren Sie zwei oder mehr Spalten in einem dataframe in eine neue Spalte mit einem neuen Namen

Anzahl der Antworten 5 Antworten
Zum Beispiel wenn ich diese habe: n = c(2, 3, 5) s = c("aa", "bb", "cc") b = c(TRUE, FALSE, TRUE) df = data.frame(n, s, b) n s b 1 2 aa TRUE 2 3 bb FALSE

Grundstück pandas Termine matplotlib

Anzahl der Antworten 1 Antworten
Habe ich eine fixed-width-Daten-Datei mit den Terminen, aber wenn ich versuche zu Plotten der Daten die Daten werden nicht richtig dargestellt, auf der x-Achse. Meine Dateien sieht wie 2014-07-10 11:49:14.377102 45 2014-07-10 11:50:14.449150 45 2014-07-10 11:51:14.521168 21

Bekommen dot-Produkt von dataframe mit vector und zurück dataframe, in Pandas

Anzahl der Antworten 3 Antworten
Ich bin nicht in der Lage, den Eingang zu finden auf der Methode dot() in der offiziellen Dokumentation. Aber die Methode gibt es und ich kann es benutzen. Warum ist das so? Zu diesem Thema, gibt es

Zahlen als Spaltennamen des data frames

Anzahl der Antworten 2 Antworten
Gibt es einen Grund, warum R wird nicht lassen Sie mich eine Zahl als name der Spalte meiner dataframe? Ist auch aufgefallen, dass wenn ich data.frame(XX) es fügt ein X alle Spaltenüberschriften, die zahlen auf der Vorderseite.