Tag: dataframe
Ein data frame ist eine tabellarische Datenstruktur. In der Regel enthält es Daten, in denen Zeilen sind Beobachtungen und die Spalten sind Variablen der verschiedenen Typen. Während „data frame“ oder „dataframe“ ist der Begriff für dieses Konzept in mehreren Sprachen (R, Apache Spark, deedle, Ahorn, die pandas-Bibliothek in Python und die DataFrames library in Julia), „Tabelle“ ist der Begriff in MATLAB und SQL.
15
Antworten
Ich habe Daten in verschiedenen Spalten, aber ich weiß nicht, wie um Sie zu extrahieren, um es zu speichern in einer anderen variable. index a b c 1 2 3 4 2 3 4 5 Wie wähle
4
Antworten
Ich weiß, es ist ein einfacher Weg, dies zu tun...aber, ich kann ' T es herausfinden. Ich habe einen dataframe in mein R-Skript, das ungefähr so aussieht: A B C 1.2 4 8 2.3 4 9 2.3
1
Antworten
Habe ich einen Daten-frame mit den folgenden Klassen von Variablen für jede Spalte: "date" "numeric" "numeric" "list" "list" "numeric" Die Daten in jeder Zeile sieht wie folgt aus: 1978-01-01, 12.5, 6.3, c(0,0,0.25,0.45,0.3), c(0,0,0,0.1,0.9), 72 Möchte ich, um
8
Antworten
Ich habe eine DataFrame mit 4 Säulen, von denen 2 enthält string-Werte. Ich Frage mich, ob es einen Weg, um Zeilen auszuwählen, die basierend auf eine teilweise übereinstimmung mit einem gegen eine bestimmte Spalte? In anderen Worten,
3
Antworten
Ich versuche zum Zusammenführen von zwei DataFrames Summierung der Spalten Wert. df1 id name weight 1 A 0 2 B 10 3 C 10 df2 id name weight 2 B 15 3 C 10 Muss ich Summe
3
Antworten
Arbeite ich an mehreren taxi-datasets. Ich habe verwendet, pandas zu concat alle datasets in einer einzigen dataframe. Mein dataframe so aussieht. 675 1039 #and rest 125 taxis longitude latitude longitude latitude date 2008-02-02 13:31:21 116.56359 40.06489 Nan
3
Antworten
Habe ich einen dataframe genannt data. Wie würde ich umbenennen, die nur eine Spalte mit header? Zum Beispiel gdp zu log(gdp)? data = y gdp cap 0 1 2 5 1 2 3 9 2 8 7
3
Antworten
Alle Datentypen in pyspark.sql.Typen werden: __all__ = [ "DataType", "NullType", "StringType", "BinaryType", "BooleanType", "DateType", "TimestampType", "DecimalType", "DoubleType", "FloatType", "ByteType", "IntegerType", "LongType", "ShortType", "ArrayType", "MapType", "StructField", "StructType"] Ich zu schreiben, ein UDF (in pyspark) gibt ein array von
6
Antworten
Will ich drucken Sie das ganze dataframe, aber ich don ' T wollen drucken Sie den index Außerdem eine Spalte ist datetime-Typ, ich will nur drucken, nicht Datum. Den dataframe aussieht: User ID Enter Time Activity Number
2
Antworten
Bitte erklären, wie NaN ' s behandelt werden, in der pandas, da die folgende Logik scheint "kaputt" zu mir, ich habe versucht, verschiedene Möglichkeiten (siehe unten) fallen die leeren Werte. Mein dataframe, die lade ich aus einer
1
Antworten
Ich habe einen DataFrame, der wie folgt aussieht: +----------+---------+-------+ | username | post_id | views | +----------+---------+-------+ | john | 1 | 3 | | john | 2 | 23 | | john | 3 | 44
1
Antworten
Ich habe einen dataframe sieht wie folgt aus: JOINED_CO GESCHLECHT EXEC_FULLNAME GVKEY JAHR CONAME BECAMECEO WIEDER LEFTOFC LEFTCO RELEFT GRUND SEITE CO_PER_ROL 5622 NaN STECKER Ira A. Eichner 1004 1992 AAR CORP 19550101 NaN 19961001 19990531
2
Antworten
Habe ich einen Daten-frame mit mehreren Spalten. Nun, ich möchte, um loszuwerden, die Zeile.Namen-Spalte (Spalte 1), und so versuche ich zu wählen, alle anderen Spalten. E. g., newdata <- olddata[,2:10] ist es ein Standard-symbol für die Letzte
4
Antworten
Also ich habe einen Daten-frame, der hat eine Spalte Datum, eine Stunde, Spalte und eine Reihe von anderen numerischen Spalten. Jede Zeile in der Daten-frame ist 1 Stunde 1 Tag für ein ganzes Jahr. Den Daten-frame sieht
3
Antworten
Ist es ganz einfach hinzufügen viele pandas dataframes in excel-arbeiten, buchen Sie, solange es verschiedene Arbeitsblätter. Aber, es ist etwas schwierig zu bekommen, viele dataframes in einem Arbeitsblatt, wenn Sie verwenden möchten pandas gebaut-in df.to_excel Funktionalität. #
1
Antworten
Habe ich folgende Daten: > dat ID Gene Value1 Value2 1 NM_013468 Ankrd1 Inf Inf 2 NM_023785 Ppbp Inf Inf 3 NM_178666 Themis NaN Inf 4 NM_001161790 Mefv Inf Inf 5 NM_001161791 Mefv Inf Inf 6 NM_019453
1
Antworten
Ich habe einen dataframe pandas in der folgenden form: timestamps light 7 2004-02-28 00:58:45 150.88 26 2004-02-28 00:59:45 143.52 34 2004-02-28 01:00:45 150.88 42 2004-02-28 01:01:15 150.88 59 2004-02-28 01:02:15 150.88 Hier beachten, dass der index nicht
0
Antworten
Mit python habe ich erstellt nach Daten-frame enthält ähnlichkeit Werte: cosinFcolor cosinEdge cosinTexture histoFcolor histoEdge histoTexture jaccard 1 0.770 0.489 0.388 0.57500000 0.5845137 0.3920000 0.00000000 2 0.067 0.496 0.912 0.13865546 0.6147309 0.6984127 0.00000000 3 0.514 0.426 0.692
2
Antworten
Habe ich einen Daten-frame 200 Spalten mit 150 Gene (Zeilen) in jeder Spalte. Möchte ich die Anzahl der vorkommen für jedes gen in das gesamte Daten-frame mydat <- V1 V2 V3 V4 V5 V6 V7 V8 1
1
Antworten
Ich habe eine pandas dataframe die viele Spalten hat. Diese Spalten haben kann 3 Werte - True, False und NaN. Ich bin replcaing die NaN mit der Zeichenfolge missing. Die sample-Werte für eine meiner Spalten ist wie
3
Antworten
Habe ich einen Daten-frame mit drei Variablen und 250K Datensätze. Als Beispiel betrachten wir df <- data.frame(V1=c(1,2,4), V2=c("a","a","b"), V3=c(2,3,1)) V1 V2 V3 1 a 2 2 a 3 4 b 1 wollen und swap-Werte zwischen V1 und
4
Antworten
Möchte ich ändern Sie die Werte von Zellen eines dataframe Spalte (Alter), wo es derzeit ist leer und ich würde es nur tun, wenn eine andere Spalte (Überlebt) hat den Wert 0 für die entsprechende Zeile, wo
1
Antworten
Was ist der beste Weg zu handhaben null Nenner bei der Division pandas DataFrame Spalten von einander in Python? zum Beispiel: df = pandas.DataFrame({"a": [1, 2, 0, 1, 5], "b": [0, 10, 20, 30, 50]}) df.a /
2
Antworten
Habe ich eine Registerkarte getrennte Datei. cat-Datei A B C 2 3 4 3 4 5 2 6 6 infile " <-read.table("Datei",header=TRUE) Ich brauche, um Wert für die Spalte die header = "A". A 2 3 2
6
Antworten
Dies scheint ziemlich offensichtlich, aber ich kann nicht scheinen, um herauszufinden, wie konvertiert einen index der Daten-frame an eine Spalte? Beispiel: df= gi ptt_loc 0 384444683 593 1 384444684 594 2 384444686 596 Zu, df= index1 gi
2
Antworten
Ich habe eine data.frame wie diese: Col1 Col2 Col3 Col4 Col5 Col6 1 1982 0 0 -211 107 0 2 4412 0 989 0 296 0 3 0 -5051 0 -267 389 920 4 0 -2983 0
2
Antworten
Ich bin ein Neuling in R und habe nur eine kurze Frage. Habe ich einen Daten-frame mit Zeitreihen finanzieller Daten und möchten berechnen Sie die log-returns von bestimmten Spalten. Als ich versuchte, es zu tun mit diff(log())
1
Antworten
Habe ich eine Liste von .csv Dateien, die ich gelesen habe, die in R und in einem großen data frame namens data besteht aus 6 Daten.frames, die sind die 6 Dateien in filenames. Mein code bisher ist:
2
Antworten
Habe ich ein Pandabären-Daten-frame mit mehreren Spalten. Ich will eine neue Spalte erstellen weighted_sum von den Werten in der Zeile und eine weitere Spalte vector-dataframe weight weighted_sum sollte den folgenden Wert haben: row[weighted_sum] = row[col0]*weight[0] + row[col1]*weight[1]
9
Antworten
Ich habe einen dataframe, wie: a1 = c(1, 2, 3, 4, 5) a2 = c(6, 7, 8, 9, 10) a3 = c(11, 12, 13, 14, 15) aframe = data.frame(a1, a2, a3) Ich habe Folgendes versucht, zu konvertieren,
2
Antworten
Ich brauche, um den Mittelwert einer Spalte (hier: score-Wert) für bestimmte Zeilen (hier: Jahre). Speziell würde ich gerne wissen, die Durchschnittliche Punktzahl für die drei Perioden: Zeit 1: Jahr <= 1983 2 Zeitraum: Jahr >= 1984 &
5
Antworten
Wie man einen Daten-frame mit den gleichen Daten wie eine bereits vorhandene matrix hat? Ein Vereinfachtes Beispiel meine matrix: mat <- matrix(c(0, 0.5, 1, 0.1, 0.2, 0.3, 0.3, 0.4, 0.5), ncol = 3, nrow = 3, dimnames
3
Antworten
Ich würde gerne lernen, wie man anwenden von Funktionen auf bestimmte Spalten der mein dataframe ohne "ohne" die anderen Spalten aus meiner df. Zum Beispiel würde ich gerne multiplizieren einige bestimmte Spalten durch 1000 und lassen Sie
2
Antworten
Habe ich ein pandas dataframe (df) mit der Spalten-Struktur : month a b c d dieser dataframe Daten für sagen Jan, Feb, Mar, Apr. A,B,C,D sind numerische Spalten. Für den Monat Februar möchte ich die Neuberechnung Spalte
1
Antworten
Ich bin auf der Suche an, schreiben Sie eine kurze Skript, das ausgeführt wird durch eine csv-Datei mit zwei Spalten und geben Sie mir die Zeilen, in denen die Werte in Spalte B wechseln Sie von einem
3
Antworten
Sagen wir, ich habe ein Daten.Rahmen x <- data.frame(a = c('A','A','A','A','A', 'C','C','C','C', 'B','B','B'), b = c('a','c','a','a','c', 'd', 'e','e','d', 'b','b','b'), c = c( 7, 3, 2, 4, 5, 3, 1, 1, 5, 5, 2, 3), stringsAsFactors = FALSE)
3
Antworten
Arbeite ich mit boolean-index in der Pandas. Die Frage ist, warum die Aussage: a[(a['some_column']==some_number) & (a['some_other_column']==some_other_number)] funktioniert in der Erwägung, dass a[(a['some_column']==some_number) and (a['some_other_column']==some_other_number)] beendet sich mit Fehler? Beispiel: a=pd.DataFrame({'x':[1,1],'y':[10,20]}) In: a[(a['x']==1)&(a['y']==10)] Out: x y 0 1
1
Antworten
Kann ich verwenden withcolumnneue Spalten hinzuzufügen, um ein Dataframe. Aber in scala-wie kann ich neue Zeilen hinzufügen ein DataFrame? Ich versuche, fügen Sie ein dataframe an der Unterseite des anderen. Also entweder, wie fügen Sie Zeilen in
1
Antworten
Ich gerade angefangen mit R, und kam über Daten.Tabelle. Ich fand es genial. Eine ganz naive Frage: Kann ich das ignorieren Daten.- frame-Daten.Tabelle zu vermeiden syntax Verwirrung zwischen zwei Paketen? Siehe die Daten.Tabelle faq speziell 1,8 und
6
Antworten
Gibt es eine Methode, um Werte zu ersetzen mit None im Pandas in Python? Können Sie df.replace('pre', 'post') und ersetzen können Sie einen Wert mit einem anderen, aber dies kann nicht getan werden, wenn Sie ersetzen möchten,
6
Antworten
Ich bin mit python 2.7.3 und Pandas version 0.12.0. Möchte ich drop die Zeile mit der NaN-index, so dass ich nur noch gültig site_id Werte. print df.head() special_name site_id NaN Banana OMG Apple df.drop(df.index[0]) TypeError: 'NoneType' object
3
Antworten
Habe ich einen Daten-frame mit mehreren Zeilen. Ich möchte bestimmte Zeilen mit bestimmten rownames (wie stu2,stu3,stu5,stu9) aus dieser dataframe. Der Eingang Beispiel dataframe ist wie folgt: attr1 attr2 attr3 attr4 stu1 0 0 1 0 stu2 -1
4
Antworten
Muss ich rbind zwei großen Daten-frames. Jetzt benutze ich df <- rbind(df, df.extension) aber ich (fast) sofort run out of memory. Ich Schätze sein, weil df ist gehalten in der Erinnerung doppelt. Ich könnte sehen, noch größere
2
Antworten
Habe ich einen Daten-frame mit mehreren Spalten, eine davon (genannt: drift.N) ist eine Reihe von TRUE und FALSES ist. Wie würde ich mich über die Trennung der "WAHREN" Zeilen aus der "FALSCHEN" Zeilen oder Fragen Sie R,
1
Antworten
Ich würde gerne Zusammenführen von zwei Daten-frames, aber nicht wollen, um doppelte Zeilen, wenn es mehr als ein Spiel. Stattdessen würde ich mag, um die Summe der Beobachtungen an diesem Tag. Aus ?merge: Die Zeilen in den
1
Antworten
Ich habe einen dataframe: High Low Close Date 2009-02-11 30.20 29.41 29.87 2009-02-12 30.28 29.32 30.24 2009-02-13 30.45 29.96 30.10 2009-02-17 29.35 28.74 28.90 2009-02-18 29.35 28.56 28.92 und ein boolean-Serie: bools 1 True 2 False 3
5
Antworten
Zum Beispiel wenn ich diese habe: n = c(2, 3, 5) s = c("aa", "bb", "cc") b = c(TRUE, FALSE, TRUE) df = data.frame(n, s, b) n s b 1 2 aa TRUE 2 3 bb FALSE
1
Antworten
Habe ich eine fixed-width-Daten-Datei mit den Terminen, aber wenn ich versuche zu Plotten der Daten die Daten werden nicht richtig dargestellt, auf der x-Achse. Meine Dateien sieht wie 2014-07-10 11:49:14.377102 45 2014-07-10 11:50:14.449150 45 2014-07-10 11:51:14.521168 21
3
Antworten
Ich bin nicht in der Lage, den Eingang zu finden auf der Methode dot() in der offiziellen Dokumentation. Aber die Methode gibt es und ich kann es benutzen. Warum ist das so? Zu diesem Thema, gibt es
2
Antworten
Gibt es einen Grund, warum R wird nicht lassen Sie mich eine Zahl als name der Spalte meiner dataframe? Ist auch aufgefallen, dass wenn ich data.frame(XX) es fügt ein X alle Spaltenüberschriften, die zahlen auf der Vorderseite.