Tag: dataframe
Ein data frame ist eine tabellarische Datenstruktur. In der Regel enthält es Daten, in denen Zeilen sind Beobachtungen und die Spalten sind Variablen der verschiedenen Typen. Während „data frame“ oder „dataframe“ ist der Begriff für dieses Konzept in mehreren Sprachen (R, Apache Spark, deedle, Ahorn, die pandas-Bibliothek in Python und die DataFrames library in Julia), „Tabelle“ ist der Begriff in MATLAB und SQL.
1
Antworten
Angenommen ich habe 9 .txt-Dateien im gleichen Verzeichnis. price1.txt price2.txt price3.txt ist eine Tabelle der Preis aus verschiedenen Lage, row-und col-name ist der Längengrad und die Höhe entsprechend. year4,5,6.txt und dis7,8,9.txt eine Tabelle des Jahres und Rabatt
1
Antworten
Die folgende Liste: list=['a','b','c'] Ich möchte einen Daten-frame, wo die Liste ist die Spalte mit Werten. Ich würde gerne den header "header". Wie diese: header a b c Vielen Dank im Voraus! InformationsquelleAutor Dance Party | 2016-05-26
1
Antworten
Betrachten Sie den folgenden code: set.seed(1) M = matrix(rnorm(9), ncol = 3) dimnames(M) = list(LETTERS[1:3], LETTERS[1:3]) print(M) A B C A -0.6264538 1.5952808 0.4874291 B 0.1836433 0.3295078 0.7383247 C -0.8356286 -0.8204684 0.5757814 melt(M) Var1 Var2 value 1
1
Antworten
Ich habe einen DataFrame, und ich bin mit .aggregate({'col1': np.sum}) diese führen eine Summierung der Werte in col1 und aggregieren Sie Sie zusammen. Ist es möglich, eine Zählung, so etwas wie .aggregate({'col1': some count function here})? {'col1':
3
Antworten
Ich bin ganz neu mit R und bin kämpfen ein bisschen mit dem, was scheint, eine sehr einfache Abfrage. Habe ich importiert eine csv-Datei in R mit read.csv und versuche zu löschen, das dollar-Zeichen ($) vor, um
2
Antworten
Wie würde ich das unterteilen einer Daten-frame von einem anderen? Die zwei Daten-Rahmen haben die gleichen Spalten und die gleichen Zeilen, aber ich muss mich teilen alle schneiden mit den entsprechenden schneiden, in eine neue Daten-frame, z.B.
1
Antworten
Ich möchte Ranges Benutzer-id basiert auf einem Feld. Für den gleichen Wert des Feldes, Rang sollte gleich sein. Dass Daten in Hive-Tabelle. z.B. user value a 5 b 10 c 5 d 6 Rank a - 1
1
Antworten
Ich habe einen dataframe, der aussieht wie df viz a1_count a1_mean a1_std n 3 2 0.816497 y 0 NaN NaN n 2 51 50.000000 Ich konvertieren wollen die "viz" - Spalte auf 0 und 1, basierend auf
2
Antworten
Ziel Mein Ziel ist es, Zusammenführen von zwei DataFrames durch Ihre gemeinsame Spalte (gen-Namen), so kann ich ein Produkt jedes gen score über jedes gen Reihe. Ich würde dann einen groupby auf Patienten und Zellen und der
2
Antworten
Wie kann ich entfernen Sie die letzten beiden Ziffern der DataFrame Spalte des Typs int64? Beispielsweise df['DATE'] umfasst: DATE 20110708 20110709 20110710 20110711 20110712 20110713 20110714 20110815 20110816 20110817 Was ich möchte ist: DATE 201107 201107 201107
17
Antworten
Habe ich ein pandas dataframe mit wenigen Spalten. Jetzt weiß ich, dass gewisse Zeilen sind-Ausreißer, basierend auf einer bestimmten Spalte Wert. Beispielsweise Spalten - 'Vol' hat alle Werte um 12xx und ein Wert 4000 (Ausreißer). Nun würde
3
Antworten
Habe ich ein pandas DataFrame, so etwas wie: col1 col2 col3 col5 NaN 1 2 8 2 NaN 4 8 4 NaN 4 8 Möchte ich zwei Dinge tun: 1) Verschmelzen, Spalten 1 und 2: newcol1 col3
2
Antworten
Habe ich ein dataframe von taxi-Daten mit zwei Spalten, die wie folgt aussieht: Neighborhood Borough Time Midtown Manhattan X Melrose Bronx Y Grant City Staten Island Z Midtown Manhattan A Lincoln Square Manhattan B Grundsätzlich, jede Zeile
1
Antworten
Habe ich pipe-separierte Werte wie diese: https|clients4.google.com|application/octet-stream|2296| https|clients4.google.com|text/html; charset=utf-8|0| .... .... https|clients4.google.com|application/octet-stream|2291| Habe ich zum erstellen eines Pandas DataFrame aus diesen Daten, wobei jede Spalte einen Namen gegeben. InformationsquelleAutor itsaruns | 2014-01-06
2
Antworten
Habe ich ein pandas DataFrame, mit vielen NAN Werte. Wie kann ich das löschen von Spalten, so dass number_of_na_values > 2000? Ich versuchte es so: toRemove = set() naNumbersPerColumn = df.isnull().sum() for i in naNumbersPerColumn.index: if(naNumbersPerColumn[i]>2000): toRemove.add(i)
2
Antworten
Vorstellen, einen Daten-frame wie df1 unten: df1 <- data.frame(v1 = as.factor(c("m0p1", "m5p30", "m11p20", "m59p60", "m59p60"))) Wie erstelle ich eine Liste von allen Ebenen eine variable? Danke. levels(df1$v1) geben Sie ein Zeichen, Vektor-Ebenen. Verwandte: stackoverflow.com/questions/5869539/... InformationsquelleAutor jpinelo |
5
Antworten
Ich habe die Suche hoch und niedrig für das, was ich denke, ist eine einfache Lösung. Habe ich einen großen Daten-frame, der ich-split-Faktoren. eqRegions <- split(eqDataAll, eqDataAll$SeismicRegion) Dieser jetzt erzeugt ein list-Objekt des Daten-frames die von region
3
Antworten
, Was ich haben: Ich habe ein "master" dataframe, der die folgenden Spalten: userid, condition Da gibt es vier experiment-Bedingungen, ich habe auch vier dataframes, die Antwort von Informationen, mit den folgenden Spalten: userid, condition, answer1, answer2
2
Antworten
Unterklassen pandas Klassen scheint eine gemeinsame müssen, aber ich konnte nicht finden, Verweise auf das Thema. (Es scheint, dass pandas sind die Entwickler noch dran arbeiten: https://github.com/pydata/pandas/issues/60). Gibt es SO einige threads zu dem Thema, aber ich
3
Antworten
Wenn ich einen dataframe, die Spalten mit den gleichen Namen, gibt es eine Möglichkeit, verbinden die Spalten, die den gleichen Namen mit einer Art von Funktion (d.h. die Summe)? Beispielsweise mit: In [186]: df["NY-WEB01"].head() Out[186]: NY-WEB01 NY-WEB01
3
Antworten
Hier ist, wie ich das tun kann: df <- data.frame(a=1:200) df$a <- NULL df Ergebnis: data frame with 0 columns and 200 rows Kann das gleiche erreicht werden, mit nur einem Befehl? Ich denke, die erste Frage
1
Antworten
Ich würde gerne eine Aktion durchführen, die auf eine einzelne Spalte. Leider, nachdem ich die Transformation, die Spalte, es ist jetzt nicht mehr Teil der dataframe es kam aber ein Column-Objekt. Als solche, es kann nicht gesammelt
3
Antworten
Ich habe pandas dataframe df1 und df2 (df1 ist vanila dataframe, df2 ist indiziert durch 'STK_ID' & 'RPT_Date') : >>> df1 STK_ID RPT_Date TClose sales discount 0 000568 20060331 3.69 5.975 NaN 1 000568 20060630 9.14 10.143
3
Antworten
Ich habe einen dataframe mit numerischen Einträgen wie diesem test <- data.frame(x = c(26, 21, 20), y = c(34, 29, 28)) Wie bekomme ich den folgenden Vektor? > 26, 34, 21, 29, 20, 28 Ich war in
1
Antworten
Ich bin neu Pandas, und versuche, mit date_range. Ich stieß auf alle möglichen guten Dinge für freq wie BME und BMS und ich möchte in der Lage sein, um schnell nachschlagen die richtigen Saiten zu bekommen, was
6
Antworten
Habe ich die folgenden Daten-frame in R: > dframe Mean Median Candidates 85.68 60 NonCands 9.21 4 Multi 27.48 17 Mono 4.43 3 Multi NonCands 22.23 15 Will ich drucken Sie in eine Datei und halten Sie
1
Antworten
Ich weiß, dass wenn ich randn, import pandas as pd import numpy as np df = pd.DataFrame(np.random.randn(100, 4), columns=list('ABCD')) gibt mir das, was ich Suche, aber mit Elementen aus einer Normalverteilung. Aber was ist, wenn ich nur
14
Antworten
Nehme ich gerne die Daten des Formulars before = data.frame(attr = c(1,30,4,6), type=c('foo_and_bar','foo_and_bar_2')) attr type 1 1 foo_and_bar 2 30 foo_and_bar_2 3 4 foo_and_bar 4 6 foo_and_bar_2 und verwenden split() auf die Spalte "type" von oben zu
10
Antworten
Ich arbeite mit Serien-und DataFrames auf das terminal, eine Menge. Die Standard - __repr__ für eine Serie gibt einem reduzierten Probe, mit einigen Kopf-und Schwanz-Werte, aber der rest fehlt. Gibt es eine vordefinierte Art und Weise zu
1
Antworten
Ich bin R Anfänger und ich komme auf dieses problem. Ich hatte einen dataframe, und mithilfe der split () - Funktion habe ich eine Liste von dataframes, e.g: dfList <- split(mtcars, mtcars$cyl) Nun will ich rufen Sie
5
Antworten
Wenn Sie hierher gekommen auf der Suche nach Informationen über , wie führen Sie eine DataFrame und Series auf dem index, schauen Sie bitte in diese Antwort. Die OP ' s ursprüngliche Absicht war, zu Fragen zuweisen
19
Antworten
Verstehe ich, dass pandas ist entworfen, um die Last vollständig aufgefüllt DataFrame aber ich muss erstellen Sie eine leere DataFrame dann Zeilen hinzufügen, eins nach dem anderen. Was ist der beste Weg, dies zu tun ? Habe
5
Antworten
Habe ich eine Liste der Wörterbücher wie diese: [{'points': 50, 'time': '5:00', 'year': 2010}, {'points': 25, 'time': '6:00', 'month': "february"}, {'points':90, 'time': '9:00', 'month': 'january'}, {'points_h1':20, 'month': 'june'}] Und ich möchten diesen in einen Pandabären DataFrame wie
1
Antworten
Habe ich einen Daten-frame mit 30 Zeilen und 100 Spalten (X). Ich möchte erstellen Sie eine neue Daten-frame (Y) mit bestimmten Zeilen aus der größeren Daten-frame. Zum Beispiel, ich möchte Daten-frame (Y) enthalten, Zeilen 1 bis 5,
1
Antworten
Mit pandas: df = pd.DataFrame({'n':['d','a','b','c','c','a','d','b'], 'v':[1,2,1,2,2,1,1,1]}) Wie kann ich das umbenennen der Elemente in df.n, so dass a änderungen x, b zu y, c zu w und d zu z Resultat: n v 0 z 1 1
1
Antworten
Habe ich ein Python-dictionary : dic = { (u'aaa',u'bbb',u'ccc'):((0.3, 1.2, 1.3, 1.5), 1.4, 1), (u'kkk',u'ggg',u'ccc',u'sss'):((0.6, 1.2, 1.7, 1.5), 1.4, 2) } Ich umwandeln möchte dieses Wörterbuch zu entfachen, DataFrame mit den Spalten : ['key', 'val_1', 'val_2', 'val_3',
12
Antworten
R bietet zwei verschiedene Methoden für den Zugriff auf die Elemente einer Liste oder eines data.Rahmen - die und [ Betreiber. Was ist der Unterschied zwischen den beiden? In welchen Situationen sollte ich einen über den
3
Antworten
Ich bin neu in R, und dies ist eine sehr einfache Frage. Ich habe eine Menge ähnliche Dinge, was ich haben will, aber nicht genau. Im Grunde habe ich mehrere Daten-frames und ich will einfach ausführen derselben
3
Antworten
Arbeite ich mit einem dataframe, der hat 65 Variablen in es. Die erste variable Kataloge eine person, und die nächsten 64 Variablen zeigen die geografische Distanz, die person ist von jedem an 64 Standorten. Mit R, ich
3
Antworten
Apache Spark DataFrameReader.json() verarbeiten kann gzipped JSONlines Dateien automatisch, aber es scheint nicht zu einem Weg, um DataFrameWriter.json() zu schreiben komprimiert JSONlines-Dateien. Die zusätzliche Netzwerk-I/O ist sehr teuer in der cloud. Gibt es einen Weg um dieses
9
Antworten
Ich fange an mit input-Daten wie diese df1 = pandas.DataFrame( { "Name" : ["Alice", "Bob", "Mallory", "Mallory", "Bob" , "Mallory"] , "City" : ["Seattle", "Seattle", "Portland", "Seattle", "Seattle", "Portland"] } ) Die, wenn Sie gedruckt werden, erscheint
5
Antworten
Ich habe zwei Listen mit unterschiedlicher Struktur: listA <- list(c("a","b","c"), c("d","e")) listB <- list(0.05, 0.5) listA [[1]] [1] "a" "b" "c" [[2]] [1] "d" "e" listB [[1]] [1] 0.05 [[2]] [1] 0.5 Ich habe eine Idee, wie
2
Antworten
Ich habe einen dataframe mit den Spalten A,B. Ich brauche zum erstellen einer Spalte C so dass für jeden Datensatz /Zeile: C = max(A, B). Wie gehe ich dabei vor? Dank. InformationsquelleAutor Navneet | 2012-08-28
16
Antworten
Möchte ich entfernen Sie die Zeilen in diesem data-frame: a) enthalten NAs über alle Spalten. Unten ist meine Beispiel-Daten-frame. gene hsap mmul mmus rnor cfam 1 ENSG00000208234 0 NA NA NA NA 2 ENSG00000199674 0 2 2
1
Antworten
Hatte einen Fall wie diesen. Versucht zu konvertieren "mtcars" Klasse von Daten.frame-Daten.Tabelle. "mtcars" Daten: > mtcars mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0
1
Antworten
Habe ich eine variation auf die ach-so-common Problems, wie verschmelzen die Dinge miteinander in R. Habe ich eine Reihe von .txt-Dateien in einem bestimmten Ordner, und ich habe geschrieben eine Funktion, die: macht eine Liste der Dateien,
3
Antworten
Im Versuch zu speichern ein Funke DataFrame (mehr als 20G) auf eine einzige json-Datei in Amazon S3, mein code zum speichern der dataframe ist wie folgt : dataframe.repartition(1).save("s3n://mybucket/testfile","json") Aber ich bin immer ein Fehler von S3 "Ihr
4
Antworten
Ich habe folgende Spalten in meinem Datensatz: presult aresult I single I double I triple I home run SS strikeout Ich würde gern noch eine Dritte Spalte "Grundlagen", die abhängig ist der Wert das Ergebnis in aresult
4
Antworten
Ich habe eine Spark-dataframe mit mehreren Spalten. Ich möchte eine Spalte hinzufügen, die auf der dataframe, die eine Summe einer bestimmten Anzahl von Spalten. Beispielsweise meine Daten sieht wie folgt aus: ID var1 var2 var3 var4 var5
2
Antworten
Tut mir Leid, aber ich kann nicht finden, eine einfache Lösung für dieses. Habe ich einen Daten-frame: >bla<-c(1) >df<-data.frame(bla) >df bla 1 1 Möchte ich Anhängen von Werten an das Ende der Spalte (also nicht eine neue