Tag: dataframe

Ein data frame ist eine tabellarische Datenstruktur. In der Regel enthält es Daten, in denen Zeilen sind Beobachtungen und die Spalten sind Variablen der verschiedenen Typen. Während „data frame“ oder „dataframe“ ist der Begriff für dieses Konzept in mehreren Sprachen (R, Apache Spark, deedle, Ahorn, die pandas-Bibliothek in Python und die DataFrames library in Julia), „Tabelle“ ist der Begriff in MATLAB und SQL.

Wie Sortieren nach Zeitstempel in der pandas?

Anzahl der Antworten 1 Antworten
So, ich habe timestamps, die wie folgt Aussehen: 20140804:10:00:13.281486 20140804:10:00:13.400113 20140804:10:00:13.555512 20140804:10:00:13.435677 Habe ich Sie in einen DataFrame, und ich versuche, Sie zu Sortieren in aufsteigender Reihenfolge. Ich habe versucht, die folgenden. Aber, es scheint nicht zu

Legen Sie ein dataframe als Spaltennamen für die anderen Daten-frame

Anzahl der Antworten 2 Antworten
Also ich habe einen Daten-frame (genannt SNPlist) die Maße 1, von 500000 (Zeilen und Spalten). Ich will die SNP-Liste der Spaltennamen für mein dataframe von Daten (Daten), die der dimension 100 und der 500000. Ich habe bereits

Sortieren ein pandas dataframe ist Serie von Monats-Namen?

Anzahl der Antworten 6 Antworten
Habe ich eine Reihe Objekt: date price dec 12 may 15 apr 13 .. Anweisung Problem: ich es machen will, erscheinen nach Monat und berechnen Sie den Mittelwert der Preis pro Monat und präsentieren es mit einer

Auswählen bestimmter Spalten für die Berechnung der Zeile weisen insgesamt in pandas

Anzahl der Antworten 4 Antworten
Gibt es eine Möglichkeit, eine Summe über die Spalten nach der Gruppierung in der pandas-Daten-frame? Ich habe zum Beispiel den folgenden Daten Rahmen: ID W_1 W_2 W_3 1 0.1 0.2 0.3 1 0.2 0.4 0.5 2 0.3

Python-DataFrame: Ersetzen von Werten mithilfe von Wörterbuch, konvertieren NaN, wenn nicht im Wörterbuch

Anzahl der Antworten 1 Antworten
Ich verstehen, wie Sie Spaltenwerte ersetzen mit einem Wörterbuch aber ich möchte konvertieren Sie alle Werte, die nicht in meinem Wörterbuch nach NaN oder einen anderen Wert. Ich bin immer dies: Dictionary is: {'apple': 1, 'peach': 6,

Pandas DataFrame, Wie die Abfrage der nächsten datetime-index?

Anzahl der Antworten 2 Antworten
Wie kann ich die Abfrage für den nächsten index von ein Pandas DataFrame? Der index ist DatetimeIndex 2016-11-13 20:00:10.617989120 7.0 132.0 2016-11-13 22:00:00.022737152 1.0 128.0 2016-11-13 22:00:28.417561344 1.0 132.0 Habe ich versucht, dieses: df.index.get_loc(df.index[0], method='nearest') aber geben

Finden Sie Art von Daten in jeder Spalte von dataframe

Anzahl der Antworten 1 Antworten
Habe ich diesen link Lesen: Überprüfen Sie die Spalten, die in DataFrame sind Kategorisch Ich habe einen dataframe, wo die Gehälter sind erwähnt mit einem $ vorangestellt. Es wird auch gezeigt, wie die kategorischen Daten. Außerdem nehme

Spalte mit mehreren Werten in Daten.Rahmen

Anzahl der Antworten 1 Antworten
Ich würde gerne die Daten.frame in R mit einigen Spalten, die mehrere Werte (gleichen Anzahl von Variablen, die für alle Zeilen). Zum Beispiel, hier ist ein data-frame mit zwei Spalten (Autos und Preis), beachten Sie, dass die

der Konvertierung-Liste, um Daten-frame mit bestimmten Spaltennamen in R

Anzahl der Antworten 1 Antworten
Habe ich überprüft, die anderen ähnlichen threads hier, aber habe noch nicht die Antwort gefunden auf meine Frage noch. Ich Baue mir eine Liste in einer for-Schleife, die ich konvertieren möchten, um einen Daten-frame. Die endgültige Liste

Python pandas DataFrame aus der ersten und letzten Zeile der csv

Anzahl der Antworten 4 Antworten
All - Ich bin auf der Suche zum erstellen eines pandas DataFrame aus nur die ersten und letzten Zeilen einer sehr großen csv. Der Zweck dieser übung ist es, in der Lage sein, um leicht greifen einige

So laden Sie eine excel-Tabelle und reinigen Sie die Daten in python?

Anzahl der Antworten 3 Antworten
Laden Sie die Energie-Daten aus der Datei Energie Indicators.xls,, das ist eine Liste von Indikatoren der Energieversorgung und der regenerativen Stromerzeugung von den Vereinten Nationen für das Jahr 2013, und sollten in einem DataFrame mit dem Namen

python pandas bedingte count über mehrere Spalten

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe (die sogenannten panel - [xyz]) mit nur 1, 0 und -1. Die Maße sind: Zeilen, die mit 0:10 und die Spalten a:j. Ich würde gern ein anderes dataframe (df), die die gleiche vertikale

Bedingt auswählen von Spalten in dplyr, wo bestimmter Anteil der Werte ist NA

Anzahl der Antworten 3 Antworten
Daten Ich arbeite mit einem Datensatz, die wie die data.frame darunter generiert: set.seed(1) dta <- data.frame(observation = 1:20, valueA = runif(n = 20), valueB = runif(n = 20), valueC = runif(n = 20), valueD = runif(n =

Panda dataframe aufteilen einer Spalte in mehrere Spalten

Anzahl der Antworten 5 Antworten
Habe ich ein pandas dataframe aussieht wie unten: date | location | occurance <br> ------------------------------------------------------ somedate |united_kingdom_london | 5 somedate |united_state_newyork | 5 Ich will es verwandeln in date | country | city | occurance <br> ---------------------------------------------------

for-Schleife durch die Daten-frame und Schleifen mit eindeutigen Werten

Anzahl der Antworten 1 Antworten
Ich versuche, die Arbeit am code zu erstellen eine Funktion zum drei-Stufen-cluster sampling, aber ich bin gerade mit dummy-Daten jetzt so dass ich verstehen kann, was Los ist, in meiner Funktion. Ich arbeite für loops und einen

HTML Tabelle in ein pandas Dataframe, nicht Liste der dataframe Objekte

Anzahl der Antworten 2 Antworten
Ich entschuldige mich wenn diese Frage beantwortet wurde, die anderswo aber ich war erfolglos bei der Suche nach einer zufriedenstellenden Antwort hier oder anderswo. Ich bin etwas neu auf python und pandas, und mit einigen Schwierigkeiten bei

Pandas Python - konvertieren HH:MM:SS in Sekunden in aggegate (csv-Datei)

Anzahl der Antworten 3 Antworten
Ich versuche zum konvertieren der zahlen in der " Avg. Die Dauer der Sitzung'(HH:MM:SS) Spalte in ganzen zahlen (in Sekunden), in Pandas read_csv Modul/Funktion. Zum Beispiel, '0:03:26" wäre 206 Sekunden nach der Konvertierung. Eingang Beispiel: Source Month

Wie konvertieren von csv shp R

Anzahl der Antworten 1 Antworten
Ich habe versucht, für die letzten paar Tage, um zu konvertieren eine csv-shape-Datei. Ich weiß, ich kann ganz einfach in QGIS oder Arc möchte aber noch hinzufügen, diesen Prozess in meine vorhandenen R-code. Also Lesen kann ich

Split verschachtelte array-Werte von Pandas Dataframe Zelle über mehrere Zeilen

Anzahl der Antworten 1 Antworten
Ich habe eine Pandas DataFrame der folgenden form Es ist eine Zeile pro ID pro Jahr (2008 - 2015). Für die Spalten Max Temp, Min Temp, und Rain jede Zelle enthält ein array von Werten an einen

So entfernen Sie Zeilen aus einer Daten.Rahmen mit einem symbol in einer bestimmten Spalte

Anzahl der Antworten 1 Antworten
Möchte ich entfernen Sie alle Zeilen aus einem dataframe namens mydata wo die Spalte mit dem Namen first enthält ein "+". Was ist der korrekte Befehl für das in R? Hier ist, was mein dataframe aussieht: session

KeyError in for-Schleife von dataframe in pandas

Anzahl der Antworten 2 Antworten
Ich bin, dass meine Daten in ein bokeh layout einer heat-map, aber bin immer ein KeyError: '1'. Es tritt genau in der Zeile num_calls = pivot_table[m][y] weiß jemand, warum das wäre? Die pivot-Tabelle, die ich verwende, ist

R-Daten-frame: so Steuern Sie die Umwandlung von matrix mit der wissenschaftlichen Schreibweise von Zeichenfolgen in numerische

Anzahl der Antworten 1 Antworten
Habe ich eine string-matrix, wo die Felder waren, abgeleitet von zahlen in wissenschaftlicher notation. Ich möchte zum konvertieren der Charakter der matrix, um einen Daten-frame und die Arbeit auf der numerischen Felder. Während der matrix-Daten-frame conversion-R konvertiert

Spark - Erstellen Von Verschachtelten DataFrame

Anzahl der Antworten 3 Antworten
Fange ich mit PySpark und ich habe Probleme mit dem erstellen von DataFrames mit verschachtelten Objekten. Dies ist mein Beispiel. Ich habe Benutzer. $ cat user.json {"id":1,"name":"UserA"} {"id":2,"name":"UserB"} Nutzer haben Aufträge. $ cat order.json {"id":1,"price":202.30,"userid":1} {"id":2,"price":343.99,"userid":1} {"id":3,"price":399.99,"userid":2}

Gewusst wie: verweisen auf Spalten eines data.frame innerhalb eines Daten.Rahmen?

Anzahl der Antworten 3 Antworten
Ich habe einen Daten.frame series_to_plot.df die ich erstellt durch die Kombination einer Reihe von anderen Daten.frames zusammen (siehe unten). Ich möchte nun ausziehen, gerade die .mm Spalte aus jeder von diesen, so kann ich plot Ihnen. So

Ändern von Werten in pandas dataframe Spalte

Anzahl der Antworten 3 Antworten
Ich habe einen dataframe gefüllt mit mehreren Spalten. Ich brauche zum ändern der Werte einer Spalte für Daten-Normalisierung, wie in folgendem Beispiel: User_id 751730951 751730951 0 163526844 ...and so on Muss ich ersetzen jeden Wert in der

Zugriff auf variable dataframe in R-loop

Anzahl der Antworten 1 Antworten
Wenn ich am arbeiten mit dataframes in einer Schleife, wie kann ich einen variable-Daten-frame-Namen (und zusätzlich Spalte "variable" Namen), um auf Daten zuzugreifen frame-Inhalte? dfnames <- c("df1","df2") df1 <- df2 <- data.frame(X = sample(1:10),Y = sample(c("yes", "no"),

R: transforming "kurze form" Daten zu "lange form" Daten ohne for-Schleifen?

Anzahl der Antworten 3 Antworten
Angenommen ich habe einen R-dataframe wie diese: Subject Session Property.A Property.B Property.C 1 100 1 -1.22527548 -0.9193751 -1.7501693 2 100 10 2.30627980 1.8940830 -0.8443976 3 100 2 2.33243332 -0.5860868 -4.2074489 4 100 3 0.38130810 -0.7336206 4.8016230 5

FUNKE : Fehler: `union" erwartet, aber `(' gefunden

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe df genannt mit Spalte mit dem Feld "employee_id". Ich bin dabei: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result = Spark.getSqlContext().sql(query) Aber immer Folgendes Problem.

pandas pivot_table mehrere aggfunc

Anzahl der Antworten 2 Antworten
Wenn ich erstellen Sie eine pivot-Tabelle in einen dataframe ich habe, vorbei aggfunc='mean' funktioniert wie erwartet, die aggfunc='count' funktioniert wie erwartet, jedoch aggfunc=['mean', 'count'] Ergebnisse in: AttributeError: 'str' object has no attribute '__name__ Diesem format zu arbeiten

Wie die Verkettung von einem string und einer Spalte in einem dataframe in der Funke?

Anzahl der Antworten 2 Antworten
Habe ich das heutige Datum als string. Ich brauche, um zu verketten, es mit einem Zeit-Wert, der vorhanden ist, wie eine Spalte in einem dataframe. Wenn ich versuche, bekomme ich String Index out of bounds Ausnahme. Mein

So wählen Sie alle Zeilen, die Werte enthalten, die größer als ein Schwellenwert?

Anzahl der Antworten 2 Antworten
Die Anfrage ist einfach: ich möchte alle Zeilen auswählen, die einen Wert enthalten, der größer als ein Schwellenwert ist. Wenn ich es so mache: df[(df > threshold)] Bekomme ich diese Zeilen, sondern auch Werte unterhalb dieser Schwelle

Spark AttributeError: 'DataFrame' - Objekt hat kein Attribut 'weekofyear'

Anzahl der Antworten 2 Antworten
Muss ich bekommen die Nummer der Woche des Jahres from pyspark.sql.functions import weekofyear dt =sqlContext.createDataFrame([('2015-04-08',)], ['a']) dt = dt.weekofyear(dt.a).alias('week') dt.show() Aber bekam ich diese Fehlermeldung:AttributeError: 'DataFrame' - Objekt hat kein Attribut 'weekofyear' Irgendeine Idee? Dank InformationsquelleAutor newleaf

Erreicht insgesamt Aufteilung des Speichers in R

Anzahl der Antworten 1 Antworten
Ich bin mit dem folgenden code in R sort1.name <- name[order("sessionid","qf","qn") , ] Meine-Daten-frame groß ist, aber ich bin nicht sicher, wie Sie Sie zu überprüfen, Ihre Größe. Die Fehler ich erhalte, ist Error in FUN(newX[, i],

Wie "Lookup" - Betrieb auf Spark dataframes gegeben mehrere Bedingungen

Anzahl der Antworten 2 Antworten
Ich bin ein Neuling auf Spark (Meine version ist die 1.6.0) und jetzt versuche ich das problem zu lösen, die unten gegeben werden: Angenommen, es gibt zwei Quellcode-Dateien: Die erste (Eine für Kurzschluß) ist eine große, eine

als.Daten.Rahmen der Tabelle() zusammenfassen Frequenzen

Anzahl der Antworten 3 Antworten
In R, ich bin auf der Suche nach einem Speicher-effizienteste Weg, um erstellen Sie eine tabellarische Zusammenfassung der Daten wie folgt. Nehmen Sie zum Beispiel die data.frame foo die ich verwendet habe table() zu fassen, gefolgt von

Dataframe transpose mit pyspark in Apache Spark

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe df haben folgende Struktur: +-----+-----+-----+-------+ | s |col_1|col_2|col_...| +-----+-----+-----+-------+ | f1 | 0.0| 0.6| ... | | f2 | 0.6| 0.7| ... | | f3 | 0.5| 0.9| ... | | ...| ...|

Hinzufügen von Hauptkomponenten wie Variablen, um einen Daten-frame

Anzahl der Antworten 1 Antworten
Ich arbeite mit einem Datensatz von 10000 Datenpunkten und 100 Variablen in R. Leider sind die Variablen, die ich nicht beschreiben die Daten, die in einem guten Weg. Ich führte eine PCA-Analyse mit prcomp() und die ersten

Rückkehr einen Daten-frame

Anzahl der Antworten 3 Antworten
Ich bin mit dem folgenden code zu extrahieren, die Anzahl der abgeschlossenen Fälle von Dateien: complete <- function(directory, id=1:332) { sapply(id, fn, directory)} fn <- function(id, directory) { zero <- sprintf("%03d", id) name <- paste(directory,"/",zero,".csv",sep="") frame <-

DataFrame filtern, basierend auf der zweiten Dataframe

Anzahl der Antworten 2 Antworten
Verwendung von Spark-SQL, ich habe zwei dataframes, Sie werden erstellt von einer, wie: df = sqlContext.createDataFrame(...); df1 = df.filter("value = 'abc'"); //[path, value] df2 = df.filter("value = 'qwe'"); //[path, value] Möchte ich filtern df1, wenn ein Teil

Fügen Sie die Anzahl der Tage, die Spalte Datum Spalte im gleichen dataframe für Spark-Scala-App

Anzahl der Antworten 2 Antworten
Ich habe eine dataframe df von columns ("id", "current_date", "days") und ich bin versucht hinzuzufügen, die die "days" zu "current_date" und erstellen Sie eine neue dataframe mit neuen column genannt "new_date" mit spark-scala-Funktion date_add() val newDF =

subsetting einen dataframe in einen Vektor basiert auf einer Zeile mit dem Wert einer anderen Spalte in R

Anzahl der Antworten 3 Antworten
Ich habe einen dataframe, namens ann, die mehrere hundert Zeilen. Ich habe nur ein paar. Exp Result 1 gmp_123 kip 2 gmp_345 kip 3 gmp_786 kip 4 gmp_564 min 5 gmp_347 min Im wesentlichen möchte ich zwei

Python Pandas hinzufügen, mit dem Namen der Spalte CSV

Anzahl der Antworten 2 Antworten
Mein python-code korrekt funktioniert in dem Beispiel weiter unten. Mein code verbindet ein Verzeichnis der CSV-Dateien und passt die Header. Ich möchte jedoch noch einen Schritt weiter - wie füge ich eine Spalte ein fügt den Dateinamen

Filter pandas dataframe mit bestimmten Spaltennamen in python

Anzahl der Antworten 2 Antworten
Habe ich ein pandas dataframe und eine Liste wie folgt mylist = ['nnn', 'mmm', 'yyy'] mydata = xxx yyy zzz nnn ddd mmm 0 0 10 5 5 5 5 1 1 9 2 3 4 4

Wie zu beheben scala.MatchError beim erstellen einer Daten-Frame

Anzahl der Antworten 1 Antworten
Ich habe die text-Datei, die komplexe strukturierte Reihe. Ich bin mit Kunden-Konverter, der konvertiert den gegebenen string(Zeile) zu Pojo-Klasse(countryInfo). Nach der Konvertierung, Baue ich DF. Die POJO-Klasse hat ein Feld, das eine Liste der Custome-Typ(GlobalizedPlayTimeWindows). Ich schuf

Wie um die Karte struct im DataFrame zu Fall Klasse?

Anzahl der Antworten 3 Antworten
Irgendwann in meiner Anwendung habe ich einen DataFrame mit einem Struct-Feld erstellt von Fall Klasse. Jetzt möchte ich cast/anzeigen es wieder der Fall-Klasse Typ: import spark.implicits._ case class Location(lat: Double, lon: Double) scala> Seq((10, Location(35, 25)), (20,

Funke - Gruppe, indem er mit dataframe syntax?

Anzahl der Antworten 2 Antworten
Was ist die syntax für eine groupby-unter Spark ohne sql/hiveContext? Ich weiß, dass ich tun kann, DataFrame df = some_df df.registreTempTable("df"); df1 = sqlContext.sql("SELECT * FROM df GROUP BY col1 HAVING some stuff") aber wie mache ich

Wie zu verwenden übernehmen, um generieren eines Daten-frame zeilenweise?

Anzahl der Antworten 2 Antworten
Ich will erzeugen einen dataframe Zeile für Zeile, mit einigen Geschmack von apply auf eine Liste von Werten und eine Funktion zurückgibt, die einen single-row data-frame für jeden Wert. Als Spielzeug angenommen, dass meine Werte sind i

aggregieren von mehreren Spalten in den Daten.Tabelle

Anzahl der Antworten 2 Antworten
Habe ich das folgende Beispiel data.table: dtb <- data.table(a=sample(1:100,100), b=sample(1:100,100), id=rep(1:10,10)) Möchte ich Aggregatfunktionen alle Spalten (a und b, obwohl Sie getrennt werden sollten) von id mit colSums zum Beispiel. Was ist der richtige Weg, dies zu

Erstellen pandas DataFrame iterativ

Anzahl der Antworten 2 Antworten
Bin ich die Liste erstellen Sie wie folgt: myList = for i in range(0,10): val0 = 1 # some formula for obtaining values val1 = 2.5 val2 = 1.8 myList.append([val0,val1,val2]) Wie kann ich die Schleife für

Spalte name für Daten-frame

Anzahl der Antworten 1 Antworten
Hallo, ich habe einen Daten-frame in R, die ein Ergebnis des Vergleichs ein Vektor mit große Datenbank (db gelesen wurde, wie dies db <- read.table("database.txt", header = F, row.names = 1, sep = ",") ). Das problem