Tag: dataframe

Ein data frame ist eine tabellarische Datenstruktur. In der Regel enthält es Daten, in denen Zeilen sind Beobachtungen und die Spalten sind Variablen der verschiedenen Typen. Während „data frame“ oder „dataframe“ ist der Begriff für dieses Konzept in mehreren Sprachen (R, Apache Spark, deedle, Ahorn, die pandas-Bibliothek in Python und die DataFrames library in Julia), „Tabelle“ ist der Begriff in MATLAB und SQL.

rbind Liste von Daten-frames mit einer Spalte von Zeichen und Numerik

Anzahl der Antworten 2 Antworten
Habe ich eine Liste von zwei Daten-frames mit der gleichen Spalte Namen, aber unterschiedlicher Anzahl von Zeilen, rbind.füllen Sie dazu beitragen können, Sie zusammen in einer big-data-frame, aber das problem ist, dass die erste Spalte in df1

finden Sie doppelte Zeilen in ein pandas dataframe

Anzahl der Antworten 1 Antworten
Ich versuche zu finden, Duplikate von Zeilen in ein pandas dataframe. df=pd.DataFrame(data=[[1,2],[3,4],[1,2],[1,4],[1,2]],columns=['col1','col2']) df Out[15]: col1 col2 0 1 2 1 3 4 2 1 2 3 1 4 4 1 2 duplicate_bool = df.duplicated(subset=['col1','col2'], keep='first') duplicate =

Der Zugriff auf 1. element der Pandas DataFrame Spalte mit Listen

Anzahl der Antworten 4 Antworten
Habe ich ein Pandas DataFrame mit einer Spalte, in der Listen-Objekte A 0 [1,2] 1 [3,4] 2 [8,9] 3 [2,6] Wie kann ich Zugriff auf das erste element jeder Liste, und speichern Sie es in eine neue

Zeilen filtern, indem Sie verschiedene Werte in einer Spalte in PySpark

Anzahl der Antworten 2 Antworten
Sagen wir, ich habe die folgende Tabelle: +--------------------+--------------------+------+------------+--------------------+ | host| path|status|content_size| time| +--------------------+--------------------+------+------------+--------------------+ |js002.cc.utsunomi...|/shuttle/resource...| 404| 0|1995-08-01 00:07:...| | tia1.eskimo.com |/pub/winvn/releas...| 404| 0|1995-08-01 00:28:...| |grimnet23.idirect...|/www/software/win...| 404| 0|1995-08-01 00:50:...| |miriworld.its.uni...|/history/history.htm| 404| 0|1995-08-01 01:04:...| | ras38.srv.net |/elv/DELTA/uncons...| 404| 0|1995-08-01 01:05:...|

na.füllen Sie Funken DataFrame Scala

Anzahl der Antworten 1 Antworten
Bin ich mit Spark/Scala, und ich will füllen die Nullen in meinem DataFrame mit default-Werte basierend auf dem Typ der Spalten. ich.e-Saite Spalten -> "string", " Numeric-Spalten -> 111 -, Boolean-Spalten -> False, etc. Derzeit die DF.na.Funktionen-API

konvertieren pandas dataframe Spalte hex string zu int

Anzahl der Antworten 2 Antworten
Ich habe eine sehr große dataframe, dass würde ich gerne vermeiden, Durchlaufen jede einzelne Zeile und möchten, konvertieren Sie die gesamte Spalte aus hex string zu int. Es nicht verarbeiten den string korrekt mit astype hat aber

Split Spalte in mehrere Spalten R

Anzahl der Antworten 4 Antworten
Habe ich einen Daten-frame-Spalte, die ich brauche, aufgeteilt in 3 separate Spalte. Sieht wie folgt aus: I:500-600 I:700-900 II:200-250 Ich möchte, aufgeteilt in die folgenden 3 Spalten: V1 V2 V3 I 500 600 I 700 900 II

Wie konvertieren von Daten aus pdf-Dateien in Daten-frames.

Anzahl der Antworten 1 Antworten
Ich versuche, die Daten zu konvertieren aus einer großen Anzahl von PDF-Dateien auf Daten-frames in R. ich habe das konvertieren der PDF-Dateien um .txt-Dateien mit Lesen.fwf(), aber das Problem ist, dass die breiten aller .txt-Dateien sind nicht

PySpark - Split/Filter DataFrame Spalte Werte

Anzahl der Antworten 2 Antworten
Ich habe einen DataFrame ähnlich wie in diesem Beispiel: Timestamp | Word | Count 30/12/2015 | example_1 | 3 29/12/2015 | example_2 | 1 28/12/2015 | example_2 | 9 27/12/2015 | example_3 | 7 ... | ...

Wie für das Lesen zu überspringen leere Dateien mit panda in Python

Anzahl der Antworten 4 Antworten
Ich lese alle Dateien in einem Ordner einzeln in ein DataFrame und dann überprüfe ich Sie für einige Bedingungen. Es gibt einige tausend Dateien, und ich würde Sie gerne pandas eine Ausnahme auslösen, wenn eine Datei leer

Pandas dataframe als input für matplotlib.pyplot.boxplot

Anzahl der Antworten 1 Antworten
Habe ich ein pandas dataframe die wie folgt aussieht: [('1975801_m', 1 0.203244 10 -0.159756 16 -0.172756 19 -0.089756 20 -0.033756 23 -0.011756 24 0.177244 32 0.138244 35 -0.104756 36 0.157244 40 0.108244 41 0.032244 42 0.063244 45

Konvertieren von Rdata-Dateien in das CSV - Fehler in den Daten.Rahmen Argumente implizieren unterschiedliche Anzahl von Zeilen

Anzahl der Antworten 2 Antworten
Ich versuche, den R-code aus diesem Antwort zu konvertieren eine Reihe von rdata-Dateien in CSV. resave <- function(file){ e <- new.env(parent = emptyenv()) load(file, envir = e) objs <- ls(envir = e, all.names = TRUE) for(obj in

DataFrame / Dataset groupBy-Verhalten/ - Optimierung

Anzahl der Antworten 1 Antworten
Nehmen wir an, wir haben DataFrame df bestehend aus den folgenden Spalten: Name, Vorname, Größe, Breite, Länge, Wiegen Wollen wir jetzt führen Sie ein paar Operationen, zum Beispiel erstellen wir ein paar DataFrames mit Angaben über Größe

Schleife durch dataframe Spalte Namen - R

Anzahl der Antworten 1 Antworten
Ich versuche, eine Schleife durch die Spalten-Namen von einem dataframe, und zu bewerten, welche Klasse jeder Spalte. for (i in columns(df)){ class(df$i) } Ich habe alles versucht, außer dem richtigen Weg.. PS: ich versuche auf diesem Weg,

Konvertieren pandas dataframe zu numpy-array mit Header und dtypes

Anzahl der Antworten 1 Antworten
Ich habe versucht, zu konvertieren, ein pandas dataframe in einen numpy-array, tragen über der dtypes und header-Namen für eine einfache Referenz. Ich muss dies tun, da die Verarbeitung auf pandas ist viel zu langsam, numpy ist 10-Fach

Umformen von Daten für die Werte in einer Spalte

Anzahl der Antworten 2 Antworten
Meine Daten.Rahmen sieht wie folgt aus ID | test | test_result 1 | B | 10 2 | A | 9 3 | A | 11 4 | C | 7 5 | F | 5 Und

Was ist der beste Weg, um entfernen von Spalten in pandas

Anzahl der Antworten 4 Antworten
Ich Hebe diese Frage für mich selber zu lernen. Soweit ich weiß, folgenden werden die verschiedenen Methoden zum entfernen von Spalten in pandas dataframe. Option - 1: df=pd.DataFrame({'a':[1,2,3,4,5],'b':[6,7,8,9,10],'c':[11,12,13,14,15]}) del df['a'] Option - 2: df=pd.DataFrame({'a':[1,2,3,4,5],'b':[6,7,8,9,10],'c':[11,12,13,14,15]}) df=df.drop('a',1) Option -

Mit Pandas zu Finden, die Minimalen Werte der Gruppierten Zeilen

Anzahl der Antworten 2 Antworten
Das mag eine triviale Frage, aber ich bin immer noch versuchen, herauszufinden, pandas/numpy. So, angenommen ich habe eine Tabelle mit der folgenden Struktur: group_id | col1 | col2 | col3 | "A" | "B" x | 1

Wie mehrere Spalten in pandas DataFrame für eine "Intervall"?

Anzahl der Antworten 1 Antworten
Habe ich Folgendes pandas DataFrame: import pandas as pd df = pd.DataFrame('filename.csv') print(df) order start end value 1 1342 1357 category1 1 1459 1489 category7 1 1572 1601 category23 1 1587 1599 category2 1 1591 1639 category1

Was ist die Schnellste Möglichkeit zum hochladen einer großen csv-Datei in die notebook-Arbeit mit python pandas?

Anzahl der Antworten 1 Antworten
Ich versuche zum hochladen einer csv-Datei, die 250MB. Grundsätzlich 4 Millionen Zeilen und 6 Spalten von Zeitreihen-Daten (1min). Das übliche Verfahren ist: location = r'C:\Users\Name\Folder_1\Folder_2\file.csv' df = pd.read_csv(location) Dieser Vorgang dauert etwa 20 Minuten !!!. Sehr vorläufige,

Aggregation über die Partition - pandas Dataframe

Anzahl der Antworten 1 Antworten
Ich bin auf der Suche nach der beste Weg, um aggregierte Werte, basierend auf einer bestimmten partition , die äquivalente SUM(TotalCost) OVER(PARTITION BY ShopName) Earnings ( SQL server) Ich bin in der Lage, dies zu tun, indem

R: mehrere Zeilen Einfügen (variable Anzahl) Daten-frame

Anzahl der Antworten 2 Antworten
Habe ich einen Daten-frame mit, sagen wir, 5 Reihen, für 2 observablen. Ich brauche zum einfügen von "dummy" - oder "null" Zeilen in die Daten-Frames so, dass die Anzahl der Zeilen pro observable ist der gleiche (und

Anwenden, Funktion pandas dataframe Zeile mit den Werten in anderen Zeilen

Anzahl der Antworten 2 Antworten
Ich habe eine situation wo ich einen dataframe Zeile, um Berechnungen mit, und ich brauche Werte verwenden, die im folgenden (potenziell vorhergehenden) Zeilen um diese Berechnungen zu tun (im Grunde eine perfekte Prognose basiert auf der realen

Beitritt Faktor Ebenen der zwei Spalten

Anzahl der Antworten 3 Antworten
Ich habe 2 Spalten mit Daten mit der gleichen Art von Daten (Strings). Will ich join die Stufen der Spalten. dh. wir haben: col1 col2 Bob John Tom Bob Frank Jane Jim Bob Tom Bob ... ...

Umbenennen von Spalten in mehrere dataframes, R

Anzahl der Antworten 3 Antworten
Ich versuche zu Spalten umbenennen von mehreren data.frames. Um ein Beispiel zu geben, sagen wir, ich habe eine Liste von data.frames dfA, dfB und dfC. Ich schrieb eine Funktion changeNames Namen entsprechend und dann lapply wie folgt:

Problem der Umwandlung eine Matrix, Data Frame in R (R denkt, dass alle numerischen Typen sind Faktoren)

Anzahl der Antworten 2 Antworten
Ich bin die Weitergabe der Daten von C# an R über eine COM-Schnittstelle. Wenn der Empfang der Daten in R es ist untergebracht in einer 'Matrix'. Einige der Funktionen, die ich verwenden, erfordern, dass die Daten in

"TypeError: 'DataFrame' Objekte sind veränderbar, damit Sie sich nicht zerlegt werden" beim Sortieren pandas dataframe index

Anzahl der Antworten 2 Antworten
Ich habe folgende dataframe h: In [24]: h.head() Out[24]: alpha1 alpha2 gamma1 gamma2 chi2min gender age filename F35_HC_532d.dat 0.0000 0.000 NaN 0.00 1.000000e+25 F 35 M48_HC_551d.dat 0.7353 3.943 0.425922 0.15 2.072617e+01 M 48 M24_HC_458d.dat 0.7777 4.754 0.463753

pct_change für die Spalte Wert

Anzahl der Antworten 2 Antworten
Mit Pandas Dokumentation http://pandas.pydata.org/pandas-docs/version/0.13.1/generated/pandas.DataFrame.pct_change.html Ich versuche zu erstellen, diese Funktion zu berechnen percentage_change . Ich übergebe zwei Parameter, um es def PCT(df,n): d = df['Close'].pct_change(n) Sogar das umschreiben der gleiche code in verschiedenen Art und Weise geben

Finden und ersetzen Sie fehlende Werte mit der Zeile bedeuten

Anzahl der Antworten 5 Antworten
Habe ich einen Daten-frame mit NAs und ich möchte Sie ersetzen die NAs mit der Zeile bedeutet c1 = c(1,2,3,NA) c2 = c(3,1,NA,3) c3 = c(2,1,3,1) df = data.frame(c1,c2,c3) > df c1 c2 c3 1 1 3

Wie zu Lesen mehrerer xlsx-Datei in R mit Schleife bestimmte Zeilen und Spalten

Anzahl der Antworten 3 Antworten
Habe ich zum Lesen mehrerer xlsx-Datei mit zufälligem Namen in den single-dataframe. Struktur jeder Datei ist die gleiche. Ich habe zum importieren von bestimmten Spalten nur. Habe ich versucht, dieses: dat <- read.xlsx("FILE.xlsx", sheetIndex=1, sheetName=NULL, startRow=5, endRow=NULL,

Die geteilten Daten.frame-by-value

Anzahl der Antworten 2 Antworten
wie kann ich Spalten die folgenden Daten.Rahmen df <- data.frame(var1 = c("a", 1, 2, 3, "a", 1, 2, 3, 4, 5, 6, "a", 1, 2), var2 = 1:14) in Listen /Gruppen a 1 1 2 2 3

So schalten Sie die pandas dataframe Zeile in ordereddict schnell

Anzahl der Antworten 2 Antworten
Suche nach einer schnellen Weg, um eine Zeile in ein pandas dataframe in einen bestellt dict-out-Liste". Liste sind in Ordnung, aber mit großen Datensätzen dauert zu lange. Ich bin mit fiona-GIS-Leser, und die Zeilen werden ordereddicts mit

Pandas-Filterung für mehrere Teilstrings in Serie

Anzahl der Antworten 3 Antworten
Brauche ich zum filtern von Zeilen in einer pandas dataframe, so dass eine bestimmte Zeichenfolge-Spalte enthält mindestens eine aus einer Liste von Teilstrings zur Verfügung gestellt. Die Zeichenketten können ungewöhnliche /regex-Zeichen. Der Vergleich sollte nicht mit regex

Sind dataframe[ ,-1] und dataframe[-1] gleich?

Anzahl der Antworten 3 Antworten
Sorry das scheint wie eine wirklich dumme Frage, aber sind dataframe[ ,-1] und dataframe[-1] die gleiche, und funktioniert das für alle Daten-Typen? ... Und warum sind Sie die gleiche Zusätzlich zu den Antworten unten, dieses Thema ist

pandas dataframe index-match

Anzahl der Antworten 3 Antworten
Frage ich mich, ob es eine effizientere Art und Weise zu tun, die eine "index & match" type-Funktion, die beliebt in excel. Zum Beispiel - zwei pandas DataFrames, aktualisieren Sie die df_1 mit Informationen, die in df_2:

Programmgesteuert generieren, die das schema UND die Daten für einen dataframe in Apache Spark

Anzahl der Antworten 1 Antworten
Möchte ich dynamisch generieren Sie einen dataframe mit einem Kopf-Datensatz für einen Bericht so erstellen Sie einen dataframe aus dem Wert die Zeichenfolge unten: val headerDescs : String = "Name,Age,Location" val headerSchema = StructType(headerDescs.split(",").map(fieldName => StructField(fieldName, StringType,

Pandas - Zusammenführen von zwei DataFrames mit Identischen Spaltennamen

Anzahl der Antworten 3 Antworten
Habe ich zwei Daten-Frames mit identischen Spaltennamen und identische IDs in der ersten Spalte. Mit Ausnahme der ID-Spalte, die für jede Zelle, die einen Wert enthält, der in einem DataFrame enthält NaN in der anderen. Hier ist

Summe Betrieb auf PySpark DataFrame geben TypeError, wenn der Typ in Ordnung ist

Anzahl der Antworten 1 Antworten
Habe ich solche DataFrame in PySpark (dies ist das Ergebnis eines nehmen(3) das dataframe ist sehr groß): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)] den gleichen Besitzer mehr Zeilen. Was ich tun müssen,

Entfernen von Zeilen aus dataframe basierend auf Bedingung

Anzahl der Antworten 3 Antworten
Ich weiß, das muss angesprochen werden, bevor, aber ich kann nicht scheinen, eine Antwort zu finden, die funktioniert Habe ich die Spalten, die ich testen will, die Bedingung gegen und ich möchten, entfernen Sie alle Zeilen aus,

Pandas konvertieren, Spalten-Typ aus der Liste um np.array

Anzahl der Antworten 1 Antworten
Ich bin versucht, eine Funktion in ein pandas dataframe, eine solche Funktion benötigt zwei np.array als Eingabe und passen Sie Sie mit einem gut definierten Modell. Der Punkt ist, dass ich nicht in der Lage, um die

Wie Sie die for-Schleife die Ausgabe als Daten.frame in R?

Anzahl der Antworten 1 Antworten
Ich würde gerne wissen, wie ich speichern kann die Ausgabe eines for loop als data.frame? lassen Sie uns sagen, mit der mtcars dataset ich habe Folgendes for loop Skript: for (i in seq_len(nrow(mtcars))) { if (i <=

ersetzen Zeichenfolge in pandas dataframe

Anzahl der Antworten 3 Antworten
Ich habe einen dataframe mit mehreren Spalten. Ich möchte, um sich auf eine Spalte und wenn einer der strings in der Spalte enthalten @, ich möchte Sie zu ersetzen mit einem anderen string. Wie würde ich gehen

Bauen pandas-Daten-frame aus der Liste der numpy-arrays

Anzahl der Antworten 2 Antworten
Frage ich mich, ob es einen einfachen Weg für die offensichtliche Aufgabe erzeugen Sie ein pandas DataFrame aus einer Liste mit numpy-arrays, wo die Spalten des arrays. Das Standard-Verhalten scheint, lassen Sie die Felder, werden die Zeilen,

konvertieren Korpus in Daten.frame in R

Anzahl der Antworten 2 Antworten
Ich bin mit dem tm-Paket anwenden Wortstamm, und ich brauche zum konvertieren der resultierenden Daten in einem Daten-frame. Eine Lösung für diese finden Sie hier R tm Paket vcorpus: Fehler in der Konvertierung von Text zu Daten-frame,

wie entfernen Sie Spalten mit zu vielen fehlenden Werten in Python

Anzahl der Antworten 7 Antworten
Arbeite ich auf einer machine-learning-problem, in denen es viele fehlende Werte in den Funktionen. Es gibt 100 von den features, und ich möchte zu löschen, diese Funktionen, die zu viele fehlende Werte (es kann sein, Funktionen mit

Die Berechnung der Kosinus-ähnlichkeit zwischen allen Zeilen des dataframe in pyspark

Anzahl der Antworten 1 Antworten
Ich habe einen Datensatz mit Arbeiter mit Ihrer demographischen Daten wie Alter, Geschlecht,Anschrift usw.-und Ihrem Arbeitsort. Ich habe eine RDD aus dem dataset-Objekt und konvertiert es in ein DataFrame. Gibt es mehrere Einträge für jede ID. Also,

R - beschreiben() ausgegeben, um einen Daten-frame

Anzahl der Antworten 3 Antworten
Erstellen Sie ein Daten-frame mit describe () - Funktion. Dataset unter Berücksichtigung iris. Der Daten-frame sollte dann so Aussehen: Variable n missing unique Info Mean 0.05 0.1 0.25 0.5 0.75 0.9 0.95 Sepal.Length 150 0 35 1

Konvertieren-Liste, um Daten-Frames, während list-element-Namen

Anzahl der Antworten 4 Antworten
Ich haben Liste, wo die elementnames sind ID-tags und enthält ein Vektor mit numerischen Werten. Diese sind von ungleichen(!) Länge. Möchte ich, um es zu transformieren, um einen Daten-frame, wo ich die ID in einer Spalte und

Sortieren Sie ein dataframe Spalte von der Häufigkeit des Auftretens

Anzahl der Antworten 3 Antworten
Ich habe einen dataframe in df genannt, gibt es drei Spalten können sagen, Region ID Salary 1 A1 100 1 A2 1001 1 A3 2000 1 A4 2431 1 A5 1001 .............. .............. 2 A6 1002 2

Pandas Umsetzung innerhalb dataframe

Anzahl der Antworten 1 Antworten
Habe ich diese datasate jetzt: animal age count dogs 1 49 2 134 3 147 4 154 cats 1 189 2 254 3 259 4 261 Ich würde gerne konvertieren Alter Spalte 4 Alter Spalten für jedes