Tag: dataframe
Ein data frame ist eine tabellarische Datenstruktur. In der Regel enthält es Daten, in denen Zeilen sind Beobachtungen und die Spalten sind Variablen der verschiedenen Typen. Während „data frame“ oder „dataframe“ ist der Begriff für dieses Konzept in mehreren Sprachen (R, Apache Spark, deedle, Ahorn, die pandas-Bibliothek in Python und die DataFrames library in Julia), „Tabelle“ ist der Begriff in MATLAB und SQL.
2
Antworten
Habe ich eine Liste von zwei Daten-frames mit der gleichen Spalte Namen, aber unterschiedlicher Anzahl von Zeilen, rbind.füllen Sie dazu beitragen können, Sie zusammen in einer big-data-frame, aber das problem ist, dass die erste Spalte in df1
1
Antworten
Ich versuche zu finden, Duplikate von Zeilen in ein pandas dataframe. df=pd.DataFrame(data=[[1,2],[3,4],[1,2],[1,4],[1,2]],columns=['col1','col2']) df Out[15]: col1 col2 0 1 2 1 3 4 2 1 2 3 1 4 4 1 2 duplicate_bool = df.duplicated(subset=['col1','col2'], keep='first') duplicate =
4
Antworten
Habe ich ein Pandas DataFrame mit einer Spalte, in der Listen-Objekte A 0 [1,2] 1 [3,4] 2 [8,9] 3 [2,6] Wie kann ich Zugriff auf das erste element jeder Liste, und speichern Sie es in eine neue
2
Antworten
Sagen wir, ich habe die folgende Tabelle: +--------------------+--------------------+------+------------+--------------------+ | host| path|status|content_size| time| +--------------------+--------------------+------+------------+--------------------+ |js002.cc.utsunomi...|/shuttle/resource...| 404| 0|1995-08-01 00:07:...| | tia1.eskimo.com |/pub/winvn/releas...| 404| 0|1995-08-01 00:28:...| |grimnet23.idirect...|/www/software/win...| 404| 0|1995-08-01 00:50:...| |miriworld.its.uni...|/history/history.htm| 404| 0|1995-08-01 01:04:...| | ras38.srv.net |/elv/DELTA/uncons...| 404| 0|1995-08-01 01:05:...|
1
Antworten
Bin ich mit Spark/Scala, und ich will füllen die Nullen in meinem DataFrame mit default-Werte basierend auf dem Typ der Spalten. ich.e-Saite Spalten -> "string", " Numeric-Spalten -> 111 -, Boolean-Spalten -> False, etc. Derzeit die DF.na.Funktionen-API
2
Antworten
Ich habe eine sehr große dataframe, dass würde ich gerne vermeiden, Durchlaufen jede einzelne Zeile und möchten, konvertieren Sie die gesamte Spalte aus hex string zu int. Es nicht verarbeiten den string korrekt mit astype hat aber
4
Antworten
Habe ich einen Daten-frame-Spalte, die ich brauche, aufgeteilt in 3 separate Spalte. Sieht wie folgt aus: I:500-600 I:700-900 II:200-250 Ich möchte, aufgeteilt in die folgenden 3 Spalten: V1 V2 V3 I 500 600 I 700 900 II
1
Antworten
Ich versuche, die Daten zu konvertieren aus einer großen Anzahl von PDF-Dateien auf Daten-frames in R. ich habe das konvertieren der PDF-Dateien um .txt-Dateien mit Lesen.fwf(), aber das Problem ist, dass die breiten aller .txt-Dateien sind nicht
2
Antworten
Ich habe einen DataFrame ähnlich wie in diesem Beispiel: Timestamp | Word | Count 30/12/2015 | example_1 | 3 29/12/2015 | example_2 | 1 28/12/2015 | example_2 | 9 27/12/2015 | example_3 | 7 ... | ...
4
Antworten
Ich lese alle Dateien in einem Ordner einzeln in ein DataFrame und dann überprüfe ich Sie für einige Bedingungen. Es gibt einige tausend Dateien, und ich würde Sie gerne pandas eine Ausnahme auslösen, wenn eine Datei leer
1
Antworten
Habe ich ein pandas dataframe die wie folgt aussieht: [('1975801_m', 1 0.203244 10 -0.159756 16 -0.172756 19 -0.089756 20 -0.033756 23 -0.011756 24 0.177244 32 0.138244 35 -0.104756 36 0.157244 40 0.108244 41 0.032244 42 0.063244 45
2
Antworten
Ich versuche, den R-code aus diesem Antwort zu konvertieren eine Reihe von rdata-Dateien in CSV. resave <- function(file){ e <- new.env(parent = emptyenv()) load(file, envir = e) objs <- ls(envir = e, all.names = TRUE) for(obj in
1
Antworten
Nehmen wir an, wir haben DataFrame df bestehend aus den folgenden Spalten: Name, Vorname, Größe, Breite, Länge, Wiegen Wollen wir jetzt führen Sie ein paar Operationen, zum Beispiel erstellen wir ein paar DataFrames mit Angaben über Größe
1
Antworten
Ich versuche, eine Schleife durch die Spalten-Namen von einem dataframe, und zu bewerten, welche Klasse jeder Spalte. for (i in columns(df)){ class(df$i) } Ich habe alles versucht, außer dem richtigen Weg.. PS: ich versuche auf diesem Weg,
1
Antworten
Ich habe versucht, zu konvertieren, ein pandas dataframe in einen numpy-array, tragen über der dtypes und header-Namen für eine einfache Referenz. Ich muss dies tun, da die Verarbeitung auf pandas ist viel zu langsam, numpy ist 10-Fach
2
Antworten
Meine Daten.Rahmen sieht wie folgt aus ID | test | test_result 1 | B | 10 2 | A | 9 3 | A | 11 4 | C | 7 5 | F | 5 Und
4
Antworten
Ich Hebe diese Frage für mich selber zu lernen. Soweit ich weiß, folgenden werden die verschiedenen Methoden zum entfernen von Spalten in pandas dataframe. Option - 1: df=pd.DataFrame({'a':[1,2,3,4,5],'b':[6,7,8,9,10],'c':[11,12,13,14,15]}) del df['a'] Option - 2: df=pd.DataFrame({'a':[1,2,3,4,5],'b':[6,7,8,9,10],'c':[11,12,13,14,15]}) df=df.drop('a',1) Option -
2
Antworten
Das mag eine triviale Frage, aber ich bin immer noch versuchen, herauszufinden, pandas/numpy. So, angenommen ich habe eine Tabelle mit der folgenden Struktur: group_id | col1 | col2 | col3 | "A" | "B" x | 1
1
Antworten
Habe ich Folgendes pandas DataFrame: import pandas as pd df = pd.DataFrame('filename.csv') print(df) order start end value 1 1342 1357 category1 1 1459 1489 category7 1 1572 1601 category23 1 1587 1599 category2 1 1591 1639 category1
1
Antworten
Ich versuche zum hochladen einer csv-Datei, die 250MB. Grundsätzlich 4 Millionen Zeilen und 6 Spalten von Zeitreihen-Daten (1min). Das übliche Verfahren ist: location = r'C:\Users\Name\Folder_1\Folder_2\file.csv' df = pd.read_csv(location) Dieser Vorgang dauert etwa 20 Minuten !!!. Sehr vorläufige,
1
Antworten
Ich bin auf der Suche nach der beste Weg, um aggregierte Werte, basierend auf einer bestimmten partition , die äquivalente SUM(TotalCost) OVER(PARTITION BY ShopName) Earnings ( SQL server) Ich bin in der Lage, dies zu tun, indem
2
Antworten
Habe ich einen Daten-frame mit, sagen wir, 5 Reihen, für 2 observablen. Ich brauche zum einfügen von "dummy" - oder "null" Zeilen in die Daten-Frames so, dass die Anzahl der Zeilen pro observable ist der gleiche (und
2
Antworten
Ich habe eine situation wo ich einen dataframe Zeile, um Berechnungen mit, und ich brauche Werte verwenden, die im folgenden (potenziell vorhergehenden) Zeilen um diese Berechnungen zu tun (im Grunde eine perfekte Prognose basiert auf der realen
3
Antworten
Ich habe 2 Spalten mit Daten mit der gleichen Art von Daten (Strings). Will ich join die Stufen der Spalten. dh. wir haben: col1 col2 Bob John Tom Bob Frank Jane Jim Bob Tom Bob ... ...
3
Antworten
Ich versuche zu Spalten umbenennen von mehreren data.frames. Um ein Beispiel zu geben, sagen wir, ich habe eine Liste von data.frames dfA, dfB und dfC. Ich schrieb eine Funktion changeNames Namen entsprechend und dann lapply wie folgt:
2
Antworten
Ich bin die Weitergabe der Daten von C# an R über eine COM-Schnittstelle. Wenn der Empfang der Daten in R es ist untergebracht in einer 'Matrix'. Einige der Funktionen, die ich verwenden, erfordern, dass die Daten in
2
Antworten
Ich habe folgende dataframe h: In [24]: h.head() Out[24]: alpha1 alpha2 gamma1 gamma2 chi2min gender age filename F35_HC_532d.dat 0.0000 0.000 NaN 0.00 1.000000e+25 F 35 M48_HC_551d.dat 0.7353 3.943 0.425922 0.15 2.072617e+01 M 48 M24_HC_458d.dat 0.7777 4.754 0.463753
2
Antworten
Mit Pandas Dokumentation http://pandas.pydata.org/pandas-docs/version/0.13.1/generated/pandas.DataFrame.pct_change.html Ich versuche zu erstellen, diese Funktion zu berechnen percentage_change . Ich übergebe zwei Parameter, um es def PCT(df,n): d = df['Close'].pct_change(n) Sogar das umschreiben der gleiche code in verschiedenen Art und Weise geben
5
Antworten
Habe ich einen Daten-frame mit NAs und ich möchte Sie ersetzen die NAs mit der Zeile bedeutet c1 = c(1,2,3,NA) c2 = c(3,1,NA,3) c3 = c(2,1,3,1) df = data.frame(c1,c2,c3) > df c1 c2 c3 1 1 3
3
Antworten
Habe ich zum Lesen mehrerer xlsx-Datei mit zufälligem Namen in den single-dataframe. Struktur jeder Datei ist die gleiche. Ich habe zum importieren von bestimmten Spalten nur. Habe ich versucht, dieses: dat <- read.xlsx("FILE.xlsx", sheetIndex=1, sheetName=NULL, startRow=5, endRow=NULL,
2
Antworten
wie kann ich Spalten die folgenden Daten.Rahmen df <- data.frame(var1 = c("a", 1, 2, 3, "a", 1, 2, 3, 4, 5, 6, "a", 1, 2), var2 = 1:14) in Listen /Gruppen a 1 1 2 2 3
2
Antworten
Suche nach einer schnellen Weg, um eine Zeile in ein pandas dataframe in einen bestellt dict-out-Liste". Liste sind in Ordnung, aber mit großen Datensätzen dauert zu lange. Ich bin mit fiona-GIS-Leser, und die Zeilen werden ordereddicts mit
3
Antworten
Brauche ich zum filtern von Zeilen in einer pandas dataframe, so dass eine bestimmte Zeichenfolge-Spalte enthält mindestens eine aus einer Liste von Teilstrings zur Verfügung gestellt. Die Zeichenketten können ungewöhnliche /regex-Zeichen. Der Vergleich sollte nicht mit regex
3
Antworten
Sorry das scheint wie eine wirklich dumme Frage, aber sind dataframe[ ,-1] und dataframe[-1] die gleiche, und funktioniert das für alle Daten-Typen? ... Und warum sind Sie die gleiche Zusätzlich zu den Antworten unten, dieses Thema ist
3
Antworten
Frage ich mich, ob es eine effizientere Art und Weise zu tun, die eine "index & match" type-Funktion, die beliebt in excel. Zum Beispiel - zwei pandas DataFrames, aktualisieren Sie die df_1 mit Informationen, die in df_2:
1
Antworten
Möchte ich dynamisch generieren Sie einen dataframe mit einem Kopf-Datensatz für einen Bericht so erstellen Sie einen dataframe aus dem Wert die Zeichenfolge unten: val headerDescs : String = "Name,Age,Location" val headerSchema = StructType(headerDescs.split(",").map(fieldName => StructField(fieldName, StringType,
3
Antworten
Habe ich zwei Daten-Frames mit identischen Spaltennamen und identische IDs in der ersten Spalte. Mit Ausnahme der ID-Spalte, die für jede Zelle, die einen Wert enthält, der in einem DataFrame enthält NaN in der anderen. Hier ist
1
Antworten
Habe ich solche DataFrame in PySpark (dies ist das Ergebnis eines nehmen(3) das dataframe ist sehr groß): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)] den gleichen Besitzer mehr Zeilen. Was ich tun müssen,
3
Antworten
Ich weiß, das muss angesprochen werden, bevor, aber ich kann nicht scheinen, eine Antwort zu finden, die funktioniert Habe ich die Spalten, die ich testen will, die Bedingung gegen und ich möchten, entfernen Sie alle Zeilen aus,
1
Antworten
Ich bin versucht, eine Funktion in ein pandas dataframe, eine solche Funktion benötigt zwei np.array als Eingabe und passen Sie Sie mit einem gut definierten Modell. Der Punkt ist, dass ich nicht in der Lage, um die
1
Antworten
Ich würde gerne wissen, wie ich speichern kann die Ausgabe eines for loop als data.frame? lassen Sie uns sagen, mit der mtcars dataset ich habe Folgendes for loop Skript: for (i in seq_len(nrow(mtcars))) { if (i <=
3
Antworten
Ich habe einen dataframe mit mehreren Spalten. Ich möchte, um sich auf eine Spalte und wenn einer der strings in der Spalte enthalten @, ich möchte Sie zu ersetzen mit einem anderen string. Wie würde ich gehen
2
Antworten
Frage ich mich, ob es einen einfachen Weg für die offensichtliche Aufgabe erzeugen Sie ein pandas DataFrame aus einer Liste mit numpy-arrays, wo die Spalten des arrays. Das Standard-Verhalten scheint, lassen Sie die Felder, werden die Zeilen,
2
Antworten
Ich bin mit dem tm-Paket anwenden Wortstamm, und ich brauche zum konvertieren der resultierenden Daten in einem Daten-frame. Eine Lösung für diese finden Sie hier R tm Paket vcorpus: Fehler in der Konvertierung von Text zu Daten-frame,
7
Antworten
Arbeite ich auf einer machine-learning-problem, in denen es viele fehlende Werte in den Funktionen. Es gibt 100 von den features, und ich möchte zu löschen, diese Funktionen, die zu viele fehlende Werte (es kann sein, Funktionen mit
1
Antworten
Ich habe einen Datensatz mit Arbeiter mit Ihrer demographischen Daten wie Alter, Geschlecht,Anschrift usw.-und Ihrem Arbeitsort. Ich habe eine RDD aus dem dataset-Objekt und konvertiert es in ein DataFrame. Gibt es mehrere Einträge für jede ID. Also,
3
Antworten
Erstellen Sie ein Daten-frame mit describe () - Funktion. Dataset unter Berücksichtigung iris. Der Daten-frame sollte dann so Aussehen: Variable n missing unique Info Mean 0.05 0.1 0.25 0.5 0.75 0.9 0.95 Sepal.Length 150 0 35 1
4
Antworten
Ich haben Liste, wo die elementnames sind ID-tags und enthält ein Vektor mit numerischen Werten. Diese sind von ungleichen(!) Länge. Möchte ich, um es zu transformieren, um einen Daten-frame, wo ich die ID in einer Spalte und
3
Antworten
Ich habe einen dataframe in df genannt, gibt es drei Spalten können sagen, Region ID Salary 1 A1 100 1 A2 1001 1 A3 2000 1 A4 2431 1 A5 1001 .............. .............. 2 A6 1002 2
1
Antworten
Habe ich diese datasate jetzt: animal age count dogs 1 49 2 134 3 147 4 154 cats 1 189 2 254 3 259 4 261 Ich würde gerne konvertieren Alter Spalte 4 Alter Spalten für jedes