Tag: dataframe

Ein data frame ist eine tabellarische Datenstruktur. In der Regel enthält es Daten, in denen Zeilen sind Beobachtungen und die Spalten sind Variablen der verschiedenen Typen. Während „data frame“ oder „dataframe“ ist der Begriff für dieses Konzept in mehreren Sprachen (R, Apache Spark, deedle, Ahorn, die pandas-Bibliothek in Python und die DataFrames library in Julia), „Tabelle“ ist der Begriff in MATLAB und SQL.

Erstellung von plots in R mit 3 Variablen

Anzahl der Antworten 1 Antworten
Hatte ich nach der Analyse-Schritte in die Das kleine Buch der R. Es ist ein großartiges tutorial, aber für Dinge zu arbeiten, und viele andere tutorials müssen die Daten organisiert auf eine bestimmte Weise. Meine Daten sind

Wie machen separator pandas read_csv flexibler wrt Leerzeichen?

Anzahl der Antworten 4 Antworten
Brauche ich einen data frame mit Daten in einer Datei gespeichert. Für die, die ich verwenden möchten read_csv Methode. Aber der separator ist nicht sehr regelmäßig. Einige Spalten durch tabs getrennt sind (\t), andere sind durch Leerzeichen

Was ist dtype('O')?

Anzahl der Antworten 4 Antworten
Ich habe einen dataframe in pandas und ich versuche, herauszufinden, was die Typen Ihrer Werte sind. Ich bin nicht sicher, was ist der Typ der Spalte 'Test'. Allerdings, wenn ich myFrame['Test'].dtype ich bekommen; dtype('O') Was bedeutet das?

So konvertieren Sie eine Fall-Klasse-basierten RDD in ein DataFrame?

Anzahl der Antworten 3 Antworten
Den Spark-Dokumentation veranschaulicht, wie erstellen Sie ein DataFrame von einer RDD, mit Scala case-Klassen zu schließen, ein schema. Ich bin versucht zu reproduzieren, dieses Konzept mit sqlContext.createDataFrame(RDD, CaseClass), aber mein DataFrame endet leer. Hier ist mein Scala-code:

start-index auf 1 für Pandas DataFrame

Anzahl der Antworten 7 Antworten
Brauche ich den index beginnt bei 1 statt 0, wenn das schreiben ein Pandas DataFrame zu CSV. Hier ein Beispiel: In [1]: import pandas as pd In [2]: result = pd.DataFrame({'Count': [83, 19, 20]}) In [3]: result.to_csv('result.csv',

Wie plot/3d-plot von dataframe?

Anzahl der Antworten 1 Antworten
Ich bin neu pandas und matplotlib. Nicht in der Lage zu bekommen, genaue Referenz zu zeichnen meine DataFrame deren schema ist wie folgt schema = StructType([ StructField("x", IntegerType(), True), StructField("y", IntegerType(), True), StructField("z", IntegerType(), True)]) Wie zum

Laden eine kleine Stichprobe aus einer großen csv-Datei in R-data frame

Anzahl der Antworten 4 Antworten
Die csv-Datei verarbeitet werden, passt nicht in den Speicher. Wie kann man Lesen ~20K zufällige Linien von es grundlegende Statistiken zu den ausgewählten Daten-frame? Ein Vorherige Antwort InformationsquelleAutor P.Escondido | 2014-03-07

Suchen Sie index der Zeilen in einem dataframe, der den Wert der NA

Anzahl der Antworten 3 Antworten
Angenommen, wir haben folgende Daten Rahmen: > dataset1 x 1 1 2 2 3 3 4 NA 5 5 Ich will mit einem R-Befehl berechnet, dass der Zeilenindex der Spalte 1-Daten-frame, der enthält den Wert von 'NA'.

Wie sind iloc, ix und loc anders?

Anzahl der Antworten 3 Antworten
Kann mir jemand erklären, wie diese drei Methoden der schneiden unterschiedlich sind? Ich habe gesehen,die docs, und ich habe gesehen,diese Antworten, aber ich finde mich nicht in der Lage zu erklären, wie die drei unterschiedlich sind. Zu

Wie bekomme ich diskreten Faktor-Stufen behandelt werden, die als kontinuierliche?

Anzahl der Antworten 2 Antworten
Habe ich einen Daten-frame mit den Spalten zunächst gekennzeichnet willkürlich. Später möchte ich ändern diese Werte in numerische Werte. Das folgende Skript illustriert das problem. library(ggplot2) library(reshape2) m <- 10 n <- 6 nam <- list(c(),letters[1:n]) var

Drucken ziemlich Daten.Bilder/Tabellen auf die Konsole

Anzahl der Antworten 4 Antworten
Gibt es eine Möglichkeit zu drucken kleine data.frames auf der Konsole in einem besser lesbaren Weise? Beispielsweise wäre es möglich, die Ausgabe in der Konsole: library(MASS) iris[1:5, ] Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4

pandas erstellen Sie eine Reihe mit n Elementen (sequentielle oder randbetween)

Anzahl der Antworten 2 Antworten
Ich versuche zu erstellen pandas Serie. Einer Spalte der Serie enthalten sollten n aufeinanderfolgende zahlen. [1, 2, 3, ..., n] Einer Spalte enthalten soll Zufallszahlen zwischen k und k+100. Einer Spalte enthalten sollte, zufällige Auswahl zwischen den

Legen Sie in RMySQL von Daten-frame

Anzahl der Antworten 2 Antworten
Ich versuche das hinzufügen von Daten in MySQL-Tabelle mit RMySQL. Nur muss ich hinzufügen, eine Zeile zu einem Zeitpunkt und es funktioniert nicht. Was ich versuche zu tun, ist dieses. dbGetQuery(con,"INSERT INTO names VALUES(data[1,1], data[1,2])") also was

pandas bekommen Zeilen, die NICHT in anderen dataframe

Anzahl der Antworten 11 Antworten
Ich habe zwei pandas Daten-frames, die einige Zeilen in common. Angenommen dataframe2 ist eine Teilmenge von dataframe1. Wie bekomme ich die Zeilen von dataframe1, die nicht in dataframe2? df1 = pandas.DataFrame(data = {'col1' : [1, 2, 3,

fügen Sie einen string-Präfix, um jeden Wert in eine string-Spalte mit Pandas

Anzahl der Antworten 3 Antworten
Möchte ich anfügen eine Zeichenfolge an den Anfang einer jeden Wert in einer der besagten Spalte ein pandas dataframe (aus). Ich habe bereits herausgefunden, wie Art, dies zu tun und ich bin derzeit mit: df.ix[(df['col'] != False),

Konvertieren matrix mit drei Spalten Daten.Rahmen

Anzahl der Antworten 2 Antworten
Ich habe matrix: var1 var2 row1 1 2 row2 3 4 Wollen, es zu konvertieren zu Daten.Rahmen: rows vars values row1 var1 1 row1 var2 2 row2 var1 3 row2 var2 4 Was ist der beste Weg,

Ändern Sie die Werte in Zeile basierend auf einer Spalte mit dem Wert r

Anzahl der Antworten 1 Antworten
Ich bin neu in R mit eine ziemlich einfache Frage, ich kann einfach nicht herausfinden, die Antwort. Für mein Beispiel verwende ich ein Daten-frame mit 3 Spalten, aber meine eigentliche Datensatz 139 Spalten mit 10000 Zeilen. Möchte

Lesen Sie alle, aber Letzte Zeile der CSV-Datei in pandas

Anzahl der Antworten 2 Antworten
Ich habe CSV-Dateien, von denen ich gelesen in pandas mit: #!/usr/bin/env python import pandas as pd import sys filename = sys.argv[1] df = pd.read_csv(filename) Leider, die Letzte Zeile dieser Dateien ist oft korrupt (hat die falsche Anzahl

Wie Kriege ich die Anzahl der Spalten in einem Pandabären-Daten-frame?

Anzahl der Antworten 4 Antworten
Wie Sie programmgesteuert abrufen der Anzahl von Spalten in ein pandas dataframe? Ich hatte gehofft, für etwas wie: df.num_columns InformationsquelleAutor user1802143 | 2013-11-30

Spalte-Bindung, R

Anzahl der Antworten 1 Antworten
Ich bin mit dem cbind-Befehl in R zu binden, viele Daten.frames zusammen und jeder Daten-frame hat die gleichen Spaltennamen, also, wenn ich Sie alle binden, R ändert automatisch die Spaltennamen aus Ihren ursprünglichen Namen. Zum Beispiel gibt

Wie finde ich die iloc einer Zeile in pandas dataframe?

Anzahl der Antworten 4 Antworten
Ich habe eine indizierte pandas dataframe. Durch die Suche über den index finde ich in einer Zeile von Interesse. Wie finde ich heraus der iloc dieser Zeile? Beispiel: dates = pd.date_range('1/1/2000', periods=8) df = pd.DataFrame(np.random.randn(8, 4), index=dates,

Fügen Sie eine Spalte in dataframe aus der Liste

Anzahl der Antworten 4 Antworten
Ich habe einen dataframe mit einigen Spalten, wie diese: A B C 0 4 5 6 7 7 6 5 Den die mögliche Bandbreite der Werte in Einer nur von 0 bis 7. Außerdem habe ich eine

Identifizierung von doppelten Spalten in einem dataframe

Anzahl der Antworten 6 Antworten
Ich bin ein R-Neuling und bin versucht zu entfernen, duplizieren Sie Spalten aus eine groessere dataframe (50K Zeilen, 215 Spalten). Der Rahmen hat eine Mischung von diskreten, kontinuierlichen und kategorischen Variablen. Mein Ansatz zum generieren einer Tabelle

Unlist-Daten-frame-Spalte die Erhaltung von Informationen aus anderer Spalte

Anzahl der Antworten 3 Antworten
Habe ich ein Daten-frame besteht aus zwei Säulen: ein character-Vektor col1 und ein list Spalte col2. myVector <- c("A","B","C","D") myList <- list() myList[[1]] <- c(1, 4, 6, 7) myList[[2]] <- c(2, 7, 3) myList[[3]] <- c(5, 5,

Schreiben Sie ein pandas DataFrame in eine CSV-Datei

Anzahl der Antworten 8 Antworten
Ich habe einen dataframe in den pandas würde ich gerne schreiben, um eine CSV-Datei. Ich mache dies mit: df.to_csv('out.csv') Und bekommen die Fehlermeldung: UnicodeEncodeError: 'ascii' codec can't encode character u'\u03b1' in position 20: ordinal not in range(128)

Pandas-lookup basierend auf Wert

Anzahl der Antworten 2 Antworten
Habe ich Folgendes DataFrame: Date best a b c d 1990 a 5 4 7 2 1991 c 10 1 2 0 1992 d 2 1 4 12 1993 a 5 8 11 6 Ich würde gerne

$ operator is invalid for atomic Vektoren für dataframe R

Anzahl der Antworten 2 Antworten
Ich habe den folgenden code tourneySeeds<-read.csv("tourney_seeds.csv") regSeason<-read.csv("regular_season_compact_results.csv") playoff_teams <- sort(tourneySeeds$team[which(tourneySeeds$season == "2013")]) ... #Selecting the seeds for season A playoff_seeds <- tourneySeeds[which(tourneySeeds$season == "2013"), ] seed_col <- vector() BPI_col<-vector() for(i in playoff_teams) { val <- match(i, playoff_seeds$team)

Die Konvertierung einer numerischen matrix in ein data.Tabelle (oder Daten.Rahmen)

Anzahl der Antworten 4 Antworten
Hoffe, es gibt eine einfache Antwort hier, aber ich kann es nicht finden überall. Habe ich eine numerische matrix mit beschrifteten Zeilen und Spalten: 1 2 3 4 a 6 7 8 9 b 8 7 5

Pandas DataFrame stapeln Sie mehrere Spaltenwerte in einer einzigen Spalte

Anzahl der Antworten 3 Antworten
Vorausgesetzt, die folgenden DataFrame: key.0 key.1 key.2 topic 1 abc def ghi 8 2 xab xcd xef 9 Wie kann ich kombinieren, die die Werte aller Schlüssel.* Spalten in einer einzigen Spalte 'key', das ist im Zusammenhang

Wählen Sie den letzten n Spalten von data Frames in R

Anzahl der Antworten 6 Antworten
Gibt es eine Möglichkeit, systematisch markieren Sie die letzten Spalten eines data frame? Ich möchte in der Lage sein zu verschieben die letzten Spalten der ersten Spalten, aber halten Sie die Reihenfolge der Spalten, wenn Sie bewegt

Entfernen Sie unerwünschte Teile von strings in einer Spalte

Anzahl der Antworten 7 Antworten
Ich bin auf der Suche nach einem effizienten Weg, um unerwünschte Teile von strings in einem DataFrame Spalte. Daten Aussehen: time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a

python pandas Extrakt Jahr von datetime — diff['year'] = df['Datum'].Jahr nicht arbeiten

Anzahl der Antworten 4 Antworten
Sorry für diese Frage, die so repetitiv - ich erwarte die Antwort, fühle ich mich wie ein Dummkopf... aber ich habe kein Glück gehabt mit Antworten auf ähnliche Fragen auf, SO. Ich bin das importieren von Daten

Funke: Programmgesteuert erstellen dataframe schema in scala

Anzahl der Antworten 3 Antworten
Habe ich ein kleineres dataset, das das Ergebnis einer Spark-job. Ich bin denken über das konvertieren in diesem dataset, um ein dataframe für die Bequemlichkeit am Ende der Arbeit, aber haben gekämpft, um korrekt definieren Sie das

Berechnet den Mittelwert von Gruppe

Anzahl der Antworten 3 Antworten
Habe ich einen großen Daten-frame etwa so aussieht: df <- data.frame(dive=factor(sample(c("dive1","dive2"),10,replace=TRUE)),speed=runif(10)) > df dive speed 1 dive1 0.80668490 2 dive1 0.53349584 3 dive2 0.07571784 4 dive2 0.39518628 5 dive1 0.84557955 6 dive1 0.69121443 7 dive1 0.38124950 8

Verkettet zwei string-Variablen in r

Anzahl der Antworten 2 Antworten
Ich habe gesehen, viel Diskussion über die Verwendung der paste und paste0 um zwei strings zu verketten, in r. Jedoch, dies scheint nicht zu funktionieren für zwei string-Variablen. Ich habe einen Daten-frame, der wie folgt aussieht. series_id

Wie vermeiden Sie das schreiben einer Zeile.Spalte "name" beim speichern von Daten.Rahmen mit der xlsx-Paket

Anzahl der Antworten 1 Antworten
Habe ich einen Daten-frame, wie dies ein unten, und ich wirklich wollen, entfernen Sie die Zeile Namen, wenn ich es exportieren, um eine excel-Datei mit der xlsx-Paket. bd <- data.frame(id = 1:200, A = c(rep("One", 100), rep("Two",

Zählen der vorkommen bestimmter Wörter in pandas dataframe

Anzahl der Antworten 2 Antworten
Ich wollen zählt die Anzahl der vorkommen von bestimmten Wörtern in einem Daten-frame. Ich weiß, mit "str.enthält" a = df2[df2['col1'].str.contains("sample")].groupby('col2').size() n = a.apply(lambda x: 1).sum() Derzeit bin ich mit dem obigen code. Gibt es eine Methode, um

Schnellste Methode zum hinzufügen von Zeilen für die fehlende Zeit, Schritte?

Anzahl der Antworten 4 Antworten
Ich habe eine Spalte in meiner Datensätze in denen Zeiträume (Time) sind die ganzen zahlen reichen von a-b. Manchmal gibt es möglicherweise fehlenden Zeiträume für jede Gruppe. Ich möchte, füllen Sie die Zeilen mit NA. Unten ist

Gewusst wie: verknüpfen von Daten-frames basierend auf einem Zustand zwischen 2 Spalten

Anzahl der Antworten 1 Antworten
Ich komme bei einem Projekt, wo ich zum Zusammenführen von zwei Daten-Rahmen. Sie suchen so etwas wie dieses: Data1 Traffic Source Registrations Hour Minute organic 1 6 13 social 1 8 54 Data2 Email Hour2 Minute2 [email protected]

R: Shift-Werte in eine einzige Spalte von dataframe BIS

Anzahl der Antworten 3 Antworten
Beispiel mit Daten wie diesen: example=data.frame(x=c(1,2,3,4,5,6,7,8), y=c(1,2,3,4,5,6,7,8), z=c(1,2,3,4,5,6,7,8)) die wie folgt aussieht: x y z 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 6 6

Bau pandas DataFrame von Werten in Variablen gibt "ValueError: Wenn Sie alle skalaren Werte, müssen Sie passieren einen index"

Anzahl der Antworten 15 Antworten
Dies kann eine einfache Frage, aber ich kann nicht herausfinden, wie dies zu tun. Sagen wir, ich habe zwei Variablen wie folgt. a = 2 b = 3 Ich will konstruieren Sie ein DataFrame von diesem: df2

Ändern von Werten in pandas dataframe funktioniert nicht

Anzahl der Antworten 1 Antworten
Ich habe ein problem mit ändern der Werte in ein dataframe. Ich will auch beraten in Bezug auf ein problem, das ich lösen muss und die richtige Art und Weise zu verwenden, pandas, es zu lösen. Ich

Konvertiert Unix timestamp in datetime

Anzahl der Antworten 3 Antworten
Habe ich die folgenden Daten-frame > head(try) creates time 1 128.29508 1417392072 3 236.98361 1417392072 7 98.45902 1417392072 9 157.44068 1417392131 10 227.38333 1417392131 11 242.03390 1417392131 > str(try) 'data.frame': 102968 obs. of 2 variables: $ creates:

Wie der Gruppe, indem Sie auf ein multiindex in pandas?

Anzahl der Antworten 1 Antworten
Unten ist mein dataframe. Ich habe einige Transformationen zu erstellen, die die Spalte Kategorie, und ließ die ursprüngliche Spalte es abgeleitet wurde. Jetzt habe ich tun müssen, um eine Gruppe zu entfernen, die dups z.B. Love und

R-Fehler in '[<-.Daten.frame'... ersetzen # Elemente, müssen #

Anzahl der Antworten 1 Antworten
Ich bin neu in R und dieser ist mir schleierhaft. Das folgende Skript verwendet zwei dummy-Tabellen (Ergebnis und Anzahl) mit jeweils zwei Spalten (A und B). Ich bin mit permutations-tests zum Vergleich der Ergebnisse aus A und

Fehler beim anwenden log-Methode, um pandas-Daten-frame-Spalte in Python

Anzahl der Antworten 1 Antworten
So, ich bin sehr neu in Python und Pandas (und Programmierung im Allgemeinen), aber ich habe Probleme mit einem scheinbar einfachen Funktion. So habe ich die folgenden dataframe mit Daten gezogen mit einer SQL-Abfrage (wenn Sie brauchen,

entfernen Sie ein Zeichen aus dem gesamten Daten-frame

Anzahl der Antworten 3 Antworten
Ich habe einen dataframe mit verschiedenen Spalten, Einige der Daten in einigen Spalten enthalten doppelte Anführungszeichen, möchte ich diese entfernen, wie z.B.: ID name value1 value2 "1 x a,"b,"c x" "2 y d,"r" z" Ich möchte dies

Konvertieren R Liste dataframe mit fehlenden/UNGÜLTIGEN Elementen

Anzahl der Antworten 2 Antworten
Gegeben eine Liste: alist = list( list(name="Foo",age=22), list(name="Bar"), list(name="Baz",age=NULL) ) was ist der beste Weg zu konvertieren, das in einem dataframe mit dem Namen und Alter Spalten mit fehlenden Werten (ich nehme an NA-oder "" - in

Der Zusammenhang zwischen beiden dataframes durch die Zeile

Anzahl der Antworten 2 Antworten
Habe ich 2 Daten-frames w/5 Spalten und 100 Zeilen jeder. id price1 price2 price3 price4 price5 1 11.22 25.33 66.47 53.76 77.42 2 33.56 33.77 44.77 34.55 57.42 ... Ich würde gerne die Korrelation der entsprechenden Zeilen,

Erstellen Sie eine neue Funke DataFrame mit neuen Spalte Wert basiert auf der Spalte, in der ersten dataframe Java

Anzahl der Antworten 3 Antworten
Diese sollte einfach sein, aber....mit Spark 1.6.1.... Ich habe DataFrame #1 mit den Spalten A, B, C. Mit den Werten: A B C 1 2 A 2 2 A 3 2 B 4 2 C Ich dann