Tag: data.table
Die R-Daten.Tisch-Paket ist eine Erweiterung der Daten.Rahmen gebaut für schnelle in-memory-Datenanalyse. Mit dem dt-tag für die DataTables-Paket mit Glänzenden (DT).
2
Antworten
Ich bin mir nicht sicher, welche Funktion verwenden, um Folgendes zu tun: library(data.table) dt = data.table(a = 1:4, b = 1:2) dt[, rep(a[1], 3), by = b] # b V1 #1: 1 1 #2: 1 1 #3:
1
Antworten
Habe ich in diesem dataframe : > head(merged.tables) Store DayOfWeek Date Sales Customers Open Promo StateHoliday SchoolHoliday StoreType 1 1 5 2015-07-31 5263 555 1 1 0 1 c 2 1 6 2013-01-12 4952 646 1 0
1
Antworten
Ich versuche, verwenden Sie bedingte Anweisungen, um einige Variablen in einer Datentabelle. Hier einige vereinfachte Daten, den code und die Ergebnisse: > dt id trial bet outcome 1: 11 1 1 6 2: 11 2 456 2
6
Antworten
Wünschen fastPOSIXct funktioniert - aber nicht in diesem Fall. Hier ist meine Zeit-Daten (die nicht über Daten) - und ich brauche, um den Stunden-Teil von Ihnen. times <- c("9:46","11:06", "14:17", "19:53", "0:03", "3:56") Ist hier die falsche
1
Antworten
UPDATE: Alte Frage ... es wurde gelöst, indem die Daten.Tabelle v1.5.3 im Februar 2011. Ich versuche, mit der data.table Paket, und wirklich wie die Beschleunigungen, die ich erhalte, aber ich bin ratlos über diesen Fehler, wenn ich
2
Antworten
Ich habe einen Datensatz, dessen Header ungefähr so Aussehen: PID Time Site Rep Count Möchte ich die Summe der Count durch Rep für jeden PID x Time x Site combo auf die resultierenden Daten.Rahmen, ich möchte den
1
Antworten
Ich versuche in den Griff zu bekommen mit der Dokumentation der Daten.Tabelle, aber ich möchte um feedback bitten, wo ich falsch in meiner Argumentation bezüglich der folgenden. (1) ich möchte einen Bereich markieren der Spalten von Daten.Tabelle
1
Antworten
Ich würde gerne wissen, wie um festzustellen, die Klasse für eine Spalte in einer Datengrundlage.Tabelle dt gegeben ein Charakter-Vektor w. Reproduzierbare Beispiel: dt <- data.table(matrix(1:10, 2)) w <- "V1" Wenn Sie angeben, dass eine Spalte über den
1
Antworten
Erste Schritte mit der data.table - Paket (Autor/maintainer: Matt Dowle). Tolles Paket. Ich Liebe, dass ich schreiben kann dt[, x1] statt, sagen, dt[, dt$x1] oder df["x1"], für ein Daten.Tabelle dt eine Spalte name x1 eine Daten.Rahmen df.
1
Antworten
Ich habe eine Allgemeine form für ein Daten.Tabelle Abfrage, wo kann ich eine Teilmenge der meine Daten auf nur einen Blick auf die Werte, die mit den %wie% Aussage, es sieht aus wie DT[Var %like% "x|y|z", .N,]
4
Antworten
Tun ein merge zwischen einem ausgefüllten Daten.Tabelle und einer, die leer ist, führt ein NA-Zeile in der resultierenden Daten.Tabelle: a = data.table(c=c(1,2),key='c') b = data.table(c=3,key='c') b=b[c!=3] b # Empty data.table (0 rows) of 1 col: c merge(a,b,all=T)
2
Antworten
Ich versuche, eine Datei Lesen, die in R mit data.table /fread. Einige der Felder sind die führenden Nullen) und ich will einfach nur, um Daten zu Lesen und in Zeichen und manuell zu lösen. Aber ich kann
2
Antworten
Ich versuche die Daten nutzen zu können.Tisch-Paket in mein Angebot. MWE ist wie folgt: Ich eine Funktion erstellen, zu testen.viel Spaß, das schafft einfach eine kleine Daten.Tabelle-Objekt, und klicken Sie dann Summen die "Val" - Spalte gruppieren,
2
Antworten
Ich bin neu reshape2 und data.table und versuchen zu lernen, die syntax. Ich habe eine data.table ich will Stimmen aus mehrere Zeilen pro Gruppierung variable(N) zu einer Zeile pro grouping variable(s). Für Einfachheit, lassen Sie uns eine
2
Antworten
In der - Daten.table FAQ, die nomatch = NA parameter ist gesagt zu werden, ähnlich wie eine outer join. Ich habe jedoch nicht in der Lage zu bekommen data.table zu tun voll outer-join – nur für Rechte
1
Antworten
Ich habe eine Daten-Tabelle mit mehreren social-media-Nutzer und seine/Ihre Anhänger. Die original-Daten-Tabelle hat das folgende format: X.USERID FOLLOWERS 1081 4053807021,2476584389,4713715543, ... Also jede Zeile enthält einen Benutzer zusammen mit seiner/Ihrer ID und einen Vektor von Anhängern (getrennt
2
Antworten
Ich bin arbeiten mit einem großen Datensatz von billing-records für meine klinische Praxis über 11 Jahren. Schon ein paar Zeilen fehlen der überweisende Arzt. Allerdings mit einigen Regeln kann ich ganz einfach füllen Sie Sie in, wissen
1
Antworten
Frage ich mich, wie kann ich rbindlist Daten Tabellen mit unterschiedlicher Anzahl von Spalten, und füllt die leeren Zeilen mit NAs wie rbind.füllen DT1 <- data.table(A = 1:3) DT2 <- data.table(A =4:5, B = letters[4:5]) l <-
2
Antworten
Möchte ich finden den effektivsten (schnellsten) Methode zur Berechnung der Entfernungen zwischen Paaren von lat-long-Koordinaten. Eine nicht ganz so effiziente Lösung präsentiert wurde (hier) mit sapply und spDistsN1{sp}. Ich glaube, das könnte viel schneller, wenn man Sie
2
Antworten
Möchte ich umwandeln einer Teilmenge von Daten.Tabelle cols in eine neue Klasse. Es ist eine beliebte Frage hier (Konvertieren Spalte Klassen in den Daten.Tabelle) aber die Antwort erstellt ein neues Objekt, statt, die auf die starter-Objekt. Nehmen
5
Antworten
Ich habe eine Daten-Tabelle mit 20000+ Zeilen und eine Spalte. Die Zeichenfolge in jede Spalte hat eine unterschiedliche Anzahl von Wörtern. Ich möchte teilen Sie die Wörter und setzen Sie jeden von Ihnen in eine neue Spalte.
2
Antworten
Ich habe einen großen code und die aggregation Schritt ist der aktuelle Engpass in Bezug auf die Geschwindigkeit. In meinem code würde ich gerne zu beschleunigen-die Gruppierung von Daten Schritt schneller zu sein. Eine SNOTE (einfache nicht-triviales
2
Antworten
Ich würde gerne einen gleitenden Durchschnitt für jede der numerischen Variablen, die ich habe. Anhand der Daten.Tisch-Paket, ich weiß, wie die Berechnung für eine einzelne variable. Aber wie sollte ich das überarbeiten des Codes, so dass es
3
Antworten
Gibt es eine Möglichkeit, aus der Berechnung der Korrelationen zwischen Werten, wenn diese Werte gespeichert sind, die der Gruppe in eine einzelne Spalte von Daten.Tisch (andere als die Konvertierung der Daten.Tabelle in eine matrix)? library(data.table) set.seed(1) #
5
Antworten
Ich habe einen Daten.Tabelle, die wie folgt aussieht dt <- data.table(ID=c("A","A","B","B"),Amount1=c(100,200,300,400), Amount2=c(1500,1500,2400,2400),Dupl=c(1,0,1,0)) ID Amount1 Amount2 Dupl 1: A 100 1500 1 2: A 200 1500 0 3: B 300 2400 1 4: B 400 2400 0 Muss
1
Antworten
Nach der Lektüre über benchmarks und Geschwindigkeit Vergleiche von R Methoden, ich bin in den Prozess der Umstellung auf den speedy data.table - Paket für Daten-manipulation auf meiner großen Datenmengen. Ich habe ein Problem mit einer bestimmten
2
Antworten
Habe ich das folgende Beispiel data.table: dtb <- data.table(a=sample(1:100,100), b=sample(1:100,100), id=rep(1:10,10)) Möchte ich Aggregatfunktionen alle Spalten (a und b, obwohl Sie getrennt werden sollten) von id mit colSums zum Beispiel. Was ist der richtige Weg, dies zu
1
Antworten
Ich bin mit data.table 1.10.0. # install.packages("install.load") # install in order to use the load_package function install.load::load_package("data.table", "gsubfn", "fpCompare") # function to convert from fractions and numeric numbers to numeric (decimal) # Source 1 begins to_numeric <-
3
Antworten
Ich bin laden ein data.table aus CSV-Datei, die Datum, Bestellungen, Menge etc. Felder. In der input-Datei gelegentlich keine Daten für alle Termine. Zum Beispiel, wie unten gezeigt: > NADayWiseOrders date orders amount guests 1: 2013-01-01 50 2272.55
4
Antworten
Wie würden Sie die Daten verwenden.Tabelle effizient nehmen Sie eine Probe von Zeilen innerhalb jeder Gruppe in einen Daten-frame? DT = data.table(a = sample(1:2), b = sample(1:1000,20)) DT a b 1: 2 562 2: 1 183 3:
2
Antworten
Nach dem erstellen eines Schlüssels auf einem Daten.Tabelle: set.seed(12345) DT <- data.table(x = sample(LETTERS[1:3], 10, replace = TRUE), y = sample(LETTERS[1:3], 10, replace = TRUE)) setkey(DT, x, y) DT # x y # [1,] A B #
4
Antworten
Ich habe eine data.table Tabelle mit über 2,5 Millionen Zeilen. Es gibt zwei Spalten. Ich möchte entfernen Sie alle Zeilen, die kopiert werden in beiden Spalten. Die zuvor für die Daten.Rahmen hätte ich dies getan: df ->
7
Antworten
Ich auf der Suche nach einem Weg, um effizient anwenden einer Funktion auf jede Zeile von Daten.Tabelle. Wir betrachten die folgenden Daten: Tabelle: library(data.table) library(stringr) x <- data.table(a = c(1:3, 1), b = c('12 13', '14 15',
3
Antworten
Ich habe einen Daten.Tisch wie so dt <- data.table(x=as.Date(c("2014-1-1", "2015-1-1", "2016-1-1")), y=as.Date(c(NA, "2015-6-1", NA))) dt x y 1: 2014-01-01 <NA> 2: 2015-01-01 2015-06-01 3: 2016-01-01 <NA> Ich möchte eine Spalte hinzufügen z ist gleich y, wobei y
3
Antworten
Habe ich einen großen Daten.Tabelle in R mit mehreren Spalten mit dollar-Werten. In einer anderen Spalte habe ich eine Anpassung an die inflation-Nummer. Ich bin versucht, herauszufinden, wie zu aktualisieren, jedes meiner monetären Spalten mit ihm multipliziert
2
Antworten
Wenn die Spaltennamen in data.table sind in form von number + character zum Beispiel: 4PCS, 5Y etc, wie könnte diese referenziert werden, als j im x[i,j] so dass es interpretiert wird, als eine nicht börsennotierte Spalte name.
1
Antworten
Hatte einen Fall wie diesen. Versucht zu konvertieren "mtcars" Klasse von Daten.frame-Daten.Tabelle. "mtcars" Daten: > mtcars mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0
1
Antworten
Ich versuche, die Daten verwenden.Tabelle zur Beschleunigung der Verarbeitung großer Datenmengen.Rahmen (300k x 60) aus mehreren kleineren zusammengeführten Daten.frames. Ich bin neue zu Daten.Tabelle. Der code so weit ist wie folgt library(data.table) a = data.table(index=1:5,a=rnorm(5,10),b=rnorm(5,10),z=rnorm(5,10)) b =
1
Antworten
Problem beim speichern von Daten.Tabelle mit Datum-Zeit-Spalte: > mdt <- data.table(id=1:3, d=strptime(c("06:02:36", "06:02:48", "07:03:12"), "%H:%M:%S")) > class(mdt) [1] "data.table" "data.frame" > print(mdt) Error in `rownames<-`(`*tmp*`, value = paste(format(rn, right = TRUE), : length of 'dimnames' [1] not
3
Antworten
Folgenden diesem Beitrag: multicore und Daten.Tabelle in R, ich Frage mich, ob es war ein Weg, um alle Kerne bei der Verwendung von Daten.Tabelle, in der Regel die Berechnungen, die von Gruppen könnte parallelisiert werden. Es scheint,
8
Antworten
Ich habe ein problem mit Daten.Tabelle: Wie kann ich umwandeln Spalte Klassen? Hier ist ein einfaches Beispiel: Mit den Daten.Rahmen habe ich kein problem, konvertieren Sie Sie mit Daten.Tabelle, ich weiß nur nicht, wie: df <- data.frame(ID=c(rep("A",
1
Antworten
Ich gerade angefangen mit R, und kam über Daten.Tabelle. Ich fand es genial. Eine ganz naive Frage: Kann ich das ignorieren Daten.- frame-Daten.Tabelle zu vermeiden syntax Verwirrung zwischen zwei Paketen? Siehe die Daten.Tabelle faq speziell 1,8 und
12
Antworten
Ich bin in den Prozess zu versuchen, eine dplyr-basierten workflow (anstatt vor allem Daten.Tabelle, die ich gewohnt bin), und ich habe auf ein problem stoßen, dass ich nicht finden können, ein gleichwertiges dplyr-Lösung an. Ich Häufig laufen
3
Antworten
Ich versuche zu tun, einige Links-Verknüpfung mit Daten zusammengeführt wird.Tabellen. Die Paket-Beschreibung zitieren, die In allen Verknüpfungen die Namen der Spalten sind unerheblich; die Spalten von x ist key verbunden sind, um Ich verstehe, dass ich kann
2
Antworten
Ich versuche, die Daten verwenden.Tabelle recode eine variable, basierend auf bestimmten Bedingungen. Meine ursprüngliche dataset hat rund 30M records und nachdem alle Variablen Schöpfung um 130 Variablen. Ich habe die Methoden, die hier vorgeschlagen wird: bedingte Anweisungen
4
Antworten
Ich habe eine sehr große dataframe in R und würde gerne die Summe von zwei Spalten für jeden eindeutigen Wert in den anderen Spalten, zum Beispiel sagen, wir hatten die Daten von einem dataframe von Transaktionen in
4
Antworten
Hoffe, es gibt eine einfache Antwort hier, aber ich kann es nicht finden überall. Habe ich eine numerische matrix mit beschrifteten Zeilen und Spalten: 1 2 3 4 a 6 7 8 9 b 8 7 5
2
Antworten
Ich habe eine große Tabelle mit Daten (aus dem Paket Daten.Tabelle) mit über 60 Spalten (die ersten drei entsprechenden Faktoren und die übrigen für die Antwort von Variablen, in diesem Fall verschiedene Arten) und mehreren Zeilen entsprechend
1
Antworten
Ich versuche zu verstehen, die Logik von J () - lookup, wenn Sie es sind doppelte Schlüssel in den Daten.Tabelle in R. Hier ist ein kleines experiment, das ich versucht habe: library(data.table) options(stringsAsFactors = FALSE) x <-
4
Antworten
Ich habe eine Spalte in meiner Datensätze in denen Zeiträume (Time) sind die ganzen zahlen reichen von a-b. Manchmal gibt es möglicherweise fehlenden Zeiträume für jede Gruppe. Ich möchte, füllen Sie die Zeilen mit NA. Unten ist