Tag: data.table

Die R-Daten.Tisch-Paket ist eine Erweiterung der Daten.Rahmen gebaut für schnelle in-memory-Datenanalyse. Mit dem dt-tag für die DataTables-Paket mit Glänzenden (DT).

gruppierte Operationen, die Ergebnis von der Länge nicht gleich um 1 oder die Länge der Gruppe in dplyr

Anzahl der Antworten

2 Antworten

Ich bin mir nicht sicher, welche Funktion verwenden, um Folgendes zu tun: library(data.table) dt = data.table(a = 1:4, b = 1:2) dt[, rep(a[1], 3), by = b] # b V1 #1: 1 1 #2: 1 1 #3:

data.table dplyr r

Fehler in den Daten.Rahmen , unbenutzt argument

Anzahl der Antworten

1 Antworten

Habe ich in diesem dataframe : > head(merged.tables) Store DayOfWeek Date Sales Customers Open Promo StateHoliday SchoolHoliday StoreType 1 1 5 2015-07-31 5263 555 1 1 0 1 c 2 1 6 2013-01-12 4952 646 1 0

data.table dplyr r tapply

bedingte Anweisungen in Daten.Tabelle

Anzahl der Antworten

1 Antworten

Ich versuche, verwenden Sie bedingte Anweisungen, um einige Variablen in einer Datentabelle. Hier einige vereinfachte Daten, den code und die Ergebnisse: > dt id trial bet outcome 1: 11 1 1 6 2: 11 2 456 2

Schnellste Weg zu extrahieren Stunde aus-Zeit (HH:MM)

Anzahl der Antworten

6 Antworten

Wünschen fastPOSIXct funktioniert - aber nicht in diesem Fall. Hier ist meine Zeit-Daten (die nicht über Daten) - und ich brauche, um den Stunden-Teil von Ihnen. times <- c("9:46","11:06", "14:17", "19:53", "0:03", "3:56") Ist hier die falsche

data.table hour r time

R: Bei der Verwendung von Daten.Tabelle, wie bekomme ich die Spalten von y, wenn ich x[y]?

Anzahl der Antworten

1 Antworten

UPDATE: Alte Frage ... es wurde gelöst, indem die Daten.Tabelle v1.5.3 im Februar 2011. Ich versuche, mit der data.table Paket, und wirklich wie die Beschleunigungen, die ich erhalte, aber ich bin ratlos über diesen Fehler, wenn ich

Wie kommt man zu aggregieren und zusammenfassen von Daten schnell?

Anzahl der Antworten

2 Antworten

Ich habe einen Datensatz, dessen Header ungefähr so Aussehen: PID Time Site Rep Count Möchte ich die Summe der Count durch Rep für jeden PID x Time x Site combo auf die resultierenden Daten.Rahmen, ich möchte den

data.table plyr r

R: Auswahl der Spalten in den Daten.Tabelle

Anzahl der Antworten

1 Antworten

Ich versuche in den Griff zu bekommen mit der Dokumentation der Daten.Tabelle, aber ich möchte um feedback bitten, wo ich falsch in meiner Argumentation bezüglich der folgenden. (1) ich möchte einen Bereich markieren der Spalten von Daten.Tabelle

data.table r range select

Klasse von Daten.Tabelle Spalte

Anzahl der Antworten

1 Antworten

Ich würde gerne wissen, wie um festzustellen, die Klasse für eine Spalte in einer Datengrundlage.Tabelle dt gegeben ein Charakter-Vektor w. Reproduzierbare Beispiel: dt <- data.table(matrix(1:10, 2)) w <- "V1" Wenn Sie angeben, dass eine Spalte über den

Daten.Tabelle: warum ist es nicht immer möglich, pass Spaltennamen direkt?

Anzahl der Antworten

1 Antworten

Erste Schritte mit der data.table - Paket (Autor/maintainer: Matt Dowle). Tolles Paket. Ich Liebe, dass ich schreiben kann dt[, x1] statt, sagen, dt[, dt$x1] oder df["x1"], für ein Daten.Tabelle dt eine Spalte name x1 eine Daten.Rahmen df.

R Daten.Tabelle i = MYVAR != %like% "etwas|ähnliches|somethingmore",

Anzahl der Antworten

1 Antworten

Ich habe eine Allgemeine form für ein Daten.Tabelle Abfrage, wo kann ich eine Teilmenge der meine Daten auf nur einen Blick auf die Werte, die mit den %wie% Aussage, es sieht aus wie DT[Var %like% "x|y|z", .N,]

merge.Daten.Tabelle mit all=True führt die NA-Reihe. Ist das richtig?

Anzahl der Antworten

4 Antworten

Tun ein merge zwischen einem ausgefüllten Daten.Tabelle und einer, die leer ist, führt ein NA-Zeile in der resultierenden Daten.Tabelle: a = data.table(c=c(1,2),key='c') b = data.table(c=3,key='c') b=b[c!=3] b # Empty data.table (0 rows) of 1 col: c merge(a,b,all=T)

data.table outer-join r

fread - Lesen Sie alle Spalten als Charakter

Anzahl der Antworten

2 Antworten

Ich versuche, eine Datei Lesen, die in R mit data.table /fread. Einige der Felder sind die führenden Nullen) und ich will einfach nur, um Daten zu Lesen und in Zeichen und manuell zu lösen. Aber ich kann

data.table fread r read.csv

Anhand der Daten.Tisch-Paket in mein Angebot

Anzahl der Antworten

2 Antworten

Ich versuche die Daten nutzen zu können.Tisch-Paket in mein Angebot. MWE ist wie folgt: Ich eine Funktion erstellen, zu testen.viel Spaß, das schafft einfach eine kleine Daten.Tabelle-Objekt, und klicken Sie dann Summen die "Val" - Spalte gruppieren,

in R anpassen, die Namen der Spalten erstellt von dcast.Daten.Tabelle

Anzahl der Antworten

2 Antworten

Ich bin neu reshape2 und data.table und versuchen zu lernen, die syntax. Ich habe eine data.table ich will Stimmen aus mehrere Zeilen pro Gruppierung variable(N) zu einer Zeile pro grouping variable(s). Für Einfachheit, lassen Sie uns eine

data.table pivot-table r reshape2

Wie macht man einen full join mit Daten.Tabelle?

Anzahl der Antworten

2 Antworten

In der - Daten.table FAQ, die nomatch = NA parameter ist gesagt zu werden, ähnlich wie eine outer join. Ich habe jedoch nicht in der Lage zu bekommen data.table zu tun voll outer-join – nur für Rechte

data.table join outer-join r

Memory-limits in der Daten-Tabelle: negative Länge Vektoren sind nicht erlaubt

Anzahl der Antworten

1 Antworten

Ich habe eine Daten-Tabelle mit mehreren social-media-Nutzer und seine/Ihre Anhänger. Die original-Daten-Tabelle hat das folgende format: X.USERID FOLLOWERS 1081 4053807021,2476584389,4713715543, ... Also jede Zeile enthält einen Benutzer zusammen mit seiner/Ihrer ID und einen Vektor von Anhängern (getrennt

bigdata data.table r

Füllen fehlender (Leerzeichen) in eine Daten-Tabelle, pro Kategorie - rückwärts und vorwärts

Anzahl der Antworten

2 Antworten

Ich bin arbeiten mit einem großen Datensatz von billing-records für meine klinische Praxis über 11 Jahren. Schon ein paar Zeilen fehlen der überweisende Arzt. Allerdings mit einigen Regeln kann ich ganz einfach füllen Sie Sie in, wissen

data.table missing-data r zoo

rbindlist Daten.Tabellen mit unterschiedlicher Anzahl von Spalten

Anzahl der Antworten

1 Antworten

Frage ich mich, wie kann ich rbindlist Daten Tabellen mit unterschiedlicher Anzahl von Spalten, und füllt die leeren Zeilen mit NAs wie rbind.füllen DT1 <- data.table(A = 1:3) DT2 <- data.table(A =4:5, B = letters[4:5]) l <-

Wie effizient berechnen Abstand zwischen dem paar von Koordinaten mit Hilfe von Daten.Tabelle :=

Anzahl der Antworten

2 Antworten

Möchte ich finden den effektivsten (schnellsten) Methode zur Berechnung der Entfernungen zwischen Paaren von lat-long-Koordinaten. Eine nicht ganz so effiziente Lösung präsentiert wurde (hier) mit sapply und spDistsN1{sp}. Ich glaube, das könnte viel schneller, wenn man Sie

data.table geospatial r sp

Konvertieren von einigen Spalte-Klassen in den Daten.Tabelle

Anzahl der Antworten

2 Antworten

Möchte ich umwandeln einer Teilmenge von Daten.Tabelle cols in eine neue Klasse. Es ist eine beliebte Frage hier (Konvertieren Spalte Klassen in den Daten.Tabelle) aber die Antwort erstellt ein neues Objekt, statt, die auf die starter-Objekt. Nehmen

Aufteilen von text-Spalte in zerlumpten mehrere neue Spalten in eine Tabelle mit Daten in R

Anzahl der Antworten

5 Antworten

Ich habe eine Daten-Tabelle mit 20000+ Zeilen und eine Spalte. Die Zeichenfolge in jede Spalte hat eine unterschiedliche Anzahl von Wörtern. Ich möchte teilen Sie die Wörter und setzen Sie jeden von Ihnen in eine neue Spalte.

data.table multiple-columns r ragged strsplit

Speed-up-Daten.Tabelle Gruppe durch die Verwendung mehrerer Kerne und parallele Programmierung

Anzahl der Antworten

2 Antworten

Ich habe einen großen code und die aggregation Schritt ist der aktuelle Engpass in Bezug auf die Geschwindigkeit. In meinem code würde ich gerne zu beschleunigen-die Gruppierung von Daten Schritt schneller zu sein. Eine SNOTE (einfache nicht-triviales

data.table mclapply r

Durchschnitt mehrere Variablen in R mit Daten.Tisch-Paket

Anzahl der Antworten

2 Antworten

Ich würde gerne einen gleitenden Durchschnitt für jede der numerischen Variablen, die ich habe. Anhand der Daten.Tisch-Paket, ich weiß, wie die Berechnung für eine einzelne variable. Aber wie sollte ich das überarbeiten des Codes, so dass es

data.table moving-average r

Korrelation zwischen den Gruppen in R-Daten.Tabelle

Anzahl der Antworten

3 Antworten

Gibt es eine Möglichkeit, aus der Berechnung der Korrelationen zwischen Werten, wenn diese Werte gespeichert sind, die der Gruppe in eine einzelne Spalte von Daten.Tisch (andere als die Konvertierung der Daten.Tabelle in eine matrix)? library(data.table) set.seed(1) #

correlation data.table r

Erstellen Sie doppelte Zeilen basierend auf Bedingungen, die in R

Anzahl der Antworten

5 Antworten

Ich habe einen Daten.Tabelle, die wie folgt aussieht dt <- data.table(ID=c("A","A","B","B"),Amount1=c(100,200,300,400), Amount2=c(1500,1500,2400,2400),Dupl=c(1,0,1,0)) ID Amount1 Amount2 Dupl 1: A 100 1500 1 2: A 200 1500 0 3: B 300 2400 1 4: B 400 2400 0 Muss

conditional data.table duplicates r

Suchen und ersetzen von Werten mit Daten.Tabelle in R?

Anzahl der Antworten

1 Antworten

Nach der Lektüre über benchmarks und Geschwindigkeit Vergleiche von R Methoden, ich bin in den Prozess der Umstellung auf den speedy data.table - Paket für Daten-manipulation auf meiner großen Datenmengen. Ich habe ein Problem mit einer bestimmten

aggregieren von mehreren Spalten in den Daten.Tabelle

Anzahl der Antworten

2 Antworten

Habe ich das folgende Beispiel data.table: dtb <- data.table(a=sample(1:100,100), b=sample(1:100,100), id=rep(1:10,10)) Möchte ich Aggregatfunktionen alle Spalten (a und b, obwohl Sie getrennt werden sollten) von id mit colSums zum Beispiel. Was ist der richtige Weg, dies zu

aggregate data.table dataframe r

r - Daten.Tabelle 1.10.0 - warum ist eine benannte Spalte index-Wert nicht funktionieren, wenn eine integer-Spalte index-Wert funktioniert, ohne mit = FALSE

Anzahl der Antworten

1 Antworten

Ich bin mit data.table 1.10.0. # install.packages("install.load") # install in order to use the load_package function install.load::load_package("data.table", "gsubfn", "fpCompare") # function to convert from fractions and numeric numbers to numeric (decimal) # Source 1 begins to_numeric <-

Schnellste Weg zum ausfüllen von fehlenden Daten für die Daten.Tabelle

Anzahl der Antworten

3 Antworten

Ich bin laden ein data.table aus CSV-Datei, die Datum, Bestellungen, Menge etc. Felder. In der input-Datei gelegentlich keine Daten für alle Termine. Zum Beispiel, wie unten gezeigt: > NADayWiseOrders date orders amount guests 1: 2013-01-01 50 2272.55

data.table datetime r

Beispiel zufällige Zeilen innerhalb jeder Gruppe in einer Daten.Tabelle

Anzahl der Antworten

4 Antworten

Wie würden Sie die Daten verwenden.Tabelle effizient nehmen Sie eine Probe von Zeilen innerhalb jeder Gruppe in einen Daten-frame? DT = data.table(a = sample(1:2), b = sample(1:1000,20)) DT a b 1: 2 562 2: 1 183 3:

Daten.Tabelle "Schlüssel-Indizes" oder die "Gruppe gegen die"

Anzahl der Antworten

2 Antworten

Nach dem erstellen eines Schlüssels auf einem Daten.Tabelle: set.seed(12345) DT <- data.table(x = sample(LETTERS[1:3], 10, replace = TRUE), y = sample(LETTERS[1:3], 10, replace = TRUE)) setkey(DT, x, y) DT # x y # [1,] A B #

Filtern dupliziert/nicht eindeutige Zeilen in Daten.Tabelle

Anzahl der Antworten

4 Antworten

Ich habe eine data.table Tabelle mit über 2,5 Millionen Zeilen. Es gibt zwei Spalten. Ich möchte entfernen Sie alle Zeilen, die kopiert werden in beiden Spalten. Die zuvor für die Daten.Rahmen hätte ich dies getan: df ->

data.table duplicate-removal r

Anwenden einer Funktion auf jede Zeile der Daten.Tabelle

Anzahl der Antworten

7 Antworten

Ich auf der Suche nach einem Weg, um effizient anwenden einer Funktion auf jede Zeile von Daten.Tabelle. Wir betrachten die folgenden Daten: Tabelle: library(data.table) library(stringr) x <- data.table(a = c(1:3, 1), b = c('12 13', '14 15',

Seltsames Verhalten mit Daten - "Herkunft muss angegeben werden"

Anzahl der Antworten

3 Antworten

Ich habe einen Daten.Tisch wie so dt <- data.table(x=as.Date(c("2014-1-1", "2015-1-1", "2016-1-1")), y=as.Date(c(NA, "2015-6-1", NA))) dt x y 1: 2014-01-01 <NA> 2: 2015-01-01 2015-06-01 3: 2016-01-01 <NA> Ich möchte eine Spalte hinzufügen z ist gleich y, wobei y

data.table date r

Multiplizieren viele Spalten, die von einer bestimmten anderen Spalte in R mit Daten.Tabelle?

Anzahl der Antworten

3 Antworten

Habe ich einen großen Daten.Tabelle in R mit mehreren Spalten mit dollar-Werten. In einer anderen Spalte habe ich eine Anpassung an die inflation-Nummer. Ich bin versucht, herauszufinden, wie zu aktualisieren, jedes meiner monetären Spalten mit ihm multipliziert

Wie man auf Spaltennamen verweisen, die mit einer Zahl beginnen, in Daten.Tabelle

Anzahl der Antworten

2 Antworten

Wenn die Spaltennamen in data.table sind in form von number + character zum Beispiel: 4PCS, 5Y etc, wie könnte diese referenziert werden, als j im x[i,j] so dass es interpretiert wird, als eine nicht börsennotierte Spalte name.

konvertieren von Daten.frame-Daten.Tabelle Spalte fehlt

Anzahl der Antworten

1 Antworten

Hatte einen Fall wie diesen. Versucht zu konvertieren "mtcars" Klasse von Daten.frame-Daten.Tabelle. "mtcars" Daten: > mtcars mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0

data.table dataframe r

Zusammenfassung mehrere Spalten mit Daten.Tabelle

Anzahl der Antworten

1 Antworten

Ich versuche, die Daten verwenden.Tabelle zur Beschleunigung der Verarbeitung großer Datenmengen.Rahmen (300k x 60) aus mehreren kleineren zusammengeführten Daten.frames. Ich bin neue zu Daten.Tabelle. Der code so weit ist wie folgt library(data.table) a = data.table(index=1:5,a=rnorm(5,10),b=rnorm(5,10),z=rnorm(5,10)) b =

Fehler beim erstellen des R-Daten.Tabelle mit Datum-Zeit POSIXlt

Anzahl der Antworten

1 Antworten

Problem beim speichern von Daten.Tabelle mit Datum-Zeit-Spalte: > mdt <- data.table(id=1:3, d=strptime(c("06:02:36", "06:02:48", "07:03:12"), "%H:%M:%S")) > class(mdt) [1] "data.table" "data.frame" > print(mdt) Error in `rownames<-`(`*tmp*`, value = paste(format(rn, right = TRUE), : length of 'dimnames' [1] not

Daten.Tisch-und parallel-computing

Anzahl der Antworten

3 Antworten

Folgenden diesem Beitrag: multicore und Daten.Tabelle in R, ich Frage mich, ob es war ein Weg, um alle Kerne bei der Verwendung von Daten.Tabelle, in der Regel die Berechnungen, die von Gruppen könnte parallelisiert werden. Es scheint,

data.table parallel-processing r

Konvertieren Spalte Klassen in den Daten.Tabelle

Anzahl der Antworten

8 Antworten

Ich habe ein problem mit Daten.Tabelle: Wie kann ich umwandeln Spalte Klassen? Hier ist ein einfaches Beispiel: Mit den Daten.Rahmen habe ich kein problem, konvertieren Sie Sie mit Daten.Tabelle, ich weiß nur nicht, wie: df <- data.frame(ID=c(rep("A",

Was Sie tun können, mit Daten.Rahmen, Sie können nicht mit Daten.Tabelle?

Anzahl der Antworten

1 Antworten

Ich gerade angefangen mit R, und kam über Daten.Tabelle. Ich fand es genial. Eine ganz naive Frage: Kann ich das ignorieren Daten.- frame-Daten.Tabelle zu vermeiden syntax Verwirrung zwischen zwei Paketen? Siehe die Daten.Tabelle faq speziell 1,8 und

data.table dataframe r

dplyr mutieren/ersetzen, mehrere Spalten auf eine Teilmenge der Zeilen

Anzahl der Antworten

12 Antworten

Ich bin in den Prozess zu versuchen, eine dplyr-basierten workflow (anstatt vor allem Daten.Tabelle, die ich gewohnt bin), und ich habe auf ein problem stoßen, dass ich nicht finden können, ein gleichwertiges dplyr-Lösung an. Ich Häufig laufen

data.table dplyr r

Zusammenführen von Daten.Tabellen basierend auf den Spalten-Namen

Anzahl der Antworten

3 Antworten

Ich versuche zu tun, einige Links-Verknüpfung mit Daten zusammengeführt wird.Tabellen. Die Paket-Beschreibung zitieren, die In allen Verknüpfungen die Namen der Spalten sind unerheblich; die Spalten von x ist key verbunden sind, um Ich verstehe, dass ich kann

Verwenden Sie bedingte Anweisungen in r Daten.Tabelle

Anzahl der Antworten

2 Antworten

Ich versuche, die Daten verwenden.Tabelle recode eine variable, basierend auf bestimmten Bedingungen. Meine ursprüngliche dataset hat rund 30M records und nachdem alle Variablen Schöpfung um 130 Variablen. Ich habe die Methoden, die hier vorgeschlagen wird: bedingte Anweisungen

Summe von distinct-Spalte-Wert in R

Anzahl der Antworten

4 Antworten

Ich habe eine sehr große dataframe in R und würde gerne die Summe von zwei Spalten für jeden eindeutigen Wert in den anderen Spalten, zum Beispiel sagen, wir hatten die Daten von einem dataframe von Transaktionen in

data.table r sum unique

Die Konvertierung einer numerischen matrix in ein data.Tabelle (oder Daten.Rahmen)

Anzahl der Antworten

4 Antworten

Hoffe, es gibt eine einfache Antwort hier, aber ich kann es nicht finden überall. Habe ich eine numerische matrix mit beschrifteten Zeilen und Spalten: 1 2 3 4 a 6 7 8 9 b 8 7 5

data.table dataframe r reshape transformation

Summen über Zeilen von Daten.Tabelle für bestimmte Spalten

Anzahl der Antworten

2 Antworten

Ich habe eine große Tabelle mit Daten (aus dem Paket Daten.Tabelle) mit über 60 Spalten (die ersten drei entsprechenden Faktoren und die übrigen für die Antwort von Variablen, in diesem Fall verschiedene Arten) und mehreren Zeilen entsprechend

Warum ist erlauben.kartesische erforderlich ist zu Zeiten, wenn Sie beim verknüpfen von Daten.Tabellen mit Schlüssel duplizieren?

Anzahl der Antworten

1 Antworten

Ich versuche zu verstehen, die Logik von J () - lookup, wenn Sie es sind doppelte Schlüssel in den Daten.Tabelle in R. Hier ist ein kleines experiment, das ich versucht habe: library(data.table) options(stringsAsFactors = FALSE) x <-

Schnellste Methode zum hinzufügen von Zeilen für die fehlende Zeit, Schritte?

Anzahl der Antworten

4 Antworten

Ich habe eine Spalte in meiner Datensätze in denen Zeiträume (Time) sind die ganzen zahlen reichen von a-b. Manchmal gibt es möglicherweise fehlenden Zeiträume für jede Gruppe. Ich möchte, füllen Sie die Zeilen mit NA. Unten ist

data.table dataframe plyr r

1
2
3
4
5