Wie eine Schleife durch einen Ordner mit CSV-Dateien in R

Ich habe einen Ordner mit einer Reihe von CSV-Dateien, die mit dem Titel "yob1980", "yob1981", "yob1982" etc.

Muss ich das mit einer for-Schleife durchläuft jede Datei und Ihr Inhalt in einen Daten-frame - Spalten in der Daten-frame sein sollte "1980", "1981", "1982" etc

Hier ist was ich habe:

file_list <- list.files()

temp = list.files(pattern="*.txt")
babynames <- do.call(rbind,lapply(temp,read.csv, FALSE))

names(babynames) <- c("Name", "Gender", "Count")

Ich fühle mich wie ich eine for-Schleife, aber ich bin mir nicht sicher, wie eine Schleife durch die Dateien. Jeder Punkt, der mich in die richtige Richtung?

Sind CSV-Dateien eine Spalte mit Dateien ohne Header? Und Sie entsprechen denselben Datensatz-ids?
Was haben Sie bereits führen Sie eine Schleife durch alle Dateien (lapply führt eine implizite for Schleife über alle Dateien). Und Sie sind bereits die Herstellung einer einzelnen Daten-frame (do.call(rbind, ....)). Was ist die Frage?
die CSV-Dateien haben keinen Header und es gibt drei Säulen, die im inneren enthalten Sie einen Namen, Geschlecht, und die Anzahl der Namen, die
Ich versuche, um eine Spalte hinzuzufügen, um den dataframe enthält das Jahr, in dem der name entspricht.
Was ist file_list für?

InformationsquelleAutor krypticlol | 2016-10-15

1

Meine Lieblings-Weg, dies zu tun ist mit ldply von der plyr Paket. Es hat den Vorteil der Rücksendung bei einem dataframe, so brauchen Sie nicht zu tun rbind Schritt danach:
```
library( plyr )
babynames <- ldply( .data = list.files(pattern="*.txt"),
                    .fun = read.csv,
                    header = FALSE,
                    col.names=c("Name", "Gender", "Count") )
```
Als zusätzlichen Vorteil, Sie können multi-thread-import sehr leicht, so dass das importieren von großen multi-Datei Datensätze ein bisschen schneller:
```
library( plyr )
library( doMC )
registerDoMC( cores = 4 )
babynames <- ldply( .data = list.files(pattern="*.txt"),
                    .fun = read.csv,
                    header = FALSE,
                    col.names=c("Name", "Gender", "Count"),
                    .parallel = TRUE )
```
Änderung der oben geringfügig um ein Year Spalte in der resultierenden data Frames, erstellen Sie eine Funktion zuerst, dann führen Sie diese Funktion innerhalb ldply in der gleichen Weise, die Sie würde ausführen read.csv
```
readFun <- function( filename ) {

    # read in the data
    data <- read.csv( filename, 
                      header = FALSE, 
                      col.names = c( "Name", "Gender", "Count" ) )

    # add a "Year" column by removing both "yob" and ".txt" from file name
    data$Year <- gsub( "yob|.txt", "", filename )

    return( data )
}

# execute that function across all files, outputting a data frame
doMC::registerDoMC( cores = 4 )
babynames <- plyr::ldply( .data = list.files(pattern="*.txt"),
                          .fun = readFun,
                          .parallel = TRUE )
```
Dieser geben Sie Ihre Daten in eine übersichtliche und saubere Art, die, wie ich empfehlen würde, sich vorwärts zu bewegen von hier aus. Während es möglich ist, dann trennen Sie jedes Jahr die Daten in seine eigene Spalte, ist es wahrscheinlich nicht der beste Weg zu gehen.

Hinweis: je nach Ihren Einstellungen, kann es eine gute Idee zu konvertieren, die Year Spalte zu sagen, integer Klasse. Aber das ist bis zu Ihnen.
- Auf diese Weise macht ein dataframe statt einer Liste - ich hatte Schwierigkeiten, Umwandlung von Michaels Methode von einer Liste zu einem dataframe. Aber wie würde ich mich über das hinzufügen der Jahre in eine neue Spalte in meine dataframe? In der Art, wie in python Anhängen
- Hast du die Letzte Zeile rbind von @Michael Griffiths' - Methode? Das sollte die Konvertierung zu einem Daten-frame.
- Was Sie für Fragen klingt nicht append können, sondern eine neue Spalte für jede Datei. Für die meisten Datensätze, das ist keine gute Idee. Sind Ihre name und gender Spalten die gleiche für jede Datei?
InformationsquelleAutor rosscova

Betrachten eine anonyme Funktion innerhalb einer lapply():

files = list.files(pattern="*.txt")

dfList <- lapply(files, function(i) {
     df <- read.csv(i, header=FALSE, col.names=c("Name", "Gender", "Count"))
     df$Year <- gsub("yob", "", i) 
     return(df)
})

finaldf <- do.call(rbind, dflist)

InformationsquelleAutor Parfait

Mit purrr

library(tidyverse)

files <- list.files(path = "./data/", pattern = "*.csv")

df <- files %>% 
    map(function(x) {
        read.csv(paste0("./data/", x))
    }) %>%
    reduce(rbind)

InformationsquelleAutor Icaro Bombonato

Einen for - Schleife besser geeignet sein könnten als lapply in diesem Fall.

file_list = list.files(pattern="*.txt")
data_list <- vector("list", "length" = length(file.list))

for (i in seq_along(file_list)) {
    filename = file_list[[i]]

    # Read data in
    df <- read.csv(filename, header = FALSE, col.names = c("Name", "Gender", "Count"))

    # Extract year from filename
    year = gsub("yob", "", filename)
    df[["Filename"]] = year

    # Add year to data_list
    data_list[[i]] <- df
}

babynames <- do.call(rbind, data_list)

Ich änderte # Extrahiere das Jahr aus dem Dateinamen year = gsub("Jahrgänge", "", filename) df[["Filename"]] = Jahr, um manuell erhöhen, weil das Jahr die .txt-lag aber danke für die Hilfe!

InformationsquelleAutor Michael Griffiths

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.