Export UTF-8 BOM .csv in R

Ich lese eine Datei durch RJDBC aus einer MySQL-Datenbank und es richtig zeigt alle Buchstaben, die in R (z.B., נווה שאנן).
Aber auch beim Export mit schreiben.csv und fileEncoding="UTF-8" die Ausgabe sieht so aus
<U+0436>.<U+043A>. <U+041B><U+043E><U+0437><U+0435><U+043D><U+0435><U+0446>(in diesem Fall ist dies nicht die Zeichenfolge oben, sondern eine Bulgarische) für Bulgarisch, Hebräisch, Chinesisch und so weiter. Andere Sonderzeichen wie ã,ç usw. funktionieren gut.

Ich vermute, das ist wegen der UTF-8-BOM, aber ich habe nicht gefunden, eine Lösung auf dem Netz

Mein OS ist ein Deutsches Windows 7.

edit: ich habe versucht,

con<-file("file.csv",encoding="UTF-8")
write.csv(x,con,row.names=FALSE)

und der (afaik) entspricht write.csv(x, file="file.csv",fileEncoding="UTF-8",row.names=FALSE).

Werden Sie sagen, dass, wenn Sie öffnen Sie die exportierte Datei, die Sie sehen, "U+0436" statt "ж"? Wenn dem so ist, dass keine BOM-Problem, nur eine Frage der Unicode-Codepunkte, nicht kodiert in UTF-Codierung, sondern die Ausgabe als code Punkte. Vielleicht zeigen Sie uns etwas code, wie genau man die Datei exportieren?
Fügte ich Informationen, wie ich den Export der Datei. Und ja, ich sehe "<U+0436>" statt "ж"
Sehen "<U+0436>" in der Datei mehrdeutig ist (es könnte sogar bedeuten, dass diese Zeichen tatsächlich inline in die Datei oder den editor einfach nicht angezeigt werden können Sie). Entweder Sie schreiben uns die "ж" in eine Datei und teilen Sie uns die hex-Werte der Zeichen die generierte Datei enthält (öffnen Sie Sie im hex-editor), ODER geben Sie uns den code, um Ihr problem reproduzieren (natürlich nicht wir haben deine DB so erstellen Sie einen Vektor mit den sample-Daten).

InformationsquelleAutor Arthur G | 2011-09-13

byte-order-mark export-to-csv r utf-8

Auf der Hilfe-Seite zu Encoding (help("Encoding")) konnte man Lesen über spezielle encoding - bytes.

Mit diesem war ich in der Lage, zum generieren von csv-Datei von:

v <- "נווה שאנן"
X <- data.frame(v1=rep(v,3), v2=LETTERS[1:3], v3=0, stringsAsFactors=FALSE)

Encoding(X$v1) <- "bytes"
write.csv(X, "test.csv", row.names=FALSE)

Kümmern sich darum, Unterschiede zwischen factor und character. Folgendes sollte funktionieren:

id_characters <- which(sapply(X,
    function(x) is.character(x) && Encoding(x)=="UTF-8"))
for (i in id_characters) Encoding(X[[i]]) <- "bytes"

id_factors <- which(sapply(X,
    function(x) is.factor(x) && Encoding(levels(x))=="UTF-8"))
for (i in id_factors) Encoding(levels(X[[i]])) <- "bytes"

write.csv(X, "test.csv", row.names=FALSE)

InformationsquelleAutor Marek

6

Akzeptierte Antwort hat mir nicht geholfen in einer ähnlichen Anwendung (R-3.1 in Windows, während ich versuchte, die Datei in Excel öffnen). Trotzdem, die basierend auf diesem Teil von Datei Dokumentation:

Wenn eine Stückliste erforderlich ist (es ist nicht empfohlen), wenn das schreiben es soll geschrieben werden, die ausdrücklich, z.B. durch writeChar("\ufeff", con, eos = NULL) oder writeBin(als.raw - (c(0xef, 0xbb, 0xbf)), binary_con)

Kam ich auf folgenden workaround:
```
write.csv.utf8.BOM <- function(df, filename)
{
    con <- file(filename, "w")
    tryCatch({
    for (i in 1:ncol(df))
        df[,i] = iconv(df[,i], to = "UTF-8") 
    writeChar(iconv("\ufeff", to = "UTF-8"), con, eos = NULL)
    write.csv(df, file = con)
    },finally = {close(con)})
}
```
Beachten Sie, dass df ist die Daten.Rahmen und mit dem Namen ist der Pfad zu der csv-Datei.
- Das ist großartig. Dies sollte die akzeptierten Antworten (Windows 7, R-version 3.4.2)
- Immer noch gehen in Ordnung auf R 3.5.3. Nur zwei kleine Anmerkungen: statt der tryCatch() konstruieren Sie konnte einfach on.exit(close(con)).Es könnte auch nützlich sein, um pass fileEncoding = "utf-8" zu write.csv() für die besten Ergebnisse.
InformationsquelleAutor Ron

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.