Entfernen von Nicht-ASCII-Zeichen aus Datendateien

Ich habe ein Bündel von csv Dateien, lese ich in R und darunter in einem Paket/data-Ordner in .rdata - format. Leider nicht-ASCII-Zeichen in den Daten scheitern Sie die Prüfung. Die tools Paket hat zwei Funktionen zu überprüfen, für nicht-ASCII-Zeichen (showNonASCII und showNonASCIIfile), aber ich kann nicht scheinen, um zu suchen, zu entfernen/reinigen.

Bevor ich zu erforschen andere UNIX-tools, wäre es toll, das zu tun diese alle in R, so kann ich behaupten einen kompletten workflow von den Rohdaten bis zum fertigen Produkt. Gibt es bereits Pakete/Funktionen um mir zu helfen, loszuwerden, die nicht-ASCII-Zeichen?

InformationsquelleAutor der Frage Maiasaura | 2012-03-29

ascii non-ascii-characters r unicode

Einfach entfernen die nicht-ASCII-Zeichen, die Sie nutzen könnten base R s iconv() Einstellung sub = "". So etwas wie dies funktionieren sollte:

x <- c("Ekstr\xf8m", "J\xf6reskog", "bi\xdfchen Z\xfcrcher") # e.g. from ?iconv
Encoding(x) <- "latin1"  # (just to make sure)
x
# [1] "Ekstrøm"         "Jöreskog"        "bißchen Zürcher"

iconv(x, "latin1", "ASCII", sub="")
# [1] "Ekstrm"        "Jreskog"       "bichen Zrcher"

Zu suchen Sie nicht-ASCII-Zeichen, oder zu finden, wenn es überhaupt in den Dateien, die Sie könnte wahrscheinlich passen Sie die folgenden Ideen:

## Do *any* lines contain non-ASCII characters? 
any(grepl("I_WAS_NOT_ASCII", iconv(x, "latin1", "ASCII", sub="I_WAS_NOT_ASCII")))
[1] TRUE

## Find which lines (e.g. read in by readLines()) contain non-ASCII characters
grep("I_WAS_NOT_ASCII", iconv(x, "latin1", "ASCII", sub="I_WAS_NOT_ASCII"))
[1] 1 2 3

InformationsquelleAutor der Antwort Josh O'Brien

64

Diesen Tagen, ein etwas besserer Ansatz ist die Verwendung der stringi-Paket bietet eine Funktion für die Allgemeine unicode-Konvertierung. Diese können Sie beibehalten, den ursprünglichen text so viel wie möglich:
```
x <- c("Ekstr\u00f8m", "J\u00f6reskog", "bi\u00dfchen Z\u00fcrcher")
x
#> [1] "Ekstrøm"         "Jöreskog"        "bißchen Zürcher"

stringi::stri_trans_general(x, "latin-ascii")
#> [1] "Ekstrom"          "Joreskog"         "bisschen Zurcher"
```
InformationsquelleAutor der Antwort hadley

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.