Wie zu erkennen/löschen nicht-UTF-8-Zeichen in R

Wenn ich importieren Sie einen Stata-Datensatz in R (mit der außen-Paket), der import manchmal enthält Zeichen, die nicht gültig UTF-8. Dies ist unangenehm genug von selbst, aber es bricht alles, sobald ich versuche, Sie zu verwandeln, das Objekt zu JSON (mit den rjson Paket).

Haben Sie eine Idee, wie ich mich identifizieren kann-nicht-gültig-UTF-8-Zeichen in einer Zeichenfolge zu löschen und danach?

InformationsquelleAutor Marcel Hebing | 2013-06-25

r stata utf-8

15

Andere Lösung mit iconv und es argument sub: Zeichenfolge. Wenn nicht-NA(hier habe ich es "), es wird verwendet, um zu ersetzen Sie alle nicht-Cabrio-bytes in der Eingabe.
```
x <- "fa\xE7ile"
Encoding(x) <- "UTF-8"
iconv(x, "UTF-8", "UTF-8",sub='') ## replace any non UTF-8 by ''
"faile"
```
Hier beachten, dass, wenn wir wählen Sie die richtige Codierung:
```
x <- "fa\xE7ile"
Encoding(x) <- "latin1"
xx <- iconv(x, "latin1", "UTF-8",sub='')
facile
```
InformationsquelleAutor agstudy
2

Einen anderen Ansatz, um die zu entfernen schlechte chars mit dplyr auf das gesamte dataset:
```
library(dplyr)

MyDate %>%
    mutate_at(vars(MyTextVar1, MyTextVar2), function(x){gsub('[^ -~]', '', x)})
```
Wo MyData und MyTextVar werden der Datensatz und der text-Variablen zu entfernen, die faulen äpfel aus. Dies kann weniger robust als die änderung der Codierung, aber oft ist es gut und einfacher, Sie zu entfernen.

Gebäude auf Tylers Antwort, können Sie auch MyDate %>% mutate_if(is.character, ~gsub('[^ -~]', '', .)) welche Ziele alle character-Spalten oder MyData %>% mutate_all(~gsub('[^ -~]', '', .)) das auf alle Spalten.

InformationsquelleAutor Tyler Rinker
1

Statt Sie zu löschen, können Sie versuchen, konvertieren Sie Sie in UTF-8-string mit iconv.
```
require(foreign)
dat <- read.dta("data.dta")

for (j in seq_len(ncol(dat))) {
   if (class(dat[, j]) == "factor")
       levels(dat[, j]) <- iconv(levels(dat[, j]), from = "latin1", to = "UTF-8")
}
```
Können Sie ersetzen latin1 durch eine geeignete enconding in Ihrem Fall.
Da wir keinen Zugriff auf Ihre Daten ist schwierig zu wissen, was man werden mehr geeignet.

InformationsquelleAutor dickoa

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.