Entfernen von Nicht-ASCII-Zeichen aus Datendateien
Ich habe ein Bündel von csv
Dateien, lese ich in R und darunter in einem Paket/data-Ordner in .rdata
- format. Leider nicht-ASCII-Zeichen in den Daten scheitern Sie die Prüfung. Die tools
Paket hat zwei Funktionen zu überprüfen, für nicht-ASCII-Zeichen (showNonASCII
und showNonASCIIfile
), aber ich kann nicht scheinen, um zu suchen, zu entfernen/reinigen.
Bevor ich zu erforschen andere UNIX-tools, wäre es toll, das zu tun diese alle in R, so kann ich behaupten einen kompletten workflow von den Rohdaten bis zum fertigen Produkt. Gibt es bereits Pakete/Funktionen um mir zu helfen, loszuwerden, die nicht-ASCII-Zeichen?
InformationsquelleAutor der Frage Maiasaura | 2012-03-29
Du musst angemeldet sein, um einen Kommentar abzugeben.
Einfach entfernen die nicht-ASCII-Zeichen, die Sie nutzen könnten base R s
iconv()
Einstellungsub = ""
. So etwas wie dies funktionieren sollte:Zu suchen Sie nicht-ASCII-Zeichen, oder zu finden, wenn es überhaupt in den Dateien, die Sie könnte wahrscheinlich passen Sie die folgenden Ideen:
InformationsquelleAutor der Antwort Josh O'Brien
Diesen Tagen, ein etwas besserer Ansatz ist die Verwendung der stringi-Paket bietet eine Funktion für die Allgemeine unicode-Konvertierung. Diese können Sie beibehalten, den ursprünglichen text so viel wie möglich:
InformationsquelleAutor der Antwort hadley