Lesen Sie eine Textdatei in UTF-8 mit BOM

Ich habe eine text-Datei mit dem Byte order mark (U+FEFF) am Anfang. Ich versuche die Datei zu Lesen, in R. Ist es möglich zu vermeiden, die Byte order mark?

Die Funktion fread (aus der data.table Paket) liest die Datei ein, fügt aber hinzu ļ»æ am Anfang der ersten Variablen-name:

> names(frame_pers)[1]
[1] "ļ»æreg_date"

Das gleiche ist mit read.csv Funktion.

Derzeit habe ich eine Funktion, die entfernt die Stückliste aus der ersten Spalte Namen, aber ich glaube, es sollte eine Möglichkeit wie man automatisch Streifen der Stückliste.

remove.BOM <- function(x) setnames(x, 1, substring(names(x)[1], 4))

> names(frame_pers)[1]
[1] "ļ»æreg_date"
> remove.BOM(frame_pers)
> names(frame_pers)[1]
[1] "reg_date"

Ich bin mit der nativen Codierung für den R-Sitzung:

> options("encoding" = "")
> options("encoding")
$encoding
[1] ""

InformationsquelleAutor djhurio | 2014-02-07

26

Haben Sie versucht read.csv(..., fileEncoding = "UTF-8-BOM")?. ?file sagt:

Ab R 3.0.0 das encoding"UTF-8-BOM"' ist akzeptiert und zu entfernen
eine Byte-Order-Markierung, falls vorhanden (was es oft für Dateien und Webseiten
generiert von Microsoft-Anwendungen).
- Auch nicht für mich arbeiten. Meine raw Daten Aussehen "31.1" beim copy-paste aus notepad++, aber in R mit fread es teilt sich in 2 Spalten, und mit Lesen.csv bekomme ich die folgende als Präfix "ï»¿" (als.ist = TRUE). Ich benutzt autohotkey und convert2txt um ocr aus einer Anzeige in der gui, und ich schrieb es auf-Datei. Das gibt mir das problem, dass "31.2" wird "ï»¿.331"
InformationsquelleAutor hadley
5

Diese behandelt wurde zwischen den Versionen 1.9.6 und 1.9.8 mit diese verpflichten; update Ihrer data.table - installation, um dieses Problem zu beheben.

Sobald Sie dies getan haben, können Sie einfach fread:
```
fread("file_name.csv")
```
- nicht für mich arbeiten. Meine Daten vorangestellt ist, "ï»¿"
- was ist mit Ihren Daten.Tisch-version
- Ich bin mit 1.10.4. Ich landete mit "read_csv" und Einstellung "col_types = "c" ", dann trimmen Sie das erste Zeichen vor der Konvertierung zu numerischen. Es war ein Schlamassel.
- bitte melden Sie diese an die Daten.tablr issue-tracker, einschließlich der original-Datei, wenn Sie können, wie das Problem behoben werden sollte. Auch versuchen Sie es bitte mit der Entwicklung der version vorher (1.10.5), ich scheine zu erinnern, ein update Abdeckung Stückliste vor kurzem.
InformationsquelleAutor MichaelChirico

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.