Wie zu erkennen, das richtige encoding für das Lesen.csv?

Habe ich diese Datei (http://b7hq6v.alterupload.com/en/), die ich Lesen möchte in R mit read.csv. Aber ich bin nicht in der Lage, den korrekten Zeichensatz erkennen. Es scheint eine Art von UTF-8. Ich bin mit R 2.12.1 auf einer WindowsXP-Maschine.
Keine Hilfe?

Der link ist tot.

InformationsquelleAutor Alex | 2011-01-26

character-encoding r read.csv

51

Zunächst basierend auf einer mehr Allgemeinen Frage auf StackOverflow es ist nicht möglich, zu erkennen, Kodierung der Datei in 100% iger Sicherheit.

Habe ich kämpfen, diese viele Male und kommen, um nicht die automatische Lösung:

Verwenden iconvlist um alle möglichen Codierungen:
```
codepages <- setNames(iconvlist(), iconvlist())
```
Dann die Daten Lesen, mit jeder von Ihnen
```
x <- lapply(codepages, function(enc) try(read.table("encoding.asc",
                   fileEncoding=enc,
                   nrows=3, header=TRUE, sep="\t"))) # you get lots of errors/warning here
```
Wichtig ist hier zu wissen, die Struktur der Datei (Trennzeichen, Header). Legen Sie die Enkodierung mit Hilfe von fileEncoding argument. Lesen Sie nur einige wenige Zeilen.

Nun konnte man sich lookup auf die Ergebnisse:
```
unique(do.call(rbind, sapply(x, dim)))
#        [,1] [,2]
# 437       14    2
# CP1200     3   29
# CP12000    0    1
```
Scheint, richtig ist, dass mit 3 Zeilen und 29 Spalten, so können Sie sehen:
```
maybe_ok <- sapply(x, function(x) isTRUE(all.equal(dim(x), c(3,29))))
codepages[maybe_ok]
#    CP1200    UCS-2LE     UTF-16   UTF-16LE      UTF16    UTF16LE 
#  "CP1200"  "UCS-2LE"   "UTF-16" "UTF-16LE"    "UTF16"  "UTF16LE" 
```
Kann man sich auf Daten zu
```
x[maybe_ok]
```
Für Ihre Datei alle diese Kodierungen gibt identische Daten (teilweise, denn es gibt einige Redundanz, wie Sie sehen).

Wenn Sie nicht wissen, spezifische Ihrer Datei, die Sie verwenden müssen readLines mit einigen änderungen in Workflows (z.B. können Sie nicht verwenden fileEncoding verwenden, muss length statt dim, mehr Magie zu finden, die richtigen sind).

Ich habe einen quit-ähnliche Sache für iconvlist(),aber mit einer Schleife. Die entscheidende Sache war die Verwendung von "fileEncoding". Ich falsch verwendet "encoding". Vielen Dank für Ihre Hilfe.
Ich skizzierte ein ähnlicher Ansatz, der auf die gist.github.com/837414 - ich glaube, es ist effizienter, um die Daten zu laden einmal, und dann versuchen, verschiedene Codierungen mit iconv.
Netter trick. Zumindest weiß ich meine read.csv Problem nicht zu tun haben mit fileEncoding.

InformationsquelleAutor Marek
28

Paket readr, https://cran.r-project.org/web/packages/readr/readr.pdf, enthält eine Funktion namens guess_encoding berechnet die Wahrscheinlichkeit, mit der eine Datei kodiert wird, die in mehreren Codierungen:
```
guess_encoding("your_file", n_max = 1000)
```
Diese option war sehr schön und einfach zu bedienen.

InformationsquelleAutor Enrique Pérez Herrero

Erste, Sie haben, um herauszufinden, was ist die Codierung der Datei, was nicht getan werden kann in f (zumindest die ich kenne). Sie können externe tools für die es z.B. von Perl -, python-oder zB. die file - utility unter Linux/UNIX.

Als @ssmit schlug vor, Sie haben eine UTF-16LE (Unicode) encoding hier, so laden Sie die Datei mit der Codierung und Verwendung readLines zu sehen, was Sie in den ersten (z.B.) 10 Zeilen:

> f <- file('encoding.asc', open="r", encoding="UTF-16LE")   # UTF-16LE, which is "called" Unicode in Windows
> readLines(f,10)
 [1] "\tFe 2\tZn\tO\tC\tSi\tMn\tP\tS\tAl\tN\tCr\tNi\tMo\tCu\tV\tNb 2\tTi\tB\tZr\tCa\tH\tCo\tMg\tPb 2\tW\tCl\tNa 3\tAr"                                                                                                                          
 [2] ""                                                                                                                                                                                                                                         
 [3] "0\t0,003128\t3,82E-05\t0,0004196\t0\t0,001869\t0,005836\t0,004463\t0,002861\t0,02148\t0\t0,004768\t0,0003052\t0\t0,0037\t0,0391\t0,06409\t0,1157\t0,004654\t0\t0\t0\t0,00824\t7,63E-05\t0,003891\t0,004501\t0\t0,001335\t0,01175"         
 [4] "0,0005\t0,003265\t3,05E-05\t0,0003662\t0\t0,001709\t0,005798\t0,004395\t0,002808\t0,02155\t0\t0,004578\t0,0002441\t0\t0,003601\t0,03897\t0,06406\t0,1158\t0,0047\t0\t0\t0\t0,008026\t6,10E-05\t0,003876\t0,004425\t0\t0,001343\t0,01157"  
 [5] "0,001\t0,003332\t2,54E-05\t0,0003052\t0\t0,001704\t0,005671\t0,0044\t0,002823\t0,02164\t0\t0,004603\t0,0003306\t0\t0,003611\t0,03886\t0,06406\t0,1159\t0,004705\t0\t0\t0\t0,008036\t5,09E-05\t0,003815\t0,004501\t0\t0,001246\t0,01155"   
 [6] "0,0015\t0,003313\t2,18E-05\t0,0002616\t0\t0,001678\t0,005689\t0,004447\t0,002921\t0,02171\t0\t0,004621\t0,0003488\t0\t0,003597\t0,03889\t0,06404\t0,1158\t0,004752\t0\t0\t0\t0,008022\t4,36E-05\t0,003815\t0,004578\t0\t0,001264\t0,01144"
 [7] "0,002\t0,003313\t2,18E-05\t0,0002834\t0\t0,001591\t0,005646\t0,00436\t0,003008\t0,0218\t0\t0,004643\t0,0003488\t0\t0,003619\t0,03895\t0,06383\t0,1159\t0,004752\t0\t0\t0\t0,008\t4,36E-05\t0,003771\t0,004643\t0\t0,001351\t0,01142"      
 [8] "0,0025\t0,003488\t2,18E-05\t0,000218\t0\t0,001657\t0,00558\t0,004338\t0,002986\t0,02175\t0\t0,004469\t0,0002616\t0\t0,00351\t0,03889\t0,06374\t0,1159\t0,004621\t0\t0\t0\t0,008131\t4,36E-05\t0,003771\t0,004708\t0\t0,001243\t0,01125"   
 [9] "0,003\t0,003619\t0\t0,0001526\t0\t0,001591\t0,005668\t0,004207\t0,00303\t0,02169\t0\t0,00449\t0,0002834\t0\t0,00351\t0,03874\t0,06383\t0,116\t0,004665\t0\t0\t0\t0,007956\t0\t0,003749\t0,004796\t0\t0,001286\t0,01125"                   
[10] "0,0035\t0,003422\t0\t4,36E-05\t0\t0,001482\t0,005711\t0,004185\t0,003292\t0,02156\t0\t0,004665\t0,0003488\t0\t0,003553\t0,03852\t0,06391\t0,1158\t0,004708\t0\t0\t0\t0,007717\t0\t0,003597\t0,004905\t0\t0,00133\t0,01136"

Daraus kann gesehen werden, dass wir einen header und eine leere Zeile in der zweiten Zeile (die übersprungen werden standardmäßig mithilfe der read.table - Funktion), das Trennzeichen ist \t - und das dezimal-Trennzeichen ist ,.

> f <- file('encoding.asc', open="r", encoding="UTF-16LE")
> df <- read.table(f, sep='\t', dec=',', header=TRUE)

Sehen, was wir haben:

> head(df)
       X     Fe.2       Zn         O C       Si       Mn        P        S
1 0.0000 0.003128 3.82e-05 0.0004196 0 0.001869 0.005836 0.004463 0.002861
2 0.0005 0.003265 3.05e-05 0.0003662 0 0.001709 0.005798 0.004395 0.002808
3 0.0010 0.003332 2.54e-05 0.0003052 0 0.001704 0.005671 0.004400 0.002823
4 0.0015 0.003313 2.18e-05 0.0002616 0 0.001678 0.005689 0.004447 0.002921
5 0.0020 0.003313 2.18e-05 0.0002834 0 0.001591 0.005646 0.004360 0.003008
6 0.0025 0.003488 2.18e-05 0.0002180 0 0.001657 0.005580 0.004338 0.002986
       Al N       Cr        Ni Mo       Cu       V    Nb.2     Ti        B Zr
1 0.02148 0 0.004768 0.0003052  0 0.003700 0.03910 0.06409 0.1157 0.004654  0
2 0.02155 0 0.004578 0.0002441  0 0.003601 0.03897 0.06406 0.1158 0.004700  0
3 0.02164 0 0.004603 0.0003306  0 0.003611 0.03886 0.06406 0.1159 0.004705  0
4 0.02171 0 0.004621 0.0003488  0 0.003597 0.03889 0.06404 0.1158 0.004752  0
5 0.02180 0 0.004643 0.0003488  0 0.003619 0.03895 0.06383 0.1159 0.004752  0
6 0.02175 0 0.004469 0.0002616  0 0.003510 0.03889 0.06374 0.1159 0.004621  0
  Ca H       Co       Mg     Pb.2        W Cl     Na.3      Ar
1  0 0 0.008240 7.63e-05 0.003891 0.004501  0 0.001335 0.01175
2  0 0 0.008026 6.10e-05 0.003876 0.004425  0 0.001343 0.01157
3  0 0 0.008036 5.09e-05 0.003815 0.004501  0 0.001246 0.01155
4  0 0 0.008022 4.36e-05 0.003815 0.004578  0 0.001264 0.01144
5  0 0 0.008000 4.36e-05 0.003771 0.004643  0 0.001351 0.01142
6  0 0 0.008131 4.36e-05 0.003771 0.004708  0 0.001243 0.01125

Vielen Dank, es funktioniert. Aber warum muss ich überspringen die ersten 2 Zeilen? Und warum nicht das wirk im Lesen.csv-direkt?
Sie haben Recht, die skip=2 weggelassen werden kann (ich bearbeitet habe, meine Antwort basierte auf dass), die zweite, leere Zeile wird übersprungen. Sie können auch die read.csv Funktion zum Lesen dieser Datei (mit dem gleichen paramateres gegeben), aber als Sie Ihre Datei nicht durch ein Komma getrennt werden, aber Tabulatoren statt, ich glaube nicht, es wäre schön. Suchen ?read.table für details über die ähnlichkeiten der Funktionen (die Unterschiede können gefunden werden in der Standardeinstellung).

InformationsquelleAutor daroczig

2

Neben der Verwendung der readr-Paket, können Sie auch wählen, verwenden Sie stringi::stri_enc_detect2. Diese Funktion ist besonders dann effizient, wenn die Ländereinstellung ist bekannt und wenn es um irgendeine form von UTF und ASCII: "..es stellt sich heraus, dass (empirisch) stri_enc_detect2 funktioniert besser als der IPS-basierten [stringi::stri_enc_detect verwendet, durch die guess_encoding], wenn die UTF-* der text wird zur Verfügung gestellt."

Details zu stringi::stri_enc_detect.

Details zu stringi::stri_enc_detect2.

Change-request für guess_encoding

InformationsquelleAutor ElToro1966
1

Diese Datei ist UTF-16LE-Codierung mit BOM (byte order mark). Sie sollten wahrscheinlich nicht verwenden encoding = "UTF-16LE"

Ich habe versucht, aber alles was ich bekomme ist diese : ÿþ
Für die Vollständigkeit dieser Antwort: read.table richtige parameter ist fileEncoding.

InformationsquelleAutor ssmir

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.