wie zu Lesen, die Daten in utf-8-format in R?

Mein system:win7+R-3.0.2.

> Sys.getlocale()
[1] "LC_COLLATE=Chinese (Simplified)_People's Republic of China.936;LC_CTYPE=Chinese 
(Simplified)_People's Republic of China.936;LC_MONETARY=Chinese (Simplified)_People's        
republic of China.936;LC_NUMERIC=C;LC_TIME=Chinese (Simplified)_People's Republic of China.936"

Gibt es zwei Dateien mit dem gleichen Inhalt, gespeichert in microsoft Editor: ein gespeichert wird, als das ansi-format, die anderen gespeichert als utf-8-format.Die Daten Tod name in M370 Malaysia Airlines .
Oder Sie können die Datei auf diese Weise.

1)kopieren Sie die Daten in microsoft Editor.

乘客姓名,性别,出生日期
HuangTianhui,,1948/05/28
姜翠云,,1952/03/27
李红晶,,1994/12/09

2)speichern Sie es als test.ansi-ansi-format in den Editor.

3)speichern Sie es als test.utf8 und utf-8-format in den Editor.

read.table("test.ansi",sep=",",header=TRUE)  #can work fine
read.table("test.utf8",sep=",",header=TRUE)  #can't work

Dann setze ich die Codierung in utf-8.

options(encoding="utf-8")
read.table("test.utf8",sep=",",header=TRUE,encoding="utf-8")


 In read.table("test.utf8", sep = ",",header=TRUE,encoding = "utf-8") :
invalid input found on input connection 'test.utf8'

Wie kann ich die Daten Lesen Datei (test.utf8)?

In python ist es so einfach

rfile=open("g:\\test.utf8","r",encoding="utf-8").read()
rfile
'\ufeff乘客姓名,性别,出生日期\n\nHuangTianhui,男,1948/05/28\n\n姜翠云,女,1952/03
/27\n\n李红晶,女,1994/12/09'
rfile.replace("\n\n","\n").replace("\ufeff","").splitlines()
['乘客姓名,性别,出生日期', 'HuangTianhui,男,1948/05/28', '姜翠云,女,1952/03/27',
 '李红晶,女,1994/12/09']

Python kann Arbeit besser als R.

Ich tun, wie Sathish sagen, problem gelöst, ein wenig ,es bleiben immer noch einige.

Ich fand, dass, wenn die Daten im Daten.Rahmen ,es kann nicht richtig angezeigt werden,

wenn die Daten eine Spalte mit Daten.Frames richtig angezeigt werden,

seltsam genug,wenn die Daten einer Zeile von Daten.Rahmen,es kann nicht richtig angezeigt werden .

wie zu Lesen, die Daten in utf-8-format in R?

wie zu Lesen, die Daten in utf-8-format in R?

  • Es ist am besten, wenn Sie eine minimale reproduzierbare Beispiel hier, sondern als Verknüpfung an einem anderen Ort. Ich habe versucht, um Ihre UTF-8-Daten, bekam aber schnell gelangweilt von den popups und der Geschwindigkeit der website, die Sie schickte mich zu.
  • Was ist der Microsoft-Agenda? Meinst du Excel?
  • Versuchen Sie, mit Großbuchstaben für die encoding-string: read.table("test.utf8", sep=",", header=TRUE, encoding="UTF-8")
  • %windir%\system32\notepad.exe
  • Frage bleibt,es macht mich das Gefühl, dass es muss ein Fehler in der Codierung von R ,bitte Lesen Sie meinen text,das Loch sich mehr tiefer, als Sie zu erkunden .
  • Nein,ich fand, dass, wenn die Daten im Daten.Rahmen ,es kann nicht richtig angezeigt werden, wenn die Daten eine Spalte mit Daten.Rahmen ,kann es richtig angezeigt, seltsam genug,wenn die Daten einer Zeile von Daten.Rahmen,es kann nicht richtig angezeigt werden .das ist mein neues entdecken.
  • gelöst,ich denke, dass R sollte verbessert werden, lösen solche Codierung problem,in python ist es einfach.

Schreibe einen Kommentar