iconv unicode-unknown input format

Ich habe eine Datei, in der beschrieben wird unter Unix wie:

$file xxx.csv 
xxx.csv: UTF-8 Unicode text, with very long lines

Betrachten in less/vi machen wird, werden einige Sonderzeichen (ßÄ°...) unlesbar (├╝); unter Windows wird auch nicht angezeigt wird, importieren Sie ihn direkt in der db ändern Sie einfach die Sonderzeichen einige Sonderzeichen (+ä, +ñ, ...).

Wollte ich konvertieren es jetzt eine "Standard-lesbar" encoding mit iconv.
Wenn ich versuche es zu konvertieren mit iconv

$iconv -f UTF-8 -t ISO-8859-1 xxx.csv > yyy.csv
iconv: illegal input sequence at position 1234

Verwendung von UNICODE als Eingabe-und UTF-8 als Ausgabe wird wieder die gleiche Meldung

Ich vermute, die Datei ist etwas kodiert, die in einem anderen format, die ich nicht kenne - wie kann ich herausfinden, welches format um zu konvertieren, um etwas "universell" lesbares ...

  • Versuchen Sie es zu öffnen in einem text-editor, mit dem Sie die Kodierung ändern mit was die Datei zu öffnen. Schlimmsten Fall, die ein browser nicht so gut. Dann spielen, um mit den verfügbaren Kodierungen und sehen, was zeigt Zeichen korrekt.
  • Ich habe versucht mit notepad++, aber es ist 680MB und notepad++ sagt mir, es ist zu groß ..
  • Die Datei ist offensichtlich nicht UTF-8, auch wenn file haben es erraten. Können Sie uns zeigen, die acht bytes beginnend bei offset 1234, in deren hexdump form?
  • Wie soll ich das tun? Btw, öffnete ich es auf meinem mac mit bbedit öffnet es correcly gemacht, wie unicode utf-8 ...
InformationsquelleAutor RRZ Europe | 2011-10-07
Schreibe einen Kommentar