Warum Python-unicode-Zeichenfolgen, die eine Besondere Behandlung erfordern, für die UTF-8-BOM?

Aus irgendeinem Grund, Python zu sein scheint, Probleme mit BOM beim Lesen von unicode-Zeichenfolgen aus einer UTF-8 - Datei. Betrachten Sie das folgende:

with open('test.py') as f:
   for line in f:
      print unicode(line, 'utf-8')

Scheint einfach, nicht wahr?

Das ist, was ich dachte, bis ich lief es von der Kommandozeile aus und bekam:

UnicodeEncodeError: 'charmap' codec can T encode character u'\ufeff'
in Stellung 0: - Charakter-Karten zu <undefined>

Einen kurzen Besuch zu Google ergab, dass BOM werden deaktiviert manuell:

import codecs
with open('test.py') as f:
   for line in f:
      print unicode(line.replace(codecs.BOM_UTF8, ''), 'utf-8')

Diese läuft einwandfrei. Aber ich bin kämpfen, um zu sehen, ein Verdienst in diesem.

Gibt es eine Logik hinter den oben beschriebenen Verhalten? Im Gegensatz dazu, UTF-16 arbeitet nahtlos.

Kann es nicht codieren, da U+FEFF ist eine ungültige nicht. Es ist, weil die UTF-8-Dateien sind nicht enthalten soll, eine Stückliste in Ihnen! Sie sind weder vorgeschrieben noch werden Sie empfohlen. Endianness macht keinen Sinn mit 8-bit-code-Einheiten. Sie Schrauben die Dinge, auch, weil Sie können nicht mehr einfach tun cat a b c > abc wenn diese Dateien überflüssige (read: alle) Stücklisten in Ihnen. UTF-8-streams sollte nicht enthalten eine Stückliste. Wenn Sie brauchen, um geben Sie den Inhalt der Datei, Sie sollen auf eine höhere Ebene prototocl. Dies ist nur ein Windows-Fehler.
Wissen Sie, diese Erklärung in Kombination mit Josh Lee ' s Vorschlag würde in eine perfekte Antwort.
Ok, Hinzugefügt. Hoffe, dass das funktioniert.
Habe deine Fehlermeldung passieren zu erwähnen, die mit dem Namen cp437.py?

InformationsquelleAutor Saul | 2011-09-01

28

Den 'utf-8-sig' Codierung verbraucht der BOM Signatur in Ihrem Namen.
- Ja, das ist der fix, aber ich war mehr daran interessiert, das warum.
- UTF8 hat keine byte order mark per definition.
- Suave: das lustige an Der Sache ist, dass der Unicode-Standard erlaubt ein BOM in UTF-8. Siehe unicode.org/versions/Unicode5.0.0/ch02.pdf, Seite 36, Tabelle 2-4.
- Weiß jemand, ob diese noch funktioniert, wenn die Stückliste nicht vorhanden ist?
InformationsquelleAutor Josh Lee
13

Sie schrieb:
```
 UnicodeEncodeError: 'charmap' codec can't encode character u'\ufeff' in position 0: character maps to <undefined>
```
Wenn Sie angeben, die "utf-8" Codierung in Python, es nimmt Sie beim Wort. UTF-8-Dateien sollen nicht enthalten eine Stückliste in Ihnen. Sie sind weder vorgeschrieben noch werden Sie empfohlen. Endianness macht keinen Sinn mit 8-bit-code-Einheiten.

Stücklisten Schraube Dinge, auch, weil Sie können nicht mehr einfach tun:
```
$ cat a b c > abc 
```
wenn diese UTF-8-Dateien haben überflüssige (read: alle) Stücklisten in Ihnen. Sehen Sie jetzt, warum die Stücklisten sind so dumm/schlecht/schädlich in UTF-8? Sie haben tatsächlich Dinge brechen.

Ist eine Stückliste Metadaten, nicht Daten, und die UTF-8-encoding-Spezifikation macht keine Zulage für die Art, wie die UTF-16 und UTF-32-Spezifikationen zu tun. Also Python nahm Sie beim Wort und folgte dem spec. Schwer Schuld dafür.

Wenn Sie versuchen, verwenden Sie die Stückliste als Dateityp Magische Zahl geben Sie den Inhalt der Datei, Sie sollten wirklich nicht tun. Sie sind wirklich sollen eine höhere Ebene prototocl für diese Metadaten, Zwecke, nur, wie es mit einem MIME-Typ.

Ist das nur eine lahme Windows-Fehler, die Problemumgehung für die Verwendung des alternativen Kodierung "utf-8-sig" zu pass off zu Python.
- Kodieren Sie U+FEFF in UTF-8, wenn Sie mögen. Kann man nicht codieren, es in latin-1, das ist, was 'charmap' verwendet für mich.
- Du hast Recht. Ich erhalte dylexic Fehlfunktion und Lesen FEFF als FFFE. Es ist FFFE, das illegal für den offenen Austausch. FEFF ist nur ZERO WIDTH NO-BREAK SPACE.
- Es ist sehr frustrierend sich mit diesen, und ich würde lieben, zu nennen dies ein Windows bug ist, aber der standard ist in der Tat erlauben Stücklisten in UTF-8 Dateien. Siehe unicode.org/versions/Unicode5.0.0/ch02.pdf, Seite 36, Tabelle 2-4 und der text "[BOM] auftreten können, werden in Kontexten, in denen UTF-8 konvertieren von Daten aus anderen Codierungen, die mit einem BOM oder dem die Stückliste verwendet wird als UTF-8-Signatur." und en.wikipedia.org/wiki/Byte_order_mark und Re: pre-HTML5 und die Stückliste von Asmus Freytag am 2012-07-13 (Unicode Mail List Archive)
InformationsquelleAutor tchrist

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.