Warum deklarieren Unicode durch Zeichenfolge in Python?

Ich bin immer noch lernen, python und ich habe einen Zweifel:

In python 2.6.x ich erklären in der Regel Codierung in die Datei-header, wie in diesem (wie in PEP 0263)

# -*- coding: utf-8 -*-

Danach, meine strings geschrieben werden wie üblich:

a = "A normal string without declared Unicode"

Aber jedesmal, wenn ich eine python-Projekt-code, die Codierung ist nicht deklariert in der header. Stattdessen ist es erklärt auf jede Zeichenfolge wie diese:

a = u"A string with declared Unicode"

Was ist der Unterschied? Was ist der Zweck dieses? Ich weiß, Python 2.6.x legt die ASCII-Kodierung standardmäßig, aber es kann überschrieben werden, indem die header-Erklärung, so was ist der Punkt, der pro string Erklärung?

Nachtrag: Scheint, dass ich Durcheinander Datei-Kodierung mit Kodierung. Danke für die Erklärung 🙂

Kommentar zu dem Problem - Öffnen

# coding: utf8 ist gut genug, keine Notwendigkeit für die -*- Kommentarautor: jellyfish

@Qualle ich nehme an, Sie meinte, geben Sie # coding: utf-8. Kommentarautor: Samuel Harmer

Sollte #coding=utf-8. python.org/dev/peps/pep-0263 Kommentarautor: Guangtong Shen

InformationsquelleAutor der Frage Oscar Carballal | 2010-07-03

144

Das sind zwei verschiedene Dinge, wie andere erwähnt haben.

, Wenn Sie angeben # -*- coding: utf-8 -*-, sagen Sie die Python-source-Datei, die Sie gespeichert haben ist utf-8. Die Standardeinstellung für Python 2 ist ASCII (für Python 3 ist es utf-8). Dies beeinflusst nur, wie der interpreter liest die Zeichen in der Datei.

Im Allgemeinen, es ist wahrscheinlich nicht die beste Idee zum einbetten hohen unicode-Zeichen in Ihre Datei ein, egal, was die Codierung ist; Sie können die Verwendung von string-unicode-escapes, die in entweder-Codierung.

, Wenn Sie erklären, eine Zeichenfolge mit einer u vor, wie u'This is a string' sagt es der Python-compiler, der string Unicode ist, nicht bytes. Dies erfolgt meist transparent durch den interpreter; der offensichtlichste Unterschied ist, dass jetzt können Sie einbetten von unicode-Zeichen in der Zeichenfolge (u'\u2665' jetzt legal ist). Sie können from __future__ import unicode_literals zu machen, die Standardeinstellung.

Gilt dies nur für Python 2 und Python 3 der Standard ist Unicode, und Sie müssen angeben, eine b vor (wie b'These are bytes' zu erklären, eine Sequenz von bytes).

InformationsquelleAutor der Antwort Chris B.
19

Wie schon andere gesagt haben, # coding: gibt die Codierung der source-Datei gespeichert ist. Hier sind einige Beispiele, die dies verdeutlichen:

Eine Datei auf der Festplatte gespeichert, wie cp437 (meine Konsole Codierung), aber keine Codierung erklärt
```
b = 'über'
u = u'über'
print b,repr(b)
print u,repr(u)
```
Ausgabe:
```
  File "C:\ex.py", line 1
SyntaxError: Non-ASCII character '\x81' in file C:\ex.py on line 1, but no
encoding declared; see http://www.python.org/peps/pep-0263.html for details
```
Ausgabe der Datei mit # coding: cp437 Hinzugefügt:
```
über '\x81ber'
über u'\xfcber'
```
Zuerst Python wusste nicht die Kodierung und beschwerte sich über die nicht-ASCII-Zeichen. Sobald er wusste, dass die Kodierung der byte-string bekam der bytes, die tatsächlich auf der Festplatte. Für die Unicode-Zeichenfolge, Python Lesen \x81, wusste, dass in cp437, dass war ein ü, und dekodiert es in den Unicode-codepoint für ü die U+00 FC. Wenn der byte-Zeichenfolge gedruckt wurde, Python schickte den hex-Wert 81 an der Konsole direkt. Wenn die Unicode-Zeichenfolge gedruckt wurde, Python richtig erkannt meine Konsole Codierung, wie cp437 und übersetzt Unicode ü auf die cp437 Wert für ü.

Hier ist, was passiert mit einer Datei deklariert und in UTF-8 gesichert:
```
├╝ber '\xc3\xbcber'
über u'\xfcber'
```
In UTF-8, ü wird codiert, wie der hex-bytes C3 BC, so dass der byte-string enthält die bytes, aber die Unicode-Zeichenfolge ist identisch mit dem ersten Beispiel. Python-Lesen Sie die zwei bytes und decodiert Sie es richtig. Python gedruckt byte-string falsch, denn er schickte die zwei UTF-8-bytes, die ü direkt zu meiner cp437 Konsole.

Hier die Datei deklariert ist cp437, aber in UTF-8 gesichert:
```
├╝ber '\xc3\xbcber'
├╝ber u'\u251c\u255dber'
```
Byte-string immer noch die bytes auf der Festplatte (UTF-8 hex-bytes C3 BC), sondern interpretiert Sie als zwei cp437 Zeichen anstatt ein einzelnes UTF-8-codierten Zeichen. Diese beiden Zeichen, wo die übersetzten Unicode-code-points und alles druckt falsch.

InformationsquelleAutor der Antwort Mark Tolonen
10

Dass nicht das format der Zeichenfolge; es legt das format der Datei. Auch mit diesem header "hello" ist ein byte-string, nicht in einen Unicode-string. Um es Unicode, du gehst zu haben, um mit u"hello" überall. Der header ist nur ein Hinweis darauf, was das format zu verwenden, wenn das Lesen der .py Datei.

InformationsquelleAutor der Antwort icktoofay
7

Die header-definition definieren Sie die Kodierung dem code selbst, nicht die resultierenden strings zur Laufzeit.

indem ein nicht-ascii-Zeichen wie ۲ in das python-Skript ohne die utf-8-header-definition wirft eine Warnung Fehler http://www.freeimagehosting.net/uploads/1ed15124c4.jpg

InformationsquelleAutor der Antwort ebt
0

wenn du mit python 2, fügen Sie diese:from __future__ import unicode_literals

InformationsquelleAutor der Antwort jencko

Ich aus dem folgenden Modul genannt unicoder tun zu können, die transformation der Variablen:

import sys
import os

def ustr(string):

    string = 'u"%s"'%string

    with open('_unicoder.py', 'w') as script:

        script.write('# -*- coding: utf-8 -*-\n')
        script.write('_ustr = %s'%string)

    import _unicoder
    value = _unicoder._ustr

    del _unicoder
    del sys.modules['_unicoder']

    os.system('del _unicoder.py')
    os.system('del _unicoder.pyc')

    return value

Dann in Ihrem Programm können Sie Folgendes tun:

# -*- coding: utf-8 -*-

from unicoder import ustr

txt = 'Hello, Unicode World'
txt = ustr(txt)

print type(txt) # <type 'unicode'>

InformationsquelleAutor der Antwort José María Sánchez Ruiz

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.