Wie funktioniert unicodedata.normalisieren(form, unistr) arbeiten?

Auf die API-doc, http://docs.python.org/2/library/unicodedata.html#unicodedata.normalize. Es sagt

Rückkehr der normalen form form für die Unicode-Zeichenfolge unistr. Gültige Werte für form sind 'NFC', 'NFKC', 'NFD' und 'NFKD'.`

Die Dokumentation ist eher vage, kann jemand erklären die valid values mit einigen Beispielen?

InformationsquelleAutor alvas | 2013-02-04

encoding normalization python unicode unicode-normalization

23

Ich finde die Dokumentation ziemlich klar, aber hier sind ein paar code-Beispiele:
```
from unicodedata import normalize

print '%r' % normalize('NFD', u'\u00C7')  # decompose: convert Ç to "C + ̧"
print '%r' % normalize('NFC', u'C\u0327') # compose: convert "C + ̧" to Ç
```
Beide 'D' (=zerlegen) Formen konvertieren einer einzigen kombinierten Zeichen (wie ä) in zwei Zeichen (a + die zwei Punkte). Die beiden 'C' (=zusammensetzen) Formen tun das Gegenteil.

Den beiden "K" - Formulare werden verwendet, um zu konvertieren Zeichen Hinzugefügt Unicode-Kompatibilität Zwecke. Zum Beispiel, die Unterstützung von software, die nicht zeichnen Kreise um die Symbole, gibt es eine Reihe von "eingekreisten zahlen", wie ① (unicode-Nummer 2460). Wenn wir die kanonische ZERLEGUNG (NFD), der es nicht tun:
```
print '%r' % normalize('NFD', u'\u2460')     # u'\u2460'
```
Jedoch die Kompatibilität Zersetzung (NFKD) wird wieder die entsprechende "kompatibel" Charakter:
```
print '%r' % normalize('NFKD', u'\u2460')    # 1
```
Sehen http://en.wikipedia.org/wiki/Unicode_equivalence für mehr details.

InformationsquelleAutor georg

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.