Wie funktioniert unicodedata.normalisieren(form, unistr) arbeiten?
Auf die API-doc, http://docs.python.org/2/library/unicodedata.html#unicodedata.normalize. Es sagt
Rückkehr der normalen form form für die Unicode-Zeichenfolge unistr. Gültige Werte für form sind 'NFC', 'NFKC', 'NFD' und 'NFKD'.`
Die Dokumentation ist eher vage, kann jemand erklären die valid values
mit einigen Beispielen?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ich finde die Dokumentation ziemlich klar, aber hier sind ein paar code-Beispiele:
Beide 'D' (=zerlegen) Formen konvertieren einer einzigen kombinierten Zeichen (wie
ä
) in zwei Zeichen (a
+ die zwei Punkte). Die beiden 'C' (=zusammensetzen) Formen tun das Gegenteil.Den beiden "K" - Formulare werden verwendet, um zu konvertieren Zeichen Hinzugefügt Unicode-Kompatibilität Zwecke. Zum Beispiel, die Unterstützung von software, die nicht zeichnen Kreise um die Symbole, gibt es eine Reihe von "eingekreisten zahlen", wie ① (unicode-Nummer 2460). Wenn wir die kanonische ZERLEGUNG (NFD), der es nicht tun:
Jedoch die Kompatibilität Zersetzung (NFKD) wird wieder die entsprechende "kompatibel" Charakter:
Sehen http://en.wikipedia.org/wiki/Unicode_equivalence für mehr details.