Kann jemand erklären, wie unicodedata.normalize (form, unistr) mit Beispielen arbeitet?
Also auf die API-doc, http://docs.python.org/2/library/unicodedata.html#unicodedata.normalize. Es sagt
Rückkehr der normalen form form für die Unicode-Zeichenfolge unistr. Gültige Werte für form sind 'NFC', 'NFKC', 'NFD' und 'NFKD'.`
Die Dokumentation ist eher vage, kann jemand erklären die valid values
mit einigen Beispielen?
InformationsquelleAutor der Frage alvas | 2013-02-04
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ich finde die Dokumentation ziemlich klar, aber hier sind ein paar code-Beispiele:
Beide 'D' (=zerlegen) Formen konvertieren einer einzigen kombinierten Zeichen (wie
ä
) in zwei Zeichen (a
+ die zwei Punkte). Die beiden 'C' (=zusammensetzen) Formen tun das Gegenteil.Den beiden "K" - Formulare werden verwendet, um zu konvertieren Zeichen Hinzugefügt Unicode-Kompatibilität Zwecke. Zum Beispiel, die Unterstützung von software, die nicht zeichnen Kreise um die Symbole, gibt es eine Reihe von "eingekreisten zahlen", wie ① (unicode-Nummer 2460). Wenn wir die kanonische ZERLEGUNG (NFD), der es nicht tun:
Jedoch die Kompatibilität Zersetzung (NFKD) wird wieder die entsprechende "kompatibel" Charakter:
Sehen http://en.wikipedia.org/wiki/Unicode_equivalence für mehr details.
InformationsquelleAutor der Antwort georg