Konvertieren von UTF-8-Bytes in unicode-Codepunkte

Habe ich eine Reihe von UTF-8-Oktetten, und ich brauche Sie zurück konvertieren in unicode-Codepunkte. Wie kann ich dies in python.

z.B. UTF-8 octet ['0xc5','0x81'] umgewandelt werden soll, um 0x141 codepoint.

  • Sind Sie zu 100% das ist, was du hast? Könnte ich bitte Fragen, eine sehr dumme Frage: Wie in aller Welt hast du es geschafft, erwerben die Daten in diesem format?
  • Sind Sie versuchen, zu konvertieren von code Punkte oder "Python" Unicode-string? Das ist ein ganz großer Unterschied, denn der Python-Unicode-string hält UTF-16 und eine code-point verschlüsselt sein können mit zwei "Zeichen" -- ersatzpaar. Sich bewusst sein, was Sie wollen. Die akzeptierte Antwort würde nicht geben Sie den code Punkte aber UTF-16-codierte Zeichenfolge.
  • Ich habe die Werte aus einer Konvertierungsfunktion, die konvertiert aus unserem internen Codierung auf utf-8 und Umgekehrt.
  • Ich möchte zum konvertieren von utf-8 in unicode-Codepunkte. SO, wie man unicode-code-points anstelle von python-unicode-string
InformationsquelleAutor Poorna | 2009-12-08
Schreibe einen Kommentar