Konvertieren von UTF-8-Bytes in unicode-Codepunkte

Habe ich eine Reihe von UTF-8-Oktetten, und ich brauche Sie zurück konvertieren in unicode-Codepunkte. Wie kann ich dies in python.

z.B. UTF-8 octet ['0xc5','0x81'] umgewandelt werden soll, um 0x141 codepoint.

Sind Sie zu 100% das ist, was du hast? Könnte ich bitte Fragen, eine sehr dumme Frage: Wie in aller Welt hast du es geschafft, erwerben die Daten in diesem format?
Sind Sie versuchen, zu konvertieren von code Punkte oder "Python" Unicode-string? Das ist ein ganz großer Unterschied, denn der Python-Unicode-string hält UTF-16 und eine code-point verschlüsselt sein können mit zwei "Zeichen" -- ersatzpaar. Sich bewusst sein, was Sie wollen. Die akzeptierte Antwort würde nicht geben Sie den code Punkte aber UTF-16-codierte Zeichenfolge.
Ich habe die Werte aus einer Konvertierungsfunktion, die konvertiert aus unserem internen Codierung auf utf-8 und Umgekehrt.
Ich möchte zum konvertieren von utf-8 in unicode-Codepunkte. SO, wie man unicode-code-points anstelle von python-unicode-string

InformationsquelleAutor Poorna | 2009-12-08

14

Python 3.x:

In Python 3.x, str ist die Klasse für Unicode-text, und bytes ist für mit Bytes.

Wenn Sie von "Oktette" Sie wirklich meinen strings in der form "0xc5' (statt '\xc5') können Sie konvertieren, um bytes wie diese:
```
>>> bytes(int(x,0) for x in ['0xc5', '0x81'])
b'\xc5\x81'
```
Können Sie konvertieren Sie dann str (ie: Unicode) mithilfe der str Konstruktor...
```
>>> str(b'\xc5\x81', 'utf-8')
'Ł'
```
...oder durch Aufruf .decode('utf-8') auf die bytes Objekt:
```
>>> b'\xc5\x81'.decode('utf-8')
'Ł'
>>> hex(ord('Ł'))
'0x141'
```
Pre-3.x:

Vor 3.x, die str Typ war ein byte-array und unicode war für Unicode-text.

Wieder, wenn Sie von "Oktette" Sie wirklich meinen strings in der form "0xc5' (statt '\xc5') können Sie konvertieren Sie wie folgt:
```
>>> ''.join(chr(int(x,0)) for x in ['0xc5', '0x81'])
'\xc5\x81'
```
Können Sie konvertieren Sie dann unicode mit dem Konstruktor...
```
>>> unicode('\xc5\x81', 'utf-8')
u'\u0141'
```
...oder durch Aufruf .decode('utf-8') auf die str:
```
>>> '\xc5\x81'.decode('utf-8')
u'\u0141'
```
- +1, gut erklärt!
- +1: Auch für int(x,0) hat den Vorteil, erlauben gemischte base octect Strings, zum Beispiel ['0xc5', '0x81', '0305', '0201'] sind die hex-und octal-Darstellungen derselben. int(x,16) wäre falsch, das oktal-strings in diesem Eingang
- Fehler erkennen int(x, 16) verwendet werden könnten: bytearray(int(x, 16) for x in ['0xc5', '0x81']).decode('utf-8', 'surrogatepass') (single-source-Python-2/3-code)
- die unicode nicht definiert ist
- Die Antwort war, die ursprünglich für den pre-3.x. Es gibt keine unicode im 3.x mehr-es ist jetzt str. Ich habe aktualisiert die Antwort auf beide 2.x-und 3.x-Versionen.
- cool. vielen Dank für Ihr kommen zurück und Aktualisierung viele Jahre später!
InformationsquelleAutor Laurence Gonsalves
6

In schönen, 3.x, wo alle strs sind Unicode und bytes sind, was strs verwendet werden:
```
>>> s = str(bytes([0xc5, 0x81]), 'utf-8')
>>> s
'Ł'
>>> ord(s)
321
>>> hex(ord(s))
'0x141'
```
Das ist, was Sie gefragt haben.
- könnten Sie bytearray([0xc5, 0x81]).decode('utf-8') das funktioniert sowohl Python 2 und 3.
InformationsquelleAutor Don O'Donnell

l = ['0xc5','0x81']
s = ''.join([chr(int(c, 16)) for c in l]).decode('utf8')
s
>>> u'\u0141'

InformationsquelleAutor mhawke

>>> "".join((chr(int(x,16)) for x in ['0xc5','0x81'])).decode("utf8")
u'\u0141'

InformationsquelleAutor YOU

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Python 3.x:

Pre-3.x: