Konvertiert null-gepolsterte bytes in UTF-8-string

Ich bin Auspacken mehrere Strukturen enthalten " s " - Typ-Felder von C. enthalten Die Felder mit Nullen aufgefüllt UTF-8-Zeichenfolgen behandelt strncpy in den C-code (Hinweis: diese Funktion ist verkümmert Verhalten). Wenn ich decode bytes bekomme ich einen unicode-string mit vielen NUL Zeichen am Ende.

>>> b'hiya\0\0\0'.decode('utf8')
'hiya\x00\x00\x00'

War ich unter dem Eindruck, dass nachgestellte null-bytes wurden Teil von UTF-8 und wäre automatisch gelöscht.

Was ist der richtige Weg, um die drop null bytes?

InformationsquelleAutor der Frage Matt Joiner | 2011-02-22

16

Entweder rstrip oder replace wird nur funktionieren, wenn der string ist gepolstert, das auf das Ende des Puffers, mit null. In der Praxis wird der Puffer kann nicht initialisiert um null zu beginnen, so bekommen Sie vielleicht so etwas wie b'hiya\0x\0'.

Wenn Sie wissen, kategorisch zu 100%, dass der C-code beginnt mit einer null initialisiert Puffer und nie nie wieder benutzt, dann findest du vielleicht rstrip um einfacher zu sein, sonst würde ich gehen für die etwas chaotischer, aber sehr viel sicherer:
```
>>> b'hiya\0x\0'.split(b'\0',1)[0]
b'hiya'
```
behandelt die erste null als terminator.

InformationsquelleAutor der Antwort Duncan
17

Verwenden str.rstrip() , entfernen Sie die nachfolgende NULs:
```
>>> 'hiya\0\0\0'.rstrip('\0')
'hiya'
```
InformationsquelleAutor der Antwort Adam Rosenfield
3

Im Gegensatz zu den split/partition-Lösung nicht kopieren Sie mehrere strings und könnte schneller sein für lange bytearrays.
```
data = b'hiya\0\0\0'
i = data.find(b'\x00')
if i == -1:
  return data
return data[:i]
```
InformationsquelleAutor der Antwort phobie
1

Vielleicht könnten Sie nennen .replace('\0', '') und reinigen Sie Sie?

InformationsquelleAutor der Antwort Paul Schreiber

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.