UnicodeDecodeError: 'utf-8' codec kann nicht Dekodieren von byte-error

Ich versuche eine Antwort zu bekommen, aus urllib - und entschlüsseln
zu einem lesbaren format. Der text ist in Hebräisch und enthält auch Zeichen wie { und /

top-Seite-Codierung ist:

# -*- coding: utf-8 -*-

raw-string ist:

b'\xff\xfe{\x00 \x00\r\x00\n\x00"\x00i\x00d\x00"\x00 \x00:\x00 \x00"\x001\x004\x000\x004\x008\x003\x000\x000\x006\x004\x006\x009\x006\x00"\x00,\x00\r\x00\n\x00"\x00t\x00i\x00t\x00l\x00e\x00"\x00 \x00:\x00 \x00"\x00\xe4\x05\xd9\x05\xe7\x05\xd5\x05\xd3\x05 \x00\xd4\x05\xe2\x05\xd5\x05\xe8\x05\xe3\x05 \x00\xd4\x05\xea\x05\xe8\x05\xe2\x05\xd4\x05 \x00\xd1\x05\xde\x05\xe8\x05\xd7\x05\xd1\x05 \x00"\x00,\x00\r\x00\n\x00"\x00d\x00a\x00t\x00a\x00"\x00 \x00:\x00 \x00[\x00]\x00\r\x00\n\x00}\x00\r\x00\n\x00\r\x00\n\x00'

Nun bin ich versucht, Sie zu entschlüsseln mit:

 data = data.decode()

und ich bekomme die folgende Fehlermeldung:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

InformationsquelleAutor user1641071 | 2014-07-08

16

Dein problem ist, dass nicht UTF-8. Sie haben UTF-16 kodierte Daten dekodiert werden Sie als solche:
```
>>> data = b'\xff\xfe{\x00 \x00\r\x00\n\x00"\x00i\x00d\x00"\x00 \x00:\x00 \x00"\x001\x004\x000\x004\x008\x003\x000\x000\x006\x004\x006\x009\x006\x00"\x00,\x00\r\x00\n\x00"\x00t\x00i\x00t\x00l\x00e\x00"\x00 \x00:\x00 \x00"\x00\xe4\x05\xd9\x05\xe7\x05\xd5\x05\xd3\x05 \x00\xd4\x05\xe2\x05\xd5\x05\xe8\x05\xe3\x05 \x00\xd4\x05\xea\x05\xe8\x05\xe2\x05\xd4\x05 \x00\xd1\x05\xde\x05\xe8\x05\xd7\x05\xd1\x05 \x00"\x00,\x00\r\x00\n\x00"\x00d\x00a\x00t\x00a\x00"\x00 \x00:\x00 \x00[\x00]\x00\r\x00\n\x00}\x00\r\x00\n\x00\r\x00\n\x00'
>>> data.decode('utf16')
'{ \r\n"id" : "1404830064696",\r\n"title" : "פיקוד העורף התרעה במרחב ",\r\n"data" : []\r\n}\r\n\r\n'
>>> import json
>>> json.loads(data.decode('utf16'))
{'title': 'פיקוד העורף התרעה במרחב ', 'id': '1404830064696', 'data': []}
```
Wenn Sie geladen wird dieser von einer website mit urllib.request, die Content-Type header sollte enthalten charset parameter sagen Sie dies; wenn response ist der zurückgegebene urllib.request response-Objekt, dann nutzen Sie:
```
codec = response.info().get_content_charset('utf-8')
```
Diese standardmäßig UTF-8, wenn keine charset parameter wurde gesetzt, das ist der geeignete Standard für die JSON-Daten.

Alternativ verwenden Sie die Anfragen - Bibliothek zum laden der JSON-Antwort, es übernimmt die Dekodierung automatisch (einschließlich UTF-codec-Erkennung spezifische JSON-Antworten).

Eine weitere Anmerkung: die PEP 263 source-code-codec Kommentar verwendet wird nur interpretieren Sie Ihre source-code, einschließlich zeichenfolgenliterale. Es hat nichts zu tun mit Kodierungen von externen Quellen (Dateien, Netzwerk-Daten, etc.).
- Das war ziemlich schnell und hilfreich, danke dafür!
InformationsquelleAutor Martijn Pieters

Bekam ich diese Fehlermeldung in Django mit Python 3.4. Ich habe versucht, diese arbeiten mit django-rest-framework.

Das war mein code, der den Fehler behoben UnicodeDecodeError: 'utf-8' codec kann nicht decodieren byte Fehler.

Dies ist das bestehen der Prüfung:

import os
from os.path import join, dirname
import uuid
from rest_framework.test import APITestCase

class AttachmentTests(APITestCase):

    def setUp(self):
        self.base_dir = dirname(dirname(dirname(__file__)))

        self.image = join(self.base_dir, "source/test_in/aaron.jpeg")
        self.image_filename = os.path.split(self.image)[1]

    def test_create_image(self):
        id = str(uuid.uuid4())
        with open(self.image, 'rb') as data:
            # data = data.read()
            post_data = {
                'id': id,
                'filename': self.image_filename,
                'file': data
            }

            response = self.client.post("/api/admin/attachments/", post_data)

            self.assertEqual(response.status_code, 201)

InformationsquelleAutor Aaron Lelevier

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.