UnicodeDecodeError: 'ascii' codec kann nicht decodieren

Bin ich beim Lesen einer Datei, die enthält die Rumänische Wörter in der Python-Datei.readline().
Ich habe Probleme mit vielen Charakteren, weil der Codierung.

Beispiel :

>>> a = "aberație"  #type 'str'
>>> a -> 'abera\xc8\x9bie'
>>> print sys.stdin.encoding
UTF-8

Habe ich versucht, encode() mit utf-8, cp500 etc, aber es funktioniert nicht.

Kann ich nicht herausfinden, welche ist die richtige Zeichencodierung muss ich verwenden ?

vielen Dank im Voraus.

Edit: Das Ziel ist das speichern von word aus Datei in ein dictionnary, und beim drucken zu erhalten aberație und nicht 'abera\xc8\x9bie'

InformationsquelleAutor lilawood | 2011-06-30

15

Was wollen Sie tun?

Dies ist ein Satz von bytes:
```
BYTES = 'abera\xc8\x9bie'
```
Es ist ein Satz von bytes, die für einen utf-8 Codierung der Zeichenfolge "aberație". Sie decodieren der bytes, um Ihre unicode-Zeichenfolge:
```
>>> BYTES 
'abera\xc8\x9bie'
>>> print BYTES 
aberaÈ›ie
>>> abberation = BYTES.decode('utf-8')
>>> abberation 
u'abera\u021bie'
>>> print abberation 
aberație
```
Wenn Sie möchten, speichern Sie die unicode-Zeichenfolge in einer Datei, dann müssen Sie Kodieren es auf eine bestimmte byte-format Ihrer Wahl:
```
>>> abberation.encode('utf-8')
'abera\xc8\x9bie'
>>> abberation.encode('utf-16')
'\xff\xfea\x00b\x00e\x00r\x00a\x00\x1b\x02i\x00e\x00'
```
InformationsquelleAutor Claudiu

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.