Wie zu erkennen, string-byte-Codierung?
Habe ich über 1000 Dateinamen Lesen os.listdir()
, einige von Ihnen sind in UTF8 kodiert, und einige sind CP1252.
Ich entschlüsseln will, alle von Ihnen zu Unicode für die weitere Verarbeitung in meinem Skript. Gibt es einen Weg, um die Quell-Codierung korrekt zu Dekodieren, die in Unicode?
Beispiel:
for item in os.listdir(rootPath):
#Convert to Unicode
if isinstance(item, str):
item = item.decode('cp1252') # or item = item.decode('utf-8')
print item
Du musst angemeldet sein, um einen Kommentar abzugeben.
wenn Ihre Dateien entweder in
cp1252
undutf-8
, dann gibt es einen einfachen Weg.ansonsten gibt es ein charset erkennen, lib.
Python - erkennen charset und konvertiere zu utf-8
https://pypi.python.org/pypi/chardet
Verwenden chardet-Bibliothek. Es ist super einfach
... und das ist es!