Python erkennt String-Byte-Codierung
Habe ich über 1000 Dateinamen Lesen, die von os.listdir()
einige von Ihnen sind codiert, 'utf-8' und einige 'cp1252'.
Ich entschlüsseln will, alle von Ihnen zu unicode für die weitere Verarbeitung in meinem Skript. Gibt es einen Weg, um die Quell-Codierung korrekt zu Dekodieren, die in unicode?
Beispiel:
for item in os.listdir(rootPath):
#Convert to Unicode
if isinstance(item, str):
item = item.decode('cp1252') # or item = item.decode('utf-8')
print item
InformationsquelleAutor der Frage Phil | 2013-04-10
Du musst angemeldet sein, um einen Kommentar abzugeben.
wenn Ihre Dateien entweder in
cp1252
undutf-8
dann gibt es einen einfachen Weg.ansonsten gibt es ein charset erkennen, lib.
Python - erkennen charset und konvertiere zu utf-8
https://pypi.python.org/pypi/chardet
InformationsquelleAutor der Antwort lucemia
Verwenden chardet-Bibliothek. Es ist super einfach
und das ist es!
InformationsquelleAutor der Antwort george