Python erkennt String-Byte-Codierung

Habe ich über 1000 Dateinamen Lesen, die von os.listdir()
einige von Ihnen sind codiert, 'utf-8' und einige 'cp1252'.

Ich entschlüsseln will, alle von Ihnen zu unicode für die weitere Verarbeitung in meinem Skript. Gibt es einen Weg, um die Quell-Codierung korrekt zu Dekodieren, die in unicode?

Beispiel:

for item in os.listdir(rootPath):

    #Convert to Unicode
    if isinstance(item, str):
        item = item.decode('cp1252')  # or item = item.decode('utf-8')
    print item

InformationsquelleAutor der Frage Phil | 2013-04-10

wenn Ihre Dateien entweder in cp1252 und utf-8dann gibt es einen einfachen Weg.

import logging
def force_decode(string, codecs=['utf8', 'cp1252']):
    for i in codecs:
        try:
            return string.decode(i)
        except UnicodeDecodeError:
            pass

    logging.warn("cannot decode url %s" % ([string]))

for item in os.listdir(rootPath):
    #Convert to Unicode
    if isinstance(item, str):
        item = force_decode(item)
    print item

ansonsten gibt es ein charset erkennen, lib.

Python - erkennen charset und konvertiere zu utf-8

https://pypi.python.org/pypi/chardet

InformationsquelleAutor der Antwort lucemia

8

Verwenden chardet-Bibliothek. Es ist super einfach
```
import chardet

the_encoding = chardet.detect('your string')['encoding']
```
und das ist es!

InformationsquelleAutor der Antwort george

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.