Wie bestimmt die Codierung von text?

Erhielt ich einige text, der codiert ist, aber ich weiß nicht, welche Zeichenkodierung verwendet wurde. Gibt es eine Möglichkeit, um zu bestimmen, die Codierung einer text-Datei mit Python? Wie kann ich erkennen, das encoding/codepage einer Textdatei beschäftigt sich mit C#.

InformationsquelleAutor Nope | 2009-01-12

190

Korrekten Erkennung der Kodierung aller Zeiten ist unmöglich.

(Von chardet-FAQ:)

Jedoch einige Codierungen optimiert sind
für bestimmte Sprachen, und Sprachen
nicht zufällig sind. Einige Zeichen
Sequenzen pop-up die ganze Zeit, während
andere Sequenzen, die keinen Sinn machen. Ein
person, die fließend Englisch spricht, der öffnet eine
Zeitung und findet “txzqJv 2!dasd0a
QqdKjvz" wird sofort erkennen, dass
das ist nicht Deutsch (obwohl Sie es ist
zusammengesetzt aus englischen Buchstaben).
Durch das Studium der vielen "typischen" text,
computer-Algorithmus kann dies simulieren
Art der Geläufigkeit und eine fundierte
denke, über sich ein text über die Sprache.

Gibt es die chardet Bibliothek verwendet, die Studie, um zu versuchen zu erkennen Codierung. chardet ist ein port für die automatische Erkennung von code in Mozilla.

Können Sie auch UnicodeDammit. Es werden die folgenden Methoden ausprobieren:
- Eine Codierung entdeckt, in dem Dokument selbst: zum Beispiel in eine XML-Deklaration oder (für HTML-Dokumente) ein http-equiv-META-tag. Wenn Schöne Suppe findet diese Art der Kodierung innerhalb des Dokuments analysiert das Dokument erneut von Anfang an und gibt die neue Codierung versuchen. Die einzige Ausnahme ist, wenn Sie explizit ein encoding, das encoding tatsächlich gearbeitet: es wird dann ignorieren Codierung findet es in dem Dokument.
- Eine Kodierung schnupperte, indem man die ersten paar bytes der Datei. Wenn eine Codierung erkannt wird, in diesem Stadium, es wird eine UTF-* Kodierungen, EBCDIC oder ASCII.
- Eine Kodierung schnupperte durch die chardet Bibliothek, wenn Sie es installiert haben.
- UTF-8
- Windows-1252
Vielen Dank für die chardet Referenz. Scheint gut, obwohl ein bisschen langsam.
Nicht in der Lage gewesen, die Codierung zu erkennen...ist das nicht ein Fehler in der Codierung standard? sollte das nicht immer vorhersehbar?
Es gibt keine solche Sache wie "die encoding-standard". Text-Kodierung ist etwas so alt wie computing, wuchs organisch mit der Zeit und muss, es war nicht geplant. "Unicode" ist ein Versuch, dieses Problem zu beheben.
Und nicht schlecht, alle Dinge betrachtet. Was ich gerne wissen würde ist, wie finde ich heraus, welche Kodierung einer offenen text-Datei geöffnet wurde?
was ich sagte ist, dass richtig erkannt wird aller Zeiten ist unmöglich. Alles, was Sie tun können, ist eine Vermutung, aber kann es manchmal scheitern, es funktioniert nicht jedes mal, aufgrund der Codierungen nicht wirklich nachweisbar. Zu tun, die denke, Sie können verwenden Sie eines der Werkzeuge, die ich vorgeschlagen, in die Antwort

InformationsquelleAutor nosklo
47

Weitere option für die Arbeit der Kodierung ist die Verwendung
libmagic (das ist der code hinter dem
Datei - Befehl). Es gibt eine fülle von
python-bindings zur Verfügung.

Die python-bindings, die live in der Datei source-tree sind als die
python-magic (oder Python ist3-magic)
debian-Paket. Es kann feststellen, die Kodierung einer Datei:
```
import magic

blob = open('unknown-file').read()
m = magic.open(magic.MAGIC_MIME_ENCODING)
m.load()
encoding = m.buffer(blob)  # "utf-8" "us-ascii" etc
```
Gibt es einen gleichnamigen, aber inkompatiblen, python-magic pip-Paket auf pypi, die auch verwendet libmagic. Es können auch die Kodierung, indem Sie:
```
import magic

blob = open('unknown-file').read()
m = magic.Magic(mime_encoding=True)
encoding = m.from_buffer(blob)
```
libmagic ist in der Tat eine gangbare alternative zu chardet. Und große Informationen über die verschiedene Pakete, die mit python-magic! Ich bin mir sicher, dass diese Mehrdeutigkeit beißt viele Leute
sudo apt-get install python3-magic für Python ist3
file ist nicht besonders gut auf die Identifizierung der menschlichen Sprache in text-Dateien. Es ist hervorragend für die Identifizierung der verschiedenen container-Formaten, obwohl Sie manchmal haben, um zu wissen, was es bedeutet ("Microsoft Office-Dokument" könnte bedeuten, dass eine Outlook-Nachricht, etc).
Auf der Suche nach einem Weg, um zu verwalten-Datei-Codierung Rätsel fand ich diesen Beitrag. Leider mit dem Beispiel code, ich kann nicht vorbei open(): UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfc in position 169799: invalid start byte. Die Datei-Kodierung nach vim ist :set fileencoding ist latin1.
Wenn ich das optionale argument errors='ignore', die Ausgabe der Beispiel-code ist der weniger hilfreich binary.

InformationsquelleAutor Hamish Downer

Einige encoding-Strategien, kommentieren bitte nach Geschmack :

#!/bin/bash
#
tmpfile=$1
echo '-- info about file file ........'
file -i $tmpfile
enca -g $tmpfile
echo 'recoding ........'
#iconv -f iso-8859-2 -t utf-8 back_test.xml > $tmpfile
#enca -x utf-8 $tmpfile
#enca -g $tmpfile
recode CP1250..UTF-8 $tmpfile

Möchten Sie vielleicht zu prüfen, die die Codierung durch das öffnen und Lesen der Datei in form einer Schleife... aber Sie müssen möglicherweise überprüfen Sie die Dateigröße erste :

encodings = ['utf-8', 'windows-1250', 'windows-1252' ...etc]
            for e in encodings:
                try:
                    fh = codecs.open('file.txt', 'r', encoding=e)
                    fh.readlines()
                    fh.seek(0)
                except UnicodeDecodeError:
                    print('got unicode error with %s , trying different encoding' % e)
                else:
                    print('opening the file with encoding:  %s ' % e)
                    break

Sie können auch io wie io.open(filepath, 'r', encoding='utf-8'), die bequemer ist, weil codecs konvertieren nicht \n automatisch auf das Lesen und schreiben. Mehr auf HIER

InformationsquelleAutor zzart

16

Hier ist ein Beispiel für das Lesen und die Einnahme unbesehen ein chardet Codierung Vorhersage, Lesen n_lines aus der Datei in der Ereignis-es ist groß.

chardet erhalten Sie auch eine Wahrscheinlichkeit (d.h. confidence) Codierung Vorhersage (noch nicht angesehen, wie Sie kommen), die zurückgegeben wird, mit seiner Vorhersage von chardet.predict(), so dass Sie arbeiten konnte, irgendwie, wenn Sie mögen.
```
def predict_encoding(file_path, n_lines=20):
    '''Predict a file's encoding using chardet'''
    import chardet

    # Open the file as binary data
    with open(file_path, 'rb') as f:
        # Join binary lines for specified number of lines
        rawdata = b''.join([f.readline() for _ in range(n_lines)])

    return chardet.detect(rawdata)['encoding']
```
Auf der Suche nach Sie-Stimmen Sie ab und sehen jetzt, dass diese Lösung könnte sich verlangsamen, wenn es viele Daten in der ersten Zeile. In einigen Fällen wäre es besser, die Daten zu Lesen, die in anders.
Ich habe geändert in dieser Funktion auf diese Weise: def predict_encoding(file_path, n=20): ... skip ... and then rawdata = b''.join([f.read() for _ in range(n)]) wurde versucht, diese Funktion auf Python-3.6, perfekt gearbeitet, mit "ascii", "cp1252", "utf-8", "unicode" - Kodierungen. Also das ist definitiv upvote.

InformationsquelleAutor ryanjdillon

# Function: OpenRead(file)

# A text file can be encoded using:
#   (1) The default operating system code page, Or
#   (2) utf8 with a BOM header
#
#  If a text file is encoded with utf8, and does not have a BOM header,
#  the user can manually add a BOM header to the text file
#  using a text editor such as notepad++, and rerun the python script,
#  otherwise the file is read as a codepage file with the 
#  invalid codepage characters removed

import sys
if int(sys.version[0]) != 3:
    print('Aborted: Python 3.x required')
    sys.exit(1)

def bomType(file):
    """
    returns file encoding string for open() function

    EXAMPLE:
        bom = bomtype(file)
        open(file, encoding=bom, errors='ignore')
    """

    f = open(file, 'rb')
    b = f.read(4)
    f.close()

    if (b[0:3] == b'\xef\xbb\xbf'):
        return "utf8"

    # Python automatically detects endianess if utf-16 bom is present
    # write endianess generally determined by endianess of CPU
    if ((b[0:2] == b'\xfe\xff') or (b[0:2] == b'\xff\xfe')):
        return "utf16"

    if ((b[0:5] == b'\xfe\xff\x00\x00') 
              or (b[0:5] == b'\x00\x00\xff\xfe')):
        return "utf32"

    # If BOM is not provided, then assume its the codepage
    #     used by your operating system
    return "cp1252"
    # For the United States its: cp1252


def OpenRead(file):
    bom = bomType(file)
    return open(file, 'r', encoding=bom, errors='ignore')


#######################
# Testing it
#######################
fout = open("myfile1.txt", "w", encoding="cp1252")
fout.write("* hi there (cp1252)")
fout.close()

fout = open("myfile2.txt", "w", encoding="utf8")
fout.write("\u2022 hi there (utf8)")
fout.close()

# this case is still treated like codepage cp1252
#   (User responsible for making sure that all utf8 files
#   have a BOM header)
fout = open("badboy.txt", "wb")
fout.write(b"hi there.  barf(\x81\x8D\x90\x9D)")
fout.close()

# Read Example file with Bom Detection
fin = OpenRead("myfile1.txt")
L = fin.readline()
print(L)
fin.close()

# Read Example file with Bom Detection
fin = OpenRead("myfile2.txt")
L =fin.readline() 
print(L) #requires QtConsole to view, Cmd.exe is cp1252
fin.close()

# Read CP1252 with a few undefined chars without barfing
fin = OpenRead("badboy.txt")
L =fin.readline() 
print(L)
fin.close()

# Check that bad characters are still in badboy codepage file
fin = open("badboy.txt", "rb")
fin.read(20)
fin.close()

InformationsquelleAutor Bill Moore

1

Abhängig von Ihrer Plattform, ich nur entscheiden, ob Sie die linux-shell file Befehl. Dies funktioniert für mich, da ich es in einem Skript, der ausschließlich läuft auf einem unserer linux-Rechner.

Natürlich ist dies nicht die ideale Lösung oder Antwort, aber es könnte geändert werden zu fit Ihre Bedürfnisse. In meinem Fall brauche ich nur, um festzustellen, ob eine Datei UTF-8 oder nicht.
```
import subprocess
file_cmd = ['file', 'test.txt']
p = subprocess.Popen(file_cmd, stdout=subprocess.PIPE)
cmd_output = p.stdout.readlines()
# x will begin with the file type output as is observed using 'file' command
x = cmd_output[0].split(": ")[1]
return x.startswith('UTF-8')
```
"Forken eines neuen Prozesses ist nicht erforderlich. Python-code läuft bereits innerhalb eines Prozesses und können die ordnungsgemäßen Funktionen des Systems, ohne selbst den Aufwand für das laden eines neuen Prozesses.

InformationsquelleAutor MikeD
0

Ist es im Prinzip unmöglich zu bestimmen, die Codierung einer text-Datei, in der Allgemeine Fall. Also Nein, es gibt keine standard-Python-Bibliothek, um das für Sie tun.

Wenn du mehr spezifische Kenntnisse über die text-Datei (z.B., dass es XML ist), könnte es sein, library-Funktionen.

InformationsquelleAutor Martin v. Löwis
0

Wenn Sie wissen, das einige Inhalte der Datei, die Sie versuchen können, Sie zu entschlüsseln, mit mehreren Kodierung und sehen, welches fehlt. Im Allgemeinen gibt es keine Möglichkeit, da eine text-Datei ist eine text-Datei, und die sind dumm 😉

InformationsquelleAutor Martin Thurau

-1

Diese Seite hat python-code für die Anerkennung der ascii-Kodierung mit Stücklisten und utf8 ohne bom: https://unicodebook.readthedocs.io/guess_encoding.html. Lesen der Datei in byte-array (data): http://www.codecodex.com/wiki/Read_a_file_into_a_byte_array. Hier ist ein Beispiel. Ich bin in osx.

#!/usr/bin/python                                                                                                  

import sys

def isUTF8(data):
    try:
        decoded = data.decode('UTF-8')
    except UnicodeDecodeError:
        return False
    else:
        for ch in decoded:
            if 0xD800 <= ord(ch) <= 0xDFFF:
                return False
        return True

def get_bytes_from_file(filename):
    return open(filename, "rb").read()

filename = sys.argv[1]
data = get_bytes_from_file(filename)
result = isUTF8(data)
print(result)


PS /Users/js> ./isutf8.py hi.txt                                                                                     
True

Ein link zu einer Lösung ist willkommen, aber bitte achten Sie darauf Ihre Antwort ist nützlich, ohne ihn: fügen Sie den Kontext um den link so dass Ihre Kolleginnen und Nutzer haben eine Vorstellung davon, was es ist und warum es da ist, dann zitiere den wichtigsten Teil der Seite, die Sie verknüpfen, um im Fall der Ziel-Seite nicht verfügbar ist. Antworten, die wenig mehr als ein link kann gelöscht werden.

InformationsquelleAutor js2010

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.