Wie kann ich die Kodierung / Codepage einer Textdatei erkennen?

In unserer Anwendung, erhalten wir text-Dateien ( .txt , .csv usw.) aus diversen Quellen. Beim Lesen, diese Dateien enthalten manchmal Müll, da die Dateien, in denen erstellt, die in eine andere/unbekannte codepage.

Gibt es eine Möglichkeit, (automatisch) erkennt den Zeichensatz einer text-Datei?

Den detectEncodingFromByteOrderMarks auf der StreamReader Konstruktor, arbeitet für UTF8 und andere unicode markiert Dateien, aber ich bin auf der Suche nach einem Weg, um zu erkennen, code-Seiten, wie ibm850windows1252.

Dank für Eure Antworten, dies ist, was ich getan habe.

Dateien, die wir erhalten, sind von der end-Benutzer, Sie haben nicht einen Anhaltspunkt über codepages. Die Receiver sind auch end-Anwendern jetzt das ist, was Sie wissen über Zeichensätze: Zeichentabellen existieren, und Sie sind ärgerlich.

Lösung:

Öffnen Sie die empfangene Datei in Editor, Blick auf einen verstümmelten text. Wenn jemand namens François oder so, mit eurer menschlichen Intelligenz, die Sie erraten können.
Ich habe eine kleine Anwendung, die Benutzer verwenden können, um die Datei zu öffnen, und geben Sie einen text ein, der Benutzer kennt es erscheint in der Datei, wenn der richtige Zeichensatz verwendet wird.
Schleife über alle Zeichensätze und zeigen diejenigen, die Sie geben, eine Lösung mit dem Nutzer zur Verfügung gestellten text.
Wenn mehr als eine codepage erscheint, bitten Sie den Benutzer, geben Sie mehr text.

InformationsquelleAutor der Frage GvS | 2008-09-18

.net c#encoding globalization text

251

Können Sie nicht erkennen, die codepage, die Sie erzählt werden müssen. Sie können analysieren, die bytes und Schätze es, aber das kann ein paar bizarre (manchmal amüsant) Ergebnisse. Ich finde es jetzt nicht, aber ich bin mir sicher, dass Notepad kann ausgetrickst werden, die Anzeige englische text in Chinesisch.

Sowieso, das ist, was Sie brauchen, um zu Lesen:
Das Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!).

Speziell Joel sagt:

Die Wichtigste Tatsache Über Codierungen

Wenn Sie komplett alles vergessen, was ich gerade erklärt habe, bitte denken Sie daran, eine sehr wichtige Tatsache. Es ist nicht sinnvoll, eine Zeichenfolge, die, ohne zu wissen, mit welchem encoding es verwendet. Sie können nicht mehr kleben Sie den Kopf in den sand stecken und so tun, dass "plain" - text ist ASCII.
Es gibt Kein Solches Ding Als reinen Text.

Wenn du einen string hast, in der Erinnerung, in eine Datei oder in eine E-Mail-Nachricht, müssen Sie wissen, welche Kodierung es ist in oder Sie nicht interpretieren kann, oder es anzeigen, um die Nutzer richtig.

InformationsquelleAutor der Antwort JV.
30

Wenn Sie schauen, um zu erkennen, nicht-UTF-Codierungen (d.h. keine Stückliste), sind Sie grundsätzlich nach unten auf Heuristiken und statistische Analyse des Textes. Möchten Sie vielleicht einen Blick auf die Mozilla Papier auf universal-charset-Erkennung (derselbe link mit besserer Formatierung via Wayback Machine).

InformationsquelleAutor der Antwort Tomer Gabel

Haben Sie versucht, C# - port für Mozilla Universal Charset Detector

Beispiel aus http://code.google.com/p/ude/

public static void Main(String[] args)
{
    string filename = args[0];
    using (FileStream fs = File.OpenRead(filename)) {
        Ude.CharsetDetector cdet = new Ude.CharsetDetector();
        cdet.Feed(fs);
        cdet.DataEnd();
        if (cdet.Charset != null) {
            Console.WriteLine("Charset: {0}, confidence: {1}", 
                 cdet.Charset, cdet.Confidence);
        } else {
            Console.WriteLine("Detection failed.");
        }
    }
}

InformationsquelleAutor der Antwort ITmeze

16

Sie nicht erkennen kann, die codepage

Dies ist eindeutig falsch. Jeder web-browser hat eine Art von universal-charset detector Umgang mit Seiten, die keinerlei Hinweis auf eine Verschlüsselung. Firefox hat. Sie können den code herunterladen und sehen, wie er es tut. Siehe Dokumentation, die hier. Im Grunde ist es eine heuristische, aber eine, die funktioniert wirklich gut.

Erhält eine angemessene Menge an text, ist es auch möglich, zu erkennen, die Sprache.

Hier ist noch eins Ich gerade gefunden über Google:

InformationsquelleAutor der Antwort shoosh
8

Ich weiß, es ist sehr spät für diese Frage und diese Lösung wird nicht Appell an einige (wegen seiner Englisch-centric bias und seine fehlende statistische/empirische Tests), aber es funktionierte sehr gut für mich, vor allem für die Verarbeitung hochgeladenen CSV-Daten:

http://www.architectshack.com/TextFileEncodingDetector.ashx

Vorteile:
- BOM-Erkennung eingebaute
- Default/fallback-encoding anpassbare
- ziemlich zuverlässig (meiner Erfahrung nach) für western-european-basierte Dateien mit einigen exotischen Daten (z.B. französische Namen) mit einer Mischung von UTF-8 und Latin-1-Stil-Dateien - im Grunde der Großteil der US-und westlichen europäischen Umgebungen.
Anmerkung: ich bin derjenige, der dies schrieb, Klasse, also offensichtlich nehmen Sie es mit einem Körnchen Salz! 🙂

InformationsquelleAutor der Antwort Tao
7

Notepad++ hat dieses feature out-of-the-box. Es unterstützt auch, es zu ändern.

InformationsquelleAutor der Antwort hegearon

Suchen andere Lösung, die ich fand, dass

https://code.google.com/p/ude/

diese Lösung ist ein bisschen schwer.

Brauchte ich einige basic-encoding-Erkennung, basierend auf 4 ersten bytes und wahrscheinlich xml-charset-Erkennung - so habe ich nahm einige Beispiel-Quellcode aus dem internet und fügte leicht modifizierte version von

http://lists.w3.org/Archives/Public/www-validator/2002Aug/0084.html

geschrieben für Java.

    public static Encoding DetectEncoding(byte[] fileContent)
    {
        if (fileContent == null)
            throw new ArgumentNullException();

        if (fileContent.Length < 2)
            return Encoding.ASCII;      //Default fallback

        if (fileContent[0] == 0xff
            && fileContent[1] == 0xfe
            && (fileContent.Length < 4
                || fileContent[2] != 0
                || fileContent[3] != 0
                )
            )
            return Encoding.Unicode;

        if (fileContent[0] == 0xfe
            && fileContent[1] == 0xff
            )
            return Encoding.BigEndianUnicode;

        if (fileContent.Length < 3)
            return null;

        if (fileContent[0] == 0xef && fileContent[1] == 0xbb && fileContent[2] == 0xbf)
            return Encoding.UTF8;

        if (fileContent[0] == 0x2b && fileContent[1] == 0x2f && fileContent[2] == 0x76)
            return Encoding.UTF7;

        if (fileContent.Length < 4)
            return null;

        if (fileContent[0] == 0xff && fileContent[1] == 0xfe && fileContent[2] == 0 && fileContent[3] == 0)
            return Encoding.UTF32;

        if (fileContent[0] == 0 && fileContent[1] == 0 && fileContent[2] == 0xfe && fileContent[3] == 0xff)
            return Encoding.GetEncoding(12001);

        String probe;
        int len = fileContent.Length;

        if( fileContent.Length >= 128 ) len = 128;
        probe = Encoding.ASCII.GetString(fileContent, 0, len);

        MatchCollection mc = Regex.Matches(probe, "^<\\?xml[^<>]*encoding[ \\t\\n\\r]?=[\\t\\n\\r]?['\"]([A-Za-z]([A-Za-z0-9._]|-)*)", RegexOptions.Singleline);
        //Add '[0].Groups[1].Value' to the end to test regex

        if( mc.Count == 1 && mc[0].Groups.Count >= 2 )
        {
            //Typically picks up 'UTF-8' string
            Encoding enc = null;

            try {
                enc = Encoding.GetEncoding( mc[0].Groups[1].Value );
            }catch (Exception ) { }

            if( enc != null )
                return enc;
        }

        return Encoding.ASCII;      //Default fallback
    }

Ist es genug, zu Lesen wohl ersten 1024 bytes aus der Datei, aber ich bin laden der gesamten Datei.

InformationsquelleAutor der Antwort TarmoPikaro

Wenn jemand ist auf der Suche nach einem 93.9% Lösung. Dies funktioniert für mich:

public static class StreamExtension
{
    ///<summary>
    ///Convert the content to a string.
    ///</summary>
    ///<param name="stream">The stream.</param>
    ///<returns></returns>
    public static string ReadAsString(this Stream stream)
    {
        var startPosition = stream.Position;
        try
        {
            //1. Check for a BOM
            //2. or try with UTF-8. The most (86.3%) used encoding. Visit: http://w3techs.com/technologies/overview/character_encoding/all/
            var streamReader = new StreamReader(stream, new UTF8Encoding(encoderShouldEmitUTF8Identifier: false, throwOnInvalidBytes: true), detectEncodingFromByteOrderMarks: true);
            return streamReader.ReadToEnd();
        }
        catch (DecoderFallbackException ex)
        {
            stream.Position = startPosition;

            //3. The second most (6.7%) used encoding is ISO-8859-1. So use Windows-1252 (0.9%, also know as ANSI), which is a superset of ISO-8859-1.
            var streamReader = new StreamReader(stream, Encoding.GetEncoding(1252));
            return streamReader.ReadToEnd();
        }
    }
}

InformationsquelleAutor der Antwort Magu

4

Habe ich etwas getan, was ähnlich wie in Python. Grundsätzlich müssen Sie jede Menge von sample-Daten von verschiedenen Codierungen, die gebrochen sind durch eine Schiebetür zwei-byte-Fenster und wird in einem Wörterbuch gespeichert (Hashwert), keyed auf byte-Paare der Werte der Listen, Codierungen.

Gegeben, dass Wörterbuch (hash), Sie nehmen Ihren text eingeben und:
- wenn es beginnt, mit jeder BOM-Zeichen ('\xfe\xff' für UTF-16-WERDEN, '\xff\xfe' für UTF-16-LE, '\xef\xbb\xbf' für UTF-8, etc), ich behandle es wie vorgeschlagen
- wenn nicht, dann nehmen Sie eine ausreichend große Stichprobe der text, alle byte-Paare auf die Probe und wählen Sie die Codierung, ist der kleinste gemeinsame vorgeschlagen, aus dem Wörterbuch.
Wenn du hast auch abgetastet UTF-codierte Texte, die nicht beginnen Sie mit einer Stückliste, im zweiten Schritt wird diese, schlüpfte aus dem ersten Schritt.

So weit, es funktioniert für mich (die sample-Daten und die anschließende Eingabe der Daten sind Untertitel in verschiedenen Sprachen) mit Abnehmender Fehlerquote.

InformationsquelleAutor der Antwort tzot
3

Die StreamReader-Klasse ist der Konstruktor nimmt einen "detect encoding' parameter.

InformationsquelleAutor der Antwort leppie
3

Dem tool "uchardet" macht das gut mit Charakter Häufigkeitsverteilung Modelle für jeden Zeichensatz. Größere Dateien und mehr "typische" Dateien haben mehr Vertrauen (offensichtlich).

Auf ubuntu, die Sie gerade apt-get install uchardet.

Auf anderen Systemen Holen Sie sich die Quelle, Nutzung & docs hier: https://github.com/BYVoid/uchardet

InformationsquelleAutor der Antwort Erik Aronesty
1

Wenn Sie einen link zu einer C-Bibliothek, die Sie verwenden können libenca. Sehen http://cihar.com/software/enca/. Aus der man-page:

Enca liest den gegebenen text-Dateien oder die Standardeingabe, wenn keine gegeben sind,
und nutzt die Kenntnisse über Ihre Sprache (muss unterstützt werden) und
eine Mischung aus Analyse, statistische Analyse, raten und schwarze Magie
um zu bestimmen, Ihre Kodierungen.

Es ist GPL v2.

InformationsquelleAutor der Antwort Kundor
0

Hab das gleiche problem, aber nicht eine gute Lösung gefunden, die noch für die Erkennung automatisch .
Jetzt bin ich mit PsPad (www.pspad.com);) Funktioniert Prima

InformationsquelleAutor der Antwort DeeCee
0

Da es im Grunde genommen kommt es auf Heuristiken, kann es helfen, verwenden Sie die Codierung von zuvor empfangenen Dateien aus der gleichen Quelle wie einen ersten Hinweis.

Meisten Menschen (oder Anwendungen) Dinge zu tun die in so ziemlich der gleichen Reihenfolge jedes mal, oft auf der gleichen Maschine, so dass Ihr ziemlich wahrscheinlich, dass, wenn Bob erstellt eine .csv-Datei und sendet Sie an Mary, es werde immer mit Windows-1252 oder was auch immer seine Maschine standardmäßig.

Wo möglich ein bisschen von Kunden-training schadet nie entweder 🙂

InformationsquelleAutor der Antwort devstuff
0

Ich war eigentlich auf der Suche nach einem generischen, nicht die Programmierung Weg von der Erkennung der Datei-Codierung, aber ich finde nicht, dass noch.
Was habe ich von Tests mit verschiedenen Codierungen war, war mein text UTF-7.

So, wo ich zuerst mache:
StreamReader Datei = Datei.OpenText(dateinamelang);

Musste ich ändern zu:
StreamReader Datei = new StreamReader(dateinamelang, System.Text.- Codierung.UTF7);

OpenText nimmt an, dass es UTF-8.

können Sie auch erstellen Sie die StreamReader-wie dies
new StreamReader(dateinamelang, true), der zweite parameter bedeutet, dass Sie sollten versuchen, und entdecken Sie die Codierung aus der byteordermark der Datei, aber das hat nicht funktioniert in meinem Fall.

InformationsquelleAutor der Antwort Intraday Tips
0

Datei öffnen AkelPad(oder kopieren/einfügen ein entstellter text), gehen Sie zu Bearbeiten -> Auswahl -> Recode... -> check "Autodetect".

InformationsquelleAutor der Antwort plavozont

Als addon zu ITmeze post, ich habe diese Funktion zum umwandeln der Ausgabe des C# - port für Mozilla Universal Charset Detector

    private Encoding GetEncodingFromString(string codePageName)
    {
        try
        {
            return Encoding.GetEncoding(codePageName);
        }
        catch
        {
            return Encoding.ASCII;
        }
    }

MSDN

InformationsquelleAutor der Antwort PrivatePyle

0

Dank @Erik Aronesty für die Erwähnung uchardet.

Inzwischen ist die (gleichen?) tool existiert für linux: chardet.

Oder cygwin, die Sie möglicherweise verwenden möchten: chardetect.

Finden Sie unter: chardet-Mann-Seite: https://www.commandlinux.com/man-page/man1/chardetect.1.html

Diese wird heuristisch erkennen (erraten) die Zeichenkodierung, die für jede angegebene Datei und meldet den Namen und das Konfidenzniveau für jede Datei erkannt Zeichenkodierung.

InformationsquelleAutor der Antwort Schlacki
0

10J (!) waren vergangen, da dieser gefragt wurde, und noch sehe ich keine Erwähnung von MS ist gut, nicht-GPL ' ed-Lösung: IMultiLanguage2 API.

Meisten Bibliotheken bereits erwähnt basieren auf Mozilla-UDE - und es scheint vernünftig, dass die Browser haben bereits aufgegriffen ähnliche Probleme. Ich weiß nicht, was ist chrome die Lösung, aber seit IE 5.0 MS freigegeben haben Ihre, und es ist:
1. Frei von GPL-und-die-wie Lizenzierung,
2. Gesichert und gepflegt werden, wahrscheinlich für immer,
3. Gibt reichhaltige Ausgabe - alle gültig Kandidaten für die Codierung/codepages zusammen mit Vertrauen erzielt,
4. Überraschend einfach zu verwenden (es ist ein single-function-call).
Es ist eine native COM-Aufruf, aber hier ein paar sehr schöne Arbeit von Carsten Zeumer, dass die Griffe der interop-Messe für .net-Nutzung. Es gibt einige andere herum, aber im großen und ganzen ist diese Bibliothek nicht die Aufmerksamkeit, die es verdient.

InformationsquelleAutor der Antwort Ofek Shilon
-2

Ich diesen code verwenden, um zu erkennen, Unicode-und windows-Standard-ansi-codepage beim Lesen einer Datei. Für andere Kodierungen, eine überprüfung der Inhalte notwendig ist, manuell oder durch Programmierung. Dies kann de verwendet, um den text speichern mit der gleichen Codierung, als wenn es geöffnet wurde. (Ich benutze VB.NET)
```
'Works for Default and unicode (auto detect)
Dim mystreamreader As New StreamReader(LocalFileName, Encoding.Default) 
MyEditTextBox.Text = mystreamreader.ReadToEnd()
Debug.Print(mystreamreader.CurrentEncoding.CodePage) 'Autodetected encoding
mystreamreader.Close()
```
InformationsquelleAutor der Antwort Thommy Johansson

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.