Java: Wie ermittelt man die korrekte Zeichensatzkodierung eines Streams?

Mit Verweis auf folgenden thread:
Java-App : Unable to read iso-8859-1 kodierte Datei korrekt

Was ist der beste Weg, um programmgesteuert bestimmen Sie den richtigen Zeichensatz ein inputstream/Datei ?

Ich habe versucht mit der folgenden:

File in =  new File(args[0]);
InputStreamReader r = new InputStreamReader(new FileInputStream(in));
System.out.println(r.getEncoding());

Aber auf eine Datei, die ich weiß, die codiert werden mit ISO8859_1 die oben genannten ASCII-code ergibt, was nicht richtig ist, und nicht erlauben, mich korrekt zu Rendern den Inhalt der Datei zurück zur Konsole.

InformationsquelleAutor der Frage Joel | 2009-01-31

60

Ich habe diese Bibliothek, ähnlich jchardet für die Erkennung der Codierung in Java:
http://code.google.com/p/juniversalchardet/

InformationsquelleAutor der Antwort Luciano Fiandesio
92

Können Sie nicht bestimmen, die Kodierung einer beliebigen byte-stream. Dies liegt in der Natur der Kodierungen. Eine Codierung bedeutet, dass eine Zuordnung zwischen einem byte mit dem Wert und seiner Repräsentation. So ist jede Codierung "könnte" das richtige.

Den getEncoding() Methode zurück, die Codierung, die eingerichtet wurde (Lesen Sie die JavaDoc) für den stream. Wird es nicht erraten, wird die Kodierung für Sie.

Einige streams wird Ihnen sagen, welche Codierung verwendet wurde, um Sie zu erstellen: XML, HTML. Aber nicht ein beliebiger byte-stream.

Sowieso, Sie könnten versuchen, zu erraten, die eine Kodierung auf Ihre eigenen, wenn Sie zu haben. Jede Sprache hat eine gemeinsame Frequenz für jeden char. In Englisch ist der char e erscheint sehr oft, aber ê erscheint sehr, sehr selten. In einer ISO-8859-1 Strom gibt es in der Regel keine 0x00 chars. Aber ein UTF-16-stream hat eine Menge von Ihnen.

Oder: Sie Fragen konnte der Benutzer. Ich habe schon gesehen, Anwendungen, die Sie präsentieren einen Ausschnitt aus der Datei in verschiedenen Codierungen und Sie bitten, wählen Sie das "richtige".

InformationsquelleAutor der Antwort Eduard Wirch

check this out:
http://site.icu-project.org/ (icu4j)
Sie haben Bibliotheken, die für die Erkennung von charset von IOStream
könnte einfach sein wie dieses:

BufferedInputStream bis = new BufferedInputStream(input);
CharsetDetector cd = new CharsetDetector();
cd.setText(bis);
CharsetMatch cm = cd.detect();

if (cm != null) {
   reader = cm.getReader();
   charset = cm.getName();
}else {
   throw new UnsupportedCharsetException()
}

InformationsquelleAutor der Antwort user345883

Hier sind meine Favoriten:

TikaEncodingDetector

Abhängigkeit:

<dependency>
  <groupId>org.apache.any23</groupId>
  <artifactId>apache-any23-encoding</artifactId>
  <version>1.1</version>
</dependency>

Beispiel:

public static Charset guessCharset(InputStream is) throws IOException {
  return Charset.forName(new TikaEncodingDetector().guessEncoding(is));    
}

GuessEncoding

Abhängigkeit:

<dependency>
  <groupId>org.codehaus.guessencoding</groupId>
  <artifactId>guessencoding</artifactId>
  <version>1.4</version>
  <type>jar</type>
</dependency>

Beispiel:

  public static Charset guessCharset2(File file) throws IOException {
    return CharsetToolkit.guessEncoding(file, 4096, StandardCharsets.UTF_8);
  }

InformationsquelleAutor der Antwort Benny Neugebauer

12

Kann man sicherlich überprüfen die Datei für einen bestimmten Zeichensatz durch Dekodierung es mit einem CharsetDecoder und Ausschau nach "malformed input" oder "unmappable-Zeichen" - Fehler. Natürlich ist dies nur sagt Ihnen, wenn ein Zeichensatz ist falsch; es muss Ihnen nicht sagen, ob es richtig ist. Dazu braucht man eine Vergleichsbasis zur Bewertung der decodierten Resultate, z.B. wissen Sie vorher, ob die Zeichen sind beschränkt auf eine bestimmte Teilmenge, oder ob der text hält sich an einige strikte format? Die Quintessenz ist, dass die charset-Erkennung ist Spekulation ohne jegliche Garantien.

InformationsquelleAutor der Antwort Zach Scrivena
6

Libs oben sind einfache Stückliste Detektoren, die natürlich nur funktioniert, wenn eine BOM am Anfang der Datei. Werfen Sie einen Blick auf http://jchardet.sourceforge.net/die scannt den text

InformationsquelleAutor der Antwort Lorrat
5

Fand ich ein nettes Drittanbieter-Bibliothek, die erkennen kann, die tatsächliche Codierung:
http://glaforge.free.fr/wiki/index.php?wiki=GuessEncoding

Ich habe nicht testen Sie es ausgiebig, aber es scheint zu funktionieren.

InformationsquelleAutor der Antwort falcon

Wenn Sie ICU4J (http://icu-project.org/apiref/icu4j/)

Hier ist mein code:

            String charset = "ISO-8859-1"; //Default chartset, put whatever you want

            byte[] fileContent = null;
            FileInputStream fin = null;

            //create FileInputStream object
            fin = new FileInputStream(file.getPath());

            /*
             * Create byte array large enough to hold the content of the file.
             * Use File.length to determine size of the file in bytes.
             */
            fileContent = new byte[(int) file.length()];

            /*
             * To read content of the file in byte array, use
             * int read(byte[] byteArray) method of java FileInputStream class.
             *
             */
            fin.read(fileContent);

            byte[] data =  fileContent;

            CharsetDetector detector = new CharsetDetector();
            detector.setText(data);

            CharsetMatch cm = detector.detect();

            if (cm != null) {
                int confidence = cm.getConfidence();
                System.out.println("Encoding: " + cm.getName() + " - Confidence: " + confidence + "%");
                //Here you have the encode name and the confidence
                //In my case if the confidence is > 50 I return the encode, else I return the default value
                if (confidence > 50) {
                    charset = cm.getName();
                }
            }

Denken Sie daran, dass alle versuchen Sie zu fangen müssen.

Ich hoffe, das funktioniert für Sie.

InformationsquelleAutor der Antwort ssamuel68

4

Wenn Sie nicht wissen, die Verschlüsselung Ihrer Daten, ist es nicht so einfach zu bestimmen, aber Sie könnten versuchen, eine Bibliothek zu erraten. Auch gibt es eine ähnliche Frage.

InformationsquelleAutor der Antwort Fabian Steeg

Die Bibliothek zu nutzen?

Als des Schreibens dieses Artikels, sind Sie drei Bibliotheken, die sich ergeben:

Ich weiß nicht Apache Any23weil es verwendet ICU4j 3.4 unter der Haube.

Wie zu sagen, was man erkannt hat, das Recht charset (oder so nah wie möglich)?

Es ist unmöglich, Sie zu zertifizieren, die charset-erkannt, durch die jeweils über Bibliotheken. Es ist jedoch möglich, um Sie zu bitten, in der Reihe und die Punktzahl, die der zurückgegebene Antwort.

Wie die Punktzahl, die der zurückgegebene Antwort?

Jede Reaktion zugeordnet werden können, einen Punkt. Je mehr Punkte eine Antwort haben, die mehr Vertrauen die erkannten Zeichensatz hat. Dies ist eine einfache scoring-Methode. Können Sie aufwändige andere.

Gibt es eine Beispiel-code?

Hier ist die komplette snippet Umsetzung der Strategie beschrieben, in den vorhergehenden Zeilen.

public static String guessEncoding(InputStream input) throws IOException {
    //Load input data
    long count = 0;
    int n = 0, EOF = -1;
    byte[] buffer = new byte[4096];
    ByteArrayOutputStream output = new ByteArrayOutputStream();

    while ((EOF != (n = input.read(buffer))) && (count <= Integer.MAX_VALUE)) {
        output.write(buffer, 0, n);
        count += n;
    }

    if (count > Integer.MAX_VALUE) {
        throw new RuntimeException("Inputstream too large.");
    }

    byte[] data = output.toByteArray();

    //Detect encoding
    Map<String, int[]> encodingsScores = new HashMap<>();

    //* GuessEncoding
    updateEncodingsScores(encodingsScores, new CharsetToolkit(data).guessEncoding().displayName());

    //* ICU4j
    CharsetDetector charsetDetector = new CharsetDetector();
    charsetDetector.setText(data);
    charsetDetector.enableInputFilter(true);
    CharsetMatch cm = charsetDetector.detect();
    if (cm != null) {
        updateEncodingsScores(encodingsScores, cm.getName());
    }

    //* juniversalchardset
    UniversalDetector universalDetector = new UniversalDetector(null);
    universalDetector.handleData(data, 0, data.length);
    universalDetector.dataEnd();
    String encodingName = universalDetector.getDetectedCharset();
    if (encodingName != null) {
        updateEncodingsScores(encodingsScores, encodingName);
    }

    //Find winning encoding
    Map.Entry<String, int[]> maxEntry = null;
    for (Map.Entry<String, int[]> e : encodingsScores.entrySet()) {
        if (maxEntry == null || (e.getValue()[0] > maxEntry.getValue()[0])) {
            maxEntry = e;
        }
    }

    String winningEncoding = maxEntry.getKey();
    //dumpEncodingsScores(encodingsScores);
    return winningEncoding;
}

private static void updateEncodingsScores(Map<String, int[]> encodingsScores, String encoding) {
    String encodingName = encoding.toLowerCase();
    int[] encodingScore = encodingsScores.get(encodingName);

    if (encodingScore == null) {
        encodingsScores.put(encodingName, new int[] { 1 });
    } else {
        encodingScore[0]++;
    }
}    

private static void dumpEncodingsScores(Map<String, int[]> encodingsScores) {
    System.out.println(toString(encodingsScores));
}

private static String toString(Map<String, int[]> encodingsScores) {
    String GLUE = ", ";
    StringBuilder sb = new StringBuilder();

    for (Map.Entry<String, int[]> e : encodingsScores.entrySet()) {
        sb.append(e.getKey() + ":" + e.getValue()[0] + GLUE);
    }
    int len = sb.length();
    sb.delete(len - GLUE.length(), len);

    return "{ " + sb.toString() + " }";
}

Verbesserungen:
Die guessEncoding Methode liest den inputstream ganz. Für große inputstreams dies kann ein Problem sein. Alle diese Bibliotheken Lesen würde das ganze inputstream. Dies würde bedeuten einen großen Zeitaufwand für die Erkennung von charset.

Es ist möglich, begrenzen Sie die anfängliche laden der Daten ein paar bytes und führen Sie die charset-Erkennung auf die paar bytes.

InformationsquelleAutor der Antwort Stephan

3

Für ISO8859_1-Dateien, gibt es nicht eine einfache Möglichkeit zur Unterscheidung von ASCII. Für Unicode-Dateien, allerdings kann man in der Regel erkennen dies anhand der ersten paar bytes der Datei.

UTF-8 und UTF-16-Dateien enthalten eine Byte Order Mark (BOM) am Anfang der Datei. Die Stückliste ist ein zero-width non-breaking space.

Leider historische Gründe, Java nicht erkannt wird, diese automatisch. Programme wie Editor, überprüfen Sie die Stückliste und die Verwendung der entsprechenden Kodierung. Mit unix oder Cygwin, können Sie die Stückliste mit dem Datei-Befehl. Zum Beispiel:
```
$ file sample2.sql 
sample2.sql: Unicode text, UTF-16, big-endian
```
Für Java, ich schlage vor, Sie Auschecken dieser code, der erkennt die gängigen Formate, und wählen Sie die korrekte Codierung: Wie eine Datei Lesen und automatisch die richtige Kodierung angeben

InformationsquelleAutor der Antwort brianegge
3

Soweit ich weiß, gibt es keine Allgemeine Bibliothek, die in diesem Zusammenhang geeignet zu sein, für alle Arten von Problemen. Also, für jedes problem sollten Sie testen, die vorhandenen Bibliotheken und wählen Sie den besten eines, welches Ihr problem der Einschränkungen, oft aber keiner von Ihnen geeignet ist. In diesen Fällen schreiben Sie Ihre eigene Codierung Detektor! Wie ich schon schrieb ...

Habe ich schon schrieb, eine meta-java-tool für die Erkennung von charset Kodierung von HTML-Web-Seiten, die mithilfe von IBM ICU4j und Mozilla JCharDet als die eingebauten Komponenten. Hier finden Sie mein tool bitte Lesen Sie die README-Sektion, bevor irgendetwas anderes. Außerdem finden Sie einige grundlegende Konzepte dieses problem in meinem Papier und seine Referenzen.

Balg ich einige hilfreiche Kommentare, die ich erlebt habe in meiner Arbeit:
- Charset-Erkennung ist nicht eine narrensichere Verfahren, denn es beruht im wesentlichen auf statistischen Daten und was tatsächlich passiert ist raten nicht erkennen
- icu4j ist das wichtigste Instrument in diesem Zusammenhang von IBM, imho
- Beide TikaEncodingDetector und Lucene-ICU4j mit icu4j und Ihre Genauigkeit hatte nicht einen bedeutenden Unterschied aus, die die icu4j in meinen tests (am meisten %1, soweit ich mich erinnere)
- icu4j ist viel allgemeiner als jchardet, icu4j ist nur ein bisschen voreingenommen zu IBM Familie Codierungen, während jchardet ist stark voreingenommen zu utf-8
- Aufgrund der weit verbreiteten Verwendung von UTF-8 in HTML-Welt; jchardet ist eine bessere Wahl als icu4j in der Gesamtwertung, aber ist nicht die beste Wahl!
- icu4j ist ideal für ostasiatische spezifische Codierungen wie EUC-KR, EUC-JP, SHIFT_JIS, BIG5 und GB Familie Kodierungen
- Beide icu4j und jchardet sind-Debakel im Umgang mit HTML Seiten mit dem Windows-1251 und Windows-1256-Kodierungen. Windows-1251 aka cp1251 ist weit verbreitet für Kyrillisch-basierte Sprachen wie Russisch und Windows-1256 aka cp1256 ist weit verbreitet für Arabisch
- Fast alle encoding-Erkennung-tools sind mit Hilfe von statistischen Methoden, so dass die Genauigkeit der Ausgabe hängt stark von der Größe und dem Inhalt der Eingabe
- Einige Codierungen sind im wesentlichen die gleichen, nur mit einer teilweisen Unterschiede, so dass in einigen Fällen die erraten oder erkannt Codierung falsch sein kann, aber zur gleichen Zeit wahr sein! Wie etwa Windows-1252 und ISO-8859-1. (siehe den letzten Absatz unter dem Abschnitt 5.2 der mein Papier)
InformationsquelleAutor der Antwort faghani
1

Alternative zu TikaEncodingDetector ist die Verwendung Tika AutoDetectReader.
```
Charset charset = new AutoDetectReader(new FileInputStream(file)).getCharset();
```
InformationsquelleAutor der Antwort Nolf
-10

Können Sie dann den entsprechenden char-set in den Konstruktor:
```
new InputStreamReader(new FileInputStream(in), "ISO8859_1");
```
InformationsquelleAutor der Antwort Kevin

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.