Konvertieren von UTF-8 kodierten string auf der menschlichen lesbaren string

Wie konvertieren in UTF8-strings zu lesbaren strings.

Wie : â (in UTF8) €

Versuchte ich mit Charset aber nicht funktioniert.

Was Sie versuchen, zu erreichen? Wo der string herkommt?
Ich will einfach nur, um zu konvertieren unlesbare Zeichenfolgen, die im UTF8-format zu reable string (ASCII oder andere lesbaren Zeichensatz).
Ich habe diese Art von strings aus anderen Fragen'
Das ist nicht "UTF-8" aber völlig kaputt und unreparierbar Daten. Strings haben keine Codierungen.
Können Sie einige unlesbar UTF8-Strings?
Welche Art der Ausgabe sind Sie für? Für die Beispiel-Eingabe, sind Sie auf der Suche nach einem Ausgang von Uu?oaABC?
können Sie mir sagen, wie zu konvertieren "â" to "€"?
ich habe diese aus dieser Webseite : coderstoolbox.net/string
Sie können nicht konvertieren "â" auf "€". Sie können konvertieren "âBPH" to "€" aber... aber Sie brauchen nicht zu, solange Sie nicht die Kodierung screwups, wie dies in den ersten Platz.

InformationsquelleAutor pradeep | 2013-02-22

1

Die Kodierung einer Zeichenkette nach ISO-8859-15 mit byte[] b = "Üü?öäABC".getBytes("ISO-8859-15"); dann sind Sie Decodierung bei UTF-8 System.out.println(new String(b, "UTF-8"));. Sie müssen Dekodieren Sie die gleiche Weise mit ISO-8859-15.
- Ich bin Dekodierung von ISO-8859-15 auch.
- Nun ja, die Zeile, funktioniert es richtig zu machen System.out.println(new String(b, "ISO-8859-15"));. Es dekodiert einen ISO-8859-15 kodierten string nach ISO-8859-15-decoder. Die andere Linie dekodiert einen ISO-8859-15 kodierten string mit UTF-8. Natürlich funktioniert es nicht.
- Es ist völlig sinnlos zu Kodieren, etwas als x-und Dekodieren dann gleich als x. Es wird nichts tun, im besten Fall wird es verlieren noch mehr Informationen.
- Ich war gerade erklären, den code in die Frage, aber die Frage wurde geändert. Ihr Kommentar und der down-vote keinen Sinn machen.
- Was er Tat, in der alte code wurde komplett legit Art und Weise zu versuchen zu reparieren, Daten. Was Sie vorschlagen, in der Antwort ist NEIN-OP, das macht nie Sinn. Nur damit ich nicht falsch verstehen, Sie sind darauf hindeutet, zu Kodieren string als ISO-8859-15 und dann die Dekodierung der resultierenden bytes als ISO-8859-15. Es braucht nicht viel denken, um zu sehen, dass dies nicht alles tun.
- Was ist es, was ich Vorschlage?!? Ich erkläre nur, warum man aus seinen Zeilen druckt, was er erwartet, aber die anderen nicht.
- Das: Sie haben zu decodieren und auf die gleiche Weise, mit ISO-8859-15.. Das ist dein Vorschlag, ist es nicht?
- Er war-Codierung mit ISO-8859-15. Wenn er Lesen will zurück, er hat das entschlüsseln mit ISO-8859-15 und das ist der Grund, warum die erste Anweisung druckt es richtig aus. Wieder, ich bin zu erklären, warum seine Linie druckt, was er erwartet.
- ja, aber mein Punkt ist, dass, wenn Sie gehen, um zu Kodieren, die als ISO-8859-15 und Dekodieren dann als ISO-8859-15 können Sie auch nicht tun, überhaupt nichts.
- Ich bin nicht derjenige, der schrieb, dass code. Ich war gerade erklären, warum es funktionierte, wie es entstand. Meine Erklärung korrekt ist.
InformationsquelleAutor jdb
1

Dies ist nicht "UTF-8", aber komplett gebrochen und katastrophales Daten. Strings haben keine Codierungen. Es macht keinen Sinn zu sagen "UTF-8" - string in diesem Kontext. String ist eine Folge von abstrakten Zeichen - es besteht keine Codierungen, außer als eine interne Implementierung detail, das ist nicht unsere Sorge und nicht im Zusammenhang zu deinem problem.
- Das ist nicht wahr. Strings immer haben eine Codierung. Selbst in Erinnerung, der logische - Zeichen haben, werden Sie physisch codiert. Java-strings in UTF-16 in Erinnerung. Wenn Sie einen String mit UTF-16-codierte UTF-8-Oktetten, dann können Sie kopieren Sie die Charakter-Werte auf ein Byte-array und anschließend decodiert Sie wieder zu einem normalen UTF-16-codierten Zeichenfolge unter Verwendung der String-Konstruktor, der ein byte-array und die Kodierung als Eingabe.
- Ich denke, Sie Lesen nur den ersten Satz meiner Antwort. Die interne Codierung ist nicht immer relevant, außer beim Umgang mit astralen Ebene - in diesem Fall die Wahl von UTF-16-Lecks zu Benutzer. Der Datentyp zum speichern von binären Daten (codierte text zum Beispiel) ist byte[], nicht als String.
InformationsquelleAutor Esailija
1

Einen string in java ist bereits eine unicode-Darstellung. Wenn Sie rufen Sie eine der getBytes Methoden erhalten Sie eine codierte Darstellung (als bytes, also binäre Werte) in einer bestimmten Zeichencodierung ISO-8859-15 in deinem Beispiel. Wenn Sie möchten, zu konvertieren, das byte-array wieder in eine unicode-Zeichenfolge, die Sie tun können, dass mit einer der string-Konstruktoren akzeptieren ein byte-array, wie Sie es Taten, aber Sie müssen dies tun, mit der genau die gleiche Codierung das byte-array wurde ursprünglich erzeugt. Nur dann können Sie wandeln es wieder in ein unicode-string (die hat keine Codierung, und es muss nicht ein).

Hüten Sie sich vor der Codierung-weniger Methoden, sowohl die string-Konstruktor und der getBytes-Methode, da Sie die Verwendung der Standard-Kodierung der Plattform der code ausgeführt wird, der möglicherweise nicht das, was Sie erreichen wollen.

InformationsquelleAutor Grim
0

Ich denke, das problem hier ist, dass Sie unter der Annahme einer java-String kodiert ist, mit dem, was du angegeben hast im Konstruktor. Es nicht. Es ist in UTF-16.

So, "Üü?öäABC".getBytes("ISO-8859-15") konvertiert ein UTF-16-string nach ISO-8859-15, und dann immer die byte-Darstellung, die.

Wenn Sie möchten, um den Menschen lesbaren format in Ihre Eclipse-Konsole, halten Sie es einfach wie es ist (UTF-16) - und nennen System.out.println("Üü?öäABC"), weil Sie Ihre Eclipse-Konsole decodiert den string und zeigt ihn als UTF-16.

InformationsquelleAutor bdares
0

Sie versuchen zu Dekodieren, die ein byteArray codiert mit "ISO-8859-15" auf "UTF-8" format
```
        b = "Üü?öäABC".getBytes("ISO-8859-15");
        u = "Üü?öäABC".getBytes("UTF-8");

    System.out.println(new String(b, "ISO-8859-15")); //will be ok
    System.out.println(new String(b, "UTF-8")); //will look garbled
    System.out.println(new String(u,"UTF-8")); //will be ok
```
- gewusst wie: aktivieren von UTF-8-Konsole?
- in Eclipse -> "RunAs" ->Runconfiguration->commons->Codierung
- Es ist völlig sinnlos zu Kodieren, etwas als x-und Dekodieren dann gleich als x. Es wird nichts tun, im besten Fall wird es verlieren noch mehr Informationen.
- die Frage wurde aktualisiert @Esailija, dieser code wurde über das Beispiel vorher gepostet. Ich werde löschen Sie die post, wenn es beendet ist, wie dies
InformationsquelleAutor PbxMan

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.