Wie konvertieren von HTML in UTF-8 in java
Ich habe eine ASCII-Zeichenkette mit HTML-Entitäten, wie:
à
¨
ç
Ich brauche diese Zeichenfolge ohne diese Personen und konvertieren Sie Sie in UTF-8 chars.
Gibt es eine einfache Möglichkeit, in java zu tun?
Wo:
Clazz.method("aà","UTF-8")
gibt "aà"
oder sowas?
- Du meinst statt 'à' Sie haben à ? Zum Beispiel statt "c' est-à-dire" Sie haben "c' est-à-dire"? (Sie wissen, dass ASCII definiert nur 128 codepoints Recht? 'à' nicht ein ASCII-Zeichen)
- ok, ich bearbeitet Ihre post zu sehen, dass es ein encoding Problem in deiner Frage.
- Die Art und Weise, die Sie bitten, die Frage ist ein bisschen komisch, weil HTML und UTF-8 sind zwei völlig unterschiedliche Dinge - HTML ist ein Dateiformat, während UTF-8 ist eine Zeichencodierung. HTML-Dateien haben eine Zeichen-Kodierung, d.h. Sie können eine HTML-Datei in UTF-8 kodierte ISO-8859-1 kodiert usw.
- Hallo Jesper. Ich habe das HTML-Format (nur ASCII-chars) und ich will es in plain text. Es kann Akzente setzen, so dass eine Codierung ausgewählt werden muss. Und ich brauche UTF-8.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Werfen Sie einen Blick auf org.apache.Unterhaus.lang.StringEscapeUtils.unescapeHtml(...). Anscheinend versteht alle Zeichen-entities in HTML 4 definiert.