Wie konvertieren von HTML in UTF-8 in java

Ich habe eine ASCII-Zeichenkette mit HTML-Entitäten, wie:

 à
 ¨
 ç

Ich brauche diese Zeichenfolge ohne diese Personen und konvertieren Sie Sie in UTF-8 chars.
Gibt es eine einfache Möglichkeit, in java zu tun?

Wo:

 Clazz.method("aà","UTF-8")

gibt "aà"

oder sowas?

  • Du meinst statt 'à' Sie haben à ? Zum Beispiel statt "c' est-à-dire" Sie haben "c' est-à-dire"? (Sie wissen, dass ASCII definiert nur 128 codepoints Recht? 'à' nicht ein ASCII-Zeichen)
  • ok, ich bearbeitet Ihre post zu sehen, dass es ein encoding Problem in deiner Frage.
  • Die Art und Weise, die Sie bitten, die Frage ist ein bisschen komisch, weil HTML und UTF-8 sind zwei völlig unterschiedliche Dinge - HTML ist ein Dateiformat, während UTF-8 ist eine Zeichencodierung. HTML-Dateien haben eine Zeichen-Kodierung, d.h. Sie können eine HTML-Datei in UTF-8 kodierte ISO-8859-1 kodiert usw.
  • Hallo Jesper. Ich habe das HTML-Format (nur ASCII-chars) und ich will es in plain text. Es kann Akzente setzen, so dass eine Codierung ausgewählt werden muss. Und ich brauche UTF-8.
Schreibe einen Kommentar