Unicode-Problem mit einem HTML-Title, Fragezeichen? 65533;
Ich versuche zu analysieren, der Titel der folgenden Webseite: http://kid37.blogger.de/stories/1670573/
Wenn ich den apache.Unterhaus.lang StringEscapeUtils.escapeHTML Methode, die auf das title-element bekomme ich die folgende
Das hermetische Caf�: Rock & Wrestling 2010
wenn ich mir jedoch angezeigt, dass in meiner Webseite mit utf-8-Codierung es zeigt nur ein Fragezeichen.
Verwenden Sie den folgenden code:
String title = StringEscapeUtils.escapeHtml(myTitle);
Wenn ich die Titel über diese website: http://tools.devshed.com/?option=com_mechtools&tool=27 ich bekomme die folgende Ausgabe, die scheint richtig
TITEL:
<title>Das hermetische Café: Rock & Wrestling 2010</title>
WIRD (was ich erwartet hatte, die Methode escapeHtml zu tun):
<title>Das hermetische Café: Rock & Wrestling 2010</title>
irgendwelche Ideen? Dank
Du musst angemeldet sein, um einen Kommentar abzugeben.
U+FFFD (dezimal 65533) ist die "Ersatz-Charakter". Wenn ein decoder, der auf eine ungültige Sequenz von bytes, es kann (je nach Konfiguration) Ersatz � für die korrupten Sequenz und weiter.
Ein häufiger Grund für "beschädigt" - Sequenz ist, dass falsche decoder angewendet wurde. Zum Beispiel, der decoder könnte UTF-8 sein, aber die Seite ist eigentlich, codiert in ISO-8859-1 (Standard, wenn andere nicht in der content-type-header oder ähnliches).
Also, bevor Sie sich noch übergeben Sie die Zeichenfolge, um
escapeHtml
das "é" ist bereits ersetzt worden, die mit "�"; die Methode codiert diese korrekt.Die betreffende Seite mit ISO-8859-1-Kodierung. Stellen Sie sicher, dass Sie mit diesem decoder bei der Umwandlung der abgerufenen Ressource zu einem
String
.