UTF-8-Antwort bei servlet

Ich bin das Lesen der HTTP-Antwort aus einem Perl-Seite in ein Servlet wie diese:

public String getHTML(String urlToRead) {
        URL url;
        HttpURLConnection conn;
        BufferedReader rd;
        String line;
        String result = "";
        try {
           url = new URL(urlToRead);
           conn = (HttpURLConnection) url.openConnection();
           conn.setRequestMethod("GET");
           conn.setRequestProperty("Accept-Charset", "UTF-8");
           conn.setRequestProperty("Content-Type", "text/xml; charset=UTF-8");

           rd = new BufferedReader(new InputStreamReader(conn.getInputStream(), "UTF-8"));
           while ((line = rd.readLine()) != null) {
              byte [] b = line.getBytes();
              result += new String(b, "UTF-8");
           }
           rd.close();
        } catch (Exception e) {
           e.printStackTrace();
        }
        return result;
   }

Bin ich anzeigen dieses Ergebnis mit diesem code:

response.setContentType("text/plain; charset=UTF-8");

        PrintWriter out = new PrintWriter(new OutputStreamWriter(response.getOutputStream(), "UTF-8"), true);


        try {

            String query = request.getParameter("query");
            String type = request.getParameter("type");

            String res = getHTML(url);
            out.write(res);

        } finally {            
            out.close();
        }

Aber die Antwort noch nicht als UTF-8 kodiert. Was mache ich falsch?

Vielen Dank im Voraus.

In Ihrem PrintWriter, ist es möglich, dass "UTF8" nicht existiert, aber "UTF-8" zu tun?
Ich habe versucht es zu ändern, ohne Erfolg (bearbeitet)
Wie können Sie sagen, es ist nicht UTF-8?
Welchen Beweis haben Sie, dass urlToRead zurückkehrt, dessen Inhalt in UTF-8? Als das, was Sie sind, vorausgesetzt, es ist. Und warum sind Sie konvertieren line zu bytes, wenn Sie bereits eine String?

InformationsquelleAutor mihsathe | 2013-04-07

3

Rufen, um line.getBytes() sieht verdächtig aus. Sie sollten wahrscheinlich machen es line.getBytes("UTF-8") wenn Sie sicher sind, dass das, was zurückgegeben wird, ist UTF-8 kodiert. Außerdem, ich bin nicht sicher, warum es ist sogar notwendig. Ein typischer Ansatz, um Daten aus einem BufferedReader ist die Verwendung eines StringBuilder weiter anfügen jeder String abgerufen readLine in Folge. Die Umwandlung hin und her zwischen String und byte[] ist unnötig.

Ändern result in eine StringBuilder und tun Sie dies:
```
while ((line = rd.readLine()) != null) {
    result.append(line);
}
```
- +1 für die StringBuilder. Was haben Sie derzeit ist quälend langsam: stackoverflow.com/questions/15177987/...
- Ich hatte ursprünglich die Klasse StringBuilder. Aber da es nicht funktionierte, habe ich versucht den code zu ändern, nach welchem die Beiträge auf dem forum vorgeschlagen.
- Okay. Ich änderte es zurück in die Klasse StringBuilder und es funktioniert jetzt. Ich weiß nicht, warum es nicht funktioniert hat bisher. Vielen Dank für deine Antwort. +1
InformationsquelleAutor laz
2

Hier ist, wo Sie brechen die Kette der Zeichen-Codierung conversions:
```
       while ((line = rd.readLine()) != null) {
          byte [] b = line.getBytes();  //NOT UTF-8
          result += new String(b, "UTF-8");
       }
```
Vom String#getBytes() javadoc:

Kodiert, diesen String in eine Sequenz von bytes, die über die Plattform s
Standard-Zeichensatz, speichern das Ergebnis in ein byte-array

Und defaullt-Zeichensatz ist wohl nicht UTF-8.

Aber warum all die Umbauten in den ersten Platz? Lesen Sie einfach die raw-bytes von der Quelle und schreiben die raw-bytes, um die der Verbraucher. Es soll UTF-8 alle Weg.
- es funktioniert wie ein Charme! ich danke Ihnen sehr!
InformationsquelleAutor forty-two

Ich auch vor dem gleichen problem in einem anderen Szenario, aber tun Sie es einfach, ich glaube, es wird funktionieren:

byte[] b = line.getBytes(UTF8_CHARSET);

in der while-Schleife:

while ((line = rd.readLine()) != null) {
          byte [] b = line.getBytes();  //NOT UTF-8
          result += new String(b, "UTF-8");
       }

InformationsquelleAutor Muhammad Nuruddin

In meinem Fall, muss ich hinzufügen, eine andere Konfiguration.

Vorher war ich Schreibe die Seite so:

try (PrintStream printStream = new PrintStream(response.getOutputStream()) {
        printStream.print(pageInjecting);
}

Ich geändert:

try (PrintStream printStream = new PrintStream(response.getOutputStream(), false, "UTF-8")) {
        printStream.print(pageInjecting);
}

InformationsquelleAutor edubriguenti

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.