Wie Sie richtig Lesen, url Inhalte mit utf8 chars?

    public class URLReader {
         public static byte[] read(String from, String to, String string){
          try {
           String text = "http://translate.google.com/translate_a/t?"+
                        "client=o&text="+URLEncoder.encode(string, "UTF-8")+
                        "&hl=en&sl="+from+"&tl="+to+"";

           URL url = new URL(text);
           BufferedReader in = new BufferedReader(
                        new InputStreamReader(url.openStream(), "UTF-8"));
           String json = in.readLine();
           byte[] bytes = json.getBytes("UTF-8");
           in.close();
           return bytes;
                    //return text.getBytes();
          }
          catch (Exception e) {
           return null;
          }
         }
        }

und:

public class AbcServlet extends HttpServlet {
 public void doGet(HttpServletRequest req, HttpServletResponse resp) throws IOException {
  resp.setContentType("text/plain;charset=UTF-8");
  resp.getWriter().println(new String(URLReader.read("pl", "en", "koń")));
 }
}

Wenn ich diese ausführe bekomme ich:{"sentences"[{"trans":"end","orig":"koďż˝","translit":"","src_translit":""}],"src":"pl","server_time":30}
also utf funktioniert nicht richtig, aber wenn ich zurück kodierte url: http://translate.google.com/translate_a/t?client=o&text=ko%C5%84&hl=en&sl=pl&tl=en und fügen Sie an der url-Leiste bekomme ich richtig:{"sentences":[{"trans":"horse","orig":"koń","translit":"","src_translit":""}],"dict":[{"pos":"noun","terms":["horse"]}],"src":"pl","server_time":76}

InformationsquelleAutor Infinity | 2010-12-29

2
```
byte[] bytes = json.getBytes("UTF-8");
```
gibt Ihnen eine UTF-8-Byte-Sequenzen so URLReader.Lesen Sie auch UTF-8-Byte-Sequenzen

aber Sie versuchte, zu entschlüsseln, ohne der Angabe der encoder, d.h. new String(URLReader.read("pl", "en", "koń")) so Java verwenden Sie Ihr system Standard-Kodierung zu entschlüsseln, die nicht UTF-8)

Versuchen :
```
new String(URLReader.read("pl", "en", "koń"), "UTF-8")
```
Update

Hier ist voll funktionsfähig-code auf meiner Maschine:
```
public class URLReader {

    public static byte[] read(String from, String to, String string) {
        try {
            String text = "http://translate.google.com/translate_a/t?"
                    + "client=o&text=" + URLEncoder.encode(string, "UTF-8")
                    + "&hl=en&sl=" + from + "&tl=" + to + "";
            URL url = new URL(text);
            URLConnection conn = url.openConnection();
            //Look like faking the request coming from Web browser solve 403 error
            conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-GB; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13 (.NET CLR 3.5.30729)");
            BufferedReader in = new BufferedReader(new InputStreamReader(conn.getInputStream(), "UTF-8"));
            String json = in.readLine();
            byte[] bytes = json.getBytes("UTF-8");
            in.close();
            return bytes;
            //return text.getBytes();
        } catch (Exception e) {
            System.out.println(e);
            //becarful with returning null. subsequence call will return NullPointException.
            return null;
        }
    }
}
```
Vergessen Sie nicht, zu entkommen ń zu \u0144. Java-compiler kann nicht kompilieren Unicode-text korrekt, so ist es eine gute Idee, es zu schreiben in plain ASCII.
```
public class AbcServlet extends HttpServlet {

    @Override
    public void doGet(HttpServletRequest req, HttpServletResponse resp) throws IOException {
        resp.setContentType("text/plain;charset=UTF-8");
        byte[] read = URLReader.read("pl", "en", "ko\u0144");
        resp.getOutputStream().write(read) ;
    }
}
```
- hmm jetzt gibt {"sentences":[{"trans":"end","orig":"ko�","translit":"","src_translit":""}],"src":"pl","server_time":20}
- Ist, die von Ihrem web-browser? Verwenden Sie nicht PrinWriter, wenn Sie den Umgang mit verschlüsselten bytes. Der PrintWriter verwenden JVM-Standard-encoder, der nicht UTF-8. Versuchen getOutputStream.write((new String(URLReader.Lesen("pl", "de", "koń"), "UTF-8") ).getBytes("UTF-8"))
- ja, aus dem browser. jetzt bekomme ich ..."orig":"koďż"...
- Beachten Sie, dass die Einstellung bzw.setContentType("text/plain;charset=UTF-8"); funktioniert nicht wirklich sagen, Ihr servlet zu codieren es mit UTF-8. Es ist einfach zu informieren, Ziel-web-browser/client, dass Sie gehen, senden einen Strom von bytes mit UTF-8 codiert. Die tatsächliche Codierung von Inhalten nicht übereinstimmen müssen den content-type-header. (sicherlich werden Sie nicht wollen, dass)
- ich brauche nicht zu schreiben, ich muss richtig sparen Daten zu db, aber ich sehe nicht ein guter Weg, um Gewissheit
- Ich attemped, Ihre codes, aber ich bekam 403-Fehler aus den google-server. Es erlaubt mir nicht, seinen übersetzer.
- Überprüfen auf updates, die meinen funktionierenden code.
- ja, funktioniert, Danke.
- Lesen aus einer Textdatei in UTF-8 direkt. Es gibt keine Möglichkeit zum speichern von unicode innerhalb von Java-code richtig ohne Flucht es. Ich weiß nicht viel über Sie, ob der java-compiler erlaubt die Verwendung von unicode in den code oder nicht, aber es ist sicher, es nicht zu verwenden.
- Sie müssen nur entkommen, wenn Sie wollen, um explizit die Verwendung der unicode-in java-code. Wenn Sie die Eingabe von Datei -, textfield, etc. es gibt keine Notwendigkeit, um es zu entkommen. Sie müssen nur sicherstellen, dass die richtige Kodierung verwendet wird. Ich kann hier sehen, dass Sie ein Prototyp ist, warum Sie hart codiert, dass in so ich habe gerade erwähnt, dass, Sie wissen zu lassen.
- Ich habe eine leichte Veränderung. Kann man bytes schreiben von URLReader.Lesen Ausgabestrom direkt.
InformationsquelleAutor gigadot

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.