Wie kann ich garantieren, dass utf-8-Zeichen werden geschabt genau mit CURL in php?

Ich bin scraping von Webseiten (mit php ' s curl), Zeichen mit Akzenten (wie zum Beispiel "é").
In der Quelle dieser Webseiten, werden diese Zeichen sind geschrieben, mit utf-8 (sind Sie nicht html-codiert.)

Jedoch, wenn das Ergebnis produziert wird mithilfe des folgenden Codes, bekomme ich nur Fragezeichen anstelle der Sonderzeichen.

$ch = curl_init();
$timeout = 5;
curl_setopt ($ch, CURLOPT_URL, $website);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
$file = curl_exec($ch);
curl_close($ch);

Die header-info zurückgegeben, von der geriebene Webseite zeigt an, dass die Inhalte auf "html/text". Es gibt keine Anzeichen dafür, dass es utf-8 codiert. Ich habe versucht, mit CURLOPT_HTTPHEADER curl-option ändern Sie die text-Codierung, aber das macht nichts.

Was bin ich?

Hallo, zuerst von allen, sind Sie sicher, dass das problem nicht mit dem Datei-editor Sie verwenden, um öffnen Sie Ihre Datei,, die nicht erkennen, die Codierung richtig ? Oder mit der Webseite, in dem Sie die Ergebnisse anzeigen zu lassen ?

InformationsquelleAutor | 2009-08-03

Schreibe einen Kommentar