"â€™" zeigt auf Seite anstelle von "' "

â€™ ist anzeigen auf meiner Seite statt '.

Habe ich die Content-Type eingestellt UTF-8 sowohl in meinem <head> tag und meine HTTP-Header:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

Darüber hinaus, mein browser ist so eingestellt,Unicode (UTF-8):

Wo ist also das problem, und wie kann ich es beheben?

InformationsquelleAutor der Frage Jitendra Vyas | 2010-03-19

42

Sicherzustellen das der browser und-editor mit Codierung UTF-8 statt ISO-8859-1/Windows-1252.

Oder verwenden Sie ’.

InformationsquelleAutor der Antwort kennytm
169

Wo ist also das problem,

Es ist ein ’ (RIGHT SINGLE QUOTATION MARK - U+2019) Zeichen, das codiert wurde als CP-1252 statt UTF-8. Wenn Sie das Kontrollkästchen Codierungen Tabelle, dann sehen Sie, dass dieses Zeichen ist in UTF-8 aus Byte 0xE20x80 und 0x99. Wenn Sie das Kontrollkästchen CP-1252 code page layoutdann wirst du sehen, dass jedes dieser bytes stehen für die einzelnen Zeichen â€ und ™.

und wie kann ich es beheben?

UTF-8 anstelle von CP-1252 zu Lesen, zu schreiben, zu speichern, und die Zeichen angezeigt.
Habe ich den Content-Type auf UTF-8 eingestellt in meinen beiden <head> tag und meine HTTP-Header:
```
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
```
Diese nur weist den client, welche Codierung zu verwenden, zu interpretieren und die Zeichen angezeigt. Diese nicht anweisen, in Ihrem eigenen Programm die Codierung zu verwenden, um Lesen, schreiben, speichern und anzeigen der Zeichen in. Die genaue Antwort hängt von der server-Seite die Plattform /die Datenbank /Programmiersprache verwendet. Bitte beachten Sie, dass die im HTTP-response-header vor dem HTML-meta-tag. HTML-meta-tag würde nur verwendet werden, wenn die Seite geöffnet wird von der lokalen Festplatte die Datei-system anstelle von HTTP.

Darüber hinaus, mein browser ist so eingestellt,Unicode (UTF-8):

Diese nur zwingt den client, welche Codierung zu verwenden, zu interpretieren und die Zeichen angezeigt. Das eigentliche problem ist aber, dass Sie bereits senden â€™ (UTF-8-codiert) an den client statt ’. Der client ist korrekt anzeigen â€™ mit dem UTF-8-Codierung. Wenn der Kunde misinstructed zu verwenden, zum Beispiel ISO-8859-1, würden Sie wahrscheinlich gesehen haben Ã¢â¬â¢ statt.

Ich bin mit ASP.NET 2.0 mit einer Datenbank.

Dies ist wahrscheinlich, wo dein problem liegt. Sie brauchen, um zu überprüfen, mit einer unabhängigen Datenbank-tool, was die Daten Aussehen.

Wenn die ’ Charakter, dann ist Sie nicht die Verbindung zu der Datenbank korrekt. Sie müssen sagen Sie den database connector mit UTF-8.

Wenn Ihre Datenbank enthält â€™dann ist es Ihre Datenbank Durcheinander gebracht hat. Wahrscheinlich die Tabellen sind nicht für die Verwendung konfiguriert UTF-8. Stattdessen nutzen Sie die Datenbank der Standard-Codierung, die variiert je nach Konfiguration. Wenn dies Ihr Problem ist, dann in der Regel nur die änderung der Tabelle für die Verwendung von UTF-8 ist ausreichend. Wenn Ihre Datenbank nicht unterstützt, müssen Sie zum erstellen der Tabellen. Es ist eine gute Praxis, die Codierung der Tabelle, wenn Sie es schaffen.

Sind Sie wahrscheinlich mithilfe von SQL Server, aber hier sind einige MySQL-code (kopiert von dieser Artikel):
```
CREATE DATABASE db_name CHARACTER SET utf8;
CREATE TABLE tbl_name (...) CHARACTER SET utf8;
```
Wenn Ihre Tabelle ist aber schon UTF-8, dann werden Sie brauchen, um einen Schritt zurück. Die oder was legen Sie die Daten dort. Das istwo das problem ist. Ein Beispiel dafür wäre das HTML-Formular übermittelten Werte falsch codiert/decodiert.

Hier sind einige weitere links, um mehr zu erfahren über das problem:
- Das Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)von unserer eigenen Joel.
- Unicode - How, um die Zeichen richtig?mit mehr prägnant und praktische Informationen, Lösungen sind gezielt auf Java-Umgebungen.
- Zum einrichten des PHP-site auf utf-8gezielt auf PHP-Umgebungen.
InformationsquelleAutor der Antwort BalusC
13

Ich habe einige Dokumente, wo … war zu zeigen, wie â€¦ und ê war zu zeigen, wie Ãª. Dies ist, wie Sie dorthin gekommen ist (python-code):
```
# Adam edits original file using windows-1252
windows = '\x85\xea' 
# that is HORIZONTAL ELLIPSIS, LATIN SMALL LETTER E WITH CIRCUMFLEX

# Beth reads it correctly as windows-1252 and writes it as utf-8
utf8 = windows.decode("windows-1252").encode("utf-8")
print(utf8)

# Charlie reads it *incorrectly* as windows-1252 writes a twingled utf-8 version
twingled = utf8.decode("windows-1252").encode("utf-8")
print(twingled)

# detwingle by reading as utf-8 and writing as windows-1252 (it's really utf-8)
detwingled = twingled.decode("utf-8").encode("windows-1252")

assert utf8==detwingled
```
Um das problem zu beheben, benutzte ich die python-code wie folgt:
```
with open("dirty.html","rb") as f:
    dt = f.read()
ct = dt.decode("utf8").encode("windows-1252")
with open("clean.html","wb") as g:
    g.write(ct)
```
(Da hatte jemand eingefügt, der twingled version in einem richtigen UTF-8-Dokument, ich hatte eigentlich zu extrahieren nur die twingled Teil, detwingle es und legen Sie es wieder in. Ich verwendet BeautifulSoup.

Es ist weit mehr wahrscheinlich, dass Sie haben Charlie in die content-Erstellung als web-server-Konfiguration ist falsch. Sie können auch erzwingen, dass Ihre web-browser zu twingle die Seite, indem Sie windows-1252-Codierung für utf-8-Dokument. Ihr web-browser kann nicht detwingle das Dokument, dass Charlie gerettet.

Hinweis: das gleiche problem passiert bei jedem anderen single-byte-Codepage (z.B. latin-1) anstelle von windows-1252.

InformationsquelleAutor der Antwort Terrel Shumway
8

’ (Unicode-codepoint U+2019 RIGHT SINGLE QUOTATION MARK) ist in UTF-8 codiert als bytes:

0xE2 0x80 0x99.

â€™ (Unicode-Codepoint U+00E2 U+20AC U+2122) ist in UTF-8 codiert als bytes:

0xC3 0xA2 0xE2 0x82 0xAC 0xE2 0x84 0xA2.

Diese sind die bytes, die Ihr browser empfangen, um zu produzieren â€™ bei der Verarbeitung als UTF-8.

Das bedeutet, dass die Quelle der Daten wird durch zwei charset Konvertierungen, bevor Sie an den browser geschickt:
1. Quelle ’ Charakter (U+2019) wird zunächst kodiert als UTF-8-bytes:
  
  0xE2 0x80 0x99
2. die einzelnen bytes dann mis-interpretiert und dekodiert Unicode-codepoints U+00E2 U+20AC U+2122 durch eine der Windows-125X Zeichensätze (1252, 1254, 1256 und 1258 alle anzeigen 0xE2 0x80 0x99 zu U+00E2 U+20AC U+2122), und dann diese codepoints sind codiert als UTF-8-bytes:
  
  0xE2 -> U+00E2 -> 0xC3 0xA2
  
  0x80 -> U+20AC -> 0xE2 0x82 0xAC
  
  0x99 -> U+2122 -> 0xE2 0x84 0xA2
Musst du herausfinden, wo die zusätzliche Umwandlung in Schritt 2 durchgeführt wird, und entfernen Sie es.

InformationsquelleAutor der Antwort Remy Lebeau
7

Wenn Ihr content-Typ ist bereits UTF8 , dann ist es wahrscheinlich die Daten schon angekommen in der falschen Codierung. Wenn Sie die Daten aus einer Datenbank, stellen Sie sicher, dass die Datenbankverbindung UTF-8 verwendet.

Wenn diese Daten aus einer Datei, stellen Sie sicher, dass die Datei korrekt codiert als UTF-8. Sie können in der Regel legen Sie diese in den "Speichern unter..." - Dialog des Editors Ihrer Wahl.

Wenn die Daten bereits gebrochen, wenn Sie Sie in der Quelldatei, die Chancen sind, dass es verwendet werden, um UTF-8-Datei, wurde aber gerettet in die falsche Codierung irgendwo auf dem Weg.

InformationsquelleAutor der Antwort Pekka 웃
7

Haben Sie einen Konflikt in Ihrem Zeichenkodierung; die Zeichenfolge codiert, in einer Zeichencodierung (UTF-8) und was ist die Interpretation dieser Seite ist mit einem anderen (z.B. ASCII).

Geben Sie immer Ihre Kodierung im http-Header und stellen Sie sicher, dass diese Spiele Ihre framework-definition-Kodierung.

Beispiel-http-header:
```
Content-Type    text/html; charset=utf-8
```
Einstellung der Zeichencodierung in asp.net
```
<configuration>
  <system.web>
    <globalization
      fileEncoding="utf-8"
      requestEncoding="utf-8"
      responseEncoding="utf-8"
      culture="en-US"
      uiCulture="de-DE"
    />
  </system.web>
</configuration>
```
Einstellung der Zeichencodierung in jsp

InformationsquelleAutor der Antwort David Waters
6

Dies geschieht manchmal, wenn ein string umgewandelt wird von Windows-1252 nach UTF-8 zweimal.

Hatten wir diese in einer Zend/PHP/MySQL-Anwendung, wo die Zeichen waren, die in der Datenbank, vermutlich durch die MySQL-Verbindung nicht die Angabe des richtigen Zeichensatzes. Wir hatten:
1. Sicherzustellen, Zend und PHP wurden die Kommunikation mit der Datenbank in UTF-8 (war nicht standardmäßig)
2. Reparatur der gebrochenen Charaktere mit mehreren SQL-Abfragen wie diese...
```
UPDATE MyTable SET 
MyField1 = CONVERT(CAST(CONVERT(MyField1 USING latin1) AS BINARY) USING utf8),
MyField2 = CONVERT(CAST(CONVERT(MyField2 USING latin1) AS BINARY) USING utf8);
```
  Tun Sie dies für so viele Tabellen/Spalten wie nötig.
Können Sie auch fix einige dieser strings in PHP, wenn nötig. Beachten Sie, dass, weil die Zeichen wurden codiert zweimaldie wir eigentlich tun müssen, um eine umgekehrte Konvertierung von UTF-8 zurück zu Windows-1252, das verwirrt mich zunächst.
```
mb_convert_encoding('â€™', 'Windows-1252', 'UTF-8');    //returns ’
```
InformationsquelleAutor der Antwort Simon East
3

Wenn jemand ruft diesen Fehler auf WordPress-website, die Sie benötigen, zu ändern, wp-config-db-charset:
```
define('DB_CHARSET', 'utf8mb4_unicode_ci');
```
statt:
```
define('DB_CHARSET', 'utf8mb4');
```
InformationsquelleAutor der Antwort Goran Jakovljevic
-1

Müssen Sie kopieren/einfügen von text aus Word-Dokument. Word-Dokument verwenden Sie "Anführungszeichen". Sie können ersetzen es mit Speziellen Zeichen (…) oder geben Sie einfach in Ihr HTML-editor (').

Ich bin sicher, dies wird Ihr problem lösen.

InformationsquelleAutor der Antwort Kaushal Panchal
-3

Das gleiche passierte mir mit der ' – ' - Zeichen (long minus-Zeichen).

Ich habe diese einfach ersetzen, so dass Sie es beheben:
```
htmlText = htmlText.Replace('–', '-');
```
InformationsquelleAutor der Antwort TomerB
-5

Anstelle Pfund-Zeichen habe ich verwendet: & pound; ohne Platz. Diese behoben das Problem für mich.

Für Euro: & euro; ohne Platz.

InformationsquelleAutor der Antwort Techtic Solutions

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.