Um gültige UTF-8 in PHP

Ich bin mit PHP-verarbeiten von text aus einer Vielzahl von Quellen. Ich erwarte nicht, daß es etwas anderes als UTF-8, ISO 8859-1, oder vielleicht Windows-1252. Wenn es etwas anderes als einer von denen, ich muss nur sicherstellen, dass der text gedreht wird in eine gültige UTF-8-string, auch wenn die Zeichen gehen verloren. Hat die //TRANSLIT option von iconv gelöst?

Zum Beispiel würde dieser code sicherzustellen, dass eine Zeichenfolge ist sicher zum einfügen in eine UTF-8-kodierten Dokument (oder eine Datenbank)?

function make_safe_for_utf8_use($string) {

    $encoding = mb_detect_encoding($string, "UTF-8,ISO-8859-1,WINDOWS-1252");

    if ($encoding != 'UTF-8') {
        return iconv($encoding, 'UTF-8//TRANSLIT', $string);
    }
    else {
        return $string;
    }
}

InformationsquelleAutor Brian | 2009-10-06

37

UTF-8 speichern kann jedes Unicode-Zeichen. Wenn Ihre Codierung ist nichts anderes, einschließlich ISO-8859-1 oder Windows-1252, UTF-8 speichern kann jedes Zeichen in es. So dass Sie nicht haben, um sorgen über den Verlust jedes Zeichen, wenn Sie konvertieren eine Zeichenfolge aus irgendeiner anderen Kodierung auf UTF-8.

Weiter, beide, ISO-8859-1 und Windows-1252 single-byte-Codierungen, wo jedes byte gültig ist. Es ist technisch nicht möglich, zwischen Ihnen zu unterscheiden. Ich würde wählte Windows-1252 als Ihre Standard-match für nicht-UTF-8-Sequenzen, als nur die bytes entschlüsseln unterschiedlich sind im Bereich 0x80-0x9F. Diese Dekodieren verschiedene Zeichen wie typografische Anführungszeichen und der Euro ist in Windows-1252, in der Erwägung, dass in ISO-8859-1 Sie sind unsichtbare steuerzeichen, die werden fast nie benutzt. Web-Browser können manchmal sagen, Sie sind mit ISO-8859-1, aber oft sind Sie wirklich mit Windows-1252.

würde dieser code sicherzustellen, dass eine Zeichenfolge ist sicher zum einfügen in eine UTF-8-kodierten Dokument

Würden Sie sicherlich möchten, legen Sie die optionalen 'strict' - parameter auf "TRUE" für diesen Zweck. Aber ich bin mir nicht sicher, ob dies tatsächlich deckt alle ungültigen UTF-8-Sequenzen. Die Funktion hat nicht den Anspruch, zu überprüfen, eine byte-Sequenz UTF-8 Geltung ausdrücklich zu. Es wurden Fälle bekannt, in denen mb_detect_encoding denke, UTF-8 falsch vor, aber ich weiß nicht, ob das kann immer noch passieren im strict-Modus.

Wenn Sie sicher sein wollen, tun Sie es selbst mithilfe der W3-empfohlenen regex:
```
if (preg_match('%^(?:
      [\x09\x0A\x0D\x20-\x7E]            # ASCII
    | [\xC2-\xDF][\x80-\xBF]             # non-overlong 2-byte
    | \xE0[\xA0-\xBF][\x80-\xBF]         # excluding overlongs
    | [\xE1-\xEC\xEE\xEF][\x80-\xBF]{2}  # straight 3-byte
    | \xED[\x80-\x9F][\x80-\xBF]         # excluding surrogates
    | \xF0[\x90-\xBF][\x80-\xBF]{2}      # planes 1-3
    | [\xF1-\xF3][\x80-\xBF]{3}          # planes 4-15
    | \xF4[\x80-\x8F][\x80-\xBF]{2}      # plane 16
)*$%xs', $string))
    return $string;
else
    return iconv('CP1252', 'UTF-8', $string);
```
- Dank sehr viel. Ich weiß, die Entwickler immer Kommentar über die Langsamkeit von regexes - wie vorsichtig sollte ich mit diesem in großen loops mit viel text? Zum Beispiel, eine Schleife, die durchläuft das 200-fache und reinigt text von 10000 Zeichen für jede iteration.
- Zwar bin ich kein fan von regex in diesem Fall sollte es nicht so schlimm sein. Regex wird langsam, wenn Sie aufeinander oder Ineinander verschachtelt ?/*/+ Sequenzen, die verursachen können, es zu haben, um backtrack auf der Suche nach verschiedenen Möglichkeiten zu entsprechen. Das wird nicht passieren, in diesem Fall.
- Ausgezeichnet. Also, wenn mit "iconv", wie Sie oben beschreiben, wenn ich angeben CP1252 als input-charset, und der string ist etwas anderes als CP1252 oder ISO-8859-1, wird es wieder ein UTF-8-safe-string, obwohl einige Zeichen verloren. Ist das richtig?
- Wird es wieder ein UTF-8-safe-string, ja. Nicht-ASCII-Zeichen werden kommen, wie die falschen Zeichen, aber nicht gefährlich sind.
- Tatsächlich, dieser regex ist falsch. Es wird nicht überein gültige UTF-8-Codepunkte (wie chr(0)). Es ist in Ordnung für druckbare Zeichen, aber nicht generisch UTF-8...
- Es vielleicht nicht entsprechen allen gültigen UTF-8-Codierungen, aber es passt gegen UTF-8-Kodierungen, die gültige XML-Daten.
- Beachten Sie, dass diese Antwort verursacht Probleme für viele Situationen, die aufgrund der komplexen regex verursacht PCRE-Absturz: bugs.php.net/bug.php?id=36463 . Es ist richtig, aber es hat manchmal nicht funktioniert. hat bei mir nicht funktioniert, verwenden Sie ini_set('mbstring.substitute_character', "none"); $utf8_string = mb_convert_encoding($string, 'UTF-8', 'UTF-8');
- wow, das ist... überraschend. Obwohl der Ausdruck schwierig aussieht, ist es in der Tat sehr von einem einfachen regex-Sicht—es gibt keine erweiterten Funktionen und keine Möglichkeit des backtracking; keine Rekursion erforderlich. Es ist ein Kommentar, dass der Fehler sagen, auch ^(a)+$ fehl 203-byte-input... das kann man doch nicht erwarten/akzeptables Verhalten? Es scheint gut zu funktionieren in R (die auch verwendet PCRE), für was es Wert ist. Ich denke, Rasmus ignoriert ist ein echtes problem. 🙁
- Auch das Problem mit diesem, scheint zu Versagen auf etwas mäßig ansehnliche, wie der HTML-von einer modernen Webseite
InformationsquelleAutor bobince
14

Mit der mbstring Bibliothek, Sie haben mb_check_encoding().

Anwendungsbeispiel:
```
mb_check_encoding($string, 'UTF-8');
```
Mit PHP 7.1.9 auf einem aktuellen Windows-10-system, das regex Lösung übertrifft mb_check_encoding() für eine beliebige Zeichenkette der Länge (immer noch 20.000 Iterationen):
- 10 Zeichen: regex => 4 ms, mb_check_encoding() => 64 ms
- 10000 chars: regex => 125 ms, mb_check_encoding() => 2.4 s
- Ihr system muss Schreien schnell, da bekomme ich ~5 Sekunden auf 7500 Zyklen auf ein ziemlich modernes system (obwohl ich den Umgang mit einigen ziemlich großen, Streicher, denken Sie den HTML-von einer ziemlich modernen website).
InformationsquelleAutor Frosty Z
3

Nur ein Hinweis: Anstatt der oft empfohlen (eher komplexen) regulären Ausdruck durch das W3C, können Sie einfach das " u " - Modifizierer zu testen, die eine Zeichenfolge für UTF-8-Gültigkeit:
```
<?php
  if (preg_match("//u", $string)) {
      //$string is valid UTF-8
  }
```
- auch zurück in die Tage: Wie zu erkennen, wenn gelten utf8-decode oder encode on a string?
- Einfach common-Fall prüfen, aber nicht ganz zuverlässig. Sein Verhalten hängt von der PHP-version, aber noch wichtiger ist, können ungültige multibyte-Sequenzen. phpwact.org/php/i18n/...
InformationsquelleAutor eyecatchUp
1

Haben Sie einen Blick auf http://www.phpwact.org/php/i18n/charsets für eine Anleitung über Zeichensätze. Diese Seite enthält links zu einer Seite, die speziell für UTF-8.
- Der link scheint kaputt zu sein.
InformationsquelleAutor Martijn
0

Antwort auf "iconv ist idempotent":

Weder die iconv - iconv ist nicht idempotent.

Einen großen Unterschied zwischen utf8_encode() und iconv() ist, dass iconv kann Fehler auslösen, wie dieses "Erkannt und einen incomplete multibyte character in input string", auch mit:

iconv('ISO-8859-1', 'UTF-8'.'//IGNORE', $str)

in den obigen code:

$encoding = mb_detect_encoding($string, "UTF-8,ISO-8859-1,WINDOWS-1252");

Müssen Sie wissen mb_detect_encoding. Es kann die Antwort zu den uft-8 auch für ungültige UTF-8-strings (schlecht gebildet UTF-8).

InformationsquelleAutor Nadir

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.