UTF-8: Allgemein? Behälter? Unicode?

Ich versuche, herauszufinden, welche Sortierung ich mit sollte für verschiedene Arten von Daten. 100% der Inhalte, die ich speichern werden die vom Benutzer eingereicht.

Mein Verständnis ist, dass ich sollte mit UTF-8-General-CI (Case-Insensitive) anstelle von UTF-8 Binär. Aber ich kann nicht finden, eine klare Unterscheidung zwischen UTF-8 General CI und UTF-8-Unicode-CI.

Soll ich das speichern von Benutzer eingereichte Inhalte in UTF-8 General-oder UTF-8-Unicode-CI Spalten?
, Welche Art von Daten in UTF-8 Binär-anwendbar sein?

Kommentar zu dem Problem - Öffnen

Seite beachten Sie aber anstelle von utf8, utf8mb4 statt für die volle UTF-8 Unterstützung. Kommentieren hier, weil die Antworten auf diese beliebte Frage, nicht Adresse. mathiasbynens.sein/notes/mysql-utf8mb4 Kommentarautor: Steven R. Loomis

Wenn Sie möchten, case-folding, aber Akzent, bitte eine Anfrage an bugs.mysql.com . Kommentarautor: Rick James

Oder klicken Sie auf "Betrifft Mich" auf bugs.mysql.com/bug.php?id=58797 und einen Kommentar hinzufügen. Kommentarautor: Rick James

InformationsquelleAutor der Frage Dolph | 2010-02-26

274

Im Allgemeinen utf8_general_ci ist schneller als utf8_unicode_ci, aber weniger korrekt.

Hier ist der Unterschied:

Für alle Unicode-Zeichensatz, Operationen durchgeführt mit der _general_ci Sortierung, schneller sind als jene für die _unicode_ci Sortierung. Zum Beispiel, Vergleiche für die Sortierung utf8_general_ci sind schneller, aber etwas weniger korrekt, als Vergleiche für utf8_unicode_ci. Der Grund dafür ist, dass utf8_unicode_ci unterstützt mappings, wie Erweiterungen; das heißt, wenn ein Charakter vergleicht, als gleich zu Kombinationen anderer Zeichen. Zum Beispiel, in deutschen und einigen anderen Sprachen "ß" ist gleich "ss". utf8_unicode_ci unterstützt auch Kontraktionen und vernachlässigbar Zeichen. utf8_general_ci ist eine legacy-Sortierung, die nicht unterstützen Expansionen, Kontraktionen, oder vernachlässigbar Zeichen. Es kann nur eine-zu-eins-Vergleiche zwischen den Zeichen.

Zitiert aus:
http://dev.mysql.com/doc/refman/5.0/en/charset-unicode-sets.html

Ausführlichere Erklärung, Lesen Sie bitte den folgenden Beitrag aus der MySQL Foren:
http://forums.mysql.com/read.php?103,187048,188748

Als für utf8_bin:
Beide utf8_general_ci und utf8_unicode_ci ausführen groß- /Kleinschreibung-Vergleich. Kontrastieren, utf8_bin groß-und Kleinschreibung ist (neben anderen unterschieden), denn er vergleicht die binärwerte der Zeichen.

InformationsquelleAutor der Antwort Sagi
83

Sollten Sie auch der Tatsache bewusst sein, dass mit utf8_general_ci bei der Verwendung der varchar-Feld als unique-oder primary index einfügen 2 Werte wie 'a' und 'á' geben würde, ein duplicate key error.

InformationsquelleAutor der Antwort Alex Hepp
21
- utf8_bin vergleicht die bits blind. Keinen Fall Falten, kein Akzent Strippen.
- utf8_general_ci vergleicht ein byte mit einem byte. Es tut Fall Faltung und Akzent Strippen, aber keine 2-Zeichen-Vergleiche: ij ist nicht gleich ĳ in dieser Sortierung.
- utf8_*_ci ist ein Satz von sprachspezifischen Regeln, aber sonst wie unicode_ci. Einige spezielle Fälle: Ç, Č, ch, ll
- utf8_unicode_ci folgt einer alten Unicode-standard für Vergleiche. ij=ĳ, aber ae != æ
- utf8_unicode_520_ci folgt ein neuer Unicode-standard. ae = æ
Sehen Sortierung Diagramm für details auf, was ist gleich, was in verschiedenen utf8-Sortierungen.

utf8, definiert durch MySQL beschränkt sich auf 1 - bis 3-byte-utf8-codes. Dies lässt sich Emoji und einige Chinesen. So sollten Sie wirklich wechseln zu utf8mb4 wenn Sie möchten, gehen Sie viel über Europa hinaus.

Die oben genannten Punkte gelten für utf8mb4 nach geeigneten Schreibweise ändern. In Zukunft utf8mb4 und utf8mb4_unicode_520_ci bevorzugt werden.
- utf16 und utf32 Varianten auf utf8; es gibt praktisch keine Verwendung für Sie.
- ucs2 ist näher an "Unicode" als "utf8"; es gibt praktisch keine Verwendung für Sie.
InformationsquelleAutor der Antwort Rick James
6

Wirklich, getestet habe ich das speichern von Werten wie 'é' und 'e' in der Spalte mit einzigartige index und verursachen Sie doppelten Fehler auf beiden 'utf8_unicode_ci' und 'utf8_general_ci'. Können Sie Sie speichern nur in "utf8_bin' sortierte Spalte.

- Und mysql-docs (in http://dev.mysql.com/doc/refman/5.7/en/charset-applications.html) empfehlen in Ihren Beispielen set 'utf8_general_ci' Sortierung.
```
[mysqld]
character-set-server=utf8
collation-server=utf8_general_ci
```
InformationsquelleAutor der Antwort vitalii

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.