Warum hat jemand Verwendung einer anderen Codierung als UTF-8?

Möchte ich wissen, warum jeder Entwickler würde auf einer anderen Codierung als UTF-8.

Meinst du, im Vergleich zu UTF-16, oder im Vergleich zu herkömmlichen nicht-Unicode-Codierungen?
Bezogen auf programmers.stackexchange.com/questions/102205/... und programmers.stackexchange.com/questions/40063/...

InformationsquelleAutor | 2009-07-29

26

Wikipedia listet die Vorteile und Nachteile von UTF-8 gegenüber einer Vielzahl von anderen Codierungen:

http://en.wikipedia.org/wiki/UTF-8#Advantages_and_disadvantages

Die wichtigsten Nachteile sind IMHO, dass UTF-8 verwenden könnte deutlich mehr Platz, vor allem in asiatischen Sprachen wie Chinesisch, Japanisch oder Hindi und nicht alle code-points haben die gleiche Größe die macht Messungen schwieriger und viele string-Operationen wie die Suche ineffizient.
- Nicht alle code-points haben die gleiche Größe, die in UTF-16.
- Aber es gibt andere Verschlüsselungen, wo dies der Fall ist wie UCS-2, ASCII, etc.
- UCS-2 ist eine böse überflüssig Abtreibung ein Zeichen gesetzt. Wenn Sie möchten, verwenden Sie eine Feste Größe-Zeichenkodierung, Ihre einzige Wahl ist, UTF-32 (die selten verwendet wird).
- Einer der interessantesten Punkte durch "UTF-8 Überall Manifest" (utf8everywhere.org) ist, dass alle code-points die gleiche Größe haben, ist nicht annähernd so nützlich wie es klingt. Einige code-Punkte, wie die diakritischen Zeichen sind nicht Zeichen von sich, denn Sie verbinden sich mit benachbarten Zeichen. Es gibt auch viele nicht-druckbare code Punkte wie die byte-order-Markierung, die zählen nicht als Zeichen an alle. So viele Operationen, dass, würde man glaubst bequemer wäre, mit einfach Wendeplatten-code Punkte (wie Spalte Messungen) gar nicht so einfach.
InformationsquelleAutor Dirk Vollmar
12

Gut, einige tun es, weil Ihre Werkzeuge sind archaisch oder fehlerhaft. Einige tun es, weil Sie don ' T sehen die Notwendigkeit, die Unterstützung alles andere als ASCII. Einige tun es, weil Sie es nicht besser wissen.

Das sind die üblichen Ausreden für nicht Unicode verwenden.

Als für nicht mit UTF-8 speziell dafür gibt es verschiedene Gründe. Einige Systeme, wie Windows¹ (und die aus dass .NET) und Java, kam zu sein in einer Zeit, wo Unicode wurde eine strenge 16-bit-code. Daher gab es eigentlich nur eine Kodierung UCS-2, Codierung code Punkte direkt als 16-bit-Worten.

Später Unicode wurde erweitert, um 21 bits, da 65536 code points waren nicht mehr genug. Dies verursacht Kodierungen wie UTF-32 und UTF-16 zu erscheinen. Für Systeme, die zuvor mit UCS-2 die Umstellung auf UTF-16 war die einfachste und vernünftigste Wahl. Windows hast, dass der übergang zurück in Ye Olde Tagen von Windows 2000.

Also, während ich denke, dass fast alle Anwendung heute unterstützen sollte Unicode ich nicht denke, es ist durchaus notwendig, dass Sie speziell für die Verwendung der UTF-8. Es gibt historische Gründe dafür und keinen wirklichen Vorteil in der Umwandlung von bestehenden Systemen von UTF-16 zu UTF-8.

¹ NT.
- Windows noch nicht vollständig umgestellt auf UTF-16. Versuchen Sie das schreiben nicht-BMP-Zeichen auf der Konsole, zum Beispiel...
InformationsquelleAutor Joey
9

In UTF-8-Codepunkte zwischen 0800 und FFFF bis drei bytes in UTF-8, aber nur zwei in UTF-16. Finden Sie die wikipedia-Vergleich für mehr details, aber grundsätzlich wenn der text stark wird code verwendet, der Punkte in diesem Bereich (sagen wir, wenn es Chinesisch), UTF-8-Dateien, die größer sein wird als UTF-16-Dateien mit dem gleichen Inhalt.
- Für Chinesen in China-Festland könnten viele Menschen betrachten GB18030 als Unicode-Codierung, bevor UTF-16.
InformationsquelleAutor Welbog
8

UTF-8 ist sehr effizient bei der Codierung plain English text (wie ASCII). Wenn Ihre user-base ist wahrscheinlich meistens, sagen wir, Chinesisch, werden Sie viel besser mit UTF-16.

Weitere Informationen finden Sie unter Das Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets.
- Ich fand den verlinkten blog-Eintrag von Joel sehr informativ. Danke!
- Der link zu Joel ' s Mist über Unicode-Wert ist ein downvote. Sie setzt sich für UCS-2, UTF-7 und highlights Sätze wie "Das ist nicht, tatsächlich, stimmt." und nicht Holen Sie sich die Fakten gerade (z.B. die Geschichte über Unicode).
InformationsquelleAutor Mac
5

Manchmal sind Sie eingeschränkt durch historische/nicht unterstützte Gründen (ich entwickle unter Windows und der Verwendung von Zend Studio auf einem Samba-share auf einem Linux-Rechner, und etwas in dieser Mischung bedeutet, ich halte die Rückkehr zu Cp1512 statt UTF8).

Manchmal brauchen Sie nicht, um die Verwendung von UTF-8 (zum Beispiel beim speichern einen md5-hash in einer Datenbank: Sie müssen nur die hexadezimalen Bereich 0-9 A-F: warum machen Sie es eine UTF-8-Bereich, der mindestens ein byte zusätzlichen Speicherplatz, statt der normalen ASCII).

Manchmal ist es nur Faulheit lernen die UTF-8-Funktionen für eine bestimmte Sprache.
- Warum würde die UTF8-Darstellung hex-Ziffern belegen mehr Speicher als die ASCII-Darstellung? Die byte-Werte sind die gleichen, die in den zwei Kodierungen.
- UTF-8 wird nicht mehr bytes als ASCII für ASCII-Codierung. Warum denken Sie, es muss ein zusätzliches byte?
- Ok, vielleicht sollte ich qualifiziert haben, es ein bisschen mehr. Ich habe gesehen, einige Implementierungen [wenn ich mich Recht erinnere, ist es könnte wurden Oracle] speichern Sie eine byte-Reihenfolge-marker (BOM) für alle UTF8-Daten Felder: einige Implementierungen verwenden Sie es nicht, wenn die Daten nicht-ASCII-Zeichen, andere nicht verwenden, es sei denn, die Stückliste unterscheidet sich von der "Standard".
- C: Cp1512??? Meinst du cp1251? cp1252?
- Ja John, scheint, ich machte einen Tippfehler: ich meinte Cp1252 statt Cp1512. D'uh! Prinzip ist das gleiche aber 😉
InformationsquelleAutor Richy B.
5

Weil Sie es nicht besser wissen.
Der einzige wirkliche Kritikpunkt an utf-8 ist, dass die Codierungen für die gängigen asiatischen Sprachen in übergröße von anderen Codierungen.
UTF-8 ist besser, weil
- Es ist ASCII-kompatibel. Die meisten bekannt und versucht, string-Operationen brauchen keine Anpassung.
- Ist es Unicode. Alles, was nicht Unicode-gar nicht berücksichtigt werden in diesem Tag und Alter. Wenn Sie haben wichtige Daten in einer Codierung von X, verbringen Sie zwei Minuten auf Google und schreiben Sie eine Konvertierungs-Funktion. Auch wenn Sie die Schnittstelle mit sourceless legacy app Z, Sie können Ihre Kommunikation durch ein Rohr, so dass Ihre Logik bleibt in the 21st century.
- UTF-16 ist nicht von fester Länge und vorausgesetzt, es ist, wie es viele tun, wird nur dazu führen, dass schrecklichen Fehler.
- Zusätzlich Unicode ist sehr Komplex, und es ist fast sicher als Feste Größe-Algorithmus adaptiert von ASCII-Ausbeute schlechte Ergebnisse auch in UTF-32.
Sagen, Sie haben diese UTF-16-string.
```
[0][1][2][F|3] [4] [5]
```
Und Sie einfügen wollen, um ein Zeichen mit code 8 zwischen [3] und [4]
Sie würde tun, insert(5,8)

Wenn Sie nicht überprüfen Sie für Zeichen außerhalb der BMP(Seriell als in UTF-8, da Sie nicht wissen, wie viele doppelte Größe Zeichen, die Sie haben) erhalten Sie:
```
[0][1][2][F|8][3][4][5]
```
Zwei neue sinnlose Zeichen. So viel für Ihre Feste Größe-Codierung.
Natürlich können Sie zu verbieten, solche Zeichen insgesamt, sondern dann, wenn Ihr code Schnittstellen mit der realen Welt, finden Sie vielleicht Ihr Programm speichert das Profil für diesen Benutzer lebt in rm -Rf /in .Profil statt [Klassische chinesische Sprichwort].Profil.

Oder einfach nur ein verärgerter user, die nicht schreiben kann, seine Dissertation über das Klassische chinesische Sprichwörter mit Ihrer software.

InformationsquelleAutor jbcreix
5

Weil außerhalb der englischsprachigen Welt, die Menschen wurden mit verschiedenen Kodierungen, die Sie vorher Unicode und sind maßgeschneidert für Ihren jeweiligen Sprachen seit Jahrzehnten. Diese sprachspezifischen Codierungen haben sich tief verwurzelt sind überall und Sie sind ziemlich viel ein standard. Wenn Sie möchten, um die Hoffnung auf die Anbindung der legacy-Systeme, Sie müssen Sie nutzen, damit alle Systeme haben, um Sie zu unterstützen und in der Regel verwenden Sie Sie als Voreinstellung, auch wenn Sie mittlerweile Unterstützung von UTF-8 als gut. Es kann sogar sein, dass mehrere legacy-Kodierungen, die traditionell verwendet für verschiedene Zwecke.

Beispiele:
- ISO-8859-1 in Westeuropa - eigentlich veraltet auch dort, wie Sie benötigen ISO-8859-15 für das Euro-Zeichen
- ISO-2022-JP in Japan für E-Mails, Shift-JIS für websites
- Big5 in Taiwan
- GB2312 in China
Die letzten beiden Beispiele zeigen, dass die Codierungen können sogar eine politische Frage.

InformationsquelleAutor Michael Borgwardt
4

Einen berechtigten Grund ist, wenn Sie benötigen, um mit alten Dokumenten, software oder hardware, die nicht Unicode-kompatibel.

Einem anderen legitimen Grund dafür ist, dass Sie brauchen, um eine Programmiersprache /- Bibliotheken, die keine Unterstützung für UTF8 /Unicode-naja ... oder überhaupt.

Anderen Antworten erwähnt, dass UTF-16 ist kompakter als UTF-8 für asiatische Sprachen /Zeichen.

- Und natürlich gibt es Gründe, wie Kurzsichtigkeit, Ignoranz, Faulheit ... und Termine.
- +1 eine weitere schöne Zusammenfassung, und dass die real-Welt, edge, ooh kann nicht es schlagen.
InformationsquelleAutor Stephen C
3

Es ist auch daran zu erinnern, dass in einigen Fällen (wo ein nicht-lateinische Satz von Zeichen erforderlich sind) UTF-8 kann tatsächlich aufblasen größer als die 16-bit-Unicode-Codierung. In jenen Fällen, In ucs-2 oder utf-16 wäre eine bessere Wahl.
- Außerdem sollten Sie nie verwenden, UCS2, wenn Sie es vermeiden können, denn es kann nur Kodieren Teil von unicode (Ebene 0, BMP, 0-FFFF Bereich) und das kann, brechen Sie Ihr Programm in interessanter Weise.
InformationsquelleAutor AnthonyWJones
3

http://www.personal.psu.edu/ejp10/blogs/gotunicode/2007/02/cjk-unicode-angst-in-japan-and.html hat eine gute Zusammenfassung + links über die Schwierigkeit, japanische Benutzer haben mit Unicode.

http://www.hastingsresearch.com/net/04-unicode-limitations.shtml

Anscheinend Unicode ist eine Abkehr von der Vereinigung aufgrund solcher Beschwerden.
- links sind veraltet
InformationsquelleAutor Jonathan Graehl
2

Die Gründe für die Verwendung von nicht-Unicode 8-bit-Zeichensätzen /Codierungen sind alle wieder Kompatibilität irgendwelcher Art, und/oder Trägheit. Für diese Angelegenheit, die meisten häufige Gründe für die Verwendung von UTF-8 sind die Kompatibilität mit standards wie XML, Auftrag oder doch lieber UTF-8.

Unterschiede in der Anzahl der bytes, die Sie denken, wird der text in verschiedenen Kodierungen, vor allem im Lager, sind größtenteils theoretischer Natur. In der realen Welt Situationen, Verträglichkeit Anforderungen sind wichtiger. Wenn die Komprimierung verwendet wird, die Größe der Unterschiede Weggehen sowieso. Auch wenn die Kompression nicht verwendet werden, die Gesamt-text-Größe ist schwer zu prognostizieren ist selten ein entscheidender Faktor.

Beim konvertieren von legacy-code verwendet, die nicht-Unicode 8-bit-Kodierungen, UTF-16 kann ein Werkzeug sein, um sicherzustellen, dass alle code umgewandelt wurde, weil Diskrepanzen können gefangen werden, compile-time-Typ-Fehler. Viele Sprachen, runtimes und libraries wie Javascript, JVM, .NET, die ICU verwenden 16-bit-strings und UTF-16, obwohl Speicher und Internet-Protokolle sind in der Regel 8-bit.

InformationsquelleAutor Joseph Boyle
1

Sich vorstellen, alle Dateien zu prüfen, sind in GB2312 (China-Festland-standard). Dann könnten Sie von GB18030 als Unicode-Codierung statt. Sie sind kompatibel die gleiche Weise wie bei ASCII in UTF-8. Das ist nützlich in China-Festland!

Beschließen Sie vielleicht sogar schneller, wenn Sie herausfinden, dass beide genannten GB-standards erforderlich sind, in Ihr IT-Produkt durch das Gesetz (soweit ich gehört habe), wenn Sie wollen, zu Schiff in China (Festland).

Ein weiterer Vorteil ist, dass GB2312, und als solche von GB18030 als gut, sind auch ASCII-kompatibel.

Es ist algorithmisch nicht so robust, obwohl. – Also, wenn Sie haben keine politischen Gründe oder irgendwelche GB2312 Erbe, es macht keinen Sinn, es zu benutzen. Aber wenn Sie das tun, hier hast du deine Antwort.

InformationsquelleAutor Robert Siemer
1

Bezug auf das Thema, wenn Sie MySQL verwenden, als ob es noch nicht kompliziert genug ist, können Sie die option wählen, welche Art von UTF-8 collation, die Sie verwenden möchten. Also, was würden Sie verwenden?

UTF-8 general ci
oder
UTF-8 unicode ci?

(Ich Neige dazu, verwenden Sie die UTF-8-Variante, die verwendet wird, für die Datenbank-Verbindung)

InformationsquelleAutor Jorix
0

Weil Sie manchmal wollen, arbeiten Sie leicht auf codepoints -- dann würden Sie Sie f.e. UCS-2 oder UCS-4.
- UCS-2 ist beschränkt auf BMP. Sicherlich nicht die Klügste Wahl heutzutage.
- kein problem, wenn Sie wissen, dass jedes Zeichen in der Zeichenfolge ist der BMP. Wenn Sie definieren es als UCS-2 ist, dann wissen Sie, dass jedes Zeichen die gleiche Breite (2 bytes), aber wenn Sie legen es als UTF-16 (auch wenn die codierte bytes können auch identisch sein) Sie müssen überprüfen, ob die Surrogat-Paaren.
- Ich denke nicht, dass Entwickler Faulheit einen triftigen Grund für die Verhängung willkürlicher Einschränkungen für Benutzer. Unicode wurde noch nicht 16-bit-code, der seit geraumer Zeit jetzt, es gibt keinen Grund zu verewigen ungültige Annahmen. Durch das gleiche argument kann man wohl machen ISO-8859-look vorteilhaft ist es jedoch nicht.
- es geht nicht um Faulheit. Wenn die Quelle (z.B. eine legacy-Datenbank) ist bereits begrenzt 8859-1 zum Beispiel könnten Sie konvertieren zu UTF-8 (was Sie vielleicht tun möchten, für die Konsistenz, wenn der rest von Ihr system verwendet UTF-8) aber es ist ein trade-off, weil Sie dann nicht mehr mit fester Breite Zeichen. Wenn Sie lassen Sie es, wie 8859-1 oder konvertieren Sie Sie in UCS-2 oder UTF-32 Sie haben noch ein fixed-width-encoding. Dies ist nicht der Fall, wenn Sie es konvertieren zu UTF-8, UTF-16, GB18030-etc.
- (Fortsetzung) Dies kann ein Schmerz (und kostspieligen Modifikationen) bei der Verwendung von APIs, die waren ursprünglich für ein fixed-width-encoding (ASCII-oder UCS-2) und später "nachrüsten" zu behandeln, die gleichen Argumente wie UTF-8 oder UTF-16. Ich habe gesehen das in einigen Java-Projekten (Java migriert wurde, von UCS-2 auf UTF-16.)
InformationsquelleAutor liori
0

Viele APIs erfordern andere Unicode-Kodierungen - meist UTF-16. Zum Beispiel, Java, .NET, Win32.
- .NET use UTF-8 als default-encoding.
- nicht sicher, was du meinst mit "default-encoding", aber ich kann Ihnen versichern, dass die .NET String-Klasse intern speichert text als UTF-16.
- OK - du hast Recht, die String ist intern UTF-16. Was ich auf dieser auf, dass beim Lesen der Datei ist default read UTF-8-Kodierung (siehe StreamReader ).
- Diese Unterschiede erklärt werden, ein bisschen näher in this Antwort von Joseph Boyle.
InformationsquelleAutor Nemanja Trifunovic
0

Bei meinem vorherigen Arbeitgeber haben wir verwendet iso-8859-1 für einige unserer ASP-Seiten entsprechend der Sortierung unserer SQL-Server, der wie Sie sich vorstellen können, war nicht in Unicode. Ich wollte um die Sortierung zu ändern, aber, sagte der manager zu warten, bis wir aktualisieren unsere SQL-Server zu tun. Unnötig zu sagen, dass es nie passiert - ich habe nicht mit Ihnen für ein wenig mehr als ein Jahr jetzt, also ich weiß nicht, ob Sie es endlich Taten.

InformationsquelleAutor Waleed Al-Balooshi
0

Unicode ist sicherlich ein guter Ort zu arbeiten, in den meisten Fällen, aber ein Entwickler sollte vertraut sein mit vielen verschiedenen Arten von Zeichen-Kodierung. Sicherlich ASCII kann verwendet werden, wenn die Menge der Zeichen begrenzt ist.

Was ist, wenn du Entwickler bist und den Empfang von Daten von einer Quelle, die nicht senden UTF-8? Es könnte sein, viele Schnittstellen-Probleme, wenn Sie nicht verstehen Sie Ihre Eingabe.

Joel ' s Artikel auf die must-knows für die Zeichenkodierung ist gut und lesenswert.
- Joel ' s Artikel ist nicht lesenswert. Siehe meinen anderen Kommentar hier in der Nähe.
InformationsquelleAutor Chet

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.