Wie viele Bytes braucht ein Unicode-Zeichen?

Ich bin ein bisschen verwirrt über die Kodierungen. Soweit ich weiß, alte ASCII-Zeichen nahm ein byte pro Zeichen. Wie viele bytes hat ein Unicode-Zeichen erfordern?

Ich gehe davon aus, dass ein Unicode-Zeichen enthalten kann, die alle möglichen Zeichen aus jeder Sprache - bin ich richtig? Also, wie viele bytes braucht es pro Charakter?

Und was tun, UTF-7, UTF-6, UTF-16 usw. bedeuten? Sie sind verschiedene Versionen von Unicode?

Lese ich die Wikipedia-Artikel über Unicode aber es ist ganz schwierig für mich. Ich freue mich zu sehen, eine einfache Antwort.

InformationsquelleAutor der Frage nan | 2011-03-13

114

Sehen Sie nicht eine einfache Antwort, weil es nicht ein.

Ersten, die Unicode nicht enthalten "jedes Zeichen aus jeder Sprache", obwohl es sicher nicht versuchen.

Unicode selbst ist ein mapping definiert, codepoints und ein codepoint ist eine Zahl, verbunden mit in der Regel ein Zeichen. Ich sage meist, weil es gibt Konzepte, wie die Kombination von Zeichen. Sie möglicherweise nicht vertraut mit Dingen wie Akzente oder Umlaute. Diese können verwendet werden, mit einem anderen Charakter, wie ein a oder eine u zum erstellen eines neuen logischen Charakter. Ein Charakter kann daher bestehen aus 1 oder mehrere codepoints.

Nützlich zu sein in computing-Systemen, die wir brauchen, um wählen Sie eine Darstellung für diese Informationen. Das sind die verschiedenen unicode-Codierungen wie utf-8, utf-16le, utf-32 usw. Sie zeichnen sich weitgehend durch die Größe Ihrer codeunits. UTF-32 ist die einfachste Codierung, hat es eine codeunit, 32-bit, was bedeutet, dass ein einzelner codepoint passt bequem in eine codeunit. Die anderen Codierungen wird in Situationen, in denen ein codepoint wird, müssen mehrere codeunits, oder, dass insbesondere codepoint können nicht dargestellt werden in der Kodierung (dies ist ein problem, zum Beispiel mit UCS-2).

Weil Sie die Flexibilität der Kombination von Zeichen, auch innerhalb einer bestimmten Kodierung der Anzahl der bytes pro Zeichen kann variieren, je nach dem Charakter und der normalization form. Dies ist ein Protokoll für den Umgang mit Zeichen, die mehr als eine Darstellung (man kann sagen "an 'a' with an accent" 2 codepoints, eine davon ist eine Kombination von char oder "accented 'a'" ist ein codepoint).

InformationsquelleAutor der Antwort Logan Capaldo
132

Seltsamerweise niemand darauf hingewiesen, wie zu berechnen, wie viele bytes ein Unicode-char. Hier ist die Regel für UTF-8-kodierte strings:
```
Binary    Hex          Comments
0xxxxxxx  0x00..0x7F   Only byte of a 1-byte character encoding
10xxxxxx  0x80..0xBF   Continuation bytes (1-3 continuation bytes)
110xxxxx  0xC0..0xDF   First byte of a 2-byte character encoding
1110xxxx  0xE0..0xEF   First byte of a 3-byte character encoding
11110xxx  0xF0..0xF4   First byte of a 4-byte character encoding
```
Also die kurze Antwort ist: es dauert 1 bis 4 bytes je nach die erste, die anzeigt, wie viele bytes es nehmen werde.

Update

Als prewett darauf hingewiesen, diese Regel gilt nur für UTF-8

InformationsquelleAutor der Antwort paul.ago
28

Ich weiß, diese Frage ist alt und hat bereits eine akzeptierte Antwort, aber ich möchte ein paar Beispiele (hoffe, es wird nützlich sein, um jemanden).

Soweit ich weiß, alte ASCII-Zeichen nahm ein byte pro Zeichen.

Recht. Tatsächlich, da ASCII eine 7-bit-Codierung, es unterstützt die 128-codes (95, die gedruckt werden), so verwendet es nur ein halbes byte (wenn das macht keinen Sinn).

Wie viele bytes hat ein Unicode-Zeichen erfordern?

Unicode nur Karten Zeichen zu codepoints. Es nicht definieren, wie zu Kodieren. Eine Textdatei enthält keine Unicode-Zeichen, sondern bytes/Oktetts, die möglicherweise repräsentieren Unicode-Zeichen.

Ich gehe davon aus, dass ein Unicode-Zeichen enthalten kann, die alle möglichen
Zeichen aus jeder Sprache - bin ich richtig?

Nicht. Aber fast. Also im Grunde ja. Aber noch keine.

So, wie viele bytes braucht es pro Charakter?

Gleiche wie deiner 2. Frage.

Und was tun, UTF-7, UTF-6, UTF-16 usw bedeuten? Sind Sie eine Art Unicode
Versionen?

Nein, das sind Codierungen. Sie definieren, wie der bytes/Oktetts darstellen sollte Unicode-Zeichen.

Nur ein paar Beispiele. Wenn einige von jenen, die nicht in Ihrem browser dargestellt werden (wahrscheinlich, weil die schriftart nicht unterstützt), gehen Sie zu http://codepoints.net/U+1F6AA (ersetzen 1F6AA mit dem codepoint in hex) zu sehen, ein Bild.
1. - U+0061 LATIN SMALL LETTER A: a
    
    Nº: 97
    
    UTF-8: 61
    
    UTF-16: 00 61
2. - U+00A9 COPYRIGHT-ZEICHEN: ©
    
    Nº: 169
    
    UTF-8: C2 A9
    
    UTF-16: 00 A9
  - U+00AE EINGETRAGENE ZEICHEN: ®
    
    Nº: 174
    
    UTF-8: C2 AE
    
    UTF-16: 00 AE
3. - U+1337 ETHIOPIC SYLLABLE PHWA: ጷ
    
    NR: 4919
    
    UTF-8: E1 8C B7
    
    UTF-16: 13 37
  - U+2014 EM DASH: —
    
    NR: 8212
    
    UTF-8: E2 80 94
    
    UTF-16: 20 14
  - U+2030 PROMILLE-ZEICHEN: ‰
    
    Nº: 8240
    
    UTF-8: E2 80 B0
    
    UTF-16: 20 30
  - U+20AC EUROZEICHEN: €
    
    Nº: 8364
    
    UTF-8: E2 82 AC
    
    UTF-16: 20 AC
  - U+2122-TRADE-MARK-ZEICHEN: ™
    
    NR: 8482
    
    UTF-8: E2 84 A2
    
    UTF-16: 21 22
  - U+2603 SCHNEEMANN: ☃
    
    Nº: 9731
    
    UTF-8: E2 98 83
    
    UTF-16: 26 03
  - U+260E SCHWARZ TELEFON: ☎
    
    NR: 9742
    
    UTF-8: E2 98 8E
    
    UTF-16: 26 0E
  - U+2614 REGENSCHIRM MIT REGENTROPFEN: ☔
    
    Nº: 9748
    
    UTF-8: E2 98 94
    
    UTF-16: 26 14
  - U+263A WHITE SMILING FACE: ☺
    
    NR: 9786
    
    UTF-8: E2 98 BA
    
    UTF-16: 26 3A
  - U+2691 BLACK FLAG: ⚑
    
    Nº: 9873
    
    UTF-8: E2 9A 91
    
    UTF-16: 26 91
  - U+269B ATOM-SYMBOL: ⚛
    
    Nº: 9883
    
    UTF-8: E2 9A 9B
    
    UTF-16: 26 9B
  - U+2708 FLUGZEUG: ✈
    
    Nº: 9992
    
    UTF-8: E2 9C 88
    
    UTF-16: 27 08
  - U+271E BESCHATTET WEIßEN LATEINISCHEN KREUZ: ✞
    
    NR: 10014
    
    UTF-8: E2 9C 9E
    
    UTF-16: 27 1E
  - U+3020 POST-MARKE GESICHT: 〠
    
    Nº: 12320
    
    UTF-8: E3 80 A0
    
    UTF-16: 30 20
  - U+8089 CJK UNIFIED IDEOGRAMM-8089: 肉
    
    Nº: 32905
    
    UTF-8: E8 82 89
    
    UTF-16: 80 89
4. - U+1F4A9 STAPEL VON POO: ?
    
    Nº: 128169
    
    UTF-8: F0 9F 92 A9
    
    UTF-16: D8 3D-DC A9
  - U+1F680 RAKETE: ?
    
    Nº: 128640
    
    UTF-8: F0 9F 9A 80
    
    UTF-16: D8 3D DE 80
Okay, ich bin immer weggetragen...

Fun facts:
- Wenn Sie sich für einen bestimmten Charakter, können Sie kopieren&fügen Sie es auf http://codepoints.net/.
- Ich verschwendet viel Zeit auf diese nutzlose Liste (aber es ist sortiert!).
- MySQL hat einen Zeichensatz namens "utf8", der eigentlich gar nicht unterstützen Zeichen, die länger als 3 bytes. So Sie können nicht legen Sie einen Stapel von poodas Feld wird automatisch abgeschnitten. Verwenden Sie "utf8mb4" statt.
- Es gibt eine Schneemann-test-Seite (unicodesnowmanforyou.com).
InformationsquelleAutor der Antwort basic6
26

Einfach gesagt Unicode ist ein standard zugewiesen eine Zahl (genannt code point), um alle Zeichen der Welt (noch in Arbeit).

Nun müssen Sie, um dies darzustellen code Punkte unter Verwendung von bytes -, das ist genannt character encoding. UTF-8, UTF-16, UTF-6 sind die Möglichkeiten, diese Zeichen.

UTF-8 ist multibyte-Zeichenkodierung. Zeichen kann aus 1 bis 6 Byte (einige von Ihnen möglicherweise nicht erforderlich).

UTF-32 jedes Zeichen 4 bytes einem Zeichen.

UTF-16 verwendet 16 bit für jeden Charakter und stellt nur einen Teil der Unicode-Zeichen, den sogenannten BMP (für alle praktischen Zwecke reicht es). Java nutzt diese Codierung in die Saiten.

InformationsquelleAutor der Antwort Zimbabao
8

In Unicode-die Antwort ist nicht einfach gegeben. Das problem, wie Sie bereits darauf hingewiesen, sind die Codierungen.

Einen englischen Satz ohne diakritische Zeichen, die Antwort für UTF-8 wäre, wie viele bytes wie Zeichen und für UTF-16-es wäre die Anzahl der Zeichen mal zwei.

Nur Kodieren, wenn (wie jetzt) können wir die Aussage über die Größe ist UTF-32. Es ist immer 32 bit pro Zeichen, auch wenn ich mir vorstellen, dass die code-Punkte, die bereit sind, für eine Zukunft UTF-64 🙂

Was macht es so schwer ist, sind mindestens zwei Dinge:
1. zusammengesetzt Zeichen, wo anstelle der Verwendung der Zeichen-entity ist bereits Akzente und diakritische Zeichen (À), ein Benutzer beschlossen, kombinieren die Akzent-und die base-Zeichen (`A).
2. code Punkte. Code Punkte sind die Methode, mit der die UTF-Codierungen erlauben zu Kodieren, mehr als die Anzahl der bits, die Ihnen Ihre Namen würden in der Regel erlauben. E. g. UTF-8 bezeichnet bestimmte bytes, die auf Ihre eigenen sind ungültig, aber wenn gefolgt von einer gültigen Fortsetzung byte zulassen wird, beschreiben einen Charakter jenseits der 8-bit-Wertebereich von 0..255. Finden Sie die Beispiele und Überlangen Kodierungen unten in den Wikipedia-Artikel zu UTF-8.
  - Hervorragendes Beispiel gegeben es, dass das € - Zeichen (code point U+20AC dargestellt werden kann, entweder als drei-byte - Sequenz E2 82 AC oder vier-byte - Sequenz F0 82 82 AC.
  - Beide gültig sind, und dies zeigt, wie kompliziert ist die Antwort, wenn die Rede von den "Unicode" - und nicht eine spezifische Kodierung von Unicode, z.B. UTF-8 oder UTF-16.
InformationsquelleAutor der Antwort 0xC0000022L
7

In UTF-8:
```
1 byte:       0 -     7F     (ASCII)
2 bytes:     80 -    7FF     (all European plus some Middle Eastern)
3 bytes:    800 -   FFFF     (multilingual plane incl. the top 1792 and private-use)
4 bytes:  10000 - 10FFFF
```
In UTF-16:
```
2 bytes:      0 -   D7FF     (multilingual plane except the top 1792 and private-use )
4 bytes:   D800 - 10FFFF
```
In UTF-32:
```
4 bytes:      0 - 10FFFF
```
10FFFF ist das Letzte unicode-codepoint per definition, und es ist definiert, dass die Art und Weise, weil es UTF-16 ist die technische Grenze.

Ist es auch das größte Codepunkt in UTF-8 Kodierung in 4 byte, aber die Idee hinter UTF-8-Kodierung arbeitet auch für 5-und 6-byte-Kodierungen zu decken codepoints bis 7FFFFFFF, dh. die Hälfte von dem, was UTF-32 können.

InformationsquelleAutor der Antwort John
5

Es ist ein großes Werkzeug für die Berechnung der bytes an eine beliebige Zeichenfolge im UTF-8: http://mothereff.in/byte-counter

Update: @mathias gemacht hat, den code öffentlich: https://github.com/mathiasbynens/mothereff.in/blob/master/byte-counter/eff.js

InformationsquelleAutor der Antwort Nic Cottrell
3

Nun, ich habe gerade gezogen, bis die Wikipedia-Seite auf Sie zu, und im intro-Teil sah ich "Unicode implementiert werden können durch verschiedene Zeichen-Kodierungen. Die am häufigsten verwendeten Kodierungen sind UTF-8 verwendet ein byte für jedes ASCII-Zeichen, die die gleiche code-Werte in UTF-8 und ASCII-Kodierung, und bis zu vier bytes, die für andere Zeichen), die jetzt veralteten UCS-2 (mit zwei Byte für jedes Zeichen, aber nicht Kodieren Sie jedes Zeichen in der aktuellen Unicode-standard)"

Wie dieses Zitat zeigt, das problem ist, dass Sie unter der Annahme Unicode ist eine einzelne Art und Weise der Codierung von Zeichen. Es gibt tatsächlich mehrere Formen von Unicode, und, wieder in das Zitat, einer von Ihnen hat sogar 1 byte pro Zeichen genau wie das, was Sie gewohnt sind.

So Ihre einfache Antwort, die Sie wollen, ist, dass es variiert.

InformationsquelleAutor der Antwort Loduwijk
3

Für UTF-16-character braucht vier bytes (zwei code-Einheiten), wenn es beginnt mit 0xD800 oder größer; ein solcher Charakter wird als "ersatzpaar." Genauer gesagt, ein ersatzpaar hat die form:
```
[0xD800 - 0xDBFF]  [0xDC00 - 0xDFF]
```
wo [...] kennzeichnet eine zwei-byte-code, der Einheit mit dem gegebenen Bereich. Alles <= 0xD7FF ist eine code-Einheit (zwei bytes). Alles >= 0xE000 ist ungültig (außer BOM Marker, wohl).

Sehen http://unicodebook.readthedocs.io/unicode_encodings.htmlAbschnitt 7.5.

InformationsquelleAutor der Antwort prewett
1

Schauen Sie sich dieses Unicode code converter. Zum Beispiel, geben Sie 0x2009wo 2009 ist die Unicode-Nummer für schmalen Raumin "0x... - notation" - Feld, und klicken Sie auf "Konvertieren". Der hexadezimale Zahl E2 80 89 (3 bytes) wird in der "UTF-8 code units" - Feld.

InformationsquelleAutor der Antwort ma11hew28

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Update