Wie funktioniert Java speichern von UTF-16-Zeichen in seiner 16-bit-char-Typ?

Entsprechend der Java SE 7 Spezifikation, Java verwendet den Unicode UTF-16-standard zur Darstellung von Zeichen.
Wenn sich eine String als einfaches array 16-bit-Variablen mit je einer Figur, das Leben ist einfach.

Leider gibt es code, der Punkte, für die 16 bit sind einfach nicht genug (ich glaube es war 16/17 alle Unicode-Zeichen). Also in einem String stellt dies kein direktes problem, weil, wenn Sie wollen, um zu speichern eine dieser ~1.048.576 Zeichen mit einem zwei zusätzliche bytes, einfach zwei array-Positionen, die String verwendet werden würde.

Diese, ohne dass irgendwelche direkte problem, funktioniert für Strings, denn es kann immer eine zusätzliche zwei bytes. Aber wenn es um einzelne Variablen, die im Gegensatz zu UTF-16-Codierung ein festen Länge von 16 bits, wie kann man diese Zeichen gespeichert werden, und insbesondere, wie funktioniert Java es mit seinen 2-byte - "char" - Typ?

Bitte missbrauchen Sie nicht die backticks. Sie sind für nur code.
Es nicht.. Wenn es speichern könnte, wie viel ein Punkt, Sie es nennen würde, 'Zeichen' 🙂 String[index] kann ein ungültiges Zeichen. Weitere Informationen erhalten Sie im utf8everywhere.org.
Naja, ich habe immer verwendet Sie einfach, um zu betonen oder unterstreichen Wörter oder Sätze, schien die meisten wichtig oder hatte einen hohen Wiedererkennungswert. Aber vielen Dank für die Einstellung mich Recht, ich werde versuchen, achtsamer in der Zukunft.
Sie können Kursiv-und Fettdruck für die normalen und außergewöhnlichen Wert. Das sollte ausreichend sein für die meisten SO Beiträge! 🙂

InformationsquelleAutor Kierrow | 2012-10-28

25

Die Antwort ist in in der javadoc :

Den char-Datentyp (und damit der Wert, den ein Charakter-Objekt
kapselt) basiert auf der ursprünglichen Unicode-Spezifikation, die
definiert Zeichen als die Feste Breite von 16-bit Einheiten. Der Unicode
der standard hat sich seitdem geändert, dass Charaktere, deren
Repräsentation erfordert mehr als 16 bit.

Den Bereich der legal code
Punkte ist nun U+0000 bis U+10FFFF, bekannt als Unicode-Skalarwert.
(Siehe die definition von U+n notation in den Unicode-standard.)
Die Menge der Zeichen, von U+0000 bis U+FFFF ist manchmal
als Basic Multilingual Plane (BMP). Zeichen, deren code Punkte
sind größer als U+FFFF sind aufgerufen, Ergänzende Zeichen. Die Java
2-Plattform verwendet den UTF-16-Darstellung im char-arrays und in der
String-und StringBuffer-Klassen. In dieser Darstellung, Ergänzende
Zeichen dargestellt werden als ein paar von char-Werten, der erste von
das high-Surrogate Bereich (\uD800-\uDBFF), die zweite aus der
low-Surrogate Bereich (\uDC00-\uDFFF).

Einen char-Wert, daher
stellt Basic Multilingual Plane (BMP) code-Punkte, einschließlich der
surrogate-code-points oder code-Einheiten der UTF-16-Codierung. Ein int
Wert stellt alle Unicode-code-points, einschließlich zusätzlicher code
Punkte. Die unteren (niederwertigen) 21 bits von int verwendet werden
repräsentieren Unicode-code-points und der oberen (most significant) 11 bit
muss null sein.

Sofern nicht anders angegeben, ist das Verhalten in Bezug auf
Ergänzende Zeichen und Surrogat-char-Werten ist wie folgt: Der
Methoden, die akzeptieren nur ein char-Wert nicht unterstützen, Ergänzende
Zeichen. Sie behandeln die char-Werte aus den Surrogat-Bereiche
nicht definierte Zeichen. Zum Beispiel, Charakter.isLetter('\uD840')
gibt false zurück, obwohl dieser bestimmte Wert, wenn gefolgt von einer beliebigen
low-surrogate-Wert in einen string darstellen würde, einen Brief. Die Methoden
akzeptieren, dass ein int-Wert unterstützt alle Unicode-Zeichen, einschließlich
Ergänzende Zeichen. Zum Beispiel, Charakter.isLetter(0x2F81A)
gibt true zurück, da die code-point-Wert repräsentiert einen Buchstaben (eine CJK
Ideogramm). In der Java SE API-Dokumentation, Unicode-code-point ist
verwendet für den Charakter-Werte im Bereich zwischen U+0000 und U+10FFFF,
und Unicode-code-Einheit für 16-bit-char-Werte, code
Einheiten der UTF-16-Codierung. Weitere Informationen zu Unicode
Terminologie, beziehen sich auf die Unicode-Glossar.

Einfach gesagt :
- die 16 bits für einen char der Regel wurde für eine alte version des Unicode-standard
- müssen Sie manchmal zwei Zeichen zur Darstellung eines unicode-rune (code point), die nicht im Basic Multilingual Plane. Dieser kindof "funktioniert", weil Sie nicht Häufig verwenden chars, vor allem auf die Verarbeitung von unicode-Runen, die außerhalb der BMP.
Sogar noch einfacher gesagt :
- eine java-char darstellen nicht eine Unicode-codepoint (naja, nicht immer).
Nebenbei, es kann angemerkt werden, dass die Entwicklung von Unicode zu erweitern, vorbei an der BMP gemacht UTF-16 Global irrelevant, dass jetzt UTF-16 nicht auch ermöglichen eine Feste byte-chars-Verhältnis. Das ist, warum mehr in den modernen Sprachen basieren auf UTF-8. Diese Manifest hilft, es zu verstehen.
- Und dass int ch speichert, die zusätzliche Zeichen, wie Speichere ich das als Teil der Zeichenfolge? write(int ch) können verwendet werden, um zu schreiben, dass Charakter zu einem anderen externen Quelle.
InformationsquelleAutor Denys Séguret
7

Grundsätzlich strings speichern einer Sequenz von UTF-16 code-Einheiten... das ist nicht das gleiche wie das speichern einer Sequenz von Unicode-Codepunkten.

Wenn ein Zeichen außerhalb der Basic Multilingual Plane erforderlich ist, das dauert bis zwei UTF-16-code-units innerhalb der String.

Meisten String Operationen - length(), charAt, substring() etc Angebot in zahlen von UTF-16 code-Einheiten. Es gibt jedoch Operationen, wie codePointAt(), die sich mit voller Unicode-code-points... obwohl die Indizes sind noch ausgedrückt in der UTF-16-code-units.

EDIT: Wenn Sie speichern wollen, ein nicht-BMP-Codepunkt in einen einzigen char Sie sind im Grunde genommen Pech. Es ist wie zu wollen, speichern Sie mehr als 256 verschiedene Werte in einer byte variable... es funktioniert einfach nicht. Folgende Konventionen für die Darstellung eines code-point an anderer Stelle (z.B. in String) es ist am besten verwenden Sie einfach einen int variable.
- Interessant und wichtig, aber die Frage scheint zu sein, die sich mehr um einzelne chars anstelle von string-Operationen (cf. letzter Satz der Frage).
InformationsquelleAutor Jon Skeet

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.