Was ist eine "breite Zeichenfolge" in C?

Stieß ich auf diese in dem Buch:

wscanf(L"%lf", &variable);

wobei der erste parameter ist der Typ der wchar_t *.

Diese s anders aus scanf("%lf", &variable); wo der erste parameter ist der Typ char *.

Also, was ist der Unterschied als. Ich habe noch nie gehört, "wide-character-string" vor. Ich habe gehört, sowas nennt man Raw-String-Literale, die drucken die Zeichenfolge, wie es ist (keine Notwendigkeit für Dinge wie z.B. escape-Sequenzen), aber das war nicht in C.

Kommentar zu dem Problem

Hier starten joelonsoftware.com/articles/Unicode.html Kommentarautor: Martin Beckett

Der erste parameter ist eigentlich der Typ wchar_t [], geringfügig von wchar_t *. Kommentarautor: dreamlax

InformationsquelleAutor der Frage quantum231 | 2012-07-02

c string widechar

33

Den genaue Natur der wide-Zeichen, ist (absichtlich) Links-Implementierung definiert.

Wenn Sie zuerst erfunden, das Konzept der wchar_t -, ISO-10646 und Unicode wurden noch im Wettbewerb mit jedem anderen (während Sie jetzt meist kooperieren). Anstatt zu versuchen, Dekret, die einen internationalen Charakter wäre, der eine oder andere (oder vielleicht etwas ganz anderes) Sie lediglich eine Art (und einige Funktionen), könnte die Umsetzung definieren, um die Unterstützung internationaler Zeichensätze wie Sie wollten.

Verschiedene Implementierungen haben ausgeübt, dass das potential für Variationen. Zum Beispiel, wenn Sie Microsoft-compiler auf Windows wchar_t wird eine 16-bit-Typ holding UTF-16 Unicode (ursprünglich gehalten UCS-2-Unicode, aber das ist jetzt offiziell veraltet).

Unter Linux wchar_t Häufig ein 32-bit-Typ, holding UCS-4/UTF-32-kodierte Unicode. Ports von gcc auf zumindest einige andere Betriebssysteme tun das gleiche, aber ich habe nie versucht, um zu bestätigen, dass es immer der Fall ist.

Ist, gibt es jedoch keine Garantie. Zumindest in der Theorie eine Umsetzung auf Linux nutzen könnte, 16 bits, oder man konnte es unter Windows verwenden 32 bits, oder man konnte sich entscheiden, verwenden Sie die 64 bit (obwohl ich ein bisschen überrascht zu sehen, dass in der Realität).

In jedem Fall die Allgemeine Idee von, wie die Dinge sind soll zu arbeiten, ist, dass eine einzige wchar_t ausreichend ist, um einen code darstellen-Punkt. Für I/O, die Daten sollen umgewandelt werden, die von der externen Darstellung (was auch immer es ist) in wchar_ts, die (angeblich) machen Sie relativ leicht zu manipulieren. Dann bei der Ausgabe werden Sie wieder zu bekommen, verwandelt sich in der Kodierung Ihrer Wahl (das kann ganz unterschiedlich sein von der Codierung, die Sie Lesen).

InformationsquelleAutor der Antwort Jerry Coffin
7

"Wide character string" bezieht sich auf die Kodierung der Zeichen in der Zeichenfolge.

Vom Wikipedia:

Einen breiten Charakter ist ein computer, der Zeichen-Datentyp, der hat in der Regel einen
Größe größer als die traditionellen 8-bit-Zeichen. Die erhöhte
Datentyp Größe ermöglicht die Verwendung von größeren codierte Zeichensätze.

UTF-16 ist eine der am häufigsten verwendeten wide-character-encodings.

Weiter wchar_t ist definiert durch Microsoft als unsigned short(16-bit) Daten-Objekt. Dies könnte und wird wahrscheinlich eine andere definition, die in anderen Betriebssystemen oder Sprachen.

Entnommen aus dem Wikipedia-Artikel aus dem Kommentar unten:

"Die Breite wchar_t ist compiler-spezifisch und kann so klein wie 8
bit. Folglich Programme, die portabel auf jedem C bzw.
C++ - compiler sollte nicht verwendet wchar_t für die Speicherung von Unicode-text. Die
wchar_t-Typ ist vorgesehen für die Speicherung von compiler-definiert wide-Zeichen,
die können Unicode-Zeichen in einigen Compilern."

InformationsquelleAutor der Antwort Chris Dargis

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.