C-standard : Zeichensatz und Kodierung Spezifikation

Fand ich den C-standard (C99 und C11) vage mit Bezug auf Zeichen/Zeichenfolge code-Positionen und encoding rules:

Erstens definiert der standard the source character set und the execution character set.
Im wesentlichen gibt es eine Reihe von Glyphen, aber nicht zuordnen beliebiger numerischer Werte
mit Ihnen - Also, was ist der Standard-Zeichensatz?

Ich verlange nicht die Kodierung hier aber nur die Glyphe/repertoire, um numerische - /code-Punkt-mapping.
Es tut definieren universal character names als ISO/IEC 10646, aber es bedeutet, dass
dies ist die Standard-Zeichenkodierung?

Als eine Erweiterung des oben - ich konnte nichts finden, was besagt, welche Zeichen
die numerische escape-Sequenzen \0 und \x stellen.

Aus der C-standards (C99 und C11, die ich nicht überprüfen, ANSI-C) habe ich die folgende
Wissenswertes zu Zeichen-und string-Literale:

 +---------+-----+------------+----------------------------------------------+
 | Literal | Std | Type       | Meaning                                      |
 +---------+-----+------------+----------------------------------------------+
 | '...'   | C99 | int        | An integer character constant is a  sequence |
 |         |     |            | of one or more multibyte characters          |
 | L'...'  | C99 | wchar_t    | A wide character constant is a sequence of   |
 |         |     |            | one or more multibyte characters             |
 | u'...'  | C11 | char16_t   | A wide character constant is a sequence of   |
 |         |     |            | one or more multibyte characters             |
 | U'...'  | C11 | char32_t   | A wide character constant is a sequence of   |
 |         |     |            | one or more multibyte characters             |
 | "..."   | C99 | char[]     | A character string literal is a sequence of  |
 |         |     |            | zero or more multibyte characters            |   
 | L"..."  | C99 | wchar_t[]  | A wide string literal is a sequence of zero  |
 |         |     |            | or more multibyte characters                 | 
 | u8"..." | C11 | char[]     | A UTF-8 string literal is a sequence of zero |
 |         |     |            | or more multibyte characters                 | 
 | u"..."  | C11 | char16_t[] | A wide string literal is a sequence of zero  |
 |         |     |            | or more multibyte characters                 | 
 | U"..."  | C11 | char32_t[] | A wide string literal is a sequence of zero  |
 |         |     |            | or more multibyte characters                 | 
 +---------+-----+------------+----------------------------------------------+

Konnte ich aber nicht finden, nichts über das encoding-Regeln für diese Literale.
UTF-8 scheint anzudeuten UTF-8-Codierung, aber ich glaube nicht, dass es explizit erwähnt
überall. Auch für die anderen Arten ist die Codierung undefined oder implementation abhängig?

Ich bin nicht zu vertraut mit die der UNIX-Spezifikation. Nicht die der UNIX-Spezifikation angeben, jede zusätzliche Einschränkung(en) auf diese Regeln?

Auch wenn jemand mir sagen kann, was charset/encoding-Schema verwendet, von GCC und MSVC das würde auch helfen.

InformationsquelleAutor tinkerbeast | 2012-08-30

c c++char character-encoding string-literals

5

C ist nicht gierig über Zeichensätze. Es gibt keine solche Sache als "default character set", es ist die Umsetzung definiert - obwohl es meist ASCII oder UTF-8 auf den meisten modernen Systemen.
- Ist es auch die Umsetzung definiert u8"..." Literale? Es scheint der Hinweis auf UTF-8-Codierung für die jeweilige literal.
- - C nicht erfordert keinen bestimmten Zeichensatz. u8"..." zeigt an, dass der string zusammengesetzt sein sollte aus Zeichen, die passen in ein acht-bit-Speicher.
- C11 nicht sagen, u8-Literale sind utf-8. Ich bin mir nicht sicher, Compiler haben bekommen, um zu realisieren, dass allerdings noch nicht
- Ich sah es auf und das ist schon Recht 🙂 Aber ich (und auch GCC) sind ziemlich viel stecken in C99...
InformationsquelleAutor
4

Den standard nicht spezifiziert ein Standard-encoding, weil die bisherige Praxis hatte bereits C implementiert auf Rechnern mit vielen verschiedenen Codierungen, zum Beispiel Honeywell mainframes und IBM-mainframes.

Ich würde erwarten, gcc, um seinen Standard von der Gebietsschema-von LC_CHARSET, aber ich habe noch nie getestet.

VC++ nimmt seinen Standard über ein Bedienfeld einstellen. Das Standard-Control-Panel-Einstellung variiert je nach dem Land, in Windows gekauft wurde, und die meisten Benutzer nie ändern, aber Sie können es ändern, während der Installation von Windows können Sie später noch ändern.

Trigraphs erfunden wurden, so dass eine source-Programm kopiert werden, aus einer Umgebung mit einer Sprache zu einer Umgebung mit einem etwas anderen Schauplatz und noch kompiliert werden. Zum Beispiel, wenn ein Windows-Benutzer in China verwendet trigraphs dann ein Windows-Benutzer, die in Griechenland in der Lage wäre, der zum kompilieren der gleichen source-Programm. Allerdings, wenn die locales sind zu unterschiedlich, zum Beispiel eine mit EBCDIC und eins mit EUC, trigraphs nicht ausreichen.
- BTW, hast du eine Ahnung, warum die trigraphs ausgesucht wurden, die so hässlich sind, jede, warum Sie arbeiten in string und character literalen? Meine Theorie ist, suchen in den codes ist, dass Sie gewählt wurden, durch eine passiv-aggressive person, die nicht möchte, dass Sie in den ersten Platz. Ich denke, es sollte vollkommen ausreichend, um, dass, wenn eine Zeile beginnt mit #define __BACKSLASH_DESIGNATOR , alle Erscheinungen des Charakters, oder eine Sequenz, die folgt, (muss mindestens ein Zeichen enthalten, die außerhalb der standard-C-set) betrachtet werden würde, als ein umgekehrter Schrägstrich; bei anderen chars könnte dann mit backslash Digraphen.
- href="http://www.lysator.liu.se/c/rat/b.html#2-2-1-1" >Dieser Seite erklärt den Zweck der trigraphs. Es stammt aus, wenn die ANSI-C-standard wurde noch ein Entwurf, und ist Teil eines Dokument mit der Begründung für viele der Entscheidungen, die in diesem standard.
- Dank für, die. Ich finde immer noch mich neugierig, ob alle Zeichensätze, die verwendet wurden, nicht haben einen umgekehrten Schrägstrich und nicht über ein nicht-ASCII-Zeichen deklariert werden könnte, um den gleichen Effekt? Wenn ich die Programmierung PL/I, die terminals waren alle ASCII-und nicht über eine ¬ Charakter erforderlich für PL/I, aber da PL/I habe nicht verwenden ^, die ASCII-zu-EBCDIC-übersetzung einfach konvertiert die ASCII - ^ dem EBCDIC -¬. Ich Frage mich, ob der gleiche Ansatz könnte auch gearbeitet haben mit C--erklären, dass jede Umsetzung benennen einen "escape" - Zeichen (das wäre ` für ASCII), und...
- ...sagen, dass Sie einen Buchstaben festlegen, in denen das escape-Zeichen ist ☃ die Zeichen # [ ] { } | ~ ^ würde gerendert werden als ☃= ☃( ☃) ☃< ☃> ☃! ☃- ☃'? Ich nehme an, aber, meine größte Frage ist, warum trigraphs Arbeit in string-literalen. Wenn ein C-compiler verwendet wird, auf ein terminal, dessen Glyphen für Zeichen 0x7E sieht aus wie → eher als ~, was würdest printf("??-"); besser sein, als printf("→");? Ich würde annehmen, dass beide Aussagen für die Ausgabe der → Charakter.
- Die Ausführung Zeichensatz nicht gleich dem source-Zeichensatz. Vielleicht Programmierer den source-Zeichensatz Ein, und der Programmierer verwendet Eine trigraphs denn wenn Programmierer B verwendet die Quell-Zeichensatz B, die nicht ~, Programmierer will immer noch Programmierer B in der Lage sein, kompilieren Sie das Programm. Nun, wenn Benutzer C führt das Programm auf einem system mit der Ausführung Zeichensatz C, vielleicht können Benutzer C siehe ~. Jedoch, wenn Benutzer D hat execution character set D, die nicht enthält ~, dann ist die Magie von trigraphs setzen Benutzer D in einem parallel-Universum. Niemand zu sehen bekommt, ein →.
- Ihre Neugier zu befriedigen, ich bin ein C64-Programmierer und PETSCII fehlt eine gute backslash. Das ist eigentlich ein bisschen nervig. Ich benutze das £ - Zeichen statt, da ist es gut platziert auf der Tastatur, aber es sieht nicht toll aus.
- Die £ Charakter liegt, in beiden PETASCII-sets, auf 0x5B (zwischen [ und ]), die dem ` Leben in ASCII. Interessant ist auch, dass beide PETASCII-sets verwenden, nach oben und nach Links Pfeile für 0x5E und 0x5F, während moderne ASCII verwendet caret-Zeichen und Unterstreichungszeichen. Einige alte ASCII-Geräte verwenden Sie die Pfeile, und ich Frage mich, was führte zu der änderung.
- PETSCII basiert auf der original-ASCII-1963 hat diese Pfeile. Es ist eine gute und interessante Frage, warum die Pfeile geändert wurden, um ^ " und " _ " in ASCII-1973.
- Ich hatte nicht erkannt, dass die Pfeile waren dort für so lange. Ich Frage mich, was die Absicht war? Ich bin auch gespannt, ob es irgendeine Aufzeichnung, warum die zwei Sätze von 32 druckbaren Zeichen des ursprünglichen ASCII unterscheiden sich in den bits 5 und 6, was bedeutet, dass Geräte, die Sie brauchen würden, um anzeigen, gemischte ASCII-zu einem 64-Zeichensatz kann nicht einfach die unteren 6 bits, sondern muss stattdessen ODER bits 5 und 6 zusammen.
- nach worldpowersystems.com/archives/codes/#ASCII-1967 : die ^ ersetzt Pfeil nach oben " -durch "Druck von internationalen Gremien, die es erfordert, als eine alphabetische diakritische Zeichen". Unterstrich - gut, es gibt keine Geschichte gibt, aber ich denke, die Möglichkeit zum unterstreichen von text war wirklich schön zu haben.
- Vereinbart wurde die Möglichkeit zum unterstreichen von text wäre nützlich erscheinen; ich Frage mich, ob der Ersatz der zurück-Pfeil mit Unterstrich kam etwa zur gleichen Zeit wie die Charaktere von 0x60 bis 0x7F Hinzugefügt wurden? Für manche Zwecke wäre es hilfreich haben 0x7F print-als Zeichen, das würde gewissermaßen darauf hindeuten, ein strike-out, und wenn die hardware-druckt 0x60-0x7F als 0x40-0x5F der logische Ort für so ein Zeichen wäre, 0x5F, und eine logische Darstellung würde den Pfeil nach Links, aber wenn 0x7F unterscheidet sich von 0x5F es gibt keine Notwendigkeit für den Pfeil nach Links, werden bei 0x5F.
InformationsquelleAutor Windows programmer

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.