ISO / IEC 6937: 2001 Informationstechnologie - Kodierter grafischer Zeichensatz für Textkommunikation - lateinisches Alphabet ist eine Multibyte-Erweiterung von ASCII bzw. ISO / IEC 646-IRV. Es wurde gemeinsam mit ITU-T (damals CCITT) für Telematikdienste unter dem Namen T.51 entwickelt und wurde 1983 zum ISO-Standard. Bestimmte Bytecodes werden als Anfangsbytes für Buchstaben mit verwendet diakritische Zeichen ( Akzente ). Der Wert des Lead-Bytes gibt oft an, welcher Diakritikum der Buchstabe hat, und das folgende Byte hat dann den ASCII-Wert für den Buchstaben, in dem sich der Diakritiker befindet. Es sind nur bestimmte Kombinationen von Lead-Byte und Folgebyte zulässig, und für einige Folgebytes gibt es einige Ausnahmen zur Interpretation des Lead-Bytes. Es gibt jedoch keine kombinierten Zeichen, die in ISO / IEC 6937 kodiert sind. Einige freistehende diakritische Zeichen können jedoch dargestellt werden, häufig, indem das nachfolgende Byte den Code für den ASCII-Speicherplatz hat.
Die Architekten von ISO / IEC 6937 waren Hugh McGregor Ross, Peter Fenwick, Bernard Marti und Loek Zeckendorf.
ISO6937 / 2 definiert 327 Zeichen in modernen europäischen Sprachen unter Verwendung des lateinischen Alphabets. Nicht-lateinische europäische Zeichen wie kyrillische und griechische Zeichen sind nicht in der Norm enthalten. Einige diakritische Zeichen, die mit dem lateinischen Alphabet wie das rumänische Komma verwendet werden, sind nicht enthalten. Stattdessen wird Cedilla verwendet, da zu dieser Zeit kein Unterschied zwischen Cedilla und Komma gemacht wurde.
IANA hat die Zeichensatznamen ISO_6937-2-25 und ISO_6937-2-add für zwei (ältere) Versionen dieses Standards (plus Steuercodes) registriert. In der Praxis wird diese Zeichencodierung jedoch im Internet nicht verwendet.
Die ISO / IEC 2022-Escape-Sequenz zur Angabe der rechten Seite des ISO / IEC 6937-Zeichensatzes lautet ESC-R (Sechskant 1B 2D 52 ) ] Einzelbytezeichen [ edit ]
Der primäre Satz von ISO6937 / 2 basiert auf ISO 646-IRV (Zeichen 0x00..0x7F) vor der ISO / IEC 646: 1991-Revision, dh mit dem Zeichen 0x24 wird weiterhin als "internationales Währungszeichen" (¤) anstelle des Dollarzeichens ($) bezeichnet:
! "# ¤% & '() * +, -. / 0123456789:; <=>? @ ABCDEFGHIJKLMNOPQRSTUVWXYZ [] ^ _ ` abcdefghijklmnopqrstuvwxyz {|} Der Ergänzungssatz (Zeichen 0x80..0xFF) enthält eine Auswahl von Grafikzeichen mit und ohne Zwischenraum, zusätzliche Symbole und einige Stellen, die für die zukünftige Standardisierung reserviert sind.
Zwei-Byte-Zeichen [ edit ]
Die Zeichen, die nicht im Primärsatz dargestellt werden, sind auf zwei Bytes codiert. Auf das erste Byte, die "nicht beabstandete diakritische Marke", folgt ein Buchstabe aus dem Basissatz, z.
kleines e mit akutem Akzent (é) = [Acute] + e
Auf insgesamt 13 diakritische Zeichen können die ausgewählten Zeichen aus dem Primärsatz folgen:
| Akzent | Code | Zweites Zeichen | Ergebnis |
|---|---|---|---|
| Grab | 0xC1 | AEIOUaeiou | ÀÈÌÒÙàèìòù |
| Akut | 0xC2 | ACEILNORSUYZacegilnorsuyz | ÁĆÉÍĹŃÓŔŚÚÝŹáćéģíĺńóŕśúýź |
| Circumflex | 0xC3 | ACEGHIJOSUWYaceghijosuwy | ĈÊĜĤÎĴÔŜÛŴŶâĉêĝĥîĵôŝûŵŷ |
| Tilde | 0xC4 | AINOUainou | ÑÕŨÑÕŨãĩñõũ |
| Macron | 0xC5 | AEIOUaeiou | ĀĒĪŌŪāēīōū |
| Breve | 0xC6 | AGUagu | ĂĞŬăğŭ |
| Punkt | 0xC7 | CEGIZcegz | ĊĖĠİŻċėġż |
| Umlaut oder Diärese | 0xC8 | AEIOUYaeiouy | ÄËÏÖÜŸäëïöüÿ |
| Ring | 0xCA | AUau | ÅŮåů |
| Cedilla | 0xCB | CGKLNRSTcklnrst | ÇĢĶĻŅŖŞŢçķļņŗşţ |
| DoubleAcute | 0xCD | Ouou | ŐŰőű |
| Ogonek | 0xCE | AEIUaeiu | ĄĘĮŲąęįų |
| Caron | 0xCF | CDELNRSTZcdelnrstz | ČĎĚĽŇŘŠŽčďěľňřšťž |
Codepage-Layout [ edit ]
Der Verweis auf das Kombinieren von Zeichen im U + 0300 - U + 036F-Bereich für die Codes im Bereich 0xC1—0xCF gibt nur Hinweise darauf "Akzent" wird normalerweise von dem Lead-Byte bestimmt. ISO / IEC 6937 codiert keine kombinierten Zeichen. Stattdessen gibt es eine explizite Liste von vorkomponierten Zeichen, die codiert sind.
Eine kleine Anomalie ist, dass der lateinische Kleinbuchstabe G mit Cedilla so codiert ist, als wäre er mit einem akuten Akzent, das heißt mit einem 0xC2-Lead-Byte, da er aufgrund seines Absturzes in eine Zedilla eingreift. Der Kleinbuchstabe ist normalerweise mit einem gedrehten Komma oben: Ģ ģ .
Unicode unterscheidet 0xE2 in D mit Strich und Groß-Eth, die normalerweise für die Kleinbuchstaben (0xF2 und 0xF3) unterschiedlich aussehen.
Buchstabe Nummer Interpunktion Symbol Anderes undefined
No comments:
Post a Comment