Eigentlich ist unser Zeichensatz ganz einfach. 26 Buchstaben, ein paar Umlaute und Ziffern – das war’s. Das dachte man sich auch 1960, als man auf der Suche nach einem einfachen Standard war, um Text zu übertragen und digital zu verarbeiten.

Der American Standard Code for Information Interchange (Amerikanischer Standardcode für Informations-Austausch), kurz ASCII, beruht dabei auf älteren Telegrafen-Codes und kann sämtliche Zeichen des englischen Alphabets darstellen. Dabei wird jedem Buchstaben, jeder Zahl und jedem Satzzeichen eine Zahl zwischen 32 und 127 zugewiesen. Hinzu kommen noch 32 Steuerzeichen, denen die Zahlen von 0 bis 31 entsprechen.

Schon beim deutschen Alphabet freilich kommt man in die Bredouille. Für Umlaute und andere Zeichen, wie das Euro-Währungszeichen, ist nämlich kein Platz mehr. Daher wurde der 7-Bit-Code (2 hoch 7 ist 128) kurzerhand auf 8 Bit erweitert: jetzt passen auch diverse Sonderzeichen mit in die Code-Tabelle, die auf den Namen Erweitertes ASCII hört.

Doch da auch das nicht einmal für sämtliche Sonderzeichen ausreicht, die in Europa gebräuchlich sind (man denke nur an kyrillische und griechische Schrift sowie die Akzente zum Beispiel des Französischen), musste man sich zur weltweiten Kommunikation erneut etwas einfallen lassen. Das Ergebnis der Arbeit zweier Techniker von Xerox und Apple war Ende der 1980-er Jahre Unicode – ein einziger Zeichensatz, in dem alle Zeichen der Welt Platz finden sollen. Bis heute umfasst Unicode über 110.000 Zeichen, unter anderem auch die meisten chinesischen und japanischen Schriftzeichen. Unicode ist mit ASCII und erweitertem ASCII kompatibel und speichert ein Zeichen in 8, 16 oder 24 Bits.

Eine komplette Übersicht der Unicode-Zeichen findet sich, fein säuberlich sortiert und daher bestens zum schnellen Nachschlagen geeignet, unter www.unicode.org/charts.

1 Antwort

Kommentare sind deaktiviert.