Блог: Кодирование текстовой информации

Текстовая информация в компьютере, как и все другие виды информации, кодируется двоичными кодами. Каждому символу алфавита ставится в соответствие целое число, которое принято считать кодом этого символа.
В традиционных кодировках для кодирования одного символа используется последовательность из 8 нулей и единиц 8 бит = 1 байт .
Различных последовательностей из 8 нулей и единиц существует 256 (28=256). Поэтому такой 8-ми разрядный код позволяет закодировать 256 различных символов.

Присвоение символу определенного числового кода - это вопрос соглашения. В качестве международного стандарта принята таблица ASCII (American Standard Code for Information Interchange - Американский стандартный код для обмена информацией), кодирующая первую половину символов с числовыми кодами от 0 до 127 (коды от 0 до 32 отведены не символам, а функциональным клавишам).
Таблица кодов ASCII

Для кодирования символов национальных алфавитов используется расширение кодовой таблицы ASCII, то есть 8-ми разрядные коды от 128 до 255.

Национальные стандарты кодировочных таблиц включают международную часть кодовой таблицы без изменений , а во второй содержат коды национальных алфавитов, символы псевдографики и некоторые математические знаки. В настоящее время существует 5 различных кодировок кириллицы (КОИ8, Windows. MSDOS, Macintosh, ISO), что вызывает определенные трудности при работе с рускоязычными документами.

В конце 90-х годов появился новый международный стандарт Unicode, который отводит под 1 символ не один байт, а два, поэтому с его помощью можно закодировать 65536 различных символов. Он включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Блог

пятница, 25 мая 2012 г.

Кодирование текстовой информации

Комментариев нет:

Отправить комментарий

пятница, 25 мая 2012 г.

Кодирование текстовой информации

Комментариев нет:

Отправить комментарий

пятница, 25 мая 2012 г.