5.2 Кодировки символов
Кодировки символов
в этой спецификации имеют другие названия в других спецификациях (что может
вызвать некоторую путаницу). Однако это понятие в Интернет означает примерно
одно и то же. Одно и то же имя -- "charset - набор символов" - используется в
заголовках протоколов, атрибутах и параметрах, ссылающихся на символы и
использующих одни и те же значения из [IANA] реестра (полный список см. в
разделе [CHARSETS]).
Параметр "charset" идентифицирует кодировку символов, которая является
способом преобразования последовательности байт в последовательность символов.
Это преобразование естественно вписывается в схему деятельности Web: серверы
отправляют документы HTML агентам пользователей в виде потока байт; агенты
пользователей интерпретируют их как последовательность символов. Способы
преобразования могут меняться от простого соответствия один к одному до сложных
схем или алгоритмов переключения.
Простой техники кодировки "один байт - один символ" недостаточно для
текстовых строк с таким широким репертуаром символов, как [ISO10646]. Кроме
кодировок всего набора символов (например, UCS-4), имеются некоторые другие
кодировки частей [ISO10646].
|