5.1 Набор символов документа
Для обеспечения возможность взаимодействия сетей SGML требует от каждого
приложения (включая HTML) указания
набора символов документа. Документ включает:
- Репертуар:
Набор абстрактных
символов,, таких как латинская буква "A", кириллическая буква "I",
китайский иероглиф "вода" и т.д.
-
Коды: Набор целочисленных ссылок на символы репертуара.
Каждый документ SGML (включая каждый документ HTML) - это последовательность
символов из репертуара. Компьютерные системы идентифицируют каждый символ по его
коду; например, в наборе символов ASCII коды 65, 66 и 67 означают символы 'A',
'B' и 'C' соответственно.
Набора символов ASCII недостаточно для такой глобальной информационной
системы, как Web, поэтому HTML использует более полный набор символов,
называемый Универсальным набором символов (Universal Character Set - UCS),
и определенный в
[ISO10646].
Этот стандарт определяет репертуар тысяч символов, используемых во всем мире.
Набор символов, определенный в [ISO10646] - это посимвольный
эквивалент Unicode 2.0 ([UNICODE]). Оба эти стандарта время от времени
обновляются, пополняются новыми символами, об изменениях следует узнавать на
соответствующих серверах Web. В этой спецификации ISO/IEC-10646 или Unicode
означают этот самый набор символов. Однако в спецификации HTML Unicode также
упоминается при обсуждении других вопросов, таких как алгоритм двунаправленного
текста.
Набора символов документа, однако, недостаточно, чтобы агенты пользователей
могли корректно интерпретировать документы HTML при типичном обмене -
закодированные как последовательность байт в файле или во время передачи по
сети. Агенты пользователя должны также знать кодировки символов, которые
использовались для преобразования потока символов документа в поток байт.
|