Кодировка UTF-8
Формат преобразования Unicode длиной 8 бит, называемый UTF-8, — это кодировка символов переменной длины, которая позволяет закодировать все 1 114 112 допустимых кодовых точек Unicode с помощью от одного до четырёх 8-битных байтов. Цифра «8» означает, что для представления символа используются 8-битные блоки.
Начиная с 2009 года UTF-8 является основной кодировкой для Всемирной паутины.
Для символов, значение которых равно или меньше 127 (hex 0x7F), представление в UTF-8 занимает один байт. Это аналогично значению ASCII.
Для любого символа, значение которого равно или меньше 2047 (hex 0x07FF), представление в UTF-8 распределяется на два байта.
Для любого символа, значение которого равно или больше 2048, но меньше 65535 (0xFFFF), представление в UTF-8 будет распределено на три байта.
Для любого символа, значение которого равно или больше 65536 (0x10000) и до максимальной кодовой точки Unicode (0x10FFFF), представление в UTF-8 распределяется на четыре байта.
В списке ниже приведены некоторые коды символов UTF-8, поддерживаемые HTML5:
| Коды символов | Десятичные | Шестнадцатеричные |
|---|---|---|
| Управление C0 и Базовый латинский | 0-127 | 0000-007F |
| Управление C1 и Дополнение Latin-1 | 128-255 | 0080-00FF |
| Латинское расширенное A | 256-383 | 0100-017F |
| Латинское расширенное B | 384-591 | 0180-024F |
| Модификаторы интервала | 688-767 | 02B0-02FF |
| Диакритические знаки | 768-879 | 0300-036F |
| Греческий и коптский | 880-1023 | 0370-03FF |
| Базовый кириллический | 1024-1279 | 0400-04FF |
| Дополнение кириллицы | 1280-1327 | 0500-052F |
| Общая пунктуация | 8192-8303 | 2000-206F |
| Символы валют | 8352-8399 | 20A0-20CF |
| Символы, похожие на буквы | 8448-8527 | 2100-214F |
| Стрелки | 8592-8703 | 2190-21FF |
| Математические операторы | 8704-8959 | 2200-22FF |
| Линейки и рисунки | 9472-9599 | 2500-257F |
| Блочные элементы | 9600-9631 | 2580-259F |
| Геометрические фигуры | 9632-9727 | 25A0-25FF |
| Различные символы | 9728-9983 | 2600-26FF |
| Декоративные символы | 9984-10175 | 2700-27BF |
Practice
Какова цель использования Unicode в HTML, согласно материалам w3docs.com?