Перейти к содержимому

Кодировка UTF-8

Формат преобразования Unicode длиной 8 бит, называемый UTF-8, — это кодировка символов переменной длины, которая позволяет закодировать все 1 114 112 допустимых кодовых точек Unicode с помощью от одного до четырёх 8-битных байтов. Цифра «8» означает, что для представления символа используются 8-битные блоки.

Начиная с 2009 года UTF-8 является основной кодировкой для Всемирной паутины.

Для символов, значение которых равно или меньше 127 (hex 0x7F), представление в UTF-8 занимает один байт. Это аналогично значению ASCII.

Для любого символа, значение которого равно или меньше 2047 (hex 0x07FF), представление в UTF-8 распределяется на два байта.

Для любого символа, значение которого равно или больше 2048, но меньше 65535 (0xFFFF), представление в UTF-8 будет распределено на три байта.

Для любого символа, значение которого равно или больше 65536 (0x10000) и до максимальной кодовой точки Unicode (0x10FFFF), представление в UTF-8 распределяется на четыре байта.

В списке ниже приведены некоторые коды символов UTF-8, поддерживаемые HTML5:

Коды символовДесятичныеШестнадцатеричные
Управление C0 и Базовый латинский0-1270000-007F
Управление C1 и Дополнение Latin-1128-2550080-00FF
Латинское расширенное A256-3830100-017F
Латинское расширенное B384-5910180-024F
Модификаторы интервала688-76702B0-02FF
Диакритические знаки768-8790300-036F
Греческий и коптский880-10230370-03FF
Базовый кириллический1024-12790400-04FF
Дополнение кириллицы1280-13270500-052F
Общая пунктуация8192-83032000-206F
Символы валют8352-839920A0-20CF
Символы, похожие на буквы8448-85272100-214F
Стрелки8592-87032190-21FF
Математические операторы8704-89592200-22FF
Линейки и рисунки9472-95992500-257F
Блочные элементы9600-96312580-259F
Геометрические фигуры9632-972725A0-25FF
Различные символы9728-99832600-26FF
Декоративные символы9984-101752700-27BF

Practice

Какова цель использования Unicode в HTML, согласно материалам w3docs.com?

Считаете ли это полезным?

Предпросмотр dual-run — сравните с маршрутами Symfony на продакшене.