Top.Mail.Ru
Ответы

Сколько байт приходится на один символ в юникоде?

По дате
По рейтингу
Аватар пользователя
Просветленный
14лет

Silencer, не знаешь - не пори херню

UNICODE - это кодировка символов, в которой задаётся кодовая страница и код символа в этой кодовой странице.

UTF-8, UTF-16, UTF-32 - это разные способы представления кодировки, в которой по разному задаются кодовые страницы, количество байт, отведённое на каждый символ и собственно коды символов.

UTF-8 использует переменную размерность символов, и отличается тем, что все символы ASCII (диапазон 0-127 дес. , кодовая страница UNICODE #0) в ней пердставлены так же, как в самом ASCII, т. е. одним байтом. ASCII отличается от остальных наличием 0 в старшем бите.
Другие (не-ASCII) кодовые страницы в UTF-8 могут занимать 2, 3 или 4 байта на символ, при этом в старшем бите всегда наодится 1, а следующие по старшинству 2 бита определяют общий размер символа.

UTF-16 использует 16-битные "слова", но в ней на символ может приходиться как 1 "слово" (16 бит на символ, используется для буквенных языков) так и 2 "слова" (32 бит на символ, используется для иероглифических языков)

в UTF-32 всегда используется 32 бит на символ, это самая простая, но и самая "неэкономная" кодировка.

Источник: <noindex><a rel="nofollow" href="http://unicode.org" target="_blank">http://unicode.org</a></noindex>
Аватар пользователя
Оракул
14лет

Это смотря на какой Unicode UTF-8 1 байт UTF-16 2 байта UNF-32 4 байта

Аватар пользователя
Профи
14лет

СПроси у гугла

Аватар пользователя
Мыслитель
14лет

2 штуки

Аватар пользователя
Мудрец
14лет

Обычно для английского текста - 1 байт на букву. Для русского текста - 2 байта на букву. Для китайского и т. п. до 4 байт на букву.

То есть Юникод очень выгодная штука.