А почему, собственно, http://forum.mozilla.ru/ не в юникоде?

Всё-таки самая тру-кодировка. Её любят в мозилле, и всё такое....
В юникоде можно писать любым алфавитом со спецсимволами хоть в одной строке.

В принципе я с тобой согласен, НО большинство обычных юзверей используют cp1251

Сомниваюсь, что движок (да и БД тут скорее всего mysql и младше 4.1) умеет работать с мульти байтовыми кодировками. Отображатся может все будет нормально, но поиск и сортировка будут глючить.

В юникоде можно писать любым алфавитом со спецсимволами хоть в одной строке.

Вот здесь: http://allo.usaaa.ru/workshop/wdhplus/e … tm#unicode прочитал следующее:

Проблема в том, что шрифт, содержащий все графемы Unicode будет иметь совершенно несуразный размер. Например, TrueType-шрифт Arial Unicode MS, содержащий большую порцию символов Unicode, «весит» 24Мб. По мере наполнения Unicode новыми блоками размер таких шрифтов приблизится к 100Мб.

Да и трафик вырастет вдвое. Особенно это заценят те, у кого модемное соединение.

В общем, не надо UNICODE.

Да и трафик вырастет вдвое. Особенно это заценят те, у кого модемное соединение.

GZip это легко исправит, да и в HTML часто больше тегов (а символы с кодом меньше 127 хронятся одним байтом) чем текста на русском, т.е. увеличение размера на 5-10%.

GZip это легко исправит, да и в HTML часто больше тегов (а символы с кодом меньше 127 хронятся одним байтом) чем текста на русском, т.е. увеличение размера на 5-10%.

Нет, это в UTF-7(8) они хранятся одним байтом, а в UNICODE - два байта на любой символ.
И поясни, причем здесь GZip ? В оффлайне форум просматривать ?

Нет, это в UTF-7(8) они хранятся одним байтом, а в UNICODE - два байта на любой символ.

Тут скорее всего речь идет именно об UTF-8 т.к. он является фактически стандартом для XML. Или UTF-8 (Unicode Transformation Format) не Unicode? :) Под Unicode ты наверно имел ввиду UCS?
http://en.wikipedia.org/wiki/Unicode так, для справки ;-)

И поясни, причем здесь GZip ? В оффлайне форум просматривать ?

Хм, уже давно браузеры понимают сжатый gzip'ом текст... см. вниз странице

Page generation time: 0.8261s - SQL queries: 27 - GZIP disabled - Debug off

Здесь выключен, наверно дополнительную нагрузку на сервер создает.
http://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html#sec3.5

:oops: Swappp, я и не знал про GZip. Спасибо что просветил.

Нет, это в UTF-7(8) они хранятся одним байтом, а в UNICODE - два байта на любой символ.
.............

КСТАТИ, про utf-8....  (насколько я понимаю, это и есть "UNICODE"?)
Если в чате у кого-то стоит кодировка "ср1251", а у другого "utf-8"   эти двое не смогут общаться на кириллице. На транслите же (обычные латинские буквы) всё нормально читается. Как в ту, так и в другую сторону.
Не знаю, может настоящий юникод использует 2 байта на любой символ, но ирцовый точно один байт на латинский символ или цифру.

Shutdown
Unicode это грубо говоря таблица символов, а символы из этой таблицы можно кодировать разными способами, для передачи и возможно хранения подходит UTF-8, т.к. строки занимают не очень много места. Для внутреннего представления в программах лучше использовать UCS-2 или UCS-4 (каждый символ имеет длину 2 или 4 байта), т.к. некоторые алгоритмы (например элементарный переход к n-символу потребует чтения всех предыдущих и некоторых вычислений, вместо перехода на позицию n*размер_символа) медленно работают с символами переменной длины.

Никак не мог удержаться. Вот выдержка из RFC 2279 (UTF-8, a transformation format of ISO 10646):

ISO/IEC 10646-1 [ISO-10646] defines a multi-octet character set
   called the Universal Character Set (UCS)
, which encompasses most of
   the world's writing systems.  Two multi-octet encodings are defined,
   a four-octet per character encoding called UCS-4 and a two-octet per
   character encoding called UCS-2, able to address only the first 64K
   characters of the UCS (the Basic Multilingual Plane, BMP), outside of
   which there are currently no assignments.

   It is noteworthy that the same set of characters is defined by the
   Unicode standard [UNICODE]
, which further defines additional
   character properties and other application details of great interest
   to implementors, but does not have the UCS-4 encoding.

и еще:

...so-called UCS transformation formats (UTF)...

То есть, Unicode - это один стандарт, UCS - другой, а UTF - UCS transformation formats.

P.S. Ну и http://en.wikipedia.org/wiki/Unicode. Так, для справки. Только внимательно.

Война кодировок опять подняла башку=)

Перевёл свои форумы (а сегодня это более 500 тыс сообщений и более 10 тыс. хитов в сутки) на UTF-8 год назад. Возрастания трафика заметить не удалось на фоне общих неравномерностей трафика и роста посещаемости (хотя на тестах непакованный трафик больше процентов на 30 (остальное - всё тот же однобайтовый английский - HTML, например :D), пакованный - процентов на 5 где-то).

gzip-паковка ресурсы сервера не снижает, а _высвобождает_(!). Незаметная загрузка CPU позволяет уменьшить трафик, в среднем, в 5..7 раз на страницу и, соответственно, в 5..7 раз уменьшает время соединения, быстрее освобождая системные ресурсы.

Shutdown пишет

Если в чате у кого-то стоит кодировка "ср1251", а у другого "utf-8"   эти двое не смогут общаться на кириллице.

Если это Web-чат, то прекрасно смогут. Ибо сервер браузеру всегда говорит, в какой кодировке он работает. Если ты про IRC - то это, во-первых, не в тему, во-вторых, любой приличный IRC-сервер имеет разные порты для разных кодировок :)

Balancer
какраз твоя справка о чатах была не в тему.
Прочитал бы весь мой пост (от 2005-02-06 12:05:48), понял бы к чему я irc упомянул. :Р

Хех... Форум http://forums.mozillazine.org использует charset=iso-8859-1
если уж они не могут перейти на UTF-8, то зачем здесь?
Смысл? Ведь здесь нет глюков с сообщениями написанными в разных кодировках. латиница и кириллица постится и читается нормально в windows-1251, в отличие от iso-8859-1.
Помню с Unghost'ом мы в этой ветке рассуждали по поводу кодировок:
http://forums.mozillazine.org/viewtopic.php?t=20471&postdays=0&postorder=asc&postsperpage=15&highlight=russian+translation&start=30&sid=b3ce377c07e3d14da04d9b120d394c90

Да и трафик вырастет вдвое. Особенно это заценят те, у кого модемное соединение.

В общем, не надо UNICODE.

Бред. Придумали тоже.

DennisHAWKS пишет

Хех... Форум http://forums.mozillazine.org использует charset=iso-8859-1
если уж они не могут перейти на UTF-8

Есть такая штука, как элементарная лень админа. Говорю этот как админ с многолетним стажем :D Хотя, конечно, бывают случаи, когда админ просто не разбирается в вопросе, но там, надеюсь, не тот случай :)

==> О проекте.

По поводу вопроса - я прочел эту ветку и не увидел что реально улучшится если форум перегнать в UTF-8.
Аргумент, что UTF-8 is RIGHT THING не в счет.

Действительно, лучше что-нибудь полезное на форуме сделать (больше тэгов, например, :)), чем фетишами заниматься. От добра добра не ищут.

Unghost пишет

По поводу вопроса - я прочел эту ветку и не увидел что реально улучшится если форум перегнать в UTF-8.

Плюсов множество будет. Ну, например, как на счёт того, чтобы вставлять в постинги преформатированные таблички в псевдографике? Как раньше в DOS? :)

Balancer Нафикк. Ещё скажи, что на форуме смогут свободно общаться полтора миллиарда китайцев :)

Balancer
Пусть лучше настоящие таблицы с помощью тэгов будут.

Кстати, да, gzip пополезнее unicode будет.
А практический смысл юникода на 99,999% русскоязычных ресурсах... так, фетиш, по крайней мере до тех пор, пока ПО без пинков с юникодом не работает.

Mash пишет

А практический смысл юникода на 99,999% русскоязычных ресурсах... так, фетиш, по крайней мере до тех пор, пока ПО без пинков с юникодом не работает.

На форуме _мозилла_ - может быть. А на _в общем случае русскоязычном_ - повторюсь, я полтора года назад свой форум не от балды на UTF-8 переводил :) Формулы, спецсимволы, в т.ч. греческие, псевдографика... Немцев, наконец, с их умляутами процитировать :)

Но кому это не нужно - тому и не понять, зачем оно бывает нужно :D

Наверное, мы просто немного не так поняли друг друга. Я хотел сказать, что unicode в общем случае не нужен не на 99% русскоязычных ресурсов, а на 99% русскоязычном ресурсе, к каковым и отнёс forum.mozilla.ru. Ни разу здесь не видел ни формул, ни умляутов; хотя редко здесь бываю, м.б. не доглядел чего или кто-то хотел написать формулу, но писать не стал, промолчал.

Я не против юникода, скорее наоборот. Просто кому нужны крайности в духе
-- Давайте сделаем то-то!
-- А зачем?
-- Потому что это круто!
-- Чем круто?
-- Просто... круто!

Если есть нужда -- то можно, а если нет, то зачем рвать себе одно место, так? Тем более, что частенько приходится довольствоваться php4+mysql3 (к mozilla.ru это не относится).

p.s. про 99 загнул, конечно, но перегибы у всех бывают. :)

Кстати, скоро чтобы сделать что-то _не_ в UTF-8 придётся напрягаться :) Ладно, всякие MediaWiki и т.п. системы уже давно изначально идут в UTF. Но сегодня, поставив с нуля mysql с удивлением обнаружил, что в дефолтовой конфигурации изначально прописывается уже UTF-8 :) Т.е. те, кто ставит MySQL сейчас сразу вынуждены или работать с UTF-8, или... ага, ручками менять локаль :)