Emacs для начинающих



CHARSET и его имя, или Do you forget about Charset ? - часть 2


     Однако самое полезное в этом документе то, что в нем определено понятие Alias у Сharset.

Name: ISO_8859-1:1987 MIBenum: 4 Source: ECMA registry Alias: iso-ir-100 Alias: ISO_8859-1 Alias: ISO-8859-1 (preferred MIME name) Alias: latin1 Alias: l1 Alias: IBM819 Alias: CP819 Alias: csISOLatin1

    Определена также процедура регистрации новых Charset-ов : : "IANA Charset Registration Procedures." Существует список рассылки (архив списка ).

    Также неплохо ознакомиться с :

  • . "The Report of the IAB Character Set Workshop held 29 February - 1 March, 1996".
  • "IETF Policy on Character Sets and Languages"
  • .
  •     Довольно обширная подборка документов находится здесь : . См. также коллекцию Charmap-ов от и .

        Но к сожалению, данный документ не является

    международным стандартом, а всего лишь "подборка рекомендаций"... И названия

    Charset, в отличии от названий Country () и Territory

    () для имен , HTTP и MIME  не стандартизованы в ISO...

        Может быть поэтому многие авторы программного обеспечения не поддерживает Charset-ы или механизм Alias:-ов... Например (автор Ulrich Drepper) и XFree86 . Вместо этого например в glibc существует специальный механизм, так называемый name mangling. То есть все символы в имени Charset-а переводятся в lowercase и удаляются все символы "_", "-", "."  e.t.c. Например "ISO_8859-1" превращается в "iso88591". А "KOI8-R" --> "koi8r".

        Ситуация осложняется тем, что когда-то давно IBM и Microsoft ввели понятие , которое теперь фактически имеет значение Charset. А с названиями этих самых Codepages стоит полная путанница :

    CP866
    CP-866
    IBM866
    IBM_866
    и т.д.

        Или даже как в случае кодовой страницы CP1251, когда в Microsoft Internet Explorer или IIS эта кодировка фигурирует как "Windows-1251".




    Содержание  Назад  Вперед