Кодирование символов
Общая информация о кодировании символов естественных языков. Метод кодирования Морзе. Способ кодирования Бодо. Система кодирования Холлерита. Системы кодирования ASCII, ISO 646 и EBCDIC. Коды телеграфа. Коды для представления символов китайского языка.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 04.01.2009 |
Размер файла | 55,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
По причине того, что Shift-JIS, как мы убедились, является методом (кодирования символов, описанных в стандартах JIS), весьма далёким от идеального, особенно когда он используется в такой среде, как Internet, для кодирования описанных в стандартах JIS символов были разработаны другие методы. Одним из них является код ISO-2022-JP (подмножество 7-битного кода ISO 2022), который широко используется в 7-битных системах Internet, для посылки электронной почты и сообщений в группы новостей. Как ясно из его названия, он базируется на описанном выше стандарте ISO 2022, и поэтому для переключения между символами ASCII и kanji используются escape-последовательности, упразднённые в Shift-JIS. И несмотря на то, что операторы (японских - прим. перев.) Internet-серверов предпочитают использовать ISO-2022-JP, они сообщают, что существуют, тем не менее, определённые проблемы с его использованием в языке HTML, на котором пишутся гипертексовые страницы.
Другим методом кодирования символов, описанных в стандартах JIS, является метод, получивший название UNIX Code-JP (EUC-JP). Из этого названия понятно, что он используется на компьютерах с Unix-совместимыми ОС, составляющих "хребет" сети Internet. EUC работает в 8-битных системах и представляет из себя простую схему, при которой код для представления символов языков государств Восточной Азии (китайского, японского и корейского) базируется на используемой в компьютере версии кода ASCII. В EUC это реализовано с помощью использования добавочных значений для распознования символов языков стран Восточной Азии. В случае EUC-JP, например, специальные добавочные значения добавляются к номерам символов, описанных в стандартах JIS, и это позволяет отличать их от символов кода ASCII.
Преимуществом этого метода является то, что возможно одновременное применение двух из четырёх таблиц символов (т.е., таблицы символов ASCII и одной из "национальных" таблиц - китайской, японской или корейской) без использования escape-последовательностей. Кроме того, EUC-JP позволяет (в отличие от Microsoft'оского Shift-JIS - прим. перев.) использовать kanji, описанные в стандарте JIS X 0212-1990. Недостатком является то обстоятельство, что EUC-JP требует для своего применения наличия мощного процессора и большого количества свободного места на носителе информации. Тем не менее, поскольку эти аппаратные ресурсы доступны в мире компьютеров, работающих на базе Unix-совместимых ОС, недостатки этого метода, понятно, не перевешивают его достоинств.
Пока JISC разрабатывал таблицы символов и методы кодирования - а он, по сути, продолжает делать это и сейчас; JISC открыл для пересмотра японской общественностью 3-й и 4-й "уровни" JIS - Китай, Корея и Тайвань следили за тем, что происходит, и, вслед за наиболее технически "продвинутым" из всех государств Восточной Азии (т.е. Японией), "компьютеризировали" свои национальные языки. Поэтому нет ничего удивительного в том, что таблицы символов, используемые в этих странах для кодирования символов, используемых в их национальных языках, - заметим, что во всех этих языках используются, наряду с собственными, символы из китайского языка - имеют довольно много общего с теми, что описаны в стандартах JIS. Например, как и стандарты JIS, они:
? базируются на "локализованных вариантах" стандарта ISO 646, в которых на месте символа "обратная косая черта" находится символ местной денежной единицы;
? построены с использованием таблиц 94x94;
? включают в себя символы алфавитов других языков (греческого алфавита, кириллицы, символы для представления иероглифов из японских слоговых азбук и т.д.);
? включают в себя элементы для рисования линий
и имеют другие общие черты. Тем не менее, китайская, корейская и тайваньская письменности имеют и собственные особенности. Ниже показано, какие символы включены в существующие в этих странах стандарты на таблицы символов.
Коды для представления символов китайского языка, используемые в компьютерах
Китайский национальный алфавит выделяется среди алфавитов государств Восточной Азии тем, что в нём используется самое большое количество символов "упрощённого китайского языка", и по этой причине таблица символов, используемая в КНР, называется "Simplified Chinese" ("Упрощённая китайская"). Символы "упрощённого китайского языка" изначально предполагалось использовать для создания простой для изучения системы "латинизации" национального письма, которая позволила бы увеличить производство национальной литературы в Китае. Однако эта задача была отменена из-за проблемы огромного числа возникающих при этом омонимов. В результате набор символов китайского языка, используемый в Китае, существенно отличается от такового, применяемого на Тайване.
В настоящее время в Китае действует стандарт GB 2312-80 (аббревиатура GB происходит от "Guo-jia Biao-zhun", что означает "Национальный стандарт"). В него включены следующие символы:
GB 2312-80
|
+--различные символы (94)
|
+--числительные (72)
|
+--ISO 646-CN (94 полноширинных символа)
|
+--японская hiragana (83)
|
+--японская katakana (86)
|
+--греческий алфавит (48)
|
+--кириллица (66)
|
+--символы pinyin и bopomofo (26, 37)
|
+--элементы для рисования линий (76)
|
+--hanzi* 1-го уровня (3 755, упорядоченные в соответствии с правилами
| чтения pinyin)
|
+--hanzi 2-го уровня (3 008, упорядоченные в соответствии сначала с
корнями китайских слов, а затем - в соответствии со штрихами, образующими
символ).
Для кодирования символов из таблицы "Simplified Chinese" используются следующие методы: 7-битный ISO 2022, ISO-2022-CN (для сообщений электронной почты), EUC-CN и HZ (HZ-GB-2312). Метод кодирования HZ используется для сообщений электронной почты и был создан китайским исследователем в Стэнфордском университете в США. Он аналогичен 7-битному ISO 2022; главное отличие состоит в том, что в HZ для переключения с 8-битных (алфавитных) символов на 16-битные (hanzi) используются не escape-последовательности, а shift-последовательности, состоящие из двух печатаемых символов.
Коды для представления символов корейского языка, используемые в компьютерах
Корея - это единственная страна в Восточной Азии, национальная письменность которой имеет свой алфавит, он называется hangul. Несмотря на то, что в письме вместе с символами hangul используются и символы из китайского языка, в Корее существует тенденция по возможности отказываться от использования китайских символов, за исключением тех, что используются для названий мест и личных имён. Корейский алфавит (hangul) содержит всего 24 буквы (10 гласных и 14 согласных), поэтому, казалось бы, работу с корейским языком в компьютере реализовать не так сложно. Однако в письме буквы корейского алфавита образуют слоговые блоки, в которых символы складываются вертикальной "стопкой", один поверх другого, и это привело к жарким спорам вокруг того, как именно символы простой корейской системы письменности должны обрабатываться в компьютерах. Действующий в Корее стандарт для обработки данных и обмена информацией, KS C 5601-1992 (KS - сокращение от "Korean Standard"), включает в себя наиболее часто используемые слоги в виде заранее предопределённых слоговых блоков. Он "устроен" следующим образом:
KS C 5601-1992
|
+--символы (94)
|
+--аббревиатуры и символы (69)
|
+--ISO 646-KR (94 полноширинных символа)
|
+--элементы hangul (94)
|
+--римские цифры и буквы греческого алфавита (68)
|
+--элементы для рисования линий (68)
|
+--аббревиатуры (79)
|
+--фонетические символы, символы в кружках и дроби (91)
|
+--фонетические символы, символы в круглых скобках, подстрочные и
| надстрочные символы (94)
|
+--hiragana (83)
|
+--katakana (86)
|
+--кириллица (66)
|
+--hangul (2 350 заранее составленных слоговых блоков)
|
+--hanja (4 888 символов китайского языка, упорядоченных в
соответствии с hangul, а затем - по корням слов)
Для кодирования символов корейского языка используются следующие методы: 7-битный ISO 2022, ISO-2022-KR (для сообщений электронной почты), EUC-KR и Johab. Johab, или "код из двухбайтных комбинаций", представляет из себя систему, в которой представлены все возможные слоговые блоки (в общей сложности их 11 172), вне зависимости от того, встречаются они реально в корейском языке или нет.
Корпорация Microsoft создала также код UHC ("Unified Hangul Code"), называемый ещё "Extended Wansung", для корейской версии своей ОС Windows 95 (Win95K), который обеспечивает совместимость со стандартом KS C 5601-1992 при добавлении поддержки системы кодирования Johab (8 822-х заранее определённых слоговых блоков, которых нет в стандарте KS C 5601-1992). Дополнительно корпорация Microsoft планирует поддерживать эту систему в корейской версии своей ОС Windows NT.
Коды для представления символов тайваньского языка, используемые в компьютерах
Несмотря на то, что и в китайском, и в тайваньском языках для разговорной речи используется один и тот же так называемый "мандаринский китайский язык", письменность Тайваня отличается от китайской - она базирована на виде китайских символов, который использовался на протяжении веков, поэтому тайваньский набор символов называется "Traditional Chinese " ("традиционный китайский"). Китайские символы из таблицы "Traditional Chinese" по чистой случайности очень схожи с теми китайскими символами, что используются в Гонконге и Сингапуре.
На данный момент существует две таблицы символов, используемые для компьютерной обработки текстов, написанных на "традиционно китайском". Это Big-5 (названа так потому, что она была принята пятью крупнейшими производителями компьютерной техники) и CNS 11643-1992 (CNS - сокращение от "Chinese National Standard"), которые совместимы между собой лишь частично. Главное отличие состоит в том, что таблица CNS 11643-1992 содержит в 3,5 раза больше символов, чем таблица Big-5. Вот как выглядят эти таблицы:
Big-5
|
+--символы (157)
|
+--символы (157)
|
+--символы (94)
|
+--hanzi 1-го уровня (5 401 символ китайского языка. Упорядочены по
| количеству штрихов, затем - по корням соответствующих слов)
|
+--hanzi 2-го уровня (7 652 символа китайского языка. Упорядочены по
количеству штрихов, затем - по корням соответствующих слов.
(Замечание: 2 китайских символа в hanzi 2-го уровня повторяют уже
имеющиеся, таким образом, в этой таблице только 7 650 уникальных
символов hanzi).
CNS 11643-1992 (только символы и hanzi):
|
+--символы (438)
|
+--классические корни слов (213)
|
+--графические представления управляющих символов (33)
|
+--hanzi 1 (5 401 символ китайского языка)
|
+--hanzi 2 (7 650 символов китайского языка)
|
+--hanzi 3 (6 148 символов китайского языка)
|
+--hanzi 4 (7 298 символов китайского языка)
|
+--hanzi 5 (8 603 символа китайского языка)
|
+--hanzi 6 (6 388 символов китайского языка)
|
+--hanzi 7 (6 539 символов китайского языка)
Для кодирования символов "традиционного китайского" языка используются следующие методы: 7-битный ISO 2022, ISO-2022-CN (для e-mail сообщений), EUC-TW и Big-5. Таблица символов и метод кодирования Big-5 используются в китайских версиях ОС Microsoft MS-DOS и Windows и ОС компьютеров Macintosh, производимых корпорацией Apple.
Необходимо отметить, что все перечисленные выше в этом разделе таблицы символов обновлялись, обычно с помощью расширения, несколько раз. Когда такие обновления делаются в логической и последовательной манере, пользователи компьютерных систем, конечно, от этого выигрывают, так как получают возможность использовать более полный набор символов своего языка. Однако если обновления приводят к сдвигу в таблице позиций с ранее использовавшимися символами, обмен информацией между системами, использующими разные версии даже одной и той же таблицы символов, может привести к потере данных. В частности, это имело место с таблицами, используемыми для символов, описанных в стандартах, выпущенных JISC.
Таблицы символов и методы кодирования, применяемые для работы с многоязычными текстами
Ранние многоязычные таблицы символов и методы кодирования
Изначально таблицы символов применялись только для удовлетворения нужд по обмену информацией и редактированию текстов на национальных языках конкретных государств, однако в реальном мире нередко бывает необходимо использовать в одном документе символы нескольких разных языков одновременно. Так, книгоиздательской промышленности нужно использовать множество символов иностранных языков при выпуске словарей иностранных слов или, например, книг иностранных авторов на языке оригинала. А с тех пор, как появилась сеть Internet, похоже, каждый человек по мере работы в ней будет сталкиваться с данными на иностранном языке, написанными набором символов, используемых другими нациями.
По этой причине эффективные многоязычные таблицы символов и методы для кодирования этих символов совершенно необходимы для жизни в XXI-м веке, но проблема в том, что они слишком долго не являлись предметом научных исследований и разработок. Самые первые такие таблицы и методы кодирования появились в первой половине 1980-х, в те времена, когда большинство компьютеров были 8-битными и 16-битными.
Наиболее достойными внимания среди них были рабочие станции Star, производимые корпорацией Xerox и имеющие программу для обработки многоязычных текстов, называемую ViewPoint, а также офисные компьютеры модели 5550, производимые корпорацией IBM. Обе эти системы позволяли работать с большим количеством азиатских языков, в дополнение к большому количеству языков, использующих латинский алфавит, но они так никогда и не вошли в широкое употребление из-за дороговизны. Однако многоязычная таблица символов, предложенная корпорацией Xerox, была взята на вооружение специалистами по компьютерной технике и лингвистами в США. Это в конце концов привело к созданию движения Unicode, предложившего свою многоязычную таблицу символов (и методы кодирования этих символов), которая сейчас является одним из главных соперников в борьбе за международное признание (см. ниже).
Проект TRON - многоязычная таблица символов и многоязычное окружение
Это может кого-то удивить, но Япония, которую часто (и совершенно несправедливо - прим. перев.) критикуют за закрытость и ретроградные настроения в обществе, также предложила собственную многоязычную таблицу символов и метод для кодирования этих символов ещё в первой половине 1980-х. Это было сделано в рамках проекта TRON, который был начат в 1984-м. Задачей проекта TRON является создание тотальной, открытой компьютерной архитектуры, базированной на используемой в настоящее время архитектуре фон Неймана*, для компьютеризации человеческого сообщества в XXI-м веке. Безусловно, компьютеризация человеческого сообщества влечёт за собой преобразование огромной массы человеческих знаний таким образом, чтобы они стали доступны каждому в режиме реального времени (например, через Internet), а это требует создания хорошо спланированной таблицы символов естественных языков и эффективной системы для работы с многоязычными данными на ПК и рабочих станциях.
На данный момент разработаны открытая для расширения таблица символов TRON и многоязычное окружение TRON, являющиеся частью соответствующей спецификации операционной системы BTRON. На данный момент права на эту систему куплены корпорацией Personal Media. Последняя версия этой ОС, B/V (используется правая косая черта), выпускаемой Personal Media, обеспечивает одновременную работу с символами нескольких языков Восточной Азии в качестве стандартной возможности.
В следующей версии этой ОС, имеющей предварительное название "3B/V", будет возможно использовать полный, без каких-либо сокращений, набор kanji, состоящий приблизительно из 65 000 символов. Он назван GT Micho и в настоящее время проходит утверждение в Университете Токио.
Таблица символов и метод кодирования TRON, а также многоязычное окружение TRON были впервые описаны на английском языке во время проведения 3-го симпозиума по проекту TRON в 1987-м году. В применённом в TRON подходе к обработке многоязычных документов существует ряд особенностей, делающих его уникальным. Одна из них состоит в том, что таблица символов TRON расширяема практически до бесконечности, что позволяет включить в нес символы всех без исключения языков, когда-либо использовавшихся (и используемых сейчас) человечеством, и даже символы тех языков, которые ещё не изобретены. Это реализовано с помощью escape-последовательностей, которые используются для переключения между очень большим количеством ("внутренних") таблиц, которые содержат символы, кодируемые с помощью 8-ми и 16-ти бит. Кроме того, в TRON имеются коды для идентификации языка, которые необходимы, например, для возможности реализации программ для правильной сортировки текстовых данных, содержащих символы разных языков.
Среди других преимуществ - то, что в TRON нет места для символов, определяемых пользователями, которые (символы) могут вызывать проблемы при обмене данными. Кроме того, в TRON проводится чёткое разделение между текстовыми данными, предназначенными для хранения на носителе информации, и данными, предназначенными для отображения, поэтому, например, два символа данных, хранимых на носителе информации, при выводе на дисплей могут быть объединены в один, так чтобы образовывать лигатуру. Среди особенностей также: существование специальной базы данных по таблице символов, которая особенно необходима для правильного использования огромного количества символов GT Mincho, и система для многоязычного письма, которая позволяет передавать многоязычные данные через WWW и изображать их с приемлемым качеством, при этом без необходимости в применении сложных алгоритмов для вёрстки.
Соответствующая спецификации BTRON3 операционная система B/V, в которой поддержка многоязычного окружения TRON, заметим, ещё полностью не реализована, в настоящее время поддерживает работу со следующими таблицами символов:
Таблицы символов BTRON3 (частично)
|
+--таблица ISO 8859-1
|
+--таблица из стандарта GB 2312-80
|
+--таблица из стандарта JIS X 0208-1990
|
+--таблица из стандарта JIS X 0212-1990
|
+--таблица из стандарта KS C 5601-1992
|
+--6-точечная азбука Брайля
|
+--8-точечная азбука Брайля
Несмотря на то, что на данный момент таблица символов TRON и многоязычное окружение TRON превосходят все другие системы, предложенные для обработки данных и обмена информацией, многие будут настаивать, что у TRON слишком мало шансов стать стандартом, поскольку ряд ведущих американских корпораций-производителей ПО, выпускающих операционные системы, противостоит и препятствует этому. Однако сторонники этой точки зрения упускают из виду тот очевидный факт, что у японского общества существует реальная практическая необходимость в такой ОС для ПК, которая поддерживала бы работу со всеми существующими на данный момент символами kanji. Кому это надо? Начинающим пользователям, банкам, государственным учреждениям, школам и многим другим организациям, которым необходимо заносить имена японцев в списки и базы данных в их оригинальном виде.
Более того, японским библиотекам необходимо компьютеризировать их карточные каталоги и размещать в свободном доступе в сети (например, в Internet) те части своих коллекций, срок авторских прав на которые исчерпан. Наконец, поскольку ПО для всрстки разрабатывается для использования на базе ОС, совместимой со спецификацией BTRON, TRON нужен японской книгоиздательской промышленности. Поэтому всё не так уж сумрачно, - даже если TRON и не снискал "благословения" от ряда американских корпораций, желающих ещё долго единолично контролировать сферу производства ОС, - и таблица символов TRON, а также многоязычное окружение TRON, имеют все шансы на долгое применение.
Unicode и ISO 10646
Как уже было сказано выше, американские компьютерные корпорации начали в первой половине 1980-х гг. работу над созданием многоязычной таблицы символов и методов для кодирования этих символов. Результаты исследовательских работ в данной области, проведённых корпорациями Xerox и IBM, были успешно воплощены этими корпорациями в своих компьютерных системах. Исследователи из Xerox в последующем "обратили в свою веру" представителей других компьютерных корпораций США, и в конце концов они вместе начали проект американской индустрии, названный Unification Code, или Unicode, главной задачей которого было сведение всех существующих в мире таблиц символов в единую таблицу символов.
Метод Unicode также должен был быть несложным для обработки на компьютерах, и до настоящего времени имел две важных (приоритетных) черты:
1. избежание использования escape-последовательностей для переключения между ("внутренними") таблицами символов и
2. ограничение количества используемых символов: каждый из них представляется с помощью двоичных последовательностей, имеющих строго фиксированную длину - 16 бит, что позволяет использовать максимум 65 536 символов (2 в 16-й степени).
Несмотря на всё это, ISO, создатель этих надоевших escape-последовательностей, декларированных в широко используемом стандарте ISO 2022, также хотела создать (свои) многоязычную таблицу символов и метод для кодирования этих символов. В отличие от Unicode, целью ISO было создание универсальной 32-битной таблицы символов UCS (Universal Coded Character Set), в котором предполагается использовать escape-последовательности для переключения между ("внутренними") таблицами символов. 32-битная таблица символов имеет достаточно позиций, чтобы обеспечить вмещение примерно 4,3 миллиардов символов (2 в 32-й степени = 4 294 967 296). Иными словами, она практически бесконечна и пригодна для любого практического применения*.
* В отличие от ранних наборов символов, в которых символы упорядочивались в маленьких таблицах с сеткой 16x16 или 94x94 ряда, в Unicode и ISO UCS используются таблицы символов с большой сеткой 256x256. Главное различие между ними состоит в том, что Unicode использует одну такую сетку (что и даст 65 536 символов а UCS - тысячи их. |
Этот стандарт ISO на многоязычную таблицу символов, получивший название
ISO/IEC DIS 10646 Version 1 (чаще называемый просто ISO/IEC 10646-1 - прим. перев.), был поддержан японскими и европейскими исследователями. Однако он не был поддержан американскими корпорациями-производителями компьютерной техники и ПО, которые параллельно вели разработку стандарта Unicode, и зашли в этом даже так далеко, что создали "консорциум Unicode" для проведения своих исследований. Они считают, что Unicode лучше стандарта ISO/IEC DIS 10646 Ver. 1 просто потому, что он проще.
Поэтому американские корпорации-члены консорциума Unicode, в ответ, предложили ISO сделать Unicode базовой "внутренней" таблицей* для многоязычной таблицы символов ISO. Конечно, поскольку они - те, кто они есть, и являются в том числе и производителями наиболее широко используемых ОС в мире, они в состоянии создать свою альтернативу практически любой системе, которую могла бы разработать ISO. Соответственно, им удалось убедить ISO в том, что стандарт ISO/IEC DIS 10646 Version 1 лучше отвергнуть. Это было сделано - появился стандарт ISO/IEC 10646 Version 2, базовой многоязычной таблицей символов в котором объявлялась таблица, используемая в Unicode. По существу, Unicode поглотил стандарт ISO (на самом деле, конечно, наоборот, Unicode "проник" в него, или даже можно сказать "по сути, стал стандартом ISO..." называемый теперь ISO/IEC 10646-1: 1993. Этот стандарт "устроен" следующим образом:
ISO/IEC 10646-1: 1993
|
+--ISO 646
|
+--ISO 8859-1
|
+--символы с ударениями и диакритическими знаками, используемые в языках
| Восточной Европы
|
+--Международный фонетический алфавит (International Phonetic Alphabet, IPA)
|
+--символы греческого языка (включая символы с ударениями, monotoniko и
| polytoniko)
|
+--кириллица, грузинский и армянский алфавиты
|
+--символы иврита
|
+--арабские буквы (во всех четырёх видах: начинающих слово, серединных,
| оканчивающих слово и отдельных)
|
+--символы алфавитов индийских языков (включая Devanagari, Bengali, Gurmukhi,
| Gujarati, Oriya, Tamil, Telugu, Kannada и Malayalam)
|
+--символы тайского и лаосского языков
|
+--идеографические символы CJK - китайского, японского и корейского языков
| (включая hangul, katakana, hiragana и bopomofo)
|
+--математические операторы и символы специальной формы
|
+--символы для рисования квадратов и линий
|
+--геометрические фигуры и идеограммы
|
+--Специальные оптически распознаваемые символы, используемые в чеках
|
+--символы и цифры в кружках
* Следует отметить, что базовая "внутренняя" таблица символов (Basic Multilingual Plane) многоязычной таблицы символов ISO в оригинальной версии стандарта ISO/IEC DIS 10646 была описана следующим образом: "Базовая "внутренняя" таблица: "внутренняя" таблица, содержащая широко применяемые неидеографические символы". Иными словами, она никогда не предназначалась быть стандартом ISO для символов китайского, японского и корейского языков (что и естественно, поскольку для всех их сразу она была слишком мала; как мы помним, объём одной "внутренней" таблицы, в том числе и базовой, равен 65 536 символам |
Внимательный читатель может теперь спросить, каким же образом "все символы мира" могут уместиться в 65 536 позициях (предлагаемых как Unicode, так и существующим на данный момент стандартом ISO на многоязычные таблицы символов - прим. перев.), если выше было упомянуто, что в Университете Токио разрабатывается набор из примерно 65 000 символов только для японского языка!? Ответ состоит в том, что это достигается через "унификацию" похожих друг на друга (по мнению консорциума Unicode - прим. перев.) символов, используемых в этих языках. Нет, все буквы "А" в таблицах с символами алфавитов европейских языков не "унифицируются" при этом в одну позицию... Что было "унифицировано", так это тысячи символов, составляющих письменность языков государств Восточной Азии.
Консорциумом Unicode была для этого создана "объединённая исследовательская группа по китайскому, японскому и корейскому языкам" (Chinese/Japanese/Korean Joint Research Group, CJK-JRG), которая и сейчас загружена выполнением главной задачи, поставленной консорциумом: "унификации к Хань" - Han Unification. (С учётом того, что "Хань" - это самоназвание китайской нации, суть данного предприятия, очевидно, состоит в том, что "основным" начертанием символа, которое при "унификации" берётся за эталонное и вносится в таблицу, считается начертание этого символа, принятое в китайском языке - прим. перев.), даже несмотря на то, что подавляющее большинство людей, представляющих культурную сферу Хань, вероятно, просто не отдают себе отчёта в том, что они делают. В настоящее время они определили в многоязыковой таблице символов местб для примерно 20 000 символов китайского языка, и им остастся проделать эту работу для ещё примерно 30 000 символов.
Несмотря того, что система Unicode уже неоднократно была раскритикована как нечто даже большее, чем проявление культурного империализма рядом западных компьютерных корпораций, на самом деле наиболее серьёзные проблемы Unicode носят технический характер и их можно перечислить:
1. в Unicode не предусмотрено информации для определения конкретного языка, к которому относятся символы, что влияет на порядок их сортировки и т.д.
2. допускается использование символов, определённых не стандартом, а произвольно конкретными пользователями, что вызывает проблемы при обмене информацией (между компьютерами, в таблицах символов которых эти символы определены по-разному - прим. перев.)
3. не предусматривается возможности дальнейшего расширения (т.е. Unicode не может перешагнуть 16-битный барьер - 65 536 символов - прим. перев.)
4. в Unicode слишком много похожих символов (см. выше про "неунифицированные" буквы "А" европейских языков - прим. перев.)
5. некоторые символы создаются с помощью наложения одного на другой, что делает невозможным их использование в моноширинных шрифтах
6. преобразование из/в Unicode не может простым образом осуществляться для текстов, в которых используются китайский, японский и корейский языки.
Даже несмотря на то, что одной из главных сил, стоящих за Unicode, является могучая корпорация Microsoft, применяющая Unicode в серверной версии своей ОС Windows NT, Unicode встречает ещё более мощное сопротивление в странах Восточной Азии. Это не только потому, что народы стран Восточной Азии не желают, чтобы американские корпорации решали за них, какие символы им можно использовать в представленных в электронном виде данных, а какие - нельзя (хотя, конечно, эта причина сама по себе многого стуит). Более важно то, что Unicode просто не отвечает требованиям, предъявляемым обществами стран Восточной Азии, особенно в перспективе.
К примеру, Unicode не подходит для создания доступных через Internet в режиме электронных библиотек. Такие библиотеки требуют использования полного, без каких-либо сокращений, набора символов, включающего каждый из символов, которые были когда-либо использованы. Unicode не позволяет этого сделать. Использующие Unicode компьютерные системы также не могут быть использованы для записи имён многих японских людей и названий многих японских местностей, и поэтому они не могут использоваться для компьютеризации государственных учреждений Японии. Ввиду ограничений, проистекающих из самой его природы, Unicode, аналогично, не может быть использован для компьютеризации магазинов, продающих печатную продукцию, и издательств в странах Восточной Азии. Поэтому, если разобраться, Unicode на самом деле является куда более выгодным для компьютеров и их производителей, а не пользователей, проживающих в странах Восточной Азии. С учётом описанных выше основных черт Unicode, это заключение даже и не выглядит чем-то удивительным.
UNIX и Mule
Люди, создавшие сеть Internet, которая сейчас становится главным каналом для международного обмена многоязычными данными, были не кто иные, как программисты и инженеры, которые проводили день за днём за экранами своих рабочих станций, базированных на Unix-совместимых ОС. Их мир очень сильно отличается от мира персональных компьютеров. Они работают на высокопроизводительных рабочих станциях, операционные системы которых являются частично или полностью открытыми. Они имеют доступ к огромному количеству бесплатного ПО и средств программирования, и люди, которые пишут эти программы, часто делают их доступными для других членов UNIX-сообщества бесплатно.
Поэтому в отличие от мира персональных компьютеров, где технические стандарты создаются наиболее сильными рыночными лидерами, главной задачей которых является создание и поддержание технологической гегемонии, мир UNIX-совместимых ОС основывается на открытости, сотрудничестве и терпимости. Неудивительно, что в таком мире существует только небольшая поддержка Unicode, которая является при этом противоречивой и до сих пор остаётся до конца не реализованной. Тем не менее, кого-то может удивить тот факт, что применяемое в мире UNIX решение проблемы поддержки работы с многоязыковыми данными было разработано Японии, так же как и описанное выше многоязыковое окружение TRON.
Подход, использованный в UNIX-совместимых ОС для обработки многоязыковых данных, прост, хотя и требует сравнительно больших вычислительных мощностей для реализации. UNIX принимает "как есть" тексты, вне зависимости от того, с использованием какой таблицы символов они были подготовлены, и позволяет обрабатывать их с помощью специального ПО для обработки текстов (в том числе многоязыковых), в котором для работы с этими таблицами используется унифицированный и расширяемый механизм. Эта программа называется Mule (MULtilingual Enhancement to GNU Emacs) и была разработана в японской государственной электротехнической лаборатории научного городка Тускуба, который расположен в северо-восточной части Токио. Исследовательской группой, проделавшей эту работу, руководил Кеничи Хэнда (Kenichi Handa).
Программа Mule, которая была представлена как свободный продукт в 1993 году, "выросла" из ранее существовавшего усовершенствования текстового редактора GNU Emacs (свободное ПО), известного (речь идёт о "расширении" - прим. перев.) как Nemacs, или Nihongo [японский] Emacs. Как и в многоязыковом окружении TRON (и изначально предлагавшейся ISO системе UCS), в Mule для переключения между языками используются escape-последовательности. Существующая в настоящее время версия может работать с греческим, русским и европейскими языками, языками стран Восточной Азии, тайским, вьетнамским, арабским языками, с ивритом и другими. В настоящее время разрабатывается также поддержка работы с языками, используемыми на индийском полуострове. Вся эта система будет интегрирована в оригинальную версию текстового редактора GNU Emacs для распространения по всему миру.
Для того, чтобы получить более подробную информацию о Mule, щёлкните здесь.
Некоторые люди могут сказать что поскольку Mule был разработан профессиональными разработчиками ПО для UNIX-сообщества, у него мало шансов войти в широкое употребление. Однако имеется ряд факторов, которые могут привести к тому, что Mule вырвется из традиционного мира Unix-совместимых ОС и получит широкое признание. Во-первых, Mule позволяет людям использовать существующие таблицы символов и способы кодирования, поэтому он не является противоречивым. Во-вторых, ПК сейчас даже превосходят по вычислительным мощностям ранние рабочие станции, базированные на Unix-совместимых ОС, поэтому аппаратные ресурсы для использования Mule - имеются. В-третьих, Unix-совместимая свободная ОС Linux начинает получать широкое признание - особенно в Европе - поэтому люди могут без проблем перейти на эту платформу и использовать Mule.
Единственный вопрос в том, как много людей пожелает переключиться на использование Unix-совместимых ОС с ОС, используемых в настоящее время на ПК? С другой стороны, если смотреть на перспективы, можно предположить, как долго ещё Mule будет оставаться на сцене. Mule - это явно временная мера, которая удовлетворяет текущие потребности по работе с многоязычными данными, в то время как для многоязычного информационного обмена в XXI-м веке предлагаются конфликтующие стандарты. Тем не менее, до тех пор, пока один из этих стандартов не станет очевидным лидером, Mule, вероятно, будет представлять ценность для людей, которым необходимо использовать многоязыковое вычислительное окружение, и которые готовы ради этого сменить используемую ОС.
Будущее многоязычных таблиц символов и способов для кодирования этих символов
Как знает каждый, кто имеет хотя бы самое общее представление о мире компьютерной техники, будущее компьютеров начинает обращаться вокруг компьютерных сетей мирового масштаба. Сегодняшняя сеть Internet представляет из себя эту глобальную общемировую сеть пока в эмбриональном состоянии. Тем не менее, эти компьютерные сети мирового масштаба не смогут стать эффективными до тех пор, пока не будет проложено больше высокоскоростных линий связи, пока они не будут подключены к заводам, офисам и жилищам, и пока не будет создано новых стандартов, регламентирующих процессы обмена информацией. Среди прочих стандартов этого рода, одним из наиболее важных будет стандарт, определяющий многоязычную таблицу символов и способ для кодирования этих символов, используемые для обеспечения обработки данных на всех языках мира.
На данный момент для решения этой задачи предложено два стандарта. Один из них - это TRON, включающий в себя таблицу символов TRON и многоязычное окружение TRON, а другой - это Unicode. Тем временем многоязычный текстовый редактор Mule, работающий в UNIX и Unix-совместимых ОС, представляет собой временное решение.
Что произойдёт в будущем? Это сложно предсказать, но поскольку американские корпорации-поставщики компьютерной техники и ПО с помощью правительства США или без таковой пытаются внедрить Unicode в окружающий их мир своими традиционными методами, в виде открытия рыночной кампании, наиболее вероятным исходом будет битва между соперничающими стандартами, один из которых в конце концов будет решено использовать в качестве базового. И это будет тот стандарт, который, подчеркнём, выберут пользователи (а не производители) компьютерных систем.
Коммерчески доступная, базированная на BTRON операционная система работает на том же самом аппаратном обеспечении, что и базированная на Unicode Microsoft Windows NT, поэтому в Японии всем пользователям достаточно всего лишь переключиться с одной используемой на жёстком диске файловой системы на другую, для того, чтобы сделать выбор по своему усмотрению. Более того, поскольку протоколы Internet, как было сказано выше, позволяют использовать любые таблицы символов и методы кодирования символов, эта битва стандартов окажет лишь незначительное влияние на строение сетей передачи данных.
И поэтому можно с уверенностью сказать, что у пользователей персональных компьютеров, впервые за долгое время, реально появился выбор!
Литература:
1. Lunde, Ken. Understanding Japanese Information Processing. Sebastopol: O'Reilly & Associates, 1993.
2. Lunde, Ken. CJKV Information Processing: Chinese, Japanese, Korean & Vietnamese Computing. Sebastopol: O'Reilly & Associates, 1998.
3. Sakamura, Ken. "Multi-language Character Sets Handling in TAD." TRON Project 1987 Open-Architecture Systems: Proceedings of the Third TRON Project Symposium. Tokyo: Springer-Verlag, 1987, pp. 97-111.
4. Sakamura, Ken. "Multilingual Computing as a Global Communications Infrastructure." Proceedings of the 12th TRON Project International Symposium. Los Alamitos: IEEE Computer Society Press, 1995, pp. 2-14.
Подобные документы
Сущность и содержание двоичного кодирования, цели и задачи, этапы реализации данного процесса, оценка его эффективности. Принципы и особенности кодирования чисел и символов, а также рисунков и звука. Используемые методы и приемы, применяемые инструменты.
презентация [756,5 K], добавлен 29.10.2013Разработка утилиты кодирования и декодирования формата Base 64 в программной среде Linux с использованием компилятора. Написание программы на языке С++. Кодирование символьной строки любого набора байт в последовательность печатных ASCII символов.
курсовая работа [1,4 M], добавлен 10.09.2013Методы арифметического кодирования. Основные функции программ, реализующие алгоритмы кодирования по методам Хаффмана, Голомба, Фибоначчи и Элиаса. Разработка программно-аппаратных средств оптимального арифметического кодирования и их экономический расчет.
дипломная работа [1,1 M], добавлен 26.05.2012Понятие информации и основные принципы ее кодирования, используемые методы и приемы, инструментарий и задачи. Специфические особенности процессов кодирования цифровой и текстовой, графической и звуковой информации. Логические основы работы компьютера.
курсовая работа [55,8 K], добавлен 23.04.2014Анализ эффективности способов кодирования. Средний размер одного разряда и средняя длина кодового слова. Кодирование по методу Хаффмена. Кодирование информации по методу Шенона-Фано. Построение кодового дерево для различных методов кодирования.
контрольная работа [491,4 K], добавлен 15.10.2013Двоичный код, особенности кодирования и декодирования информации. Система счисления как совокупность правил записи чисел с помощью определенного набора символов. Классификация систем счисления, специфика перевода чисел в позиционной системе счисления.
презентация [16,3 K], добавлен 07.06.2011История классификации и кодирования. Стандартизация передачи записей в электронную историю болезни. Клинические коды Рида RCC. Системы медицинской классификации в Украине. Унифицированная система медицинского языка UMLS. Особенности и классификация кодов.
реферат [38,2 K], добавлен 13.12.2009Представление информации в двоичной системе. Необходимость кодирования в программировании. Кодирование графической информации, чисел, текста, звука. Разница между кодированием и шифрованием. Двоичное кодирование символьной (текстовой) информации.
реферат [31,7 K], добавлен 27.03.2010Определение понятий кода, кодирования и декодирования, виды, правила и задачи кодирования. Применение теорем Шеннона в теории связи. Классификация, параметры и построение помехоустойчивых кодов. Методы передачи кодов. Пример построения кода Шеннона.
курсовая работа [212,6 K], добавлен 25.02.2009Изучение методов кодирования Хаффмана, Фано. Модель информационной системы Шеннона. Среднестатистическая информационная емкость сообщений для эргодических источников с заданным распределением частот символов. Формулы Хартли для удельной емкости на символ.
презентация [528,9 K], добавлен 19.10.2014