Кодировка текстовой информации

Процесс обработки текста. Элементы теории кодирования. Понятие о кодировании информации. Кодирование текстовой информации байтами. Кодировочные таблицы, стандартная кодировка ASCII. Кодовая таблица Windows (CP-1251). Альтернативная кодовая таблица.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 09.10.2009
Размер файла 422,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Содержание

Введение

1. Процесс обработки текста

2. Элементы теории кодирования

2.1 Понятие о кодировании информации

2.2 Кодирование и декодирование

3. Кодирование текстовой информации байтами

4. Кодировочные таблицы

4.1 Стандартная кодировка ASCII

4.2 Кодовая таблица Windows (CP-1251)

4.3 Альтернативная кодовая таблица

Заключение

Список литературы

Введение

Актуальность. В данной работе речь пойдет о том, без чего нельзя записать, передать или сохранить информацию. Все это основано на понятии кодирование.

Информация всегда представляется в виде сообщения. Элементарная единица сообщения - символ. Символы, собранные в группы образуют слова. Сообщение, оформленное в виде слов или отдельных символов, передается в материально-энергетической форме (электрический, световой, звуковой сигналы и т.д.).

Понятие кодирования достаточно универсально, так как этот процесс используется на всех этапах обработки информации: при сборе, передаче, обработке, хранении и представлении.

Само по себе понятие кодирования информации может быть отнесено к области абстрактных категорий подобно математическим формулам, что позволяет строить формальные правила кодообразования.

Задачи кодирования информации решались задолго до появления компьютеров. Коды, как средство тайнописи появились в глубокой древности. Да и сами древние алфавиты по сути - средства кодирования. Кодирование можно рассматривать как в широком, так и в узком смысле слова.

Чтобы передать текстовую информацию, её необходимо предварительно преобразовать.

Кодирование - это преобразование сообщения в форму, удобную для передачи по каналу связи.

Декодирование - операция восстановления принятого сообщения.

Объект: процесс обработки и кодировки текста.

Предмет: русские кодировки текста.

Цель: рассмотреть и проанализировать процесс кодирования текстовой информации.

Задачи:

- провести анализ литературы по теме исследования;

- рассмотреть процесс обработки текста;

- рассмотреть сущность понятия кодирования информации;

- охарактеризовать процесс кодирования и декодирования;

- проанализировать кодирование текстовой информации байтами;

- выделить основные кодировочные таблицы: стандартную кодировку ASCII, кодовую таблицу Windows (CP-1251), альтернативную кодовую таблицу.

1. Процесс обработки текста

Обработка (преобразование) текста -- это процесс изменения формы представления текста или его содержания.

Обработка текста всегда осуществляется с какой-либо целью.

Процессы изменения формы представления текста часто сводятся к процессам его кодирования и декодирования и проходят одновременно с процессами сбора и передачи информации.

Процесс изменения содержания текста включает в себя такие процедуры, как численные расчеты, редактирование, упорядочивание, обобщение, систематизация и т.д.

Систему, в которой наблюдателю доступны лишь входные и выходные величины, а структура и внутренние процессы неизвестны, называют черным ящиком [3, c. 87].

Обработка текста по принципу “черного ящика” - процесс, в котором пользователю важна и необходима лишь входная и выходная информация, но правила, по которым происходит преобразование, его не интересуют и не принимаются во внимание.

Если правила преобразования текста строго формализованы и имеется алгоритм их реализации, то можно построить устройство для автоматизированной обработки текста.

Возможность автоматизированной обработки текста основывается на том, что преобразование текста по формальным правилам не подразумевает его осмысления.

В вычислительной технике устройством обработки текста является процессор.

Обработка текста - это процесс, происходящий во времени.

Если он подчиняется заданному темпу поступления входной информации и допустимому пределу задержки в выработке информации на выходе, то говорят об обработке в реальном масштабе времени.

Наиболее простой формой обработки текста является последовательная обработка, производимая одним процессором, в котором в любой момент времени происходит не более одного события.

При наличии в системе нескольких процессоров, работающих одновременно, говорят о параллельной обработке текстовой информации.

2. Элементы теории кодирования

Одни и те же сведения могут быть представлены, закодированы в нескольких разных формах и, наоборот, совершенно разные сведения могут быть представлены в похожей форме [5, c. 91].

При любых видах работы с информацией всегда идет речь о ее представлении в виде определенных символьных структур. Наиболее распространены одномерные представления информации, при которых сообщения имеют вид последовательностей символов. Так информация представляется в письменных текстах, при передаче по каналам связи, в памяти ЭВМ. Однако широко используются и многомерные представления информации, причем под многомерностью понимают расположение элементов информации на плоскости или в пространстве (в виде рисунков, схем, графов, объемных макетов и т.д.). Например, информацию могут нести не только значения букв и цифр, но и их цвет, размер, вид шрифта.

Часто термин «кодирование» употребляется в более узком смысле.

Кодирование в узком смысле слова подразумевает представление сообщения в форме, удобной для передачи по некоторому каналу связи.

Информационное сообщение всегда связано с источником информации, приемником информации и каналом передачи.

Чтобы передать информацию, её необходимо предварительно преобразовать.

Кодирование - это преобразование сообщения в форму, удобную для передачи по каналу связи.

Пример: передача сообщения в виде телеграммы. Все символы кодируются с помощью телеграфного кода.

Декодирование - операция восстановления принятого сообщения.

В систему связи необходимо ввести устройства для кодирования и декодирования информации.

При передаче по каналу связи возникают ошибки, связанные с разными причинами, но все они приводят к тому, что получатель принимает искаженную информацию. Для того чтобы организовать нормальную работу информационного канала связи необходимо решить следующие проблемы:

обнаружить ошибки, если они возникают;

исправлять найденные ошибки;

защищать информацию, передающуюся по каналам связи;

ускорять передачу информации по каналу связи [1, c. 37].

Из перечисленных проблем теория кодирования исследует первую и вторую. Третьей проблемой занимается криптография. Четвертая же является прикладной для криптографии и теории кодирования как параметр, с помощью которого определяется качество криптографии и кодирования.

2.1 Понятие о кодировании информации

Информация передается в виде сигналов. Когда мы разговариваем с другими людьми, то улавливаем звуковые сигналы. Если мы смотрим в окно, наш глаз принимает световые потоки, отраженные от объектов окружающей природы. Световой поток -- это тоже сигнал.

А как же информация хранится? Для того чтобы информацию сохранить, ее надо закодировать. Любая информация всегда хранится в виде кодов. Когда мы что-то пишем в тетради, мы на самом деле кодируем информацию с помощью специальных символов. Эти символы всем знакомы -- они называются буквами. И система такого кодирования тоже хорошо известна -- это обыкновенная азбука. Жители других стран те же самые слова запишут по-другому (другими буквами) -- у них своя азбука. Можно сказать, что у них другая система кодирования. В некоторых странах вместо букв используют иероглифы -- это еще более сложный способ кодирования информации.

Можно кодировать и звуки. С одной из таких систем кодирования вы тоже хорошо знакомы: мелодию можно записать с помощью нот. Это не единственная система кодирования музыки. В давние времена на Руси музыку записывали с помощью так называемых «крюков» -- это особая форма записи [4, c. 98].

Хранить можно не только текстовую и звуковую информацию. В виде кодов хранятся и изображения. Если посмотреть на рисунок с помощью увеличительного стекла, то видно, что он состоит из точек -- это так называемый растр. Координаты каждой точки можно запомнить в виде чисел. Цвет каждой точки тоже можно запомнить в виде числа. Эти числа могут храниться в памяти компьютера и передаваться на любые расстояния. По ним компьютерные программы способны изобразить рисунок на экране или напечатать его на принтере. Изображение можно сделать больше или меньше, темнее или светлее, его можно повернуть, наклонить, растянуть. Мы говорим о том, что на компьютере обрабатывается изображение, но на самом деле компьютерные программы изменяют числа, которыми отдельные точки изображения представлены в памяти компьютера.

2.2 Кодирование и декодирование

В канале связи сообщение, составленное из символов (букв) одного алфавита, может преобразовываться в сообщение из символов (букв) другого алфавита. Правило, описывающее однозначное соответствие букв алфавитов при таком преобразовании, называют кодом. Саму процедуру преобразования сообщения называют перекодировкой. Подобное преобразование сообщения может осуществляться в момент поступления сообщения от источника в канал связи (кодирование) и в момент приема сообщения получателем (декодирование). Устройства, обеспечивающие кодирование и декодирование, будем называть соответственно кодировщиком и декодировщиком.

Рассмотрим некоторые примеры кодов [3, c. 29].

1. Азбука Морзе в русском варианте (алфавиту, составленному из алфавита русских заглавных букв и алфавита арабских цифр ставится в соответствие алфавит Морзе):

2. Код Трисиме (знакам латинского алфавита ставятся в соответствие комбинации из трех знаков: 1,2,3):

А

111

H

132

O

223

V

321

В

112

I

133

P

231

W

322

С

113

J

211

Q

232

X

323

В

121

K

212

R

233

Y

331

D

122

L

213

S

311

Z

332

F

123

M

221

T

312

.

333

G

131

N

222

U

313

Код Трисиме является примером, так называемого, равномерного кода (такого, в котором все кодовые комбинации содержат одинаковое число знаков - в данном случае три). Пример неравномерного кода - азбука Морзе.

3. Кодирование чисел знаками различных систем счисления

3. Кодирование текстовой информации байтами

В настоящее время большая часть пользователей при помощи компьютера обрабатывает текстовую информацию, которая состоит из символов: букв, цифр, знаков препинания и др.

Традиционно, для того чтобы закодировать один символ используют количество информации равное 1 байту, т. е. I = 1 байт = 8 бит. При помощи формулы, которая связывает между собой количество возможных событий К и количество информации I, можно вычислить сколько различных символов можно закодировать (считая, что символы - это возможные события):

К = 2I = 28 = 256, т. е. для представления текстовой информации можно использовать алфавит мощностью 256 символов.

Суть кодирования заключается в том, что каждому символу ставят в соответствие двоичный код от 00000000 до 11111111 или соответствующий ему десятичный код от 0 до 255 [5, c. 92].

Необходимо помнить, что в настоящее время для кодировки русских букв используют пять различных кодовых таблиц (КОИ - 8, СР1251, СР866, Мас, ISO), причем тексты, закодированные при помощи одной таблицы не будут правильно отображаться в другой кодировке. Наглядно это можно представить в виде фрагмента объединенной таблицы кодировки символов.

Одному и тому же двоичному коду ставится в соответствие различные символы.

Двоичный код

Десятичный код

КОИ8

СР1251

СР866

Мас

ISO

11000010

194

б

В

-

-

Т

Впрочем, в большинстве случаев о перекодировке текстовых документов заботится на пользователь, а специальные программы - конверторы, которые встроены в приложения.

Начиная с 1997 г. последние версии Microsoft Windows&Office поддерживают новую кодировку Unicode, которая на каждый символ отводит по 2 байта, а, поэтому, можно закодировать не 256 символов, а 65536 различных символов.

Чтобы определить числовой код символа можно или воспользоваться кодовой таблицей, или, работая в текстовом редакторе Word. Для этого в меню нужно выбрать пункт "Вставка" - "Символ", после чего на экране появляется диалоговая панель Символ. В диалоговом окне появляется таблица символов для выбранного шрифта. Символы в этой таблице располагаются построчно, последовательно слева направо, начиная с символа Пробел (левый верхний угол) и, кончая, буквой "я" (правый нижний угол).

Для определения числового кода символа в кодировке Windows (СР1251) нужно при помощи мыши или клавиш управления курсором выбрать нужный символ, затем щелкнуть по кнопке Клавиша. После этого на экране появляется диалоговая панель Настройка, в которой в нижнем левом углу содержится десятичный числовой код выбранного символа.

Одним битом можно закодировать два значения: Да или Нет (1 или 0).

Двумя битами можно закодировать уже четыре значения: 00, 01, 10, 11.

Тремя битами кодируются 8 разных значений [1, c. 74].

Добавление одного бита удваивает количество значений, которое можно закодировать. При восьми битах уже можно закодировать 256 разных значений. Нетрудно догадаться, что если бы в байте было 9 битов, то одним байтом можно было бы закодировать 512 разных значений, а если бы в нем было 10 битов, то 1024 и т. д.

Биты

1

2

3

4

5

6

7

8

Количество кодируемых значений

2

4

8

16

32

64

128

256

Но все-таки в байте не 9 и не 10 битов, а только 8, и потому с его помощью кодируют 256 разных значений. Много это или мало? Смотря для чего. Давайте посмотрим, как с помощью байтов кодируют текстовую информацию.

В русском языке 33 буквы (символа) -- для их кодирования достаточно 33 различных байтов. Если мы хотим различать прописные (заглавные) и строчные буквы, то потребуется 66 байтов. Для строчных и прописных букв английского языка хватит еще 52 символов -- получается 118. Добавим сюда цифры (от 0 до 9), все возможные знаки препинания: точку, запятую, тире, восклицательный и вопросительный знаки. Добавим скобки: круглые, квадратные и фигурные, а также знаки математических операций: +, -, =, /, *. Добавим специальные символы, например такие, как: %,$,&, @, -- мы видим, что все их можно выразить восемью битами, и при этом еще останутся свободные коды, которые можно использовать для других целей.

Дело осталось за малым: надо всем людям мира договориться о том, каким кодом (от 0 до 255) должен кодироваться каждый символ. Если, например, все люди будут знать, что код 33 означает восклицательный знак, а код 63 -- знак вопросительный, то текст, набранный на одном компьютере, всегда можно будет прочитать и распечатать на другом компьютере.

Такая всеобщая договоренность об одинаковом использовании чего-либо называется стандартом. Стандарт устанавливает таблицу, в которой записано, каким кодом должен кодироваться каждый символ. Такая таблица называется таблицей кодов. В этой таблице должно быть 256 строк, в которых записывается, какой байт какому символу соответствует [3, c. 34].

Но здесь-то и начались проблемы. Дело в том, что символы, которые хороши для одной страны, не подходят для другой. В Греции используются одни буквы, в Турции -- другие. То, что подходит для Америки, не годится для России, а то, что подходит для России, не подходит для Германии.

Поэтому было принято следующее решение. Таблицу кодов разделили пополам. Первые 128 кодов (с 0 до 127) должны быть стандартными и обязательными для всех стран и всех компьютеров, а во второй половине (с кода 128 до кода 255) каждая страна может делать все, что ей угодно, и создавать в этой половине свой стандарт -- национальный.

Первую (международную) половину таблицы кодов называют таблицей ASCII -- ее ввел американский институт стандартизации ANSI. В этой таблице размещаются прописные и строчные буквы английского алфавита, символы чисел от 0 до 9, все знаки препинания, символы арифметических операций и некоторые другие специальные коды.

За вторую половину кодовой таблицы (коды от 128 до 255) стандарт ASCII не отвечает Разные страны могут создавать здесь свои таблицы. Часто бывает, что даже в одной стране в этой половине действуют несколько разных стандартов, предназначенных для разных компьютерных систем. В России, например, содержание этой половины таблицы может подчиняться четырем разным стандартам, каждый из которых действует в какой-то своей, особой области [6, c. 29].

4. Кодировочные таблицы

4.1 Стандартная кодировка ASCII

Для кодирования текстовой информации принят международный стандарт ASCII (American Standard Code for Information Interchange), в кодовой таблице которого зарезервировано 128 7-ми разрядных кодов для кодирования [2, c. 24]:

символов латинского алфавита

цифр

знаков препинания

математических символов

Добавление 8-го разряда позволяет увеличить количество кодов таблицы ASCII до 255. Коды от 128 до 255 представляют собой расширение таблицы ASCII. Эти коды в таблице ASCII использованы для кодирования некоторых символов, отличающихся от латинского алфавита, и встречающихся в языках с письменностью, основанной на латинском алфавите, - немецком, французском, испанском и др. Кроме этого, часть кодов использована для кодирования символов псевдографики, которые можно использовать, например, для оформления в тексте различных рамок и текстовых таблиц.

В русском алфавите буква А имеет первое место, а буква Б - второе. У каждой буквы есть своя позиция. Буква Я имеет позицию номер 33. Мы можем считать, что алфавит -- это таблица для кодирования букв.

Стандарт ASCII -- это тоже как бы «алфавит», только компьютерный. Он тоже определяет номер каждого символа. Но символов больше, чем букв, потому что к ним относятся еще и цифры, и знаки препинания, и некоторые специальные символы [4, c. 24].

Выше мы сказали, что с помощью одного байта можно закодировать 256 разных символов. Еще мы узнали, что стандарт ASCII определяет первую половину кодовой таблицы, то есть, кодировку символов, имеющих номера до 127. Но это не совсем так. На самом деле стандарт ASCII первые 32 кода (от 0 до 31) не определяет. Он оставляет их для так называемых управляющих кодов, которые не используются для представления информации, а применяются для управления компьютерами. Эти коды отданы на усмотрение производителей компьютерных систем (у них есть свои соглашения и свои стандарты по применению этих кодов). Еще несколько лет назад людям, работающим с компьютерами, стоило знать некоторые из этих кодов, но сегодня это уже не требуется.

Самый первый символ стандарта ASCII -- это ПРОБЕЛ. Он имеет код 32.

За ним идут специальные символы и знаки препинания (коды с 33 по 47).

Далее идут десять цифр (коды 48-57).

Коды 58--64 используют некоторые математические символы и знаки препинания.

Самое интересное начинается с кодов 65--90. Ими обозначают прописные английские буква от А до Z

Коды 91--96 используются для специальных символов.

Коды 97--122 -- строчные буквы английского алфавита.

Коды 123-127 -- специальные символы.

Коды верхней половины таблицы символов (128-255) отданы для национальных стандартов. Когда мы узнаем о компьютере немного больше, мы разберемся с несколькими российскими стандартами и посмотрим, как кодируются буквы русского языка.

Имея под рукой кодовую таблицу символов, вы можете легко определить, какие слова закодированы следующими байтами

67 79 77 80 85 84 69 82 99 111 109 112 117 116 101 114

У вас раскодирование информации займет пару минут. Компьютер сделает это за несколько миллионных долей секунды.

Таблица кодов ASCII

Для кодирования символов национальных алфавитов используется расширение кодовой таблицы ASCII, то есть 8-ми разрядные коды от 128 до 255.

В языках использующих кириллический алфавит, в том числе русском, пришлось полностью менять вторую половину таблицы ASCII, приспосабливая ее под кириллический алфавит. Но отсутствие согласованных стандартов привело к появлению различных кодовых таблиц для кодирования русскоязычных текстов, среди которых

альтернативная кодовая таблица CP-866

международный стандарт ISO 8859

кодовая таблица фирмы Microsoft CP-1251 (кодировка Windows)

кодовая таблица, применяемая в ОС Unix KOI 8-r [2, c. 87].

4.2 Кодовая таблица Windows (CP-1251)

4.3 Альтернативная кодовая таблица

Сравните:

в альтернативной кодтровке русский прописной символ А имеет код 128,а в кодировке Windows - 192

Заключение

В результате проделанной работы нами: проведен анализ литературы по теме исследования; рассмотрен процесс обработки текста; рассмотрена сущность понятия кодирования информации; охарактеризован процесс кодирования и декодирования; проанализировано кодирование текстовой информации байтами; выделены основные кодировочные таблицы: стандартная кодировка ASCII, кодовая таблица Windows (CP-1251), альтернативная кодовая таблица.

Приведем основные теоретические результаты работы:

1. Процессы изменения формы представления текста часто сводятся к процессам его кодирования и декодирования и проходят одновременно с процессами сбора и передачи информации.

2. Для кодирования текстовой информации принят международный стандарт ASCII (American Standard Code for Information Interchange), в кодовой таблице которого зарезервировано 128 7-ми разрядных кодов для кодирования

3. В языках использующих кириллический алфавит, в том числе русском, пришлось полностью менять вторую половину таблицы ASCII, приспосабливая ее под кириллический алфавит. Но отсутствие согласованных стандартов привело к появлению различных кодовых таблиц для кодирования русскоязычных текстов, среди которых

альтернативная кодовая таблица CP-866

международный стандарт ISO 8859

кодовая таблица фирмы Microsoft CP-1251 (кодировка Windows)

кодовая таблица, применяемая в ОС Unix KOI 8-r

Таким образом, цель работы, заключающаяся в рассмотрении и анализе процесса кодирования текстовой информации достигнута, задачи выполнены.

Список литературы

1. Аладьев В.З. и др. Основы информатики: Учеб. пособие. - 2-е изд., перераб. и доп. - М.: Информационно-изд. дом «Филинъ», 2005.

2. Брукшир Дж. Информатика и вычислительная техника [Текст].7-е изд./Дж.Брукшир. - СПБ.: Питер, 2004.

3. Громов А.И., Сафин М.Я. Основы информатики вычислительной техники: Учеб. пособие.-изд.2-е, перераб. - М.: Издательство РУДН, 2004.

4. Информатика. Базовый курс. 2-е изд. [Текст]: Учебник/ Под ред. С.В. Симоновича. - Спю.: Питер, 2007.

5. Могилев А.В. Информатика: Учеб. пособие для пед. вузов/ Могилев А.В., Пак Н.И., Хеннер Е.К.: Под ред. Е.К.Хеннера. - М.: Академия, 2001.

6. Степанов А.Н. Информатика: Учеб. для вузов. - 4-е изд. - СПб.: Питер, 2006.


Подобные документы

  • Представление информации в двоичной системе. Необходимость кодирования в программировании. Кодирование графической информации, чисел, текста, звука. Разница между кодированием и шифрованием. Двоичное кодирование символьной (текстовой) информации.

    реферат [31,7 K], добавлен 27.03.2010

  • Характеристика средств обработки текстовой информации, способы редактирования и форматирования документов. Порядок создания списков и таблиц, проверка орфографии и синтаксиса текста. Выбор формата файла. Работа в табличном процессоре Microsoft Excel.

    курсовая работа [411,1 K], добавлен 27.04.2013

  • Средства и технологии обработки текстовой информации: MS-DOS Editor, Word Pad, Блокнот, Microsoft Word. Двоичное кодирование текстовой информации в компьютере. Рассмотрение разновидностей кодовых таблиц для русских букв: Windows, MS-DOS, КОИ-8, Мас, ISO.

    курсовая работа [644,5 K], добавлен 27.04.2013

  • Обработка текстовой информации на компьютере. Знакомство с текстовым процессором Microsoft Word. Создание, форматирование текстовых документов, выполнение операций с фрагментами текста. Копирование, перемещение, удаление. Создание и редактирование таблиц.

    лабораторная работа [672,8 K], добавлен 19.12.2013

  • Программы работы с текстами: MS-DOS Editor, Word Pad, блокнот, word, текстовый процессор. Редакторы для обработки документов. Стили форматирования. Двоичное кодирование текстовой информации в компьютере. Операции технологического процесса ее обработки.

    курсовая работа [324,0 K], добавлен 25.04.2013

  • Понятие информации и основные принципы ее кодирования, используемые методы и приемы, инструментарий и задачи. Специфические особенности процессов кодирования цифровой и текстовой, графической и звуковой информации. Логические основы работы компьютера.

    курсовая работа [55,8 K], добавлен 23.04.2014

  • Представление числовой информации с помощью систем счисления. Кодирование символьной, текстовой, числовой и графической информации. Устройство жесткого диска; дисковод компакт-дисков CD-ROM. Использование главного меню Windows; языки программирования.

    контрольная работа [62,9 K], добавлен 16.03.2015

  • Основные понятия и определения кодирования информации. Кодовая комбинация и ее длина. Классификация кодов по различным признакам, способы их представления, назначение. Представление в виде кодовых деревьев или многочленов, матричное и геометрическое.

    реферат [38,1 K], добавлен 05.08.2009

  • Функции, осуществляющие вывод текста в Windows. Классификация шрифтов GDI. Кодовая таблица Symbol в Windows, состоящая из разных неалфавитных символов. Флаги, содержащиеся в параметре fuFormat. Программная реализация наклонных и жирных начертаний.

    лекция [167,3 K], добавлен 24.06.2009

  • Понятие и отличительные черты аналоговой и цифровой информации. Изучение единиц измерения цифровой информации: бит (двоичная цифра) и байт. Особенности передачи, методы кодирования и декодирования текстовой, звуковой и графической цифровой информации.

    реферат [479,4 K], добавлен 22.03.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.