Технология обработки текстовой информации

Создание и редактирование документов. Различные форматы текстовых файлов. Форматирование документа: параметры страницы, абзацы, списки, таблицы. Компьютерные словари и системы машинного перевода текста. Системы оптического распознавания документов.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 20.01.2012
Размер файла 23,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Оглавление

  • Введение
  • 1. Создание и редактирование документов
  • 2. Различные форматы текстовых файлов (документов)
  • 3. Форматирование документа
    • 3.1 Выбор параметров страницы
    • 3.2 Форматирование абзацев
    • 3.3 Списки
    • 3.4 Таблицы
    • 3.5 Форматирование символов
  • 4. Гипертекст
  • 5. Компьютерные словари и системы машинного перевода текста
  • 6. Системы оптического распознавания документов
  • Заключение
  • Список литературы

Введение

Текстовый редактор Ї это программа, которая позволяет создать документ с текстовыми данными. Текстовый процессор Ї это программа для ввода, редактирования и обработки текстовых документов с различной информацией (например, с таблицами, графикой и т.д.).

Актуальность нашей работы заключается в рассмотрении особенностей создания и использования в интересах человека текстовой информации.

Цель работы состоит в изучении технологии обработки текстовой информации.

Достижение цели предполагает решение ряда задач:

1) рассмотреть создание и редактирование документов;

2) изучить различные форматы текстовых файлов (документов);

3) рассмотреть форматирование документа;

4) составить представление о гипертексте;

5) изучить компьютерные словари и системы машинного перевода текста;

6) определить системы оптического распознавания документов.

К текстовым редакторам и процессорам можно отнести: встроенные текстовые редакторы; редакторы инструментальных компьютерных программ; универсальные текстовые процессоры; редакторы научных документов, программы для верстки макетов журналов и книг (издательские системы).

1. Создание и редактирование документов

Текстовый редактор Ї это программа, которая позволяет создать документ с текстовыми данными. Текстовый процессор Ї это «программа для ввода, редактирования и обработки текстовых документов с различной информацией (например, с таблицами, графикой и т.д.)» [8; с. 155].

К текстовым редакторам и процессорам можно отнести: встроенные текстовые редакторы; редакторы инструментальных компьютерных программ; универсальные текстовые процессоры; редакторы научных документов, программы для верстки макетов журналов и книг (издательские системы). В настоящее время наиболее популярным является текстовый процессор MS Word 2003, но уже появилась новая версия Microsoft Office 2007.

В Word 2003 можно создавать документы следующих типов: новый документ, веб-страницу, XML-документ, сообщение E-mail, сообщение-факс, конверты и наклейки, шаблоны. Все новые текстовые документы в Word создаются на основе шаблонов. Шаблон Ї это документ, который используется в качестве образца для создания новых текстовых документов.

После запуска Word на экране отображается окно, в котором виден пустой текстовый документ, основанный на шаблоне Обычный. По умолчанию все текстовые документы создаются на основе шаблона Обычный Normal.dot, а весь текст вводится в стиле Обычный Normal, в котором установлены основные параметры форматирования: шрифт Ї Times New Roman, размер шрифта Ї 10 пунктов, выравнивание по левому краю, одинарный межстрочный интервал. В окно пустого текстового документа можно ввести текст, вставить таблицу, рисунок и т.д. Пустой документ имеет название Документ 1, которое видно в строке заголовка.

Текстовый документ можно создать следующими способами:

Ї выбрать команду Создать в меню Файл, затем в области задач (изменится режим на «Создание документа») в разделе Создание выбрать «Новый документ», основанный на шаблоне Обычный или разделе Шаблоны в пункте На моем компьютере выбрать предопределенный шаблон или мастер, на основе которого требуется создать документ или шаблон;

Ї щелкнуть пиктограмму Создать на панели инструментов Стандартная, откроется пустой документ Документ 1, основанный на шаблоне Обычный [5; с. 227].

При создании новых документов им будут последовательно присваиваться номера 2, 3, 4, 5 и т.д. В пустом документе вверху слева видна мерцающая вертикальная линия, которая называется курсором ввода. Курсор указывает, куда будет вводиться символ с клавиатуры или вставляться какой-либо объект (рисунок, таблица и т.д.). Положение курсора можно изменить клавишами управления курсора или манипулятором мышь только в пределах набранного текста. В строке состояния редактора на экране дисплея виден номер строки документа и номер позиции в ней, где в текущий момент находится курсор. Кроме курсора ввода в окне виден указатель мыши, имеющий вид латинской буквы I. Его местоположение меняется только после перемещения мыши. Указатель используется для выбора команд меню, перемещения объектов, для выделения фрагмента текста и т.д. Чтобы задать положение точки ввода (insertion point), необходимо переместить мышь так, чтобы указатель находился в нужной точке экрана и щелкнуть левой кнопкой мыши.

Существующий документ можно открыть несколькими способами:

? Открыть меню Файл (File) и щелкнуть мышью имя файла в списке в нижней части меню. Список содержит названия последних файлов, открытых в этом приложении.

? Выбрать команду Открыть (Open) в меню Файл (File) и в окне диалога Открытие документа (Open) указать имя и местоположение файла.

? Нажать кнопку Открыть на панели инструментов Стандартная и дважды щелкнуть значок файла в окне диалога Открытие документа (Open).

Текстовый процессор работает в режиме вставка или замена. Индикация режима осуществляется в строке состояния на экране дисплея. Режимы можно переключать с помощью клавиши Ins. В режиме «вставка» вводимые с клавиатуры символы сдвигают вправо текст документа, расположенный за курсором. В режиме замены вместо символа, расположенного справа от курсора, вводится новый символ с клавиатуры. Перед вводом текста целесообразно установить параметры и необходимую ориентацию страницы, выполнив команду Файл / Параметры страницы, вкладка Поля.

Во время работы с документом, он находится в оперативной памяти. Для того чтобы записать этот файл на диск, необходимо в меню Файл выбрать команду Сохранить, и задать необходимые параметры в окне диалога Сохранение документа. При сохранении документа в окне диалога необходимо: Указать имя файла, выбрать Тип файла, выбрать папку, в которой сохраняются атрибуты файла, и диск на котором будет сохранен файл. Открытый файл можно сохранить на диск под другим именем, выбрав в меню Файл команду Сохранить как. Текстовые процессоры могут одновременно работать с несколькими документами в различных окнах. При вводе и редактировании текста работает в активном окне, в котором возможен доступ к командам меню. Команды в меню Окно позволяют упорядочивать окна документов, переходить из одного окна в другое и разделять рабочую область окна на две части.

Основными этапами Создания (подготовки) текстовых документов являются: набор текста, редактирование текста, форматирование, проверка правописания, печать текста, сохранение.

После ввода текста он подвергается различным изменениям. Редактирование документа осуществляется командами меню или нажатием клавиш на клавиатуре ПК. Операции редактирования (удаление, вставка, перемещение) осуществляются над символами, строками, фрагментами. Операциями редактирования для строк являются: удаление строки, разделение одной строки на две, слияние двух строк в одну, вставка пустой строки. Фрагментом называется «непрерывная часть текста» [2; с. 276]. Для удаления, копирования, перемещения фрагмента необходимо его выделить. Выделить фрагмент можно с помощью мыши или клавиатуры. В Word применяются различные способы выделения для слова, строки, предложения, абзаца. (одинарный, двойной или тройной щелчок мышью в абзаце или слева от абзаца на полосе выделения). Выделенный текст можно копировать, перемещать и удалять как с помощью буфера обмена, так и методом перемещения при помощи мыши (при нажатой левой или правой клавиши).

Созданный на этапе набора текст документа в большинстве случаев подвергается изменениям, связанным с обнаружением ошибок, корректировкой информации, реорганизацией его фрагментов и тому подобного. Операции редактирования выполняются при подаче пользователем команд текстового редактора. Команды подаются выбором их из меню или нажатием нужных клавиш на клавиатуре ПК. Чтобы вставить один или несколько символов, текстовый редактор должен находиться в режиме вставки, а не в режиме замены. Переключение между этими режимами осуществляет клавиша Ins. Перед вставкой необходимо подвести курсор в нужную позицию и нажать клавишу с требуемым символом. Символ вставится в позицию, курсора, а часть строки справа (включая курсор) сдвинется на одну позицию вправо. Основными операциями редактирования для строк являются удаление строки, разделение одной строки на две, слияние двух строк в одну, вставка пустой строки.

2. Различные форматы текстовых файлов (документов)

Формат файлов определяет способ хранения текста в файле. Простейший формат содержит только числовые коды символов, другие форматы содержат дополнительные управляющие числовые коды, которые обеспечивают форматирование текста.

Существуют универсальные форматы и оригинальные форматы, которые используются отдельными текстовыми редакторами. Для преобразования текста из одного формата в другой используются специальные программы Ї конвертеры [7; с. 183].

Рассмотрим некоторые наиболее распространенные форматы текстовых файлов.

Microsoft Word для Windows. Версия 2.x, Microsoft Word 6.0/95. оригинальные форматы предыдущих версий редактора. Можно сохранять документы в этом формате файла. Никаких конвертеров не требуется для открытия документов формата Word 2.x для Windows.

Microsoft Word для Macintosh. Версия 4.x и 5.x. Можно сохранять документы в этом формате файла. Никаких конвертеров не требуется для открытия документа этого формата в программе Word для Windows 95.

Только текст. Сохраняет текст без всякого форматирования. Все концы страниц, концы разделов и символы перевода строки преобразуются в символы абзаца. Используется набор символов ANSI. Этот формат следует выбирать только в том случае, если документ будет использоваться в приложении, не читающем никакого форматирования файла.

Текст DOS. Конвертирует файлы так же, как и формат "Только текст". Используется расширенный набор символов ASCII, являющийся стандартным для приложений MS-DOS. Этот формат следует применять при совместном использовании документов программой Word и приложениями, работающими не под Windows.

Текст с разбиением на строки, Текст DOS с разбиением на строки. Сохраняет текст без форматирования. Все разрывы страниц, разрывы разделов и символы перевода строки преобразуются в символы абзаца. Этот формат применяется, если надо сохранить разбивку документа на строки, например при переводе документов в электронную почтовую систему.

Текст с сохранением макета, Текст DOS с сохранением макета. Сохраняет разбивку на сроки. Вставляет пробелы для выделения отступов, таблиц, межстрочных интервалов, абзацных интервалов и позиций табуляции. Преобразует разрывы разделов и страниц в символы абзаца. Этот формат применяется для преобразования документа в текстовый файл с сохранением разметки страницы.

Текст в формате RTF. Сохраняет форматирование полностью. Преобразует инструкции форматирования таким образом, что их могут читать и интерпретировать другие приложения, включая все совместимые с Microsoft.

HTML документ. Формат хранения Web-страниц. Содержит управляющие коды (тэги) языка разметки гипертекста. Чтобы преобразовать файл текстового документа в редакторе MS Word, можно, например, выполнить команду Файл Ї Сохранить как, в окне раскрывающегося списка Тип файла выбрать какой-либо вариант.

документ редактирование форматирование компьютерный

3. Форматирование документа

3.1 Выбор параметров страницы

Различают логическую и физическую страницы, физическая страница (в некоторых текстовых редакторах вместо этого термина используется термин «размер бумаги») обычно имеет некоторый стандартный размер, например 210х297 мм (формат А4), а логическая страница «образуется на поле физической за вычетом установленных пользователем границ» [8; с. 281]. Количество данных на логической странице определяется, с одной стороны, плотностью печати (количеством знаков на строке), а с другой Ї разреженностью строк (интервалом между строками). Если вы собираетесь работать с двойными листами, конвертами или наклейками, вам следует установить новые размеры физической страницы.

При разрыве абзаца многие текстовые процессоры обеспечивают контроль за так называемыми висячими строками. Висячей строкой называется первая строка или заголовок нового абзаца, оказавшийся на последней строке страницы (Widow), или последняя строка абзаца, оказавшаяся в начале страницы (Orphan). Размещение абзаца при его разрыве может регулироваться по-разному. Например, не менее двух строк в конце страницы и не менее трех строк в начале.

Для введения нумерации страниц в создаваемом вами документе текстовый процессор предложит специальное меню, в котором вы сможете указать все интересующие вас условия нумерации: месторасположение на листе номера страницы, отказ от нумерации первой страницы, использование колонтитулов и другие. Номера страниц проставляются в колонтитуле.

Колонтитулом называется заголовочное данное, помещаемое в начале или конце каждой страницы документа. Колонтитулы обычно содержат номера страниц, название глав и параграфов, название и адрес фирмы и т.п. Колонтитулы могут различаться для четных и нечетных страниц, а также для первой страницы и последующих. Использование колонтитулов позволяет лучше ориентироваться в документе, а также использовать дополнительные возможности рекламы.

Команда Параметры страницы (Page Setup) из меню файл (File) позволяет задать размер листа, на котором будет напечатан документ, размеры полей, расположение текста на листе и т.д. Заданные размеры могут относиться ко всему документу, к выделенному фрагменту, к оставшейся после курсора части документа или к разделу. Размеры полей при печати задаются с учетом используемого принтера.

Поля определяют общую ширину основного текста и соответственно расстояние между текстом и краем страницы. Чтобы задать размер нижнего поля, введите на вкладке Поля (Margins) в поле Нижнее (Bottom) расстояние между нижним краем страницы и нижним краем последней строки на странице. Размер введите с клавиатуры или установите с помощью кнопок со стрелками в правой стороне поля. Аналогично введите размеры в поля: Верхнее (Тор), Левое (Left), Правое (Right) в пределах от 1 до 3,5 см. Поля документа могут быть пустыми или содержать колонтитулы, примечания, текст, графику. В полях группы От края до колонтитула (From edge) задайте расстояние между верхним краем страницы и верхним краем верхнего колонтитула или расстояние между нижним краем нижнего колонтитула и нижним краем страницы. Флажок Зеркальные поля (Mirror Margins) устанавливают при печати на двух сторонах листа. Все внутренние поля становятся одной ширины, все внешние поля также будут равны друг другу.

В поле Переплет (Gutter) задайте дополнительное расстояние, добавляемое к левому полю страницы, если флажок Зеркальные поля (Mirror margins) снят или к внутреннему полю страницы, если флажок установлен. Обычно для переплета предусматривают не более 1,5 см.

На вкладке Размер бумаги (Paper Size) в раскрывающемся списке выберите размер, соответствующий используемой странице. Например, в соответствии со стандартом DIN страница А4 имеет в ширину 21 см и в длину 29,7 см. В полях Ширина (Width), Высота (Height) можно задать размеры нестандартного листа. Формат бумаги и поля страницы определяют размер полосы набора Ї пространства, на котором будет печататься документ.

Расположение документа на листе при печати задайте в рамке Ориентация (Orientation): книжная (Portrait) или альбомная (Landscape). Альбомная ориентация удобна при печати широких таблиц на узком принтере. В рамке Образец (Preview) отобразится внешний вид документа после применения к нему заданных параметров.

На вкладке Макет (Layout) вы можете выбрать тип вертикального выравнивания, задать разные колонтитулы для четных и нечетных страниц.

Тип вертикального выравнивания текста на странице выберите в раскрывающемся списке Вертикальное выравнивание (Vertical alignment). При выборе элемента По верхнему краю верхняя строка текста выравнивается по верхнему краю страницы. При выборе элемента По высоте первая строка верхнего абзаца выравнивается по верхнему краю страницы, а последняя строка нижнего абзаца выравнивается по нижнему краю страницы. По высоте применим только к полным страницам; неполные страницы выравниваются по верхнему краю.

В группе Различать колонтитулы (Header and Footer) задайте, будут ли отличаться колонтитулы для разных страниц. Если следует задать разные колонтитулы для четных и нечетных страниц, установите флажок четных и нечетных страниц (Different odd and even). Установите флажок первой страницы (Different first page), если первая страница раздела или документа будет иметь свой колонтитул [5; с. 258Ї259].

3.2 Форматирование абзацев

Абзацем является часть текста, которая заканчивается символом абзаца. Символ конца абзаца появляется после нажатия клавиши Enter. Абзац является одним из главных элементов оформления документа. Абзац может содержать только один символ абзаца (пустой абзац) или состоять из нескольких строк текста. Как правило, после нажатия клавиши Enter создается абзац, атрибуты которого повторяют предыдущий. Если удалить символ абзаца, то все атрибуты последующего абзаца приобретают атрибуты предыдущего.

При редактировании текста можно отображать на экране символы конца абзаца (кнопка Непечатаемые символы панели инструментов Стандартная). Для форматирования нескольких абзацев или всего документа выделите их и задайте параметры форматирования: отступы, выравнивание, интервалы, положение на странице. При форматировании абзаца можно использовать окно диалога Абзац. Кнопки панели инструментов Форматирование, горизонтальную и вертикальную линейки. Для отображения на экране окна диалога Абзац выберите команду Абзац (Paragraph) в меню Формат (Format) или в контекстном меню, появляющемся после щелчка абзаца правой кнопкой мыши. При форматировании абзаца используются также команды Табуляция, Границы и заливка и Список из меню Формат.

Размер интервала в пунктах между абзацами задается в рамке Интервал (Spacing) в списках перед (Before) и после (After). Размеры интервалов до и после абзаца часто задают для заголовков. Междустрочный интервал определяет расстояние по вертикали между строками текста. В большинстве случаев он берется равным 120 % от размера шрифта. Раскрывающийся список междустрочный (Line Spacing) содержит следующие элементы: динарный (Single) Ї устанавливает междустрочный интервал для каждой строки в зависимости от размера максимального символа строки; минимум (At Least) Ї устанавливает минимальный междустрочный интервал с учетом различных факторов, например, верхнего или нижнего индекса; точно (Exactly) Ї задает фиксированный междустрочный интервал между всеми строками; множитель (Multiple) Ї позволяет задать в поле значение (At) кратность междустрочного интервала одинарному. Для установки отступов можно использовать горизонтальную линейку и расположенные на ней треугольные маркеры. В редакторе предусмотрено четыре варианта выравнивания строк на странице: по левому краю, по центру, по правому краю, по ширине [2; с. 274].

3.3 Списки

Под списком понимают последовательность строк, в которых содержатся данные одного типа. Списки облегчают чтение и понимание текста. Word позволяет придать абзацам форму списка, где каждый абзац будет помечен определенным маркером или номером. В маркированных списках перечисляются пункты, связанные с одной темой. В нумерованных списках перечисляются пункты, следующие друг за другом в определенном порядке. Каждый пункт списка является отдельным абзацем и имеет свой маркер или номер.

Создание маркированного или нумерованного списка выполняют следующим образом:

Ї курсор устанавливают на то место, откуда будет начинаться список;

Ї выбирают команду Список (Bullets and Numbering) в меню Формат (Format) или в контекстном меню, появляющемся после нажатия правой кнопки мыши;

Ї в окне команды открывают вкладку Маркированный (Bulleted) или Нумерованный (Numbered) и выбирают тип маркера или формат номера;

Ї вводят элементы списка, нажимая после каждого элемента клавишу Enter; на следующей строке появляется новый маркер. В нумерованном списке перед каждым абзацем стоит цифра. Если вы добавите/удалите пункт в списке, то нумерация всех последующих пунктов изменится автоматически [4; с. 185].

Для быстрого создания маркированного списка можно использовать кнопки Нумерация (Numbering) и Маркеры (Bullets) на панели инструментов Форматирование. Эти же кнопки используются, чтобы закончить ввод текста в виде списка.Чтобы закончить нумерованный или маркированный список и вернуться к обычному формату абзацев, дважды нажмите клавишу Enter. При необходимости вид маркеров в списке или способ нумерации можно изменить с помощью кнопки Изменить диалога Список. Например, в качестве маркера можно взять любой символ из имеющихся наборов символов.

3.4 Таблицы

Табличная информация встречается очень часто и позволяет структурировать текстовый материал в удобочитаемом виде. Редактор Word предоставляет широкий набор возможностей для создания и оформления табличной информации. Для выполнения основных операций в меню введен специальный элемент Таблица. Кроме того, можно использовать некоторые новые кнопки на панелях Стандартная и Форматирование или воспользоваться специальной дополнительной инструментальной панелью Таблицы и границы (команда Панели инструментов меню Вид).

Таблица имеет границу в виде тонкой сплошной линии черного цвета, которая сохраняется при печати, и линии сетки, которые отображаются на экране в случае удаления границы. Удаление (восстановление) границы осуществляется командой Формат / Границы и заливка, на вкладке Границы или командой Внешние границы на панели инструментов. Линии сетки не печатаются, но их тоже можно удалить (восстановить) командой Таблица / Скрыть сетку (отображать сетку). Поля ячеек Ї это расстояние между границей ячейки и текстом внутри ячейки. Интервалы между ячейками и поля ячеек можно изменить в окне диалога Параметры таблицы, которое можно вызвать командой Таблица / Свойства таблицы, нажав кнопку Параметры. Маркер перемещения таблицы служит для перемещения таблицы в другое место страницы, а маркер изменения размера таблицы позволяет изменить размер таблицы.

Для ввода текста в ячейку, необходимо щелкнуть на ячейке и ввести текст с клавиатуры или вставить из буфера обмена при копировании текста. Если текст не помещается в строке, то он переносится на другую строку и увеличивает высоту строки. Форматирование текста в ячейках осуществляется методами форматирования обычного текста. Добавить текст перед таблицей в начале страницы можно, если установить курсор в начале первой строки и нажать клавишу Enter [5; с. 281].

3.5 Форматирование символов

При форматировании символов можно задать следующие параметры: гарнитуру, начертание, размер, толщину, цвет, анимацию, интервал, верхний и нижний индекс, подчеркивание, зачеркивание. Чтобы изменить формат символов в каком-нибудь фрагменте или во всем документе, необходимо выделить форматируемую часть и воспользоваться панелью инструментов Форматирование или окном команды Шрифт (Font) в меню Формат (Format) Для изменения формата одного слова достаточно расположить в нем курсор и не выделять слово.

Начертание (стиль) шрифта задается выделением требуемого элемента в списке Начертание (Font style): обычный (Normal) Ї обеспечивает прямое начертание символов; полужирный (Bold) Ї увеличивает толщину и яркость линий символов; курсив (italic) Ї создает наклон и округлые формы символов. Полужирный наклонный (Bold Italic) Ї увеличивает толщину и яркость линий символов, создает наклон и округлые формы символов. В раскрывающемся списке Цвет (Color) задается цвет символов: черный, синий, белый, серый 50% и так далее.

Параметры подчеркивания текста выбираются в раскрывающемся списке Подчеркивание (Underlined). Ниже приведено назначение некоторых элементов списка: нет Ї подчеркивание отсутствует; одинарное Ї текст подчеркивается одной линией; только слова Ї подчеркиваются слова, интервалы между ними не подчеркиваются; двойное Ї текст подчеркивается двойной линией; пунктирное Ї текст подчеркивается пунктирной линией. Выбранный шрифт с заданными параметрами отображается в поле Образец (Preview).

4. Гипертекст

Гипертекст представляется «набором текстов, содержащих узлы перехода между ними, которые позволяют избирать читаемые сведения или последовательность чтения» [6; с. 137]. Общеизвестным и ярко выраженным примером гипертекста служат веб-страницы -- документы HTML (язык разметки гипертекста), размещённые в Сети.

Гипертекст Ї это текст со вставленными в него словами (командами) разметки, ссылающимися на другие места этого текста, другие документы, картинки и т.д. Во время чтения такого текста (в соответствующей программе, его обрабатывающей и выполняющей соответствующие ссылки или действия) вы видите выделенные в тексте слова. Если наехать на них курсором и нажать клавишу или на кнопку (надавить глаз) мышки, то будет выполнено некое действие, связанное с данным выделенным словом, например, на экране появится текст, на который ссылалось это слово, возможно, это другой участок текста этого же документа, а возможно совсем другой документ.

Гипертекст позволяет структурировать документ путем выделения в нем слов-ссылок Ї гиперссылок. При активизации гиперссылки (например, с помощью щелчка мыши) происходит переход на фрагмент текста, заданный в ссылке. Гиперссылка состоит из двух частей: указателя ссылки и адресной части ссылки. Указатель ссылки Ї это объект (фрагмент текста или изображение), который визуально выделяется в документе (обычно синим цветом и подчеркиванием). Адресная часть гиперссылки представляет собой название закладки в документе, на который указывает ссылка. Закладка Ї это элемент документа, которому присвоено уникальное имя. Закладки размещаются на тех страницах документа, куда должны осуществляться переходы по гиперссылкам. Гиперссылки могут указывать на закладки, размещенные не только в том же документе, но и в других документах. Примерами систем документов, объединенных гипертекстовыми ссылками в единое целое, являются справочные системы операционных систем и приложений. Активизация гиперссылки вызывает в окно документ со справочной информацией.

5. Компьютерные словари и системы машинного перевода текста

Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности. Во-первых, компьютерные словари могут являться многоязычными Ї давать пользователю возможность выбрать языки и направление перевода (например, англо-русский, испанско-русский и т.д.). Во-вторых, компьютерные словари могут кроме основного словаря общеупотребительных слов содержать десятки специализированных словарей по областям знаний (техника, медицина, информатика и др.). В-третьих, компьютерные словари обеспечивают быстрый поиск словарных статей: «быстрый набор», когда в процессе набора слова возникает список похожих слов; доступ к часто используемым словам по закладкам; возможность ввода словосочетаний и др. В-четвертых, компьютерные словари могут являться мультимедийными, т. е. предоставлять пользователю возможность прослушивания слов в исполнении дикторов, носителей языка [3; с. 106].

Процесс глобализации мира приводит к необходимости частого обмена документами между людьми и организациями, находящимися в разных странах мира и говорящими на различных языках. В этих условиях использование традиционной технологии перевода «вручную» тормозит развитие межнациональных контактов. Перевод многостраничной документации вручную требует длительного времени и высокой оплаты труда переводчиков. Перевод полученного по электронной почте письма или просматриваемой в браузере Web-страницы необходимо осуществлять срочно, и нет времени пригласить переводчика.

Системы компьютерного перевода позволяют решить эти проблемы. Они, с одной стороны, способны переводить многостраничные документы с высокой скоростью (одна страница в секунду), с другой стороны, переводить Web-страницы в режиме реального времени. Системы компьютерного перевода осуществляют перевод текстов, основываясь на формальном знании синтаксиса языка (правил построения предложений), правил словообразования и использовании словарей. Программа-переводчик сначала анализирует текст на одном языке, а затем конструирует этот текст на другом языке.

Современные системы компьютерного перевода позволяют достаточно качественно переводить техническую документацию, деловую переписку и другие специализированные тексты. Однако они не применимы для перевода художественных произведений, так как не способны адекватно переводить метафоры, аллегории и другие элементы художественного творчества человека.

6. Системы оптического распознавания документов

Системы оптического распознавания символов используются при создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат [3; с. 109]. Сначала с помощью сканера необходимо получить изображение страницы текста в графическом формате. Далее для получения документа в текстовом формате необходимо провести распознавание текста, т.е. преобразовать элементы графического изображения в последовательность текстовых символов. Системы оптического распознавания символов сначала определяют структуру размещения текста на странице и разбивают его на отдельные области: колонки, таблицы, изображения и т.д. Далее выделенные текстовые фрагменты графического изображения страницы разделяются на изображения отдельных символов.

Растровое изображение каждого символа последовательно накладывается на растровые шаблоны символов, хранящиеся в памяти системы оптического распознавания. Результатом распознавания является символ, шаблон которого it наибольшей степени совпадает с изображением. При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется векторный метод распознавания символов. В распознаваемом изображении символа выделяются геометрические примитивы (отрезки, окружности и др.) и сравниваются с векторными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех геометрических примитивов и их расположение больше всего соответствует распознаваемому символу. Системы оптического распознавания символов являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов), и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.

Системы оптического распознавания форм. При заполнении документов большим количеством людей (например, при сдаче выпускником школы единого государственного экзамена (ЕГЭ)) используются бланки с пустыми полями. Данные вводятся в поля печатными буквами от руки. Затем эти данные распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных. Сложность состоит в том, что необходимо распознавать символы, написанные от руки, которые довольно сильно различаются у разных людей. Кроме того, такие системы должны уметь определять, к какому полю относится распознаваемый текст.

Заключение

Текстовый редактор Ї это программа, которая позволяет создать документ с текстовыми данными. В Word 2003 можно создавать документы следующих типов: новый документ, веб-страницу, XML-документ, сообщение E-mail, сообщение-факс, конверты и наклейки, шаблоны. Формат файлов определяет способ хранения текста в файле. Простейший формат содержит только числовые коды символов, другие форматы содержат дополнительные управляющие числовые коды, которые обеспечивают форматирование текста.

Различают логическую и физическую страницы, физическая страница обычно имеет некоторый стандартный размер, например 210х297 мм (формат А4), а логическая страница образуется на поле физической за вычетом установленных пользователем границ. Абзацем является часть текста, которая заканчивается символом абзаца ¶. Абзац является одним из главных элементов оформления документа. Под списком понимают последовательность строк, в которых содержатся данные одного типа. Списки облегчают чтение и понимание текста. Табличная информация встречается очень часто и позволяет структурировать текстовый материал в удобочитаемом виде. При форматировании символов можно задать следующие параметры: гарнитуру, начертание, размер, толщину, цвет, анимацию, интервал, верхний и нижний индекс, подчеркивание, зачеркивание.

Гипертекст позволяет структурировать документ путем выделения в нем слов-ссылок Ї гиперссылок. Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности. Системы оптического распознавания символов используются при создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат.

Список литературы

1) Златопольский Д.М. Работа с текстом в электронных таблицах / Д.М. Златопольский // Информатика и образование. Ї 2002. Ї № 1. Ї С. 32Ї36.

2) Информатика /под ред. Н.В. Макаровой. Ї М.: Финансы и статистика. 2002. Ї 436 с.

3) Леонтьев В.П. Новейшая энциклопедия персонального компьютера / В.П. Леонтьев. Ї М.: ОЛМА Медиа Групп, 2009. Ї 134 с.

4) Микляев А. Учебник пользователя IBM PC / А. Микляев. Ї М.: Альтекс-А. 2002. Ї 365 с.

5) Острейковский В.А. Информатика / В.А. Острейковский. Ї Москва, Высшая школа, 2000. Ї 430 с.

6) Провалов, В.С. Автоматизированные информационные технологии управления / В.С. Провалов. Ї Киров: Изд-во ВятГГУ, 2003. Ї 250 с.

7) Семакин И. Информатика: базовый курс / И. Семакин. Ї М.: Лаборатория базовых знаний, 2000. Ї 340 с.

8) Шафрин Ю.А. Информационные технологии: Офисная технология и информационные системы / Ю.А. Шафрин. Ї М.: Лаборатория Базовых Знаний, 2001. Ї 410 с.

Размещено на Allbest.ru


Подобные документы

  • Обработка текстовой информации на компьютере. Знакомство с текстовым процессором Microsoft Word. Создание, форматирование текстовых документов, выполнение операций с фрагментами текста. Копирование, перемещение, удаление. Создание и редактирование таблиц.

    лабораторная работа [672,8 K], добавлен 19.12.2013

  • Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

    презентация [469,2 K], добавлен 15.03.2015

  • Текстовый редактор - приложение для обработки текстовой информации. Описание текстовых процессоров как более совершенных текстовых редакторов. Типы текстовых файлов: форматированные, неформатированные. Основные правила редактирования и набора текста.

    презентация [747,3 K], добавлен 26.11.2010

  • Классификация текстовых редакторов и процессоров. Способы хранения текста в файле. Форматирование документа и его редактирование. Среда текстового редактора. Автоматическая проверка орфографии и синтаксиса текста, автотекст, автозамена, гипертекст.

    курсовая работа [35,0 K], добавлен 25.04.2013

  • Классификация и возможности текстовых редакторов, их основные элементы: рабочее поле, курсор, строка состояния и меню, полосы прокрутки, панель инструментов. Форматирование текста, проверка орфографии и синтаксиса. Создание гипертекстового документа.

    курсовая работа [3,6 M], добавлен 27.04.2013

  • Создание нового документа. Редактирование текстовых файлов типа TXT и RTF. Сохранение измененного документа. Изменение шрифта, начертания и размера символов. Отмена последнего действия. Оформление нового текста, форматирование абзаца, удаление текста.

    реферат [158,6 K], добавлен 25.10.2013

  • Классификация программ обработки текстовых документов. Общие принципы оформления издания. Правила набора текста. Системы распознавания текста (OCR). Комплекс программного обеспечения для настольных издательских систем. Примеры текстовых редакторов.

    презентация [75,0 K], добавлен 13.08.2013

  • Оптическое распознавание символов как механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов. Компьютерные программы для оптического распознавания символов и их характеристика.

    презентация [855,2 K], добавлен 20.12.2011

  • Характеристика средств обработки текстовой информации, способы редактирования и форматирования документов. Порядок создания списков и таблиц, проверка орфографии и синтаксиса текста. Выбор формата файла. Работа в табличном процессоре Microsoft Excel.

    курсовая работа [411,1 K], добавлен 27.04.2013

  • Общее название программных средств, предназначенных для создания, редактирования и форматирования простых и комплексных текстовых документов - системы обработки текста. Текстовый редактор MS-DOS Editor. Текстовый процессор WordPad, Microsoft Word.

    презентация [58,5 K], добавлен 06.01.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.