Проблемы автоматического восстановления текстовой информации, принятой с группированием искажений

Рассмотрение различных методов восстановления текстовой информации при возникновении искажений в процессе передачи ее по каналам связи низкого качества. Восстановление текста за счет смысловой избыточности как один из наиболее часто используемых методов.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 10.03.2018
Размер файла 14,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Проблемы автоматического восстановления текстовой информации, принятой с группированием искажений

Елисеев Николай Иванович, адъюнкт Краснодарского Высшего Военного Училища (военный институт) имени генерала армии Штеменко С.М.

В настоящее время существуют различные методы восстановления текстовой информации при возникновении искажений в процессе передачи ее по каналам связи низкого качества. Одним из наиболее часто используемых методов является восстановление текста за счет смысловой избыточности. восстановление текстовый информация искажение

Наиболее важными с точки зрения восстановления искаженных участков открытого текста, являются сообщения, несущие смысловую информацию. Ее можно представить в виде последовательности знаков. Эти знаки берутся из фиксированного набора, русского алфавита. Разные знаки могут встречаться в сообщениях с разной частотой. Поэтому количество информации, передаваемое различными знаками, может быть разным.

Для передачи информации прописными буквами можно было бы обойтись лишь 22 буквами или на 45 % сократить длину текста.

Таким образом, сообщения языка занимают места больше, чем это необходимо. Это явление называют избыточностью языка. Благодаря этому искажения отдельных символов сообщения зачастую не разрушают содержания, что случилось бы при отсутствии избыточности. Однако утверждение, что вероятность появления символа в связном тексте не зависит от его предыстории неверно и статистически, и лингвистически. Известно, что обычно за согласной буквой следует гласная, а за гласной согласная. Поэтому текст криптограммы рассматривается как цепочка символов, где вероятность появления буквы зависит от предыдущей.

Для упрощения и автоматизации корректировки искаженного текста при восстановлении его за счет смысловой избыточности может применятся метод пословного анализа основанный на применении принципов композиционно-динамического анализа. Сущность метода заключается в формировании для каждого слова эталонного значения. В результате для каждого слова формируется семантический эталон, состоящий из набора эталонных семантических единиц (ЭСЕ). В следствии этого алгоритм пословного анализа сводится к сопоставлению проверяемого слова открытого текста представленного в виде дискретной последовательности элементов текста A = (1, 2, …, n), со всеми эталонами словаря. В процессе сопоставления для каждого эталона осуществляется сегментация последовательности А, в результате которой максимизируется интегральная мера сходства между полученными сегментами слова и соответствующими ЭСЕ исходного семантического эталона. То слово, для которого соответствующий семантический эталон имеет наибольшую меру сходства с словом открытого текста принимается как кандидат на полное соответствие.

Однако данные методы применимы только при возникновении одиночных искажений или при группировании искажений не более двух, трех знаков открытого текста. При возникновении группирования искажений больше двух, трех знаков, восстановление и применение методов автоматизированного восстановления искаженных текстовых сообщений практически невозможно. Требуется повторный запрос искаженных участков или всего текста полностью, что в свою очередь влияет на оперативность передачи информации. Поэтому разработка новых методов повышения помехоустойчивости информации при передачи ее по каналам связи низкого качества, а в частности разработка способов декорреляции группирования искажений в одиночные искажения (искажения одного знака слова), являются актуальными.

Литература

1. Герасименко В.А. Основы информационной грамоты. - М.: Энергоатомиздат, 1996.

2. Дружинин Г.В., Сергеева И.В. Качество информации. М.: Радио и связь, 1990.

3. Котов П. А. Повышение достоверности передачи цифровой информации. М., «Связь», 1966, с. 4-7, 12-19, 27-34

4. Шеннон К. Работы по теории информации и кибернетике. М., ИИЛ, 1963, с. 12-23

Размещено на Allbest.ru


Подобные документы

  • Составление методического пособия пользователя для восстановления утраченной информации своими силами. Способы простого автоматического восстановления с помощью специализированных утилит и ручное восстановление памяти при помощи использования редакторов.

    дипломная работа [7,0 M], добавлен 27.04.2010

  • Характеристика средств обработки текстовой информации, способы редактирования и форматирования документов. Порядок создания списков и таблиц, проверка орфографии и синтаксиса текста. Выбор формата файла. Работа в табличном процессоре Microsoft Excel.

    курсовая работа [411,1 K], добавлен 27.04.2013

  • Распознавание текста на изображениях как очень важная задача, имеющая множество практических приложений. Особенности архитектуры интегрированной системы получения текстовой информации из изображений. Общая характеристика методов выделения текста.

    курсовая работа [1,7 M], добавлен 12.06.2016

  • Средства и технологии обработки текстовой информации: MS-DOS Editor, Word Pad, Блокнот, Microsoft Word. Двоичное кодирование текстовой информации в компьютере. Рассмотрение разновидностей кодовых таблиц для русских букв: Windows, MS-DOS, КОИ-8, Мас, ISO.

    курсовая работа [644,5 K], добавлен 27.04.2013

  • Обработка текстовой информации на компьютере. Знакомство с текстовым процессором Microsoft Word. Создание, форматирование текстовых документов, выполнение операций с фрагментами текста. Копирование, перемещение, удаление. Создание и редактирование таблиц.

    лабораторная работа [672,8 K], добавлен 19.12.2013

  • Особенности и параметры процесса защиты информации. Оценка полноты и достоверности информации. Методы восстановления пропусков в массивах данных с использованием регрессионного моделирования. Методы структурирования данных в условиях неопределенности.

    курсовая работа [89,1 K], добавлен 13.07.2011

  • Назначение, классификация и экономическая целесообразность использования устройств ввода текстовой и графической информации. Обзор и сравнительный анализ программ распознавания образов Acrobat Reader и ASDee. Охрана труда при работе на компьютере.

    дипломная работа [4,3 M], добавлен 23.07.2010

  • Программы работы с текстами: MS-DOS Editor, Word Pad, блокнот, word, текстовый процессор. Редакторы для обработки документов. Стили форматирования. Двоичное кодирование текстовой информации в компьютере. Операции технологического процесса ее обработки.

    курсовая работа [324,0 K], добавлен 25.04.2013

  • Программный способ восстановления данных без физического вмешательства в устройство накопителя, а также в функционирование микропрограммы и структуру модулей служебной информации. Восстановление структуры файловой системы или ее удаленных данных.

    презентация [67,5 K], добавлен 20.11.2016

  • Анализ некоторых причин повреждения баз данных. Основные возможности восстановления баз данных на примере SQL Server 2005. Специфика этапа подготовки к восстановлению и его проведение. Общая характеристика специальных ситуаций восстановления информации.

    курсовая работа [40,3 K], добавлен 11.11.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.