Стохастика. Перспективная информационная технология

Рассмотрение стохастической информационной технологии – одного из наиболее перспективных направлений развития компьютерных систем. Эффективная обработка в среде современных компьютеров (в основе которых машина Тьюринга) сложных символьных конструкций.

Рубрика Программирование, компьютеры и кибернетика
Вид книга
Язык русский
Дата добавления 25.10.2018
Размер файла 1,4 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

12. Насыпный В.В. Стохастика как основа для перехода к большим данным, индустрии знаний и нанотехнологии. - М.: МПГУ, 2011. - 24 с.

6. Распознавание речи и видеоинформации

Речь

В настоящее время активно проводятся исследования по созданию системы и технологий распознавания речи, которые могли бы эффективно преобразовывать вводимую в компьютер слитную речь от неизвестного диктора в корректное текстовое сообщение с гарантированным уровнем достоверности в реальном масштабе времени. При этом важнейшим требованием является реализация этих процессов в условиях шумового воздействия на канал связи, естественной вариативности темпа и громкости речи, а также амплитудно-частотных искажений в канале ее приема-передачи и т.п. Необходимо также обеспечить достоверность распознавания речи при наличии у неизвестного диктора иностранного акцента, местного диалекта, индивидуальных особенностей речеобразования.

Выполненный анализ существующих систем и технологий обоснованно показывает невозможность использования для достоверного распознавания речи современных статистических методов и прежде всего скрытых марковских моделей в условиях нормализации сигнала и реализации функций помехозащищенности.

Особенно важной является разработка систем, предназначенных для выделения в потоке слитной речи определенного состава слов и словосочетаний по заданной тематике в условиях шума. Этот состав ключевых слов может являться перечнем команд административного или производственного управления. После перевода в текстовое сообщение ключевые элементы обрабатываются в компьютерах в автоматическом или автоматизированном режиме. Очевидно, что к таким системам предъявляются высокие требования по достоверности распознавания речи в шумах.

Однако применяемые в существующих системах методологии и технологии распознавания речи не дают ощутимых результатов, достаточных для создания систем государственного назначения или коммерческого применения.

Поэтому, на наш взгляд, для решения этой сложнейшей научно-технической проблемы нужны принципиально новые подходы и технологии. Они должны быть направлены, прежде всего, на моделирование тех процессов, которые осуществляет человек при речевом общении в условиях шумовых воздействий.

Основным выводом из анализа современного состояния рассматриваемой проблемы, на наш взгляд, является то, что ее невозможно решить автономно и без выполнения функций нормализации сигнала. Эта проблема может быть успешно решена только в едином комплексе распознавания, нормализации, понимания смысла и синтеза речи с использованием нового поколения самообучающихся интеллектуальных систем извлечения знаний из текстовой информации и речевых образов. Отметим, что создание эффективных интеллектуальных систем с применением традиционной информационной технологии является в настоящее время практически неразрешимой задачей из-за «комбинаторного взрыва», который возникает вследствие переборного механизма логического вывода [1].

В основу эффективных интеллектуальных систем, отвечающих необходимым требованиям, могут быть положены способы и технологии, описанные в работах [2, 3, 4, 6, 9]. В этих работах показано, что создание отмеченных интеллектуальных систем, обеспечивающих возможность логической обработки больших объемов знаний текста и речевых образов в реальном времени и их нормализация, возможны на базе применения отечественной стохастической информационной технологии. Использование [2] данной технологии позволяет исключить «комбинаторный взрыв» при реализации индуктивного логического вывода на значительных пространствах символьной информации и обеспечить линейную зависимость времени логической обработки от числа элементов знаний, задействованных в логическом выводе. Это свойство в сочетании с механизмами самообучения позволяет автоматически создавать и эффективно использовать в процессе распознавания речи, понимания ее смысла и синтеза речевых сообщений большие базы знаний, которые на новом качественном уровне решают указанные сложнейшие проблемы.

Кроме этого, как показано в работах [2, 9], стохастическая информационная технология в силу своих свойств обеспечивает высокую эффективность распознавания речи в шумах и при вредоносном информационном воздействии на систему (атаки хакеров, компьютерные вирусы и закладки). Это позволяет создавать принципиально новые помехоустойчивые интеллектуальные системы распознавания речи.

Во главу угла при создании методов распознавания речи положено использование многоуровневых интеллектуальных систем. Они обеспечивают эффективную акустическую и артикуляционную классификацию вводимой речевой информации, выделение в ней различных типов звуков и слогов, определение границ слов, а также вычленение предложений из непрерывной речевой информации при шумовом воздействии.

В соответствии с предложенным образно-семантическим методом[6] в процессе распознавания речи создается система опорных и классификационных семантических кодов, которые взаимооднозначно определяют звуковые образы независимо от диктора. Эти коды синтезируются также и для ключевых слов, что позволяет выделять их в потоке слитной речи с заданной достоверностью.

Многоуровневые интеллектуальные системы обработки информации (снизу вверх) с аппаратом логического вывода на основе баз знаний позволяют описывать и извлекать соответствующие фонетические и текстовые структуры из речевых сигналов, используя при этом фонетический, лексический, морфологический, синтаксический, семантический и прагматический виды анализа.

Одновременно с этим (сверху вниз) проводится синтез звуковых сигналов и речевых сообщений, которые непосредственно связаны с текстовыми вариантами распознавания акустического сигнала. Для этого производится генерация речевых образов, базирующихся на текстовых сообщениях, которые близки по смыслу полученным вариантам текстовых структур при анализе речи снизу вверх.

Далее осуществляется коррекция синтезированных речевых сигналов для их максимального совпадения с полученным входным речевым сообщением. Здесь применяется программно-визуальная анимационная модель речевого тракта, которая обладает способностью адаптироваться к анатомическим особенностям органов речеобразования любого из дикторов.

Данная модель является одним из основных элементов системы синтеза речи. Она базируется на разработанном в [10] методе семантической связи текста с трехмерной графикой. Указанная модель, также используя соответствующие базы знаний и логический вывод, визуализирует артикуляционный процесс в тракте речеобразования с синхронной генерацией необходимого звукового образа. При этом реализуется основная функция коррекции трехмерного изображения типового речевого тракта с целью его адаптации под особенности речевых органов и артикуляционных параметров каждого конкретного диктора.

Здесь получило воплощение одно из важных положений науки о распознавании речи - теория внутренней модели, которая объединяет процессы речеобразования и восприятия речи. Внутренняя модель, формируемая в сознании человека, может использоваться при распознавании речи других людей, дополняя пространство акустических признаков пространством артикуляторных параметров [11, 12].

Для выполнения встречного процесса анализа с использованием сближающихся по смыслу текстов и выделенных параметров речевых сигналов, которые получены при анализе и синтезе речи, самообучающаяся интеллектуальная система осуществляет глубокий семантический анализ результата обработки и синтеза речевых сообщений. С этой целью автоматически формируется и применяется «картина мира», содержащая словосочетания и предикаты по различным предметным областям с указанием их семантических классов. В результате удается резко повысить эффективность встречного, основанного на анализе и синтезе, процесса распознавания и понимания речи и обеспечить высокую достоверность распознавания текстов, соответствующих непрерывному речевому сигналу [14].

Подчеркнем, что при этом существенную роль играют стохастические коды, корректирующие ошибки [2], которые используются также для обработки речевых сигналов путем дополнительной адаптации синтезируемого сигнала под звуковые образы речевой информации, поступающей от данного диктора.

Таким образом, основой указанной концепции создания единого контура распознавания, нормализации, понимания смысла и синтеза речевых сообщений является стохастическая информационная технология. Именно за счет этой новой отечественной технологии достигается принципиально новая возможность интеллектуальной обработки речевых образов, их эффективное распознавание и коррекция с использованием встречного процесса акустического анализа и синтеза речи на основе непрерывно формируемого и уточняемого смыслового содержания поступающих в систему речевых сообщений и выделения ключевых элементов по заданной тематике.

Комплексное распознавание речи и видеоинформации

Как показано в работе [14], применение разработанных методов и технологий образно-семантической и семантико-параметрической обработки информации позволяет комплексно решать проблему распознавания речи и видеоинформации. При этом, как будет показано ниже, на уровне фонетического анализа речи возможно применение уже существующих систем распознавания образов для реализации некоторых функций распознавания речи. В данном разделе рассмотрена возможность использования нейросети Numenta не только для распознавания образов в соответствии с ее предназначением, но и для реализации некоторых функций распознавания звуковых образов в слитной речи. Для этого была использована схема построения комплекса распознавания речи, представленная на Рис.1. Эта схема позволяет реализовывать два контура распознавания речи на уровне ее фонетического анализа. Первый контур предназначен для интеллектуального сканирования звуковых образов слитной речи от неизвестного диктора, представленного в виде осциллограммы и спектрограммы сигнала. Интеллектуальное сканирование основано на использовании семантико-параметрического метода распознавания речи и позволяет с помощью баз знаний, содержащих артикуляционное и акустическое описание звуковых образов, а также, используя логический вывод, проводить многоуровневую классификацию звуков, от семантики опорных кодов до распознавания фонем и собственно наименований звуков. С этой целью создан специальный классификационный словарь русского языка объемом около миллиона слов. В результате работы этого контура распознавания речи обеспечивается заданная достоверность выделения наименований звуков, слогов и отдельных слов в потоке слитной речи. С целью повышения достоверности распознавания речи до уровня практически 100% для любого произвольного диктора вводится второй контур, основанный на реализации образно-семантического распознавания речи с использованием системы распознавания образов, в данном случае нейросети Numenta.

На Рис.1 представлена структурная схема, позволяющая реализовать на фонетическом уровне два описанных контура анализа. Она включает несколько систем.

Первая из этих систем, подобная существующей Adobe Audition, предназначена для начальной обработки речевого сигнала в спектральной форме или в виде осциллограммы, в частности, для измерения различных параметров звуковых образов. К ним относятся прежде всего линейные размеры абрисов звуковых сигналов и их последовательностей, частотные и временные характеристики формант звуков, артикуляционных расстояний между звуками, форма огибающей осциллограмм и спектральной составляющей сигнала, взаимное расположение формант (компактное и диффузное) и другие параметры, которые необходимы для логической обработки речевых сигналов. Отметим, что именно в ходе логической обработки формируются первичные семантические образы звуковых сигналов, которые предварительно позволяют определить значение звуков и слов, входящих в слитную речь.

Рис. 1. Структура автоматического программного макета распознавания речи

Вторая система, подобная существующей Paint, предназначена для формирования и обработки рисунков, содержащих абрисы звуковых образов в спектрограмме или осциллограмме, а также их семантически важных фрагментов. Третья система, используемая в макете, - это система, подобная нейросети Numenta. В данном макете ее механизмы распознавания образов используются для получения семантических кодов звуков при их артикуляционном или акустическом анализе, а также при распознавании отдельных элементов звуков и их классов. Отметим, что нейросеть Numenta построена на основе наиболее перспективной технологии распознавания образов, использующей иерархическую темпоральную память (HTM).

Результаты обработки речевой информации поступают в систему логического вывода. Здесь в автоматическом режиме полученная информация применяется для реализации двух описанных контуров распознавания речи от неизвестного диктора.

Отметим, что лингвистическая и семантическая обработка полученной на данном этапе текстовой информации в ходе распознавания речи будет реализована на втором этапе создания опытного образца распознавания слитной речи от неизвестного диктора [14]. В результате описанного алгоритма обработки на фонетическом уровне, как было указано выше, достигается высокая (около 100%) достоверность распознавания речи. Совместно с этим могут быть эффективно использованы возможности системы Numenta для комплексного распознавания слитной речи от неизвестного диктора одновременно с распознаванием образа говорящего человека. Это продемонстрировано на Рис. 2.

Рис. 2. Распознавание изображений лиц с помощью системы Numenta

Введенное изображение лица контролируемого пользователя уверенно распознается системой Numenta, о чем свидетельствует присвоение его распознанному образу Category 1 с наивысшим уровнем достоверности.

Далее показано использование системы Numenta для моделирования контроля произносимой речи данным диктором на основе образно-семантического метода. В ходе данного моделирования была подтверждена возможность применения системы Numenta для распознавания речи, включающей всю шкалы семантических кодов. Эти коды представлены в классификационном словаре, который подробно описан в работе [14]. В результате было показано, что система Numenta позволяет уверенно распознавать все восемь уровней кодирования звуков слитной речи, реализуя при этом предложенный в работе [14] образно-семантический метод. Отметим, что до этого функционировал первый контур распознавания речи, который осуществлял процесс семантико-параметрического распознавания речи на основе интеллектуального сканирования звуковых образов. Поэтому при работе системы Numenta использовалась информация о значении предварительно распознанных кодов и звуков. В этом заключается совместное функционирование двух контуров распознавания речи - семантико-параметрического и образно-семантического.

Ниже представлен пример функционирования системы Numenta на восьмом уровне распознавания речи, а именно, при определении значений отдельных фонем и наименований звуков. С этой целью выбран класс гласных твердых звуков (А, О, И, У, Э, Ы), каждый из которых приведен в оригинальном физиономическом представлении, включающем наиболее характерные для данного звука элементы спектрограммы и осциллограммы. В результате формируется устойчивый, уникальный образ каждого звука, независящий от артикуляционных и акустических особенностей произвольного диктора. Это достигается за счет обобщения отдельных элементов, включая артикуляционные особенности произнесения звуков, в единое, что удачно сочетается с технологией HTM, используемой в Numenta.

Таким образом, показано распознавание гласных звуков от неизвестного диктора (Рис. 3-8) и результаты распознавания их в системе Numenta (Рис. 9-14).

На основании сказанного можно сделать вывод, что система (Рис.1) позволит в ближайшем будущем комплексно решить проблему распознавания слитной речи от неизвестного диктора и изображений этих дикторов в рамках единой системы контроля с помощью веб-камер.

В перспективе, как описано в работе [14], будет обеспечен автоматический контроль с распознаванием видеоинформации, слитной речи от неизвестного диктора с пониманием смысла произносимых фраз и действий контролируемых субъектов и объектов.

стохастический информационный компьютерный символьный

Рис. 3. Физиономический образ звука А.

Рис. 4. Физиономический образ звука О.

Рис. 5. Физиономический образ звука И.

Рис. 6. Физиономический образ звука У.

Рис. 7. Физиономический образ звука Э.

Рис. 8. Физиономический образ звука Ы.

Рис. 9. Распознавание звука А.

Рис. 10. Распознавание звука О.

Рис. 11. Распознавание звука И.

Рис. 12. Распознавание звука У.

Рис. 13. Распознавание звука Э.

Рис. 14. Распознавание звука Ы.

Литература

1. Потапов А.С. Распознавание образов и машинное восприятие. Спб.: Политехника, 2007. - 548с.

2. Насыпный В.В. Развити е теории построения открытых систем на основе информационной технологии искусственного интеллекта. М.: Воениздат, 1994. - 248с.

3. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем. Патент РФ №2273879, номер международной заявки РСT/RU02/00258, дата подачи 28 мая 2002.

4. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся аналитической вопросно-ответной системы с извлечением знаний из текстов, заявка на патент №2007120344/09 от 06.08.2007. Получено решение на выдачу патента на изобретение от 21.07.2008.

5. Современный русский язык: Учеб.дляфилол. спец. высших учебных заведений. Под редакцией В.А. Белошапковой. М.: Азбуковник, 1999. - 928с.

6. Насыпный В.В., Насыпная Г.А. Система распознавания, понимания смысла, анимационного моделирования и синтеза речи на основе стохастической информационной технологии. М.: Прометей, 2008. - 76 с.

7. Искусственный интеллект. Справочник. Кн. 2. Модели и методы. Под ред. Поспелова Д.А. М.: Радио и связь, 1990. - 303 с

8.Насыпный В.В. Сохастика как основа для перехода к большим данным, индустрии знаний и нанотехнологии. - М.: МПГУ. 2011. - 24 с.

9. Насыпный В.В. Способ комплексной защиты распределенной обработки информации в компьютерных системах и система для осуществления способа. Патент РФ №2259639, номер международной заявки РСT/RU /00272, дата подачи 28.10.2003г.

10. Насыпный В.В., Насыпная Г.А. Метод семантической связи текста с трехмерной графикой. - М.: Прометей, 2007. - 27с.

11. Галунов В.И., Чистович Л.А. О связи моторной теории с общей проблемой распознавания речи. Акустический ж., т. 11, с.417-426.

12. Сорокин В.И. Моторная теория восприятия речи и теория внутренней модели // В сб.: Информационные процессы, ИПИ РАН. Том 7. 2007, №1, с.1-12.

13. Halsall F. Data communications computer networks and osi. Addison-wesley publishing company, 1988. - 973 c.

14. Насыпный В.В. Распознавание и понимание смысла речи на основе стохастики в шумах. М.: Прометей, 2010. - 139 с.

7. Аналитика и поиск

Концептуальные основы построения самообучающихся аналитических систем с извлечением знаний из текстов по различным

тематическим областям

Для реализации описанного в предыдущем разделе процесса распознавания, понимания и синтеза речи предложен программный комплекс интеллектуальных систем. Этот комплекс включает самообучающуюся аналитическую систему с извлечением знаний из текстов, а также интеллектуальные системы анализа и синтеза речи. В данном разделе рассмотрим концептуальные основы построения самообучающейся аналитической системы, которая предназначена, прежде всего, для семантического анализа с целью определения смысла распознаваемой слитной речи от неизвестных дикторов.

Отметим, что без понимания смысла речи, как было показано выше, невозможно достоверное распознавание речевого сигнала. При этом система должна обеспечивать семантический анализ отдельных лексических единиц, а также словосочетаний, предикатов, предложений и абзацев текста. Это обеспечивает смысловое сопровождение процесса распознавания речи и выделения ключевых слов в рамках определенной тематики описываемых событий или действий, выраженных в смысловом контексте формируемого текстового представления речи. Для этого требуется эффективная интеллектуальная обработка с использованием больших объемов знаний и реализации логического вывода в реальном масштабе времени при шумовом воздействии. Отметим, что современные интеллектуальные системы не обеспечивают решения указанных задач ввиду эффекта «комбинаторного взрыва». Как показано в работе [2], эта задача успешно решается на основе стохастической информационной технологии.

В данном разделе описан порядок построения и применения самообучающихся интеллектуальных аналитических систем с извлечением знаний из текстов для понимания смысла речи. Эти изделия подробно описаны в [3, 4].

Как было отмечено выше, указанные системы создаются на основе стохастической информационной технологии, разработанной в России. Цель - построение на базе современного компьютера (машины Тьюринга) нового виртуального компьютера для эффективной лингвистической, семантической и логической обработки текстов.

Выбор тематики аналитических систем определяется содержанием неструктурированной текстовой информации, полученной в ходе смыслового анализа распознаваемого речевого сигнала. При этом аналитические функции, реализуемые в системе, которые связаны с индуктивным и дедуктивным логическим выводом, аналогией, обобщением, сравнением и др., широко применяются в ходе семантического анализа распознаваемого текста. Отметим, что при самообучении системы происходит формирование «картины мира» и системы семантической классификации понятий, словосочетаний и предикатов, входящих в состав «картины мира», без которых не возможен полноценный семантический анализ текстов.

Отметим, что данная система обеспечивает возможность извлечения знаний из речевых образов, при этом описание параметров и характеристик речевых сигналов, как было показано выше, автоматически переводится в текстовый вид и представляется в виде соответствующих предикатов и словосочетаний. Указанные предикаты и словосочетания содержат необходимые классификационные параметры различных звуков, а также описание дополнительных характеристик.

Первым уровнем обработки после выделения лексемы из слитной речи является его морфологический анализ. На втором уровне проводится синтаксический анализ, который реализуется с помощью специальной базы знаний, представленной в виде правил продукций, обеспечивающие синтаксический разбор простых и сложных предложений текста. При этом в лингвистический индекс каждого слова заносятся соответствующие синтаксические коды, определяющие данное слово как член предложения.

Семантический анализ текста проводится параллельно с синтаксическим и начинается с автоматически выполняемой классификации общего словаря и специальных толковых словарей терминов и определений по заданным предметным областям, которые связаны с тематикой данной аналитической системы.

При классификации активно используются аналитические функции индуктивного и дедуктивного анализа и синтеза связи слов, обрабатываемых в толковых словарях. В результате образуются семантические классификаторы, представленные в виде таблиц. Входом в таблицы являются стохастические индексы основ слов, строки таблицы содержат иерархию подклассов каждого слова и конечный класс, к которому данное слово принадлежит. Поскольку классификатор сделан для всех частей речи словарей, он позволяет определять типы, а также подклассы и классы объектов и связей между ними.

С помощью классификатора формируются правила продукций семантического анализа текста, которые записываются в специальную базу знаний. После проведения пословного семантического анализа лингвистический индекс каждого слова дополняется его семантическими характеристиками. В результате этого завершается процедура лингвистического анализа текста, после которого каждое слово каждого предложения будет представлено двумя стохастическими индексами: уникальным стохастическим индексом - идентификатором и лингвистическим индексом данного слова, содержащего все его морфологические, синтаксические и семантические характеристики, необходимые для дальнейшей индексации и разбора.

После этого переходят к построению таблицы индексов данного текста в составе локальных, корпоративных баз данных или сайтов Интернет. Левый столбец таблицы содержит индексы неповторяющихся основ слов, входящих в текстовые документы по данной тематике, а строки содержат лингвистический индекс и адресную часть в виде совокупности индексов названия текстовых документов, индекса абзаца, предложения и предиката, в котором содержится данный индекс слова. Таблицы индексов текста используются при первичном поиске ответов или необходимых предложений текста с применением ключевых слов. Поиск по ключевым словам является основой для реализации второго уровня поиска с использованием семантики, извлечения знаний из текстов и аналитики.

Затем переходят к формированию концептуального описания предметной области текстов на основе выделенных в стохастической форме предикатов. Концептуальное описание представляется также в виде таблицы. Левый столбец содержит стохастические индексы всех неповторяющихся словосочетаний и предикатов индексируемого текста, строки включают индексы типов объектов и отношений между ними, а также (с использованием классификаторов) соответствующие им классы. Кроме этого, в состав таблицы также входит адресная часть, включающая индексы текста, абзаца и предложения, куда входят предикаты, которые содержат указанные классы объектов и отношений между ними. Это позволяет, используя классификатор и концептуальное описание предметной области, производить более точный повторный поиск необходимой информации после выполнения поиска по ключевым словам с тем, чтобы более полно и точно находить необходимые ответы или предложения, используя близкие по смыслу слова, словосочетания и предикаты, активно применяя семантический анализ текста.

На основе сформированного концептуального описания предметной области текста, а также используя формализованное описание функций определения, обобщения, сравнения, выбора, аналогии, дедукции и индукции, анализа и синтеза автоматически формируются правила продукций, содержащие необходимые типы и классы логически связанных предикатов предметной области текста. На основе этих функций могут формироваться деревья логического вывода, содержащие необходимые комбинации исходных логических функций, которые требуются пользователю системы для получения результата аналитического анализа с целью формирования обобщенных семантических характеристик словосочетаний, предикатов и сформированных из них предложений текста. Отметим, что текст, формируемый после распознавания вводимых речевых сигналов, может также использоваться для эволюционного развития описания предметной области - «картины мира». При этом для повышения эффективности распознавания речи введение аналитического поиска существенно увеличивает полноту поиска и обработки информации исходных текстовых файлов или сайтов. Это обусловлено тем, что непосредственно к декларативной составляющей текстовых баз добавляются новые знания, извлекаемые из текста с помощью базовых аналитических функций и их заданных комбинаций. За счет комбинаций базовых функций исходная аналитическая система может автоматически настраиваться на заданную предметную область и эффективно использоваться в той области, к которой относится вводимая речевая информация: например, управление, социальное обеспечение, финансирование, образование, культура, спорт и другие.

Для извлечения знаний из больших объемов неструктурированных текстов различных типов (диссертации, монографии, учебно-методическая, справочно-энциклопедическая литература и др.), которые связаны с проблемой распознавания речи с использованием описанного выше многоуровневого анализа речевых и текстовых сообщений аналитическая система может работать в автоматическом вопросно-ответном режиме. Здесь могут применяться разные варианты работы, например, осуществление точного семантического поиска, если информация непосредственно содержится в тексте и может быть выдана по запросу.

В более сложных случаях автоматически реализуются аналитические функции, которые после предварительной обработки информации с использованием процедур логического вывода, эквивалентных преобразований дают ответы на поставленные вопросы. Доказано, что если в системе может быть синтезирован алгоритм, который выдает ответ на поставленный вопрос с применением индексированной текстовой базы, то может быть создан аналитический алгоритм с использованием комбинаций разных функций, который обеспечит представление пользователю заданной информации.

В результате повышается эффективность формирования «картины мира» и обеспечивается полнота представленных понятий и связей между ними. На основе полученных предикатов, входящих в «картину мира», автоматически формируются правила продукций по различным проблемным областям, в том числе и по проблеме распознавания речи. В этом случае между предикатами семантической сети, которые отображают «картину мира», выделяются семантические связи типа «условие-заключение», «причины-следствия», цели, определения и другие.

Как известно, правила продукций представляют собой символьную конструкцию вида «если (условие), то (заключение)». При этом условия содержат совокупность предикатов, объединенных логическими связками «и», а заключение содержит предикат, который выполняется, если все предикаты, входящие в условие, являются истинными для какой-то конкретной ситуации, соответствующей исследуемым объектам или процессам в определенной области знаний, например, при распознавании речи. Все полученные правила автоматически проверяются на их смысловую корректность. После стохастической индексации записываются в базы знаний. Таким образом, производится наполнение всех отмеченных баз знаний, используемых в комплексном процессе понимания текста.

Представление словосочетаний, предикатов «картины мира» и правил продукций в стохастически индексированном виде дает возможность использовать эффективные алгоритмы логического вывода, а также (с помощью стохастической информационной технологии) исключить проблему «комбинаторного взрыва». Без решения этой проблемы построение описанной выше системы распознавания с использованием многоуровневого анализа, понимания смысла и синтеза речи в принципе невозможно. Кроме этого стохастическая информационная технология, позволяет эффективно реализовывать функции помехозащищенности и нормализации речи [6].

Литература

1. Потапов А.С. Распознавание образов и машинное восприятие. Спб.: Политехника, 2007. - 548с.

2. Насыпный В.В. Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта. М.: Воениздат, 1994. - 248с

3. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем. Патент РФ №2273879, номер международной заявки РСT/RU02/00258, дата подачи 28 мая 2002.

4. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся аналитической вопросно-ответной системы с извлечением знаний из текстов, заявка на патент №2007120344/09 от 06.08.2007. Получено решение на выдачу патента на изобретение от 21.07.2008.

5. Современный русский язык: Учеб.для филол. спец. высших учебных заведений. Под редакцией В.А. Белошапковой. М.: Азбуковник, 1999. - 928с.

6. Насыпный В.В., Насыпная Г.А. Система распознавания, понимания смысла, анимационного моделирования и синтеза речи на основе стохастической информационной технологии. М.: Прометей, 2008. - 76 с.

7. Искусственный интеллект. Справочник. Кн. 2. Модели и методы. Под ред. Поспелова Д.А. М.: Радио и связь, 1990. - 303 с.

8. Halsall F. Data communications computer networks and osi.Addison-wesley publishing company, 1988. - 973 c.

9. Насыпный В.В. Способ комплексной защиты распределенной обработки информации в компьютерных системах и система для осуществления способа. Патент РФ №2259639, номер международной заявки РСT/RU /00272, дата подачи 28.10.2003г.

10. Насыпный В.В., Насыпная Г.А. Метод семантической связи текста с трехмерной графикой. - М.: Прометей, 2007. - 27с.

11. Галунов В.И., Чистович Л.А. О связи моторной теории с общей проблемой распознавания речи. Акустический ж., т. 11, с.417-426.

12. Сорокин В.И. Моторная теория восприятия речи и теория внутренней модели // В сб.: Информационные процессы, ИПИ РАН. Том 7. 2007, №1, с.1-12

13.Марков А.А. Об одном применении статистического метода // Известия АН, 1916, сер.6, X, №4, с.239-

14. Elinek F. Распознавание непрерывной речи статистическими методами // ТИИЭР 64, 1976, №4, с.131-160.

15. Elinek F. Разработка экспериментального устройства, распознающего раздельно произнесенные слова // ТИИЭР 73, 1985, №11, с.91-99.

16. Галунов В.И. Помехоустойчивость как системообразующий фактор речи // Проблемы и методы экспериментально-фонетических исследований, 2002, с.205-300.

17. Галунов В.И. Речь как система // Труды XIII сессии РАО, 2003, т.3, с.19-21.

18. Kraft D. Speechperception // J. Phonetics, 1979, 7, p.279-312.

19. Галунов В.И., Соловьев А.Н. Современные проблемы в области распознавания речи

20. Liedtke C.-E., Buckner J., Grau O. et al. AIDA: A system for the knowledge based interpretation of remote sensing data // 3d Airborne Remote Sensing Conference and Exhibition. - 1997. - Vol.2. - P. 313-320.

21. Бабин Д.Н., Холоденко А.Б. Использование лексических анализаторов в распозновании образов // Труды международного семинара диалог - 99, Таруса, 1999.

8. Защита

Защищенные стохастические системы

Возможно ли уже сегодня создать компьютерную систему с комплексной защитой от программных закладок, вирусов, действий хакеров и обеспечить информационную безопасность локальных, региональных систем и всей Internet в целом? Как превратить Сеть с ее огромным объемом хаотично циркулирующей информации в глобальную инфраструктуру обработки знаний и их доставки по запросам, сформулированным на естественном языке в виде текста или речи? Допустимо ли решение перечисленных задач в комплексе и при этом на базе единой технологии? Применение оригинальной стохастической технологии для защиты современных компьютеров от всех видов киберинфекции позволяет надеяться, что можно дать положительные ответы на эти вопросы.

Предлагаемая методика основана на введении стохастичности в вычислительный процесс с использованием одноразовых систем шифрования программ и данных при их обработке, хранении и передаче. В основу положена идея адаптации процесса обработки символьной информации к вычислительной среде компьютера [1]. Данный процесс обеспечивается путем стохастического преобразования и кодирования символьных выражений и конструкций. В результате указанные элементы преобразуются в уникальные стохастические индексы -- двоичные комбинации заданной длины. Преобразование символьных выражений и конструкций позволяет оптимизировать обработку знаний, данных и текстовой информации путем использования для их представления стохастически индексированных форматов фреймов и реляционных таблиц.

Быстрое построение траектории логического вывода производится за счет непосредственного использования стохастических индексов и кодов с целью произвольного доступа и обработки семантически связанной информации. В новых интеллектуальных системах, построенных на основе стохастических методов, осуществляется реализация логического вывода на значительных объемах данных, знаний и текстовых документов [1]. При этом обеспечивается линейная зависимость времени логического вывода от объема обрабатываемых данных и знаний. Тем самым решается давняя проблема «комбинаторного взрыва» при логическом выводе на больших объемах информации, которая до сих пор сдерживала развитие интеллектуальных систем, в том числе и поисковых, обеспечивающих извлечение знаний из текстовых документов.

Одновременно указанные преобразования реализуют функцию шифрования исходной символьной информации. Применяются стохастические табличные системы скоростного кодирования, формирования одноразовых секретных и открытых ключей [2]. В результате обеспечивается стохастичность всего вычислительного процесса за счет случайного преобразования полученных таблиц, индексов и кодов после каждого цикла обработки. Семантическое же значение зашифрованных программ, данных и знаний сохраняется на основе принципиально нового метода формирования открытых ключей с использованием аппарата искусственного интеллекта. Для восстановления исходного значения зашифрованной информации в любой заданный момент времени ключ расшифрования вычисляется путем логического вывода на множестве применяемых ключей. Это позволяет избежать необходимости хранения всего множества используемых ключей, а держать в системе лишь начальный ключ и текущий результат логического вывода. Таким образом, обеспечивается гарантированная возможность расшифровки информации, зашифрованной в любое предшествующее время, начиная от первого пуска системы [3].

Выполнение программ, обработка знаний и данных может производиться в зашифрованном виде на основе единого метода логического вывода. Возможности быстрого логического вывода используются и для функций контроля корректности программ путем их верификации. Разработанные методы верификации, основанные на аппарате искусственного интеллекта и стохастического преобразования, обеспечивают гарантированное обнаружение любых программных закладок и вирусов [4]. При этом обеспечивается защита от вновь созданной киберинфекции, включая саморасшифровывающиеся полиморфные вирусы.

Типовая обработка программ и данных заменяется обработкой случайных зашифрованных индексов и кодов, значение которых постоянно обновляется за счет использования одноразовой системы шифрования на основе нового метода формирования открытых и секретных ключей [2, 3]. После выполнения указанного преобразования компьютерные системы приобретают совершенно новые качества. Одно из них заключается в том, что программы и данные обрабатываются, хранятся и передаются только в зашифрованном виде. Как следствие этого, внедряемые программные закладки и вирусы не могут найти точку входа в программу и воздействовать на нее.

Для повышения стойкости выполняемых программ система комплексной защиты информации реализует два уровня -- логический, на основе стохастического преобразования управляющей структуры программы, а также физический, реализуемый за счет стохастического кодирования машинных команд. В ходе обработки обеспечивается контроль корректности каждой логической траектории выполнения программы. При этом осуществляется гарантированная, с заданной вероятностью ошибки способность обнаружения попыток искажения информации и коррекции программных средств и данных [4].

В рамках технологии стохастических кодов впервые решена важнейшая для современных компьютерных систем задача обеспечения обработки числовой информации в защищенном виде при выполнении арифметических вычислений. Решение этой проблемы достигается путем стохастического преобразования и стохастического индексирования информации и сведения арифметических действий к логическим операциям с символьной информацией с использованием стохастически изменяемых таблиц [3]. При применении стохастической информационной технологии обеспечивается высокая степень защищенности программ и данных в случае попытки несанкционированного доступа к их содержанию. Она определяется необходимым числом переборов на множестве случайных кодов команд и данных. Так как в процессе функционирования коды программ и данных динамически изменяются, то оценки числа переборов верны для случая анализа «мгновенного среза процесса», т.е. состояния приостановки выполнения стохастически преобразованной программы.

В ходе выполнения программ с использованием данных в зашифрованном виде обеспечивается определенный порядок их взаимодействия. Операционная система, функционирующая в защищенном виде, управляет исполнением зашифрованной прикладной программы, производящей обработку криптографически защищенных данных. Последующая реализация новой стохастической информационной технологии связана с ее внедрением в компьютерные системы на более глубинных уровнях. Речь идет об использовании новых технологий при создании операционных систем, а также об аппаратном воплощении (создание специальных процессоров). Здесь образуется единый технически замкнутый контур шифрования информации при ее обработке, хранении и передаче. Это обеспечит существенное повышение защищенности программ и данных на физическом уровне (коды команд и данных). В результате формируется защищенная программно-аппаратная среда, включающая модернизированные аппаратные средства, обеспечивающие необходимое преобразование и шифрование информации, а также криптографически защищенные операционную систему, прикладные программы, базы данных и знаний. При этом выполнение программ и обработка информации в зашифрованном виде сопровождаются функциями контроля и поддержания их корректности и целостности.

На основе указанных идей разработана новая технология [2, 3], позволяющая: создавать защищенные процессоры; разрабатывать высокоскоростные кодеры/декодеры, производительность которых сопоставима с производительностью типового процессора компьютера; создавать систему формирования и передачи открытых и закрытых ключей, блоков получения электронно-цифровой подписи и хэш-функции; строить защищенные арифметические процессоры для обработки в зашифрованном виде чисел повышенной разрядности; создавать устройства стохастического перекодирования («перекодеры»), позволяющие перешифровывать программы и данные, используя различные ключи без раскодирования информации; формировать защищенные программно-аппаратные интерфейсы на базе перекодеров, обеспечивающих взаимодействие программ и данных в защищенном виде.

Все это позволяет реализовать в компьютерной системе полностью закрытый контур обработки программ и данных в защищенном виде. Данный контур реализуется на уровне кодов машинных команд с использованием как типовых, так и вновь созданных устройств обработки и защиты информации. Создание контура защиты прозрачно для системы в целом и не изменяет ни ее концепции, ни функций администрирования, ни управления вычислительным процессом, ни протоколов взаимодействия программ и данных. Описанная стохастическая технология на базе одноразовых систем шифрования может быть реализована не только в рамках отдельных компьютеров, а и в вычислительных средствах и каналах открытых систем [2]. За счет этого возможно достижение гарантированной защищенности в любых современных компьютерных сетях, включая Internet.

Литература

1. Насыпный В.В. Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта. М.: Воениздат, 1994.

2. Насыпный В.В. Одноразовое шифрование с открытым распределением ключей. // Открытые системы. 2004, № 1.

3. Насыпный В.В. Способ комплексной защиты распределенной обработки информации в компьютерных системах и система для осуществления способа. Международная заявка на изобретение № РСТ/RU 01/00272 от 05.07.2001.

4. Насыпный В.В. Комплексная защита компьютерных систем. // Мир ПК, 1998, № 4.

9. Шифрование

Одноразовое шифрование с открытым распределением ключей

Одноразовую систему шифрования разработали еще в 1917 году Дж. Моборн и Г. Вернам [2]. Ее характерная особенность -- одноразовое использование ключевой последовательности. Такая система шифрует исходный открытый текст Х в шифротекст Y с использованием одноразовой случайной ключевой последовательности К. Для ее реализации иногда используют одноразовый блокнот, составленный из отрывных страниц; на каждой из них напечатана таблица со случайными числами (ключами) Ki. Блокнот выполняется в двух экземплярах: один используется отправителем, а другой -- получателем. Для каждого символа Хi сообщения имеется свой ключ Ki из таблицы получателя. После того, как таблица использована, ее необходимо удалить из блокнота и уничтожить. Шифрование нового сообщения начинается с новой страницы.

Обсолютная надежность одноразовой системы доказана Клодом Шенноном в его известной работе «Теория связи в секретных системах», отрывок из которой приведен в [3]. Одноразовые системы нераскрываемы, поскольку их шифротекст не содержит достаточной информации для восстановления открытого текста. Однако возможности использования одноразовых систем на практике ограничены. Ключевая последовательность длиной не менее длины сообщения должна передаваться получателю сообщения заранее или отдельно по некоторому секретному каналу, что практически неосуществимо в современных информационных системах, где требуется шифровать многие миллионы символов и обеспечивать засекреченную связь для множества абонентов. Эти недостатки устранены в способе синтеза одноразовых систем шифрования с открытым распространением ключа [5].

Рассмотрим процесс передачи информации по линии связи, соединяющей пользователей А и В. Предлагаемый способ построения одноразовой системы дает возможность передавать практически неограниченный объем информации с использованием случайной перестановки только одной таблицы ключей.

В качестве базового шифрующего элемента для системы с открытой передачей ключей разработан одноразовый многоалфавитный кодер (ОМК). Система содержит ОМК, датчик случайных чисел, схему формирования случайной перестановки на стороне А и многоалфавитный декодер на стороне В. ОМК реализует процесс стохастического кодирования [4].

В состав ОМК входит базовая таблица одноразовых ключей, регистр перестановки интерфейса, регистры случайной и псевдослучайной перестановок строк и столбцов базовой таблицы. Аналогичный состав имеет и многоалфавитный декодер. Регистры случайных и псевдослучайных перестановок строк и таблицы интерфейса декодера содержат комбинации, обратные по отношению к соответствующим перестановкам кодера.

Базовая таблица одноразовых ключей на стороне А и на стороне В имеет размер n x n. Каждая i-я строка таблицы содержит случайную ключевую комбинацию, в которую входят все возможные различные значения Кij длиной m бит. (Для таблицы кодов ASCII m = 8, n = 256, поэтому для шифрования текста используют таблицу размером 256 x 256.)

Кi = К i0, Кi1,..., К in-1 (i = 1,... n)

В результате работы датчика случайных чисел и схемы формирования случайной перестановки генерируется соответствующая перестановка. В полученной перестановке столбцы задают соответствие между входными значениями (верхняя строка) и выходными (нижняя строка).

Базовая таблица одноразовых ключей на стороне А выполняет две функции:

генерацию виртуальной переменной таблицы одноразовых ключей со случайной перестановкой столбцов и строк;

реализацию логического вывода, обеспечивающего преобразования секретной перестановки в несекретную, применяемую для открытой передачи ключа.

С этой целью каждый столбец базовой таблицы можно представить в виде вертикально расположенной перестановки. При этом регистр псевдослучайной перестановки, подключенный к данной таблице, в сочетании с предыдущей случайной перестановкой, которая передана на сторону В, обеспечивает выбор столбцов таблицы для формирования их одноразовых комбинаций. Названные комбинации столбцов применяются в процессе логического вывода. Всего может быть сформировано N = n! различных комбинаций столбцов. Логический вывод реализует однонаправленную функцию Y = F(x), которая позволяет на основе секретной перестановки, записанной в левый регистр базовой таблицы одноразовых ключей, получить несекретную перестановку, формируемую в выходном блоке ОМК. Здесь x -- значение секретной перестановки, F -- функциональные связи, формируемые в процессе логического вывода с использованием очередной комбинации столбцов-перестановок, Y -- относительная несекретная перестановка. Зная х и формируя функциональные связи F, легко получить Y. Однако по известному значению Y, не зная всей схемы функциональных связей базовой таблицы, нельзя восстановить исходную секретную перестановку. Для этого необходимо произвести полный перебор на множестве V = n! всех значений результирующих перестановок, получаемых в ходе логического вывода, -- своего рода эффект лабиринта, в центр которого помещают человека с завязанными глазами и, сняв повязку, предлагают путем случайного перебора всех возможных вариантов прохода найти выход.

Таким образом, одновременно с передачей и шифрованием информации на стороне пользователя А генерируется очередная случайная перестановка. Затем с помощью описанного алгоритма логического вывода формируется соответствующая ей несекретная перестановка. Она передается на сторону В в начале обмена информацией и после передачи по линии связи n блоков шифротекста длиной n символов каждый. На основе этой перестановки на стороне В с помощью базовой таблицы, идентичной базовой таблице А, выполняется процедура обратного логического вывода с целью получения соответствующей секретной перестановки. Эта процедура описывается выражением функция обратного логического вывода, реализуемого с помощью базовой таблицы стороны В. Сформированная секретная перестановка записывается в регистры случайных перестановок столбцов и строк многоалфавитного декодера. Путем использования указанных регистров в декодере происходит образование виртуальных таблиц одноразовых ключей в соответствии с полученной случайной перестановкой. В результате на сторонах А и В каждый раз будут одновременно сформированы новые случайные виртуальные таблицы одноразовых ключей, идентичных по содержанию. Эти таблицы применяются при передаче зашифрованной информации.

Рассмотрим этот процесс подробнее. Исходный текст поступает на вход регистра перестановки интерфейса ОМК, который обеспечивает перестановку таблицы кодов ASCII. Так осуществляется первый этап преобразования исходной информации. Затем преобразованный текст проходит через регистр случайной перестановки строк, которая в сочетании со случайной перестановкой столбцов реализует очередную виртуальную таблицу одноразового ключа. При этом применение случайных и псевдослучайных перестановок обеспечивает для каждой очередной комбинации исходного текста Хi = (Хi0, Хi1,..., Хi,n-1) (i = 1,... n) формирование уникальной одноразовой ключевой последовательности Кi = Кi0, Кi1,..., Кin-1 (i = 1,... n). Всего для данной виртуальной таблицы, определяемой очередной случайной перестановкой, может быть образовано n таких ключевых последовательностей. В результате произведенных перестановок и замен в многоалфавитном кодере символов каждой очередной последовательности Хi, а также циклических сдвигов столбцов таблицы, процесс шифрования аналогичен классической одноразовой системе. В декодере сначала реализуется процедура идентификации символов шифротекста путем включения соответствующих столбцов базовой таблицы, а затем производятся соответствующие циклические сдвиги столбцов и с помощью регистров перестановок строк выполняются обратные перестановки, обеспечивающие преобразование шифротекста в исходный текст.


Подобные документы

  • Простое вычислительное устройство машина Тьюринга и ее алгоритмические свойства. Тезис Черча–Тьюринга и моделирование машины Тьюринга (операции перезаписи ячеек, сравнения и перехода к другой соседней ячейке с учетом изменения состояния машины).

    контрольная работа [23,3 K], добавлен 24.04.2009

  • Этапы развития информационной системы и происходящие в ней процессы. Виды, инструментарий, составляющие информационных технологий. Производство информации для ее анализа человеком и принятия на его основе решения как цель информационной технологии.

    контрольная работа [2,7 M], добавлен 18.12.2009

  • Понятие информационных технологий, этапы их развития, составляющие и основные виды. Особенности информационных технологий обработки данных и экспертных систем. Методология использования информационной технологии. Преимущества компьютерных технологий.

    курсовая работа [46,4 K], добавлен 16.09.2011

  • Информационные технологии: понятие, история развития, классификация и структура. Направления развития информационных систем в маркетинге, внедрение и роль персональных компьютеров. Службы интернета и степень его влияния на деятельность организаций.

    курсовая работа [819,7 K], добавлен 09.06.2010

  • Рассмотрение способов оценки скорости обработки транзакций, графических возможностей, производительности суперкомпьютеров и конфигураций Web. Описание структуры и содержания электронного учебника "Методы организации сложных экспертиз компьютерных систем".

    курсовая работа [1,3 M], добавлен 21.11.2010

  • Представление информации в нужной форме. Постепенное смещение акцента на формирование содержательности информации. Инструментарий "компьютерной" технологии. Широкое использование телекоммуникационной связи и современных локальных компьютерных сетей.

    презентация [55,6 K], добавлен 21.05.2015

  • Классификации архитектур вычислительных систем. Организация компьютерных систем. Устройство центрального процессора. Принципы разработки современных компьютеров. Эволюция микропроцессорных систем. Увеличение числа и состава функциональных устройств.

    дипломная работа [1,4 M], добавлен 29.01.2009

  • Содержание информатики как научного направления, ее основные уровни. Понятие, задачи и свойства информационной технологии. Технологический процесс извлечения, обработки и транспортировки информации. Понятие компьютерных и локальных вычислительных сетей.

    презентация [5,8 M], добавлен 25.06.2013

  • Ознакомление с основными этапами развития информационных технологий; определение их сущности и видов. Рассмотрение современных информационно-телекоммуникационных технологий, используемых в домашней среде; проведение анализа их достоинств и недостатков.

    курсовая работа [1,0 M], добавлен 04.09.2011

  • Файловая модель. Виды современных информационных технологий. Информационная технология обработки данных. Информационная технология управления. Информационные технологии экспертных систем. Интерфейс пользователя. Интерпретатор. Модуль создания системы.

    контрольная работа [255,1 K], добавлен 30.08.2007

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.