Стохастика. Перспективная информационная технология

Рассмотрение стохастической информационной технологии – одного из наиболее перспективных направлений развития компьютерных систем. Эффективная обработка в среде современных компьютеров (в основе которых машина Тьюринга) сложных символьных конструкций.

Рубрика Программирование, компьютеры и кибернетика
Вид книга
Язык русский
Дата добавления 25.10.2018
Размер файла 1,4 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Стохастика. Перспективная информационная технология

Насыпный В.В.

Москва 2012

Насыпный В.В. Стохастика. Перспективная информационная технология. - М.:МПГУ, 2012. - 106 с.

Книга посвящена стохастической информационной технологии или стохастики - одному из наиболее перспективных направлений развития компьютерных систем в 21 веке. Стохастика успешно отвечает на все вызовы в информационной технологии, включая решение проблемы BigData, создания индустрии знаний и квантового интеллекта, реферирования неструктурированных текстов, методов распознавания и понимания смысла речевой и видео- информации, гарантированной защиты вычислительных процессов в компьютере и др. Разработанные методы имеют мировой уровень новизны.

Книга предназначена для специалистов в области информатики, искусственного интеллекта, лингвистики и семиотики, квантовых компьютеров, защиты информации, а также для всех читателей, которых интересует перспективы развития компьютеров.

Содержание

Введение

1. Внедрение стохастики

2. Интеллект

3. Логика

4. Квантовый компьютер с интеллектом

5. Автоматическое понимание смысла и реферирование текста на основе стохастики

6. Распознавание речи и видео

7. Аналитика и поиск

8. Защита

9. Шифрование

10. Система с абсолютной стойкостью

11. Защита поиска

12. Проекты

13. Интеллектуальная система экспертизы проектов

14. Основные научные труды по стохастике

Литература

Введение

Представленное научное издание посвящено одному из наиболее перспективных направлений развития компьютерных систем, которым является стохастическая информационная технология или стохастика. Стохастика была разработана в 90-х годах во время первого этапа создания систем искусственного интеллекта. Выяснилось, что традиционная технология не позволяет эффективно обрабатывать в среде современных компьютеров (в основе которых машина Тьюринга) сложные символьные конструкции. В результате не был реализован логический вывод - основа интеллектуальных систем. Этому мешал "комбинаторный взрыв", вызванный переборным способом его реализации. Появилась новая идея: свести сложные символьные конструкции с использованием стохастического (случайного) преобразования к случайным числам? комбинациям заданной (определенной) длины, обеспечивающей заданную сколь угодно малую вероятность коллизий при последующей обработке как элементарных символьных конструкций, так и их сочетаний. Эти числа назывались стохастическими индексами. По сути, они являлись новыми уникальными именами символьных конструкций любой сложности. Здесь проявилось первое свойство стохастики: случайность ? уникальность. В итоге все конструкции получают уникальные случайные имена. Далее работает тезис: назвать значит понять.

Таким образом, в случайные индексы было введено знание исходных символьных конструкций (в закодированном виде). И здесь открылось совершенно новое качество стохастических систем ? способность к саморазвитию и самообучению. Эти системы могли самостоятельно, без внешних воздействий производить путем сложения случайных индексов реализацию логических и семантических связей, таких как "часть-целое", "род-вид", "причина-следствие", "условие-заключение" и др. Например, при сложении по mod.2 стохастических индексов слов образовывался уникальный (со сколь угодно малой заданной вероятностью коллизий) случайный индекс словосочетания. При сложении случайных индексов словосочетаний формировался индекс предиката. При сложении по mod.2 индексов предикатов можно сформировать уникальный индекс предложения или правила продукций и т.д.

На основе этого впервые была получена саморазвивающаяся интеллектуальная среда, которая могла автоматически саморазвиваться, формируя при этом новые знания. Отсюда следует второе, очень мощное свойство стохастики ? способность к самообучению путем автоматического формирования метазнаний, определяющих логическую связность семантически близких стохастических структур. В итоге автоматически реализуется непереборный метод логического вывода (независимо от объема исходного пространства поиска), использующий только логически связанные элементы знаний. Это позволило решить проблему комбинаторного взрыва и создать принципиально новое поколение саморазвивающихся, самообучающихся эффективных интеллектуальных систем, аналогов которым в мире сейчас не существует.

Как было отмечено выше, стохастика или стохастическая информационная технология обладает следующими свойствами, без которых невозможно понимание смысла и извлечение знаний из неструктурированных текстов:

- реализация логического вывода на больших пространствах поиска с использованием только логически и семантически связанных текстовых структур с исключением перебора на всем пространстве поиска, что обеспечивает исключение комбинаторного взрыва;

- осуществление саморазвития и самообучения системы новым знаниям, определяющим логически и семантически связанные элементы текста, формирование новых знаний, необходимых для получения «картины мира» и семантических классификаторов в различных проблемных областях;

- решение проблемы BigData путем автоматического создания баз знаний, описывающих все возможные свойства понятий и логических связей картины мира во всех возможных ситуациях на пространствах поиска объемом не менее 1015;

- реализация аналитических и поисковых функций на множестве исходной текстовой информации с использованием полученных знаний в реальном масштабе времени с максимальным пространством поиска не менее 1020.

Указанными свойствами обладает только стохастика. Они не доступны для традиционных информационных технологий. Стохастика была разработана в России В.Насыпным и впервые опубликована в монографии «Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта» (М.: Воениздат, 1994. - 248с.).

Кроме указанных свойств стохастика обладает еще двумя свойствами, которые являются актуальными для современного этапа развития IT, а именно:

- обеспечение гарантированной защиты создаваемых интеллектуальных систем, работающих в режиме BigData, от вредоносных информационных воздействий на основе возможности реализации всех поисковых и аналитических функций в зашифрованном виде на множестве зашифрованных текстовых массивов;

- полная совместимость стохастики с квантовой технологией, что обеспечивает возможность построения уже в настоящее время квантовых компьютеров с интеллектом, реализующих аналитические и поисковые функции на множестве пространства поиска не ниже 1030.

Данная книга содержит специально подобранный комплекс материалов, сформированных на основе авторских публикаций разных лет и объединенных единым замыслом. Он предназначен для раскрытия содержания описанных выше уникальных возможностей стохастики.

1. Развитие и внедрение стохастики

В настоящее время в качестве необходимого условия развития информационной технологии рассматривается решение проблемы BigData. Теория и практика данной проблемы рельефно представлена в работе [1]. Несколькими годами раньше в России для решения проблемы обработки больших объемов данных и знаний в процессе развития искусственного интеллекта была создана стохастика - стохастическая информационная технология. Данный сборник содержит достаточно полное описание наиболее важных разделов стохастики, которые обосновывают возможность создания на ее основе нового перспективного направления информационных систем. Впервые стохастическая интеллектуальная информационная технология была представлена в работе автора этого сборника [4]. Указанная технология разрабатывалась в период с 1990 по 2000 годы [2-6].

Затем под научным руководством автора данного сборника на основе стохастики коллективом ученых были созданы проекты интеллектуальной поисковой системы [5], самообучающейся аналитической системы [6], комплексной защиты информации в компьютерах [2, 7, 11], распознавания и понимания слитной речи от неизвестного диктора [3, 8] и другие. Все они запатентованы в России и за рубежом.

Для реализации проекта интеллектуальной поисковой системы были организованы научно-производственные фирмы «Стокона» в России и «Stochasto» в Норвегии. Финансирование этого проекта осуществлялось международными инвестиционными фондами. В результате на основе российской стохастической информационной технологии была разработана и установлена в США (2005 год) первая в мире интеллектуальная поисковая система NearU. Эта система обеспечивала реализацию базовых функций лингвистической и семантической обработки больших объемов неструктурированной текстовой информации, данных и знаний. Система должна была осуществлять реализацию индуктивного логического вывода на больших объемах данных и знаний в реальном масштабе времени, а также извлечение знаний из текстов с использованием алгоритмов самообучения [5].

Таким образом, задолго до понимания проблемы больших данных (BigData) на Западе, в том числе лидерами IT технологий, например, Microsoft и Google, стохастика решила эту проблему.

Был также создан опытный образец на русском и английском языках для реализации в России в рамках создания интеллектуальной поисковой системы для Интернет - http://asknet.ru/

В настоящее время к разработке готовы следующие проекты: система распознавания и понимания смысла речи, интеллектуальная поисковая система, самообучающаяся аналитическая система, проактивная защита информации в компьютерах и др.

Отметим, что все эти проекты в той или иной степени решают проблему BigData, включая такие задачи, как накопление, ведение и логическая обработка больших объемов данных и знаний, извлечение знаний из речи, видеообразов и неструктурированной текстовой информации. Реализуются функции самообучения системы [6], глубокая аналитическая обработка неструктурированных текстов, данных и знаний.

Эти проекты являются уникальными и не имеют аналогов за рубежом. Внедрение их в России внесло бы существенный вклад в модернизацию экономики и промышленности в целом.

Из сказанного следует, что проблема BigData в России была поднята и решена на основе стохастики более, чем за десять лет до осознания ее значимости ведущими западными IT компаниями. Самое главное заключается в том, что именно в России впервые в мире исследовали и реализовали на основе стохастики проблему семантического анализа и понимания смысла сенсорной и текстовой информации как основу для извлечения знаний и глубокой аналитической обработки текстов, а также для распознавания образов. Без ее решения невозможен переход от концепции BigData к индустрии знаний. В этом прежде всего состоит преимущество стохастики по сравнению с современными западными технологиями.

Другим важнейшим достоинством стохастики является обеспечение гарантированной защиты данных и знаний в процессе их передачи, хранения и обработки, а также выполнения программ [2, 7, 11]. Это достигается за счет того, что вся информация циркулирует, а также обрабатывается в вычислительной среде компьютера в стохастически преобразованном, защищенном виде. И, наконец, стохастика, как будет показано ниже, совместима с нанотехнологией, что позволяет реализовать в ближайшем будущем интеллектуальные квантовые компьютеры и на этой основе - информационные проекты национального значения.

Литература

1. Черняк Л. Большие Данные -- новая теория и практика // Открытые системы №10, 2011.

2. Насыпный В.В. Защищенные стохастические системы // Открытые системы №3, 2004.

3. Насыпный В.В. Распознавание и понимание смысла речи на основе стохастики в шумах. М.: Прометей, 2010. - 139 с.

4. Насыпный В.В. Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта. М.: Воениздат, 1994. - 248с.

5. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем. Патент РФ №2273879, номер международной заявки РСT/RU02/00258, дата подачи 28 мая 2002.

6. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся аналитической вопросно-ответной системы с извлечением знаний из текстов, заявка на патент №2007120344/09 от 06.08.2007. Получено решение на выдачу патента на изобретение от 21.07.2008.

7. Насыпный В.В. Система с абсолютной стойкостью // Открытые системы №9, 2005.

8. Насыпный В.В., Насыпная Г.А. Система распознавания, понимания смысла, анимационного моделирования и синтеза речи на основе стохастической информационной технологии. М.: Прометей, 2008. -

9. Искусственный интеллект. Справочник. Кн. 2. Модели и методы. Под ред. Поспелова Д.А. М.: Радио и связь, 1990. - 303 с.

10. Halsall F. Data communications computer networks and osi.Addison-wesley publishing company, 1988. - 973 c.

11. Насыпный В.В. Способ комплексной защиты распределенной обработки информации в компьютерных системах и система для осуществления способа. Патент РФ №2259639, номер международной заявки РСT/RU /00272, дата подачи 28.10.2003 г.

12. Насыпный В.В., Насыпная Г.А. Метод семантической связи текста с трехмерной графикой. - М.: Прометей, 2007. - 27 с.

2. Интеллект

От больших данных к индустрии знаний

В настоящее время происходит переход от широко распространенных информационных систем, включая Интернет, к интеллектуальным системам, основанным на знаниях. Как известно, в отличие от данных знания характеризуются определенным комплексом свойств и прежде всего активностью, новизной, эффективностью. Активность связана с возможностью автоматической генерации при актуализации знаний определенных информационных и аналитических процессов, направленных на обработку данных. Новизна характеризует содержание в знаниях новых сведений, не известных ранее конкретным пользователям системы в некоторой проблемной области. Эффективность знаний определяется возможностью реализации интеллектуальных процессов, позволяющих достичь конкретной цели или связанных с порождением новых знаний.

Основу интеллектуальных систем составляют базы знаний, в которых используется аппарат искусственного интеллекта, включающий семантические сети, фреймы, правила продукций, предикаты первого порядка и другие формализмы. Важнейшими элементами указанных систем являются также подсистемы логического вывода, интерпретации знаний, ввода-вывода полученных результатов. Системы, основанные на знаниях, широко используются для аналитической обработки информации, в интеллектуальных поисковых системах, для распознавания и понимания смысла сенсорной информации.

На основе указанных систем строятся интеллектуальные сети, обеспечивающие эффективную обработку данных и знаний в интересах решения конкретных, достаточно сложных научно-технических и других задач, которые невозможно решить в рамках чисто информационных технологий.

В работах [4-6] предложены способы извлечения знаний из произвольной текстовой информации для реализации аналитических функций индукции, дедукции, сравнения, обобщения, аналогии, определения и других.

На основе указанных систем строятся базовые элементы интеллектуальной сети. Эта сеть составляет основу индустрии знаний, которая позволяет поднять на качественно новый уровень процессы управления обществом и производственной сферой, а также внести существенный вклад в ускоренное развитие науки и новых технологий.

Важнейшей проблемой развития индустрии знаний является их автоматическое приобретение путем обработки текстовой и сенсорной информации, в которой, прежде всего, выделяют естественную речь и видеоинформацию. Основой для решения этих задач является создание самообучающихся систем извлечения знаний из текстов, а также систем распознавания и понимания смысла речи и видеоинформации [3 - 6].

Решение отмеченных задач особенно актуально на современном этапе создания индустрии знаний, поскольку эти задачи напрямую связаны с реализацией в компьютерах функции понимания смысла.

Проблема понимания смысла при создании индустрии знаний

Важнейшей нерешенной проблемой BigData при создании автоматических (способных функционировать без участия человека) систем ввода и обработки текстовой и сенсорной информации является понимание смысла.

В современных системах обработки изображений создатели ограничиваются символьным представлением (описанием) отдельных элементов изображения, не затрагивая семантический (смысловой) уровень. При этом в создаваемых речевых технологиях проблема понимания смысла рассматривается как далекая перспектива, а вопрос о понимании смысла другой сенсорной информации (тактильной, связанной с обонянием, осязанием и др.) в настоящее время вообще не ставится разработчиками автоматизированных систем.

Вместе с тем, совершенно очевидно, что без решения проблемы понимания смысла дальнейшее развитие систем обработки текстовой и сенсорной информации не имеет прикладной перспективы.

Таким образом, для перехода от BigData к индустрии знаний необходимо решение проблемы понимания смысла текстовой и сенсорной информации.

Отметим, что под пониманием смысла поступающих знаний и сенсорной информации подразумевается способность их интерпретации (представления) с использованием иных терминов той же самой знаковой системы или какой-либо другой (прежде всего языковой).

Так, например, понимание смысла некоторого высказывания эквивалентно его переформулировке с использованием других терминов (иных слов) с полным сохранением смысла.

Создание полноценных систем понимания смысла текстов, речи и изображений невозможно без реализации функции автоматического самообучения при извлечении знаний из информационных сообщений и требует обеспечения возможности формирования нового знания и органичного (автоматического) дополнения этим знанием соответствующей опорной базы [2 - 6].

Результатом пополнения базы знаний системы является формирование концептуального описания проблемной среды («картины мира»), включающей объекты, субъекты, их классификацию, свойства, связи, соотношения, взаимодействия и др. На основе этой информации в интеллектуальной поисковой системе [5] обеспечивается автоматическое формирование смысла поступающих текстовых сообщений. Например, сообщение «футболист бежит по полю» автоматически переводится в сообщение «человек перемещается на местности». Для этого используется система классификации и «картина мира». На языке полученных классов объектов и отношений между ними система понимает смысл действий футболиста из первого сообщения и может его представить в виде второго сообщения на языке классов объектов и отношений между ними.

При этом реализация функции автоматического непрерывного формирования «картины мира» сопряжена с обязательным выполнением индуктивного логического вывода на больших пространствах знаний и данных. Именно логический вывод позволяет реализовать функции интеллектуальных систем, связанные с их самообучением путем формирования новых знаний, на основе смыслового содержания поступающей информации.

Отметим, что существующие информационные технологии не позволяют реализовать смысловую обработку ни текстов, ни изображений, ни речевых сообщений в силу не способности решить задачу индуктивного логического вывода на больших пространствах знаний и данных.

Однако до настоящего времени все попытки разработчиков интеллектуальных систем добиться осуществления индуктивной обработки информации наталкивались на проблему «комбинаторного взрыва», автоматически возникающую при попытках обработать в реальном времени соответствующие объемы информации методами перебора. Это не позволяет создать аппарат смысловой обработки текстовой, аудио- и видеоинформации.

Литература

1. Черняк Л. Большие Данные -- новая теория и практика // Открытые системы №10, 2011.

2. Насыпный В.В. Защищенные стохастические системы // Открытые системы №3, 2004.

3. Насыпный В.В. Распознавание и понимание смысла речи на основе стохастики в шумах. М.: Прометей, 2010. - 139 с.

4. Насыпный В.В. Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта. М.: Воениздат, 1994. - 248с.

5. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем. Патент РФ №2273879, номер международной заявки РСT/RU02/00258, дата подачи 28 мая 2002.

3. Логика

Стохастика как технология индуктивного логического вывода

Стохастика позволила адаптировать вычислительную среду современных компьютеров к обработке знаний и реализовать индуктивный вывод с использованием новых, непереборных методов обработки информации [4 - 6].

В основу предложенного метода положена единая процедура стохастического преобразования алфавитно-цифровой информации, описывающей семантическую сеть, которая включает фреймы и правила продукций. При этом обеспечивается непосредственное отображение семантической сети и правил продукций в вычислительную среду компьютера. Информационные единицы и связи будут взаимно однозначно поименованы стохастическими индексами и физически представлены в памяти компьютера стохастическими кодами. Достигается возможность эффективной реализации на базе сформированных индексов и кодов как процедур произвольного доступа к информации, так и логических операций на сети.

Это обеспечивает соответствие между произвольной символьной конструкцией и ее стохастическим индексом. Полученные уникальные индексы имеют двойственный характер: с одной стороны, они являются именем указанных символьных конструкций, с другой, - они определяют адрес, по которому необходимо произвести обращение к другим элементам знаний, логически (семантически) связанным с исходной символьной конструкцией [4].

При этом в процессе формирования индекса с помощью стохастической хэш-функции отображаются имеющиеся между символьными элементами связи типа «часть-целое», «род-вид», «причины-следствия», «условия-заключения», «определения» и др. Так, например, при создании индекса словосочетаний используется индекс отдельных слов. Формирование стохастического индекса предиката производится на основе входящих в него индексов словосочетаний.

Индекс предложения реализуется с использованием стохастических индексов словосочетаний, предикатов, входящих в данное предложение и т.д.

На основе информации о составных элементах каждого индекса автоматически формируются новые знания о том, в какие индексы по критерию «часть-целое» и «род-вид» входит каждый элемент. Это позволяет в режиме активизации индексной информации путем реализации функций самообучения и автоматического формирования новых знаний описывать в индексной форме все возможные прямые логические связи исходного элемента с другими элементами на множестве пространства поиска [4].

В качестве этих элементов могут быть слова, словосочетания, предикаты, предложения, правила продукций и другие формы представления знаний.

Таким образом, после реализации описанного режима самообучения и автоматического получения индексных форм и логических связей над множеством элементов семантической сети или правил продукций формируется уровень метазнаний [4].

Указанный уровень метазнаний в виде некоего виртуального информационного поля определяет все возможные траектории логического вывода на каждом его шаге, отбирая только семантически связанные символьные конструкции (слова, словосочетания, предикаты, правила продукций и др.) и элементы знаний.

За счет этого устраняется необходимость полного перебора на каждом шаге логического вывода и снимается проблема «комбинаторного взрыва». Каждая траектория логического вывода содержит в качестве своих элементов только неповторяющиеся символьные конструкции знаний. Повторение символьных конструкций приводит к образованию циклов, что свидетельствует о необходимости корректировки баз знаний с целью устранения указанных повторов [4].

При реализации логического вывода на множестве N элементов знаний любой его траектории требуется обработать не более M << N символьных элементов знаний, представленных уникальными стохастическими индексами. Следовательно, время логического вывода при использовании описанного метода, основанного на стохастической информационной технологии, будет линейно зависеть от числа M логически или семантически связанных символьных конструкций (слов, словосочетаний, предикатов, элементов семантической сети или правил продукций) [4].

Количество M элементов, применяемых в процессе построения любой траектории логического вывода будет значительно ниже, чем максимальное число N этих элементов в пространстве поиска требуемых символьных конструкций.

Отметим, что предложенные методы логического вывода на основе стохастической информационной технологии позволяют выбрать минимально допустимую и наиболее вероятную траекторию логического вывода на любом множестве семантически связанных символьных конструкций и построить метаправила для обеспечения обработки знаний в заданное время. Это позволяет создать на базе существующих компьютеров эффективные интеллектуальные системы, работающие в любом поисковом пространстве без сужения множества возможных гипотез лингвистического анализа и смыслового поиска в реальном масштабе времени. Указанные системы описаны в патентах [5, 6].

Кроме этого предложенный метод логического вывода позволяет реализовать новые технологии распознавания речевых сообщений и изображений, основанные на семантическом анализе и логической обработке знаний. Эти методы являются универсальными. Они дают возможность синтезировать более эффективные и достоверные технологии распознавания речевых сообщений от неизвестного диктора на неограниченном объеме словаря. При этом пиксельное представление речевого сигнала преобразуется в семантические образы, которые с помощью знаний описываются как понятия, связанные с артикуляционной и акустической классификацией сигнала. Это позволяет с высокой достоверностью, приближающейся к 100%, распознавать звуки, фонемы, слоги и слова, то есть реализовывать эффективный фонетический анализ речи и перевести звуковые образы в достоверные лексические элементы [3].

При распознавании видеоинформации методы, основанные на знаниях и семантическом анализе изображений, позволяют эффективно обрабатывать информацию на всех трех уровнях представления изображений: пиксельном, пиксельно-контурном и уровне символьного описания полученного изображения.

После этого как для речевых сообщений, так и для изображений включаются уровни лингвистического и семантического анализа с использованием методов индуктивного логического вывода и обработки смысловых конструкций. В результате осуществляется семантическая классификация понятий и формирования концептуального описания («картины мира»), которые представлены выше. Впервые достигается возможность достоверного распознавания слитных речевых сообщений от неизвестного диктора и различных видеоизображений (двухмерных, трехмерных), включая видеосъемку, в реальном времени.

При этом ввод и обработка семантики поступающих в систему текстов речевых сообщений или изображений активизирует специальную процедуру логического вывода, позволяющую извлекать знания (в том числе новые), проверять их корректность и органично вписывать в состав опорной базы знаний.

Литература

1. Черняк Л. Большие Данные -- новая теория и практика // Открытые системы №10, 2011.

2. Насыпный В.В. Защищенные стохастические системы // Открытые системы №3, 2004.

3. Насыпный В.В. Распознавание и понимание смысла речи на основе стохастики в шумах. М.: Прометей, 2010. - 139 с.

4. Насыпный В.В. Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта. М.: Воениздат, 1994. - 248с.

5. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем. Патент РФ №2273879, номер международной заявки РСT/RU02/00258, дата подачи 28 мая 2002.

6. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся аналитической вопросно-ответной системы с извлечением знаний из текстов, заявка на патент №2007120344/09 от 06.08.2007. Получено решение на выдачу патента на изобретение от 21.07.2008.

7. Насыпный В.В. Система с абсолютной стойкостью // Открытые системы №9, 2005.

8. Насыпный В.В., Насыпная Г.А. Система распознавания, понимания смысла, анимационного моделирования и синтеза речи на основе стохастической информационной технологии. М.: Прометей, 2008. - 76 с.

9. Искусственный интеллект. Справочник. Кн. 2. Модели и методы. Под ред. Поспелова Д.А. М.: Радио и связь, 1990. - 303 с.

10. Halsall F. Data communications computer networks and osi.Addison-wesley publishing company, 1988. - 973 c.

11. Насыпный В.В. Способ комплексной защиты распределенной обработки информации в компьютерных системах и система для осуществления способа. Патент РФ №2259639, номер международной заявки РСT/RU /00272, дата подачи 28.10.2003г.

12. Насыпный В.В., Насыпная Г.А. Метод семантической связи текста с трехмерной графикой. - М.: Прометей, 2007. - 27с.

4. Квантовый компьютер с интеллектом

Квантовая технология и стохастика

Одним из достижений быстроразвивающейся нанотехнологии является ясно наметившаяся перспектива создания квантового компьютера [13]. Как известно, разрабатываемые в нанотехнологии квантовые компьютеры в отличие от существующих компьютеров могут перерабатывать информацию, исходя из представления о так называемом квантовом бите (кубите или нано-бите).

При этом L кубитов соответствует числу N = (2L-1), что позволяет вычислителям работать с очень большими числами или большими объемами данных. На рис. 1 представлена схематическая структура квантового компьютера. Основной частью его является квантовый регистр - совокупность некоторого числа L кубитов. Далее следуют блок ввода информации, блок квантовых вычислений, блок измерения состояния кубитов. Для управления этими блоками применяется классический управляющий компьютер, включающий генератор воздействующих на кубиты импульсов [14].

При реализации в нанотехнологиях база данных может состоять из N сообщений, представленных N = 1?(2L-1) состояниями квантового регистра из L кубитов. При этом любое из конкретных сообщений с использованием алгоритма Гровера [14] может быть найдено по значению его кода длиной в Lкубитов. При вводе информации в квантовый компьютер состояние входного регистра преобразуется в соответствующую комбинацию. В таком виде информация далее подвергается воздействию квантового процессора, выполняющего последовательность квантовых логических операций. В результате преобразований исходное квантовое состояние соответствующим образом изменяется, что фиксируется с помощью измерения состояния кубитов на выходе компьютера [14].

Совокупность всех возможных операций на входе данного компьютера, формирующих исходное состояние, а также воздействий, осуществляющих унитарные локальные преобразования, соответствующие алгоритму вычисления, играют здесь ту же роль, что и программное обеспечение в классическом компьютере, реализующем управляющие функции [14].

Описываемый квантовый компьютер предназначен, в основном, для вычислительных функций с большими числами, которые трудно реализуются в классическом компьютере. Вопрос о построении с помощью квантового компьютера интеллектуальных систем в соответствии с описанными выше требованиями индустрии знаний пока не стоит. Однако применение стохастики, как будет показано ниже, позволяет решить эту проблему в самое ближайшее время.

В стохастике любой элемент данных или сообщение представлены стохастическими индексами или кодами длиной L-бит. Способ автоматического формирования уникальных стохастических индексов из каждой символьной конструкции U приведен в работе [4]. При этом значение каждого индекса равновероятно распределено в интервале 1?(2L-1).

Общее число элементов данных или знаний N также, как и в нанотехнологии, определяется из следующей формулы: N = 1?(2L-1). Поэтому основная идея использования стохастики в квантовых компьютерах заключается в замене кубитов на стохастические индексы символьных конструкций, которые можно назвать «стохастическими кубитами». Поскольку стохастика использует для логической обработки простейшие процедуры типа произвольного доступа к данным, булевой алгебры и логической обработки индексов, то такой подход позволит реализовать на основе стохастических кубитов все описанные выше функции интеллектуальной обработки данных и знаний, представленных в работах [2-6].

В качестве примера рассмотрим порядок реализации в квантовом компьютере на основе стохастики базы данных и знаний, приведенной в работе [4].

База данных в стохастике содержит концептуальную часть, описывающую в виде семантической сети «картину мира» в заданной предметной области. Фактуальная часть базы данных, объем которой может на несколько порядков превышать объем семантической сети, описывает свойства конкретных объектов данного класса или типа в виде отношений с другими объектами предметной области. При этом концептуальная часть размещается в обычном компьютере, а фактуальная часть может загружаться в квантовый компьютер. С помощью логического вывода на семантической сети и булевой алгебры формируются стохастические индексы доступа {}, идентичные кубитам в квантовом компьютере. После этого, используя алгоритм Гровера [14], производится доступ к нужному сообщению фактуальной части базы данных. Затем с помощью логического вывода и базы знаний выбираются все кубиты, относящиеся к выбранному сообщению. Это обеспечивает эффективную обработку в реальном времени больших данных. Например, характеризуемые значением N= 2100-1 = 1030 сообщений и более. За счет этого реализуются комбинированные интеллектуальные системы, включающие нанотехнологию и стохастику, обеспечивающие обработку больших данных в реальном времени.

Рассмотрим теперь порядок реализации в квантовом компьютере логического вывода в больших базах данных и знаний на основе стохастики. Как было отмечено выше, эта процедура является базовой для создания интеллектуальных систем, обеспечивающих переход от больших данных к индустрии знаний.

Метод и технология логического вывода в квантовом компьютере на основе стохастики

Известно, что одной из основных проблем, возникающих при разработке интеллектуальных систем, является определение возможных траекторий логического вывода на множестве правил продукций, данных и знаний. Это обеспечит отход от переборного метода логического вывода, который в больших базах знаний приводит к «комбинаторному взрыву».

Для решения этой проблемы в [4] предложен метод определения возможных траекторий, поиска целей и предварительного выбора кратчайшего пути логического вывода, основанный на построении сети правил продукций и оперативного режима их обработки с использованием стохастических индексов и кодов. За счет применения стохастической информационной технологии, как будет показано ниже, проблема комбинаторного взрыва полностью снимается, поскольку время логического вывода будет линейно зависеть от числа правил продукций, непосредственно задействованных в обработке. Отметим, что наполнения базы знаний правилами продукций может производиться в автоматическом режиме с использованием самообучающихся интеллектуальных систем извлечения знаний из текста, описанных в работах [3, 4]. Из изложенного следует, что вместо стохастических индексов в этих процедурах могут применяться стохастические кубиты, обрабатываемые в квантовом компьютере.

Если предикат терминальный, то он связан посредством индекса с атомарной формулой вида, где - соответственно коды атрибутов ui и их значений аi фреймов или реляционных отношений, q - арифметический оператор сравнения (і, Ј, = и др.).

В процессе обработки терминального предиката, в квантовом компьютере по индексу производится доступ к соответствующему фрейму или реляционному отношению. При этом используется алгоритм Гровера [14]. Истинность или ложность предиката устанавливается путем сравнения кодов атомарной формулы, определяемой индексом с кодом фрейма или реляционного отношения. Сравнение индексов и кодов может осуществляться в управляющем компьютере (рис.1) с использованием стохастического процессора, обеспечивающего выполнение логических и арифметических функций со стохастическими индексами и кодами без их расшифровки [2]. Реализация процедур обработки терминальных предикатов путем произвольного доступа по стохастическим индексам к соответствующим фреймам и реляционным отношениям базы данных и знаний квантового компьютера, а также выполнение функций сравнения стохастических индексов и кодов в стохастическом процессоре обеспечивает высокую эффективность обработки терминальных предикатов.

Эти параметры и значения после стохастической индексации записываются в соответствующие фреймы базы знаний.

Проблема устранения комбинаторного взрыва решается, как было отмечено выше, на основе автоматического формирования сети правил продукций системы логического вывода в режиме самообучения с использованием агрегативных свойств стохастических индексов. Эта система может быть реализована непосредственно в квантовом компьютере или в управляющем классическом компьютере (рис.1). В данном случае стохастический индекс каждого правила продукций вычисляется путем сложения по mod 2 индексов всех m предикатов каждого правила.

Таким образом, стохастический индекс правила связан со стохастическими индексами составляющих его предикатов как «целое-часть». На этой основе для построения сети правил продукций системы логического вывода, автоматически формируются новые знания - специальные сетевые фреймы, в которые включаются стохастические индексы правил, имеющих идентичные предикаты в условии или заключении.

Указанные сетевые фреймы формируются для каждого правила базы знаний. При этом индексы правил, имеющих предикат в условии или заключении, идентичный предикату, будут включены в один и тот же сетевой фрейм. Это обусловлено тем, что доступ к сетевым фреймам осуществляется по индексам предикатов. Поэтому все индексы правил, относящиеся к одному и тому же предикату, будут содержаться в одном и том же сетевом фрейме. Объединенные логическими связками ИЛИ они определяют альтернативные направления логического вывода.

Образованная сетевая структура позволяет реализовать прямую и обратную последовательности логического вывода, используя только связанные друг с другом идентичными предикатами правила продукций. Тем самым исключается необходимость перебора на всем множестве правил продукций при выполнении каждого очередного цикла логического вывода. В результате исключается главная причина комбинаторного взрыва. При этом за счет использования сетевых фреймов при построении траектории логического вывода каждое правило обрабатывается не более одного раза. Поэтому при реализации любой возможной траектории логического вывода на множестве правил продукций может быть задействовано не более общего числа M<<N правил продукций в базе знаний. Поэтому время логического вывода с использованием предложенного метода на основе стохастической информационной технологии будет линейно зависеть от числа правил продукций, непосредственно входящих в траекторию логического вывода в базе знаний.

Отметим, что применение сетевых правил продукций позволяет осуществить выбор кратчайшего пути логического вывода.

Для предварительного выбора кратчайшего пути логического вывода в работе [4] предложен оперативный режим генерации дерева траекторий логического вывода. Он основан на применении процедур доступа по стохастическим индексам к сетевым фреймам и фреймам правил с отложенной обработкой терминальных предикатов (высказываний), требующих обращения к памяти квантового компьютера.

При реализации этого режима после выбора целевого правила на каждом последующем уровне j дерева траекторий из сетевых фреймов образуется логическое выражение, включающее индексы правил, заключения которых связаны идентичными предикатами с условиями правил (j-1)-го уровня. Каждому правилу (j-1)-го уровня в общем случае может соответствовать набор сетевых фреймов, содержащих индексы правил, заключения которых связаны с условием правила. При формировании логического выражения уровня индексы правил внутри сетевых фреймов, объединенные логическими связками ИЛИ, заключаются в скобки; сетевые фреймы, относящиеся к одному правилу (j)-го уровня, закрываются дополнительными скобками. В результате будет сформировано логическое выражение вида.

Как показано в работе [4], применение режима оперативной генерации траекторий логического вывода с помощью сетевых фреймов дает возможность предварительного определения кратчайшего пути логического вывода в виде одной из полученных составных продукций, обеспечивающей достижение цели логического вывода посредством обработки минимального числа терминальных предикатов.

Рассмотрим порядок реализации логического вывода, и построения необходимых цепочек правил продукций с использованием базы данных и знаний и алгоритма Гровера квантового компьютера. В результате описанного выше алгоритма логического вывода с использованием сетевых правил образуется некоторое дерево логического вывода. Допустим, что указанное дерево содержит три уровня логически связанных через сетевые фреймы правил продукций -. После генерации логического выражения на каждом уровне можем получить следующий результат.

Сформированное логическое выражение поступает в дальнейшую обработку для определения истинности предиката целевого правила продукций.

Покажем, что применение режима оперативной генерации траекторий логического вывода с помощью сетевых фреймов позволяет предварительно сформировать все необходимые цепочки логического вывода и определить его кратчайший путь. Под кратчайшим путем логического вывода будем понимать одну из возможных траекторий (цепочек правил), обеспечивающую достижение цели логического вывода посредством обработки минимального числа терминальных предикатов.

Для этого используем понятие составной продукции[9], которая представляет собой совокупность всех терминальных предикатов цепочки правил продукций дерева траекторий логического вывода, объединенных логическими связками и обеспечивающих независимое определение истинности или ложности целевого предиката. Составная продукция имеет следующий вид:

Легко видеть, что совокупность составных продукций может быть получена из выражения (5), сформированного в результате оперативной генерации дерева траекторий логического вывода после раскрытия скобок. По сути дела, составная продукция представляет собой новое знание, полученное из исходной цепочки правил путем формирования новой логической конструкции.

Из каждой цепочки правил продукций, исключив логически связанные через сетевые фреймы предикаты, получим следующие четыре составные продукции (Рs1, Рs2, Рs3 и Рs4):

Определив число терминальных предикатов в каждой из составных продукций Psi, мы можем выделить составную продукцию с минимальным числом терминальных предикатов в условии. Очевидно, что эта составная продукция Ps2 и является прогнозируемым кратчайшим путем логического вывода, минимизирующим время определения истинности целевого предиката при обработке терминальных предикатов условия.

Таким образом, реализация логического вывода "вширь" с использованием режима оперативной генерации выражения (8) перед выполнением операций сопоставления с образцом, требующих для обработки терминальных предикатов доступа к базе данных и знаний квантового компьютера, выдает кратчайший путь логического вывода. При этом остальные составные продукций могут быть расположены в порядке возрастания числа терминальных предикатов для оптимизации последующей обработки дерева логического вывода, если прогнозируемый кратчайший путь не позволяет определить истинность целевого предиката.

Процедура синтеза составных продукций и предварительный выбор кратчайшего пути можно применить и при генерации прямой волны логического вывода. Очевидно, что сформировав и преобразовав логическое выражение, полученное в результате оперативной генерации прямой волны логического вывода, мы получим набор составных продукций {Psj}, каждая из которых содержит исходное правило и заканчивается одним из возможных целевых правил продукций. Это позволяет выбрать составную продукцию, содержащую минимальное число терминальных предикатов.

Реализация в квантовом компьютере оперативной генерации траекторий логического вывода с использованием сетевых фреймов дает возможность произвести предварительный выбор кратчайшего пути прямой и обратной последовательностей вывода, минимизирующих время последующей обработки терминальных предикатов при выполнении процедуры сопоставления с образцом. После этого производится реализация описанных выше процедур обработки стохастических кубитов квантового компьютера с использованием алгоритма Гровера.

Таким образом, применение стохастики позволит в кратчайшие сроки пройти путь от теории и практики больших данных к индустрии знаний и нанотехнологии. Это даст возможность разработать принципиально новые технические системы практически во всех промышленных сферах, включая новые поколения компьютеров, суперинтеллектуальные защищенные системы в робототехнике, в авиакосмической, атомной промышленности и других высокотехнологичных областях. Кроме того, суперинтеллектуальные системы смогут играть все возрастающую роль при решении социальных проблем национального значения, а также в управлении обществом. Например, как показали исследования, на основе описанного подхода в ближайшие три-пять лет могут быть реализованы IT проекты, имеющие национальное значение, а именно:

1. Создание на Федеральном уровне интеллектуальной системы контроля аудио-, видео- и текстовой информации с распознаванием смысла и содержания действий, производимых контролируемыми объектами и субъектами. При этом обеспечивается автоматическое своевременное выявление и предупреждение противоправных действий в общественных местах, нарушений правил дорожного движения, положений техники безопасности на производстве и др.

2. Создание интеллектуальной системы предотвращения возможности использования государственных денежных средств в коррупционных схемах. Это обеспечивается на основе применения «зашифрованных электронных денег» и контроля финансовых потоков в государственных и коммерческих системах с гарантированной идентификацией и аутентификацией отправителей и получателей денежных средств, с определением в реальном времени цели поступления финансов и их использования в соответствии с требованиями закона.

3. Создание интеллектуальной системы защиты от распространения в торговой сети контрафактной продукции, прежде всего медикаментов, пищевой продукции, аудио- и видеоматериалов и других товаров на основе применения «зашифрованных электронных денег» и контроля траектории их прохождения для определения законности заключаемых договоров и сделок между разработчиками и торгующими организациями.

Литература

1. Черняк Л. Большие Данные -- новая теория и практика // Открытые системы №10, 2011.

2. Насыпный В.В. Защищенные стохастические системы// Открытые системы №3, 2004.

3. Насыпный В.В. Распознавание и понимание смысла речи на основе стохастики в шумах. М.: Прометей, 2010. - 139 с.

4. Насыпный В.В. Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта. М.: Воениздат, 1994. - 248с.

5. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем. Патент РФ №2273879, номер международной заявки РСT/RU02/00258, дата подачи 28 мая 2002.

6. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся аналитической вопросно-ответной системы с извлечением знаний из текстов, заявка на патент №2007120344/09 от 06.08.2007. Получено решение на выдачу патента на изобретение от 21.07.2008.

7. Насыпный В.В. Система с абсолютной стойкостью // Открытые системы №9, 2005.

8. Насыпный В.В., Насыпная Г.А. Система распознавания, понимания смысла, анимационного моделирования и синтеза речи на основе стохастической информационной технологии. М.: Прометей, 2008. - 76 с.

9. Искусственный интеллект. Справочник. Кн. 2. Модели и методы. Под ред. Поспелова Д.А. М.: Радио и связь, 1990. - 303 с.

10. Halsall F. Data communications computer networks and osi. Addison-wesley publishing company, 1988. - 973 c.

11. Насыпный В.В. Способ комплексной защиты распределенной обработки информации в компьютерных системах и система для осуществления способа. Патент РФ №2259639, номер международной заявки РСT/RU /00272, дата подачи 28.10.2003г.

12. Насыпный В.В., Насыпная Г.А. Метод семантической связи текста с трехмерной графикой. - М.: Прометей, 2007. - 27с.

13. Кобаяси Н. Введение в нанотехнологию / Н.Кобаяси. - Пер. с японск. - М.: БИНОМ. Лаборатория знаний, 2007. - 134 с.

14. Валиев К.А., Кокин А.А. Квантовые компьютеры: надежды и реальность. - Москва-Ижевск: НИЦ «Регулярная и хаотическая динамика», 2004, 329 стр.

5. Автоматическое понимание смысла и реферирование текста на основе стохастики

Обработка текстов на основе стохастики

Основным при разработке методов понимания и реферирования неструктурированной текстовой информации является использование лингвистического и семантического анализа. Эти виды анализа требуют доступа и обработки к большим объемам знаний (например, к «картине мира») и решения проблемы BigData. Применение стохастической технологии в отличие от существующих систем позволяет решить эту проблему без возникновения эффекта комбинаторного взрыва [2].

Это обусловлено тем, что современные методы обработки символьной информации, представляющей знания, используют вычислительные алгоритмы над строками символов, которые реализуются по известным алгоритмам машины Тьюринга. Указанные алгоритмы, предназначенные для реализации вычислительных функций, не ориентированы на эффективное выполнение операций логического вывода в пространстве семантической сети и при использовании правил продукций [2].

Данное положение объясняется, прежде всего, тем, что в существующих алгоритмах поиска имя (наименование) символьной конструкции и ее физический адрес в памяти компьютера суть два различных элемента. Поэтому на каждом шаге логического вывода сначала производится поиск нужной символьной конструкции путем перебора на множестве всех возможных ее значений, а затем определяется адрес с целью дальнейшей обработки. По данному адресу выбирается необходимая символьная информация для реализации следующего шага логического вывода. При этом поиск очередной логически связанной символьной конструкции также производится путем перебора.


Подобные документы

  • Простое вычислительное устройство машина Тьюринга и ее алгоритмические свойства. Тезис Черча–Тьюринга и моделирование машины Тьюринга (операции перезаписи ячеек, сравнения и перехода к другой соседней ячейке с учетом изменения состояния машины).

    контрольная работа [23,3 K], добавлен 24.04.2009

  • Этапы развития информационной системы и происходящие в ней процессы. Виды, инструментарий, составляющие информационных технологий. Производство информации для ее анализа человеком и принятия на его основе решения как цель информационной технологии.

    контрольная работа [2,7 M], добавлен 18.12.2009

  • Понятие информационных технологий, этапы их развития, составляющие и основные виды. Особенности информационных технологий обработки данных и экспертных систем. Методология использования информационной технологии. Преимущества компьютерных технологий.

    курсовая работа [46,4 K], добавлен 16.09.2011

  • Информационные технологии: понятие, история развития, классификация и структура. Направления развития информационных систем в маркетинге, внедрение и роль персональных компьютеров. Службы интернета и степень его влияния на деятельность организаций.

    курсовая работа [819,7 K], добавлен 09.06.2010

  • Рассмотрение способов оценки скорости обработки транзакций, графических возможностей, производительности суперкомпьютеров и конфигураций Web. Описание структуры и содержания электронного учебника "Методы организации сложных экспертиз компьютерных систем".

    курсовая работа [1,3 M], добавлен 21.11.2010

  • Представление информации в нужной форме. Постепенное смещение акцента на формирование содержательности информации. Инструментарий "компьютерной" технологии. Широкое использование телекоммуникационной связи и современных локальных компьютерных сетей.

    презентация [55,6 K], добавлен 21.05.2015

  • Классификации архитектур вычислительных систем. Организация компьютерных систем. Устройство центрального процессора. Принципы разработки современных компьютеров. Эволюция микропроцессорных систем. Увеличение числа и состава функциональных устройств.

    дипломная работа [1,4 M], добавлен 29.01.2009

  • Содержание информатики как научного направления, ее основные уровни. Понятие, задачи и свойства информационной технологии. Технологический процесс извлечения, обработки и транспортировки информации. Понятие компьютерных и локальных вычислительных сетей.

    презентация [5,8 M], добавлен 25.06.2013

  • Ознакомление с основными этапами развития информационных технологий; определение их сущности и видов. Рассмотрение современных информационно-телекоммуникационных технологий, используемых в домашней среде; проведение анализа их достоинств и недостатков.

    курсовая работа [1,0 M], добавлен 04.09.2011

  • Файловая модель. Виды современных информационных технологий. Информационная технология обработки данных. Информационная технология управления. Информационные технологии экспертных систем. Интерфейс пользователя. Интерпретатор. Модуль создания системы.

    контрольная работа [255,1 K], добавлен 30.08.2007

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.