Стохастика. Перспективная информационная технология
Рассмотрение стохастической информационной технологии – одного из наиболее перспективных направлений развития компьютерных систем. Эффективная обработка в среде современных компьютеров (в основе которых машина Тьюринга) сложных символьных конструкций.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | книга |
Язык | русский |
Дата добавления | 25.10.2018 |
Размер файла | 1,4 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Известно [1], что для поиска одной произвольной записи среди неупорядоченного множества элементов теоретический предел объема вычислений составляет Nlog2N, где N - число записей в массиве, по которому выполняется поиск. Поэтому при выполнении поисковых операций для каждого элемента поискового запроса (например, каждого слова поискового запроса) на большом массиве записей получается огромный объем вычислений. Это не позволяет в реальном масштабе времени проводить поиск на больших объемах информации (проблема BigData).
В результате время логического вывода увеличивается по экспоненциальному закону в зависимости от N, где N - число возможных символьных конструкций знаний [2].
Покажем важность решения проблемы комбинаторного взрыва на примере попыток создания ведущими корпорациями мира (Microsoft, Google и др.) интеллектуальных поисковых систем с семантическим анализом текста. Отметим, что данные корпорации в настоящее время разработали эффективные системы поиска по ключевым словам.
Для сокращения количества вычислений на этапе поиска во всех поисковых системах используется предварительная обработка текстовой информации - так называемая индексация. В процессе такой обработки для каждого слова индексируемых текстов указывается его уникальное значение (индекс), а также наборы указателей на тексты и позиции в текстах, в которых это слово встречалось. Такой формат представления информации называется «обратный индекс». Это обуславливает необходимость поиска каждого слова во множестве N = 105 символьных конструкций, что определяется средним объемом словаря, в котором производится поиск ключевых слов. При этом высокая производительность современных компьютеров и методов распараллеливания поисковых операций позволяет избежать существенного замедления процесса поиска и реализует его в масштабе реального времени.
За счет использования обратного индекса возможно быстро находить тексты, в которых имеется группировка слов поискового запроса. Поэтому при реализации традиционного поиска по ключевым словам эффекта «комбинаторного взрыва» не возникает по причине использования обратного индекса и предварительной индексации текстов.
Для перехода к процедуре семантического анализа текстов с целью понимания смысла возникает необходимость логического вывода на множестве всех возможных понятий словаря (N = 105), словосочетаний, максимальное число которых N = 1010, а также предикатов, описывающих «картину мира» (эволюционную предметную область) проиндексированных текстов. При этом в процессе построения траектории логического вывода на множестве указанных символьных конструкций, как правило, требуется выполнить несколько шагов логического вывода.
Это связано с необходимостью неоднократного перебора на множестве N символьных элементов, который неминуемо приводит к эффекту комбинаторного взрыва.
Например, при классификации понятий, словосочетаний и предикатов «картины мира» для их семантического анализа требуется произвести логический вывод на множестве 105 понятий и дефиниций толкового словаря. При этом необходимо выполнить два этапа логического вывода.
На первом этапе для классификации понятий необходимо осуществить не менее N(1) = 105.105 = 1010 обращений к понятиям и дефинициям толкового словаря. На втором этапе при классификации словосочетаний и предикатов требуется не менее N(2) = 1010.105 = 1015 обращений к толковому словарю. Общее число обращений к словарю для классификации понятий и словосочетаний будет равно N = N(1) + N(2)> 1015.
Отметим, что минимально возможное время логической обработки такого количества N = 1015 понятий и их дефиниций для современных компьютеров с быстродействием V = 109 (оп/c) примерно равно T = 106 (с). Это соответствует приблизительно 12 суткам. При построении интеллектуальных систем понимания текста и распознавания речи на базе Интернет классификация словосочетаний и предикатов предметной области должна осуществляться регулярно в реальном времени, соответствующем частоте обновления информации в проиндексированных текстах на сайтах системы. Поэтому для традиционных технологий обработки символьной информации указанная классификация, не реализуемая в реальном масштабе времени, не обеспечивает корректность семантического анализа.
Даже однократный перебор на множестве всех возможных словосочетаний, максимальное число которых N = 1010, требует не менее T = 10(с) времени, что также не соответствует требованиям к быстродействию интеллектуальной поисковой системы.
Таким образом, при логическом выводе на реальных множествах символьных конструкций неструктурированной текстовой информации число переборов увеличивается по экспоненциальному закону. В этом случае возникающий комбинаторный взрыв делает невозможным создание интеллектуальных систем распознавания речи с семантическим анализом текста и пониманием смысла в реальном масштабе времени на основе использования традиционной технологии поиска [2].
При реализации лингвистического анализа текстов, на основе которого реализуется понимание смысла, актуальность задачи «комбинаторного взрыва» также существенно возрастает. Это обусловлено комплексом причин.
1. Многозначные слова имеют различные морфологические индексы. Это обусловлено тем, что разные части речи имеют различные правила словообразования, которые должны учитываться при поиске. Особенно это актуально для агглютинативных языков (английский и др.).
2. Синтаксический анализ предложения базируется на построении и проверки гипотез синтаксического разбора слов в предложении анализируемого текста. Для синтаксического анализа предложений используются множества правил лингвистического анализа. Данные правила объединяются в сложную иерархическую систему групп знаний и логического вывода. Смысловая неоднозначность омонимов приводит к возможности появления нескольких корректных вариантов синтаксического разбора одного и того же предложения. Синтаксический анализ приводит, как правило, к нескольким гипотезам разбора предложения. Для устранения комбинаторного взрыва при использовании традиционных технологий используются вручную формируемые правила группировки лингвистических конструкций и правил лингвистического анализа. Это обеспечивает возможность создания предметно-ориентированных семантических систем, но он не способствует созданию универсальных систем логического вывода, которые обеспечивают необходимую полноту и корректность поиска в любой проблемной области. Реализация корректного синтаксического анализа невозможна без одновременного применения методов семантического анализа, связанного с использованием картины мира, что требует решения проблемы BigData [2, 12].
Указанная проблема решается с помощью стохастической информационной технологии. Сущность новой технологии заключается в стохастическом (случайном) преобразовании символьных конструкций (формульных выражений), правил продукций, элементов семантической сети, слов, словосочетаний, предикатов, названий, предложений, абзацев и других текстовых конструкций в уникальные стохастические индексы (коды заданной длины) [2].
Это обеспечивает взаимооднозначное соответствие между произвольной символьной конструкцией и ее стохастическим индексом. При этом полученные уникальные индексы имеют двойственный характер: с одной стороны, они являются именем указанных символьных конструкций, с другой, - они определяют адрес, по которому необходимо произвести обращение к другим элементам знаний, которые непосредственно логически (семантически) связаны с исходной символьной конструкцией [2].
При этом в процессе формирования индекса с помощью стохастической хэш-функции отображаются имеющиеся между символьными элементами связи типа «часть-целое» или «род-вид». Так, например, при создании индекса словосочетаний используется индекс отдельных слов. Формирование стохастического индекса предиката производится на основе входящих в него индексов словосочетаний и отдельных слов.
Индекс предложения реализуется с использованием стохастических индексов словосочетаний, предикатов, входящих в данное предложение и т.д. При этом, за счет свойств стохастического преобразования, обеспечивается уникальность каждого полученного индекса со сколь угодно малой, заданной вероятностью коллизий [2].
На основе информации о составе каждого индекса (из каких индексов он образован) автоматически формируются новые знания о том, в какие индексы по критерию «часть-целое» и «род-вид» входит каждый элемент. Это позволяет в режиме активизации индексной информации путем реализации функций самообучения и автоматического формирования новых знаний описывать в индексной форме все возможные прямые логические связи исходного элемента с другими элементами на множестве пространства поиска.
В качестве этих элементов могут быть слова, словосочетания, предикаты, предложения, правила продукций и другие формы представления знаний.
Таким образом, после реализации описанного режима самообучения и автоматического получения индексных форм и логических связей над множеством элементов семантической сети или правил продукций формируется уровень метазнаний.
Указанный уровень метазнаний в виде некоего виртуального информационного поля определяет все возможные траектории логического вывода на каждом его шаге, отбирая только семантически связанные символьные конструкции (слова, словосочетания, предикаты, правила продукций и др.) и элементы знаний.
За счет этого устраняется необходимость полного перебора на каждом шаге логического вывода и снимается проблема комбинаторного взрыва. При этом каждая траектория логического вывода содержит в качестве своих элементов только неповторяющиеся символьные конструкции знаний. Повторение символьных конструкций приводит к образованию циклов, что свидетельствует о необходимости корректировки баз знаний с целью устранения указанных повторов [2].
Поэтому при реализации любой траектории логического вывода требуется обработать не более M<<N символьных элементов знаний, представленных уникальными стохастическими индексами. Следовательно, время логического вывода при использовании описанного метода, основанного на стохастической информационной технологии, будет линейно зависеть от числа M логически или семантически связанных символьных конструкций (слов, словосочетаний, предикатов, элементов семантической сети или правил продукций) [2].
Количество M элементов, применяемых в процессе построения любой траектории логического вывода, будет значительно ниже, чем максимальное число N этих элементов в пространстве поиска требуемых символьных конструкций. Например, при описанной выше процедуре классификации понятий и словосочетаний предметной области с использованием толкового словаря, максимальная траектория логического вывода содержит не более M = 103 семантически связанных по критерию «род-вид» символьных элементов словаря. Логический вывод производится в текстовых структурах словаря Ожегова при определении множества всех понятий, относящихся к классу «место». Поэтому при классификации понятий и словосочетаний предметной области текста с использованием стохастической информационной технологии требуется не более N = 105. 103 = 108 обращений к толковому словарю. При этом минимально возможное время логического вывода T = 10-1 (с).
Отметим, что предложенный метод логического вывода на основе стохастической информационной технологии позволяет выбрать минимально допустимую и наиболее вероятную траекторию логического вывода на любом множестве семантически связанных символьных конструкций и построить метаправила для обеспечения обработки знаний в заданное время. Это дает возможность создать на базе существующих компьютеров эффективные интеллектуальные системы, работающие в любом поисковом пространстве без сужения множества возможных гипотез лингвистического анализа и смыслового поиска в реальном масштабе времени. Указанные системы описаны в патентах [3, 4]. Учитывая важность обеспечения эффективного логического вывода на множестве правил продукций при выполнении комплексной обработки текстовой информации с использованием баз знаний рассмотрим более подробно метод лингвистического анализа на основе стохастической информационной технологии.
Автоматическое определение морфологических, синтаксических и семантических характеристик слов
Для реализации процесса полного лингвистического анализа и понимания неструктурированного текста предложен программный комплекс интеллектуальных систем. Этот комплекс включает самообучающуюся аналитическую систему с извлечением знаний из текстов, а также интеллектуальные системы анализа и понимания смысла текстовой информации [3, 4]. В данном разделе рассмотрим концептуальные основы построения самообучающейся аналитической системы, которая предназначена, прежде всего, для лингвистического и прагматического (семиотического) анализа с целью определения смысла неструктурированного текста.
Отметим, что понимание смысла речи проводится на двух уровнях - семантическом и прагматическом [1]. При этом понимание смысла отдельных членов, словосочетаний и предикатов предложения производится на семантическом уровне, понимание смысла предложений, абзацев и других текстовых структур выполняется на прагматическом уровне.
Для этого требуется эффективная интеллектуальная обработка с использованием больших объемов знаний и реализации логического вывода в реальном масштабе времени в режиме BigData. Отметим, что современные интеллектуальные системы не обеспечивают решения указанных задач ввиду эффекта комбинаторного взрыва. Как показано в работе [2], эта задача успешно решается на основе стохастической информационной технологии.
В данном разделе описан порядок построения и применения самообучающихся интеллектуальных аналитических систем с извлечением знаний из текстов для понимания смысла текста. Эти изделия подробно описаны в [3, 4].
Как было отмечено выше, указанные системы создаются на основе стохастической информационной технологии. Цель - построение на базе современного компьютера (машины Тьюринга) нового виртуального компьютера для эффективной лингвистической, семантической и логической обработки текстов.
Выбор тематики аналитических систем определяется содержанием неструктурированной текстовой информации, предоставленной для смыслового анализа. При этом аналитические функции, реализуемые в системе, которые связаны с индуктивным и дедуктивным логическим выводом, аналогией, обобщением, сравнением и др., широко применяются в ходе семантического и прагматического анализа полученного текста. Отметим, что при самообучении системы происходит формирование «картины мира» и системы семантической классификации понятий, словосочетаний и предикатов, входящих в состав картины мира, без которых невозможен полноценный семантический анализ текстов.
Отметим, что данная система обеспечивает возможность извлечения знаний из текстовой информации, которая представляется в виде соответствующих предикатов словосочетаний и правил продукций.
Первым уровнем обработки после выделения данных элементов текста является морфологический анализ. Он производится с использованием специальных морфологических словарей, которые содержат все словоформы данного языка с указанием их морфологических характеристик. На этой основе с использованием знаний экспертов (эвристик) формируется база знаний для выполнения морфологического анализа текстов на каждом из указанных языков. В результате стохастическому индексу каждого слова текста добавляется его лингвистический индекс, в который на данном этапе анализа заносятся его морфологические характеристики.
На втором уровне проводится синтаксический анализ, который реализуется с помощью специальной базы знаний, представленной в виде правил продукций, обеспечивающей синтаксический разбор простых и сложных предложений текста. При этом в лингвистический индекс каждого слова заносятся соответствующие синтаксические коды, определяющие данное слово как член предложения. Отметим, что параллельно с синтаксическим анализом членов предложения должен проводиться их семантический анализ, без которого невозможно определение членов предложения.
Семантический анализ текста начинается с автоматически выполняемой классификации общего словаря и специальных толковых словарей терминов и определений по заданным предметным областям, которые связаны с тематикой данной аналитической системы.
При классификации активно используются аналитические функции индуктивного и дедуктивного анализа связи слов, обрабатываемых в толковых словарях. В результате образуются семантические классификаторы, представленные в виде таблиц. Входом в таблицы являются стохастические индексы основ слов, строки таблицы содержат иерархию подклассов каждого слова и конечный класс, к которому данное слово принадлежит. Поскольку классификатор сделан для всех частей речи словарей, он позволяет определять типы, а также подклассы и классы объектов и субъектов предметной области, включая связи между ними.
С помощью классификатора формируются правила продукций для реализации параллельно синтаксического и семантического анализа текста, которые записываются в специальную базу знаний. После проведения пословного синтаксико-семантического анализа лингвистический индекс каждого слова дополняется его синтаксическими и семантическими характеристиками. В результате этого завершается процедура лингвистического анализа текста, после которого каждое слово каждого предложения будет представлено двумя стохастическими индексами: уникальным стохастическим индексом - идентификатором и лингвистическим индексом данного слова, содержащего все его морфологические, синтаксические и семантические характеристики, необходимые для дальнейшей индексации и разбора.
После этого переходят к автоматическому построению таблицы индексов данного текста в составе локальных, корпоративных баз данных или сайтов Интернет. Левый столбец таблицы содержит индексы неповторяющихся основ слов, входящих в текстовые документы по данной тематике, а строки содержат лингвистический индекс и адресную часть в виде совокупности индексов названия текстовых документов, индекса абзаца, предложения и предиката, в котором содержится данный индекс слова. Таблицы индексов текста используются при первичном поиске ответов или необходимых предложений текста с применением ключевых слов. Поиск по ключевым словам является основой для реализации второго уровня поиска с использованием семантики, извлечения знаний из текстов и аналитики.
Затем переходят к формированию концептуального описания предметной области текстов на основе выделенных в стохастической форме предикатов. Концептуальное описание представляется также в виде таблицы. Левый столбец содержит стохастические индексы всех неповторяющихся словосочетаний и предикатов индексируемого текста, строки включают индексы типов объектов и отношений между ними, а также (с использованием классификаторов) соответствующие им классы. Кроме этого, в состав таблицы также входит адресная часть, включающая индексы текста, абзаца и предложения, куда входят предикаты, которые содержат указанные классы объектов и отношений между ними. Это позволяет, используя классификатор и концептуальное описание предметной области, производить более точный повторный поиск необходимой информации после выполнения поиска по ключевым словам с тем, чтобы более полно и точно находить необходимые ответы или предложения, используя близкие по смыслу слова, словосочетания и предикаты, активно применяя семантический анализ текста.
На основе сформированного концептуального описания предметной области текста, а также используя формализованное описание функций определения, обобщения, сравнения, выбора, аналогии, дедукции и индукции, анализа и синтеза автоматически формируются правила продукций, содержащие необходимые типы и классы логически связанных предикатов предметной области текста. На основе этих функций могут формироваться деревья логического вывода, содержащие комбинации исходных логических функций, которые требуются пользователю системы для получения результата аналитического анализа с целью формирования обобщенных семантических характеристик словосочетаний, предикатов и сформированных из них предложений текста. Отметим, что предикаты, формируемые после выполненного лингвистического анализа, будут использоваться для эволюционного развития описания предметной области - «картины мира». Это обусловлено тем, что непосредственно к декларативной составляющей текстовых баз добавляются новые знания, извлекаемые из текста с помощью базовых аналитических функций и их заданных комбинаций. За счет комбинаций базовых функций исходная аналитическая система может автоматически настраиваться на заданную предметную область и эффективно использоваться в той области, к которой относится вводимая информация: например, управление, социальное обеспечение, финансирование, образование, культура, спорт и другие.
Для извлечения знаний из больших объемов неструктурированных текстов различных типов (диссертации, монографии, учебно-методическая, справочно-энциклопедическая литература и др.), аналитическая система может работать в автоматическом вопросно-ответном режиме. Здесь могут применяться разные варианты работы, например, осуществление точного семантического поиска, если информация непосредственно содержится в тексте и может быть выдана по запросу.
В более сложных случаях автоматически реализуются аналитические функции, которые после предварительной обработки информации с использованием процедур логического вывода, эквивалентных преобразований дают ответы на поставленные вопросы. Доказано [9], что если в системе может быть синтезирован алгоритм, который выдает ответ на поставленный вопрос с применением индексированной текстовой базы, то может быть создан аналитический алгоритм с использованием комбинаций разных функций, который обеспечит представление пользователю заданной информации.
В результате повышается эффективность формирования «картины мира» и обеспечивается полнота представленных понятий и связей между ними. На основе полученных предикатов, входящих в картину мира, автоматически формируются правила продукций по различным проблемным областям. В этом случае между предикатами семантической сети, которые отображают картину мира, выделяются семантические связи типа «условие-заключение», «причины-следствия», цели, определения и другие.
Как известно, правила продукций представляют собой символьную конструкцию вида «если (условие), то (заключение)». При этом условия содержат совокупность предикатов, объединенных логическими связками «и», а заключение содержит предикат, который выполняется, если все предикаты, входящие в условие, являются истинными для какой-то конкретной ситуации, соответствующей исследуемым объектам или процессам в определенной области знаний. Все полученные правила автоматически проверяются на их смысловую корректность. После стохастической индексации записываются в базы знаний.
Как было отмечено выше, представление словосочетаний, предикатов картины мира и правил продукций в стохастически индексированном виде дает возможность использовать эффективные алгоритмы логического вывода, а также (с помощью стохастической информационной технологии) исключить проблему комбинаторного взрыва. Без решения этой проблемы построение описанной выше системы лингвистического анализа текста и понимания смысла в принципе невозможно.
Методы понимания неструктурированной текстовой информации на основе полного лингвистического анализа
Как было показано выше, обработка текстов и знаний, входящих в картину мира, связана с решением проблемы BigData. Поэтому понимание смысла является важнейшей нерешенной задачей при создании автоматических (способных функционировать без участия человека) систем ввода и обработки текстовой, а также и сенсорной информации.
Отметим, что под пониманием смысла поступающих знаний и сенсорной информации подразумевается способность их интерпретации (представления) с использованием иных терминов той же самой знаковой системы или какой-либо другой (прежде всего языковой)[1].
Так, например, понимание смысла некоторого высказывания эквивалентно его переформулировке с использованием других терминов (иных слов) с полным сохранением смысла.
Создание полноценных систем понимания смысла текстов, речи и изображений невозможно без реализации функции автоматического самообучения при извлечении знаний из информационных сообщений и требует обеспечения возможности формирования нового знания, а также органичного (автоматического) дополнения этим знанием соответствующей опорной базы [2 - 6].
Представленные в предыдущем разделе методы полного лингвистического анализа, включая морфологический, синтаксический и семантический его уровни, обеспечивают получение смысла отдельных элементов предложений (словосочетаний и предикатов). Для перехода к анализу смысла предложений в целом, а также отдельных фрагментов текста, как указано в работе [1], его необходимо выполнять на прагматическом уровне (переход в область семиотики). В данном разделе предложен метод понимания смысла на прагматическом уровне с использованием описанной выше системы извлечения знаний из текстов и их логической обработки. Данный метод непосредственно связан с реферированием текстов.
Как известно, реферирование - это процесс анализа и переработки текста, выделения основных элементов его содержания с последующим изложением в устной форме (синтез речи) или в письменной форме (текстовое сообщение) [1]. В качестве подобных элементов будем рассматривать знания, выделенные из текста после его полного лингвистического анализа. Прежде отношения типа «род-вид», «часть-целое», «причина-следствие», «условие-заключение» и др. Далее используются аналитические функции определения, обобщения, сравнения, выбора, аналогии, дедукции и индукции, анализа и синтеза [2, 12]. В результате будут автоматически сформированы знания в виде правил продукций, элементов семантических сетей «картины мира», содержащие необходимые типы и классы предикатов предметной области текста. На основе этих знаний могут формироваться деревья логического вывода, включающие заданные комбинации исходных логических функций. Таким образом, производится первый этап реферирования текста на базе выделения из него существенно значимых элементов в виде знаний. Эти знания занимают значительно меньший объем, чем исходный реферируемый текст. Они позволяют получить его содержание в виде семантически связанных деревьев логического вывода [2, 12].
Следовательно, одной из основных проблем, возникающих при понимании смысла и реферировании, является извлечение знаний из текста, представление его в виде правил продукций и определение возможных траекторий логического вывода на множестве правил продукций. В существующих системах неструктурированного текста это связано с проблемой BigData, которая не подвластна современным информационным технологиям. Вместе с тем, как было доказано в работах [2 - 4, 11], эта проблема успешно решается с помощью стохастики.
Метод понимания и реферирования текста на основе извлечения и обработки знаний
Для решения данной проблемы в [2] предложен метод определения возможных траекторий, поиска целей и предварительного выбора пути логического вывода, основанный на построении сети правил продукций и оперативного режима их обработки с использованием стохастических индексов и кодов. За счет применения стохастической информационной технологии, как будет доказано ниже, проблема комбинаторного взрыва полностью снимается, поскольку время логического вывода будет линейно зависеть от числа правил продукций, непосредственно задействованных в обработке. Отметим, что наполнения базы знаний правилами продукций может производиться в автоматическом режиме с использованием самообучающихся интеллектуальных систем извлечения знаний из текста, описанных в работах [3, 4].
Для реализации указанной возможности эффективной обработки знаний, извлекаемых из текста при его реферировании, каждое правило продукций подвергается стохастическому преобразованию и имеет следующий вид.
В процессе обработки терминального предиката, по индексу производится доступ к соответствующему фрейму или реляционному отношению опорной базы знаний. При этом истинность или ложность предиката устанавливается путем сравнения кодов атомарной формулы, определяемой индексом с кодом фрейма или реляционного отношения. Сравнение индексов и кодов осуществляется с использованием стохастического процессора, обеспечивающего выполнение логических и арифметических функций со стохастическими индексами и кодами без их расшифровки [9]. Реализация процедур обработки терминальных предикатов путем произвольного доступа по стохастическим индексам к соответствующим фреймам и реляционным отношениям, а также выполнение функций сравнения стохастических индексов и кодов в стохастическом процессоре обеспечивает высокую эффективность обработки терминальных предикатов. Это относится и к обработке словосочетаний и предикатов данной предметной области. Указанные параметры и значения после стохастической индексации записываются в соответствующие фреймы базы знаний.
Проблема устранения комбинаторного взрыва решается, как было отмечено выше, на основе автоматического формирования метазнаний системы логического вывода в режиме самообучения. Здесь применяются агрегативные свойств стохастических индексов. В данном случае стохастический индекс каждого правила продукций вычисляется путем сложения по mod 2 индексов всех m предикатов каждого правила.
Таким образом, стохастический индекс правила связан со стохастическими индексами составляющих его предикатов как «целое-часть». На этой основе, для построения сети правил продукций системы логического вывода, автоматически формируются метазнания - специальные сетевые фреймы, в которые включаются стохастические индексы правил, имеющих идентичные предикаты в условии или заключении.
Указанные сетевые фреймы формируются для каждого правила базы знаний. При этом индексы правил, имеющих предикат в условии или заключении, семантически идентичный предикату, будут включены в один и тот же сетевой фрейм. Это обусловлено тем, что доступ к сетевым фреймам осуществляется по индексам предикатов. Поэтому все индексы правил, относящиеся к одному и тому же предикату, будут содержаться в одном и том же сетевом фрейме. Объединенные логическими связками ИЛИ они определяют альтернативные направления логического вывода.
Образованная сетевая структура позволяет реализовать прямую и обратную последовательности логического вывода, используя только связанные друг с другом семантически идентичными предикатами правила продукций. Тем самым исключается необходимость перебора на всем множестве правил продукций при выполнении каждого очередного цикла логического вывода. В результате исключается главная причина комбинаторного взрыва. При этом за счет использования сетевых фреймов при построении траектории логического вывода каждое правило обрабатывается не более одного раза. При реализации любой возможной траектории логического вывода на множестве правил продукций может быть задействовано не более общего числа M<<N правил продукций в базе знаний. Поэтому время логического вывода с использованием предложенного метода на основе стохастической информационной технологии будет линейно зависеть от числа правил продукций, непосредственно входящих в траекторию логического вывода в базе знаний.
Покажем, что применение сетевых правил продукций позволяет формировать с помощью логического вывода текстовые сообщения, эквивалентные полученному исходному текстовому сообщению для понимания его смысла. Все эти сообщения соответствуют тексту, полученному в процессе распознавания смысла с использованием семантического классификатора. Например, для исходного текстового сообщения «футболист бежит по полю» и полученного обобщения с использованием семантической классификации картины мира «человек перемещается в пространстве» с помощью логического вывода может быть получено определенное число эквивалентных сообщений. Таким образом, описанная стохастическая система на основе логического вывода полностью реализует функцию понимания смысла информации в контексте определения [1].
Для эффективной реализации логического вывода в работе [2] предложен оперативный режим генерации дерева траекторий логического вывода. Он основан на применении процедур доступа по стохастическим индексам к сетевым фреймам и фреймам правил с отложенной обработкой терминальных предикатов (высказываний), требующих обращения к внешней памяти.
При реализации этого режима после выбора целевого правила, описывающего, например, обобщенное текстовое сообщение на каждом последующем уровне j дерева траекторий из сетевых фреймов образуется логическое выражение, включающее индексы правил, заключения которых связаны идентичными предикатами с условиями правил (j-1)-го уровня. Каждому правилу (j-1)-го уровня в общем случае может соответствовать набор сетевых фреймов, содержащих индексы правил, заключения которых связаны с условием правила. При формировании логического выражения уровня индексы правил внутри сетевых фреймов, объединенные логическими связками ИЛИ, заключаются в скобки. Сетевые фреймы, относящиеся к одному правилу (j)-го уровня, закрываются дополнительными скобками. В результате будет сформировано логическое выражение вида.
Как показано в работе [2], применение режима оперативной генерации траекторий логического вывода с помощью сетевых фреймов дает возможность формирования исходного текстового сообщения и его возможных текстовых эквивалентов в виде полученных составных продукций, обеспечивающих достижение цели логического вывода. Проверка истинности полученных эквивалентов и выбор из них предложений, соответствующих моделируемой ситуации, производится в процессе обработки их терминальных предикатов. При этом, поскольку выделенные цепочки правил продукций содержат только основные элементы содержания исходного текста, то одновременно в процессе логического вывода осуществляется и автоматическое реферирование исходного текста. В представленном ниже примере данный процесс будет подробно проанализирован.
Рассмотрим порядок реализации логического вывода и построения необходимых цепочек правил продукций с использованием базы знаний. В результате описанного выше алгоритма логического вывода с использованием сетевых правил образуется некоторое дерево логического вывода (Рис. 1). Допустим, что указанное дерево содержит три уровня логически связанных через сетевые фреймы правил продукций -. После генерации логического выражения на каждом уровне можем получить следующий результат.
Сформированное логическое выражение поступает в дальнейшую обработку для определения истинности предиката заключения целевого правила продукций.
Покажем, что применение режима оперативной генерации траекторий логического вывода с помощью сетевых фреймов, позволяет предварительно сформировать все необходимые цепочки логического вывода и определить исходное текстовое сообщение и все его семантические эквиваленты. При этом под исходным сообщением будем понимать одну из возможных траекторий (цепочек правил), обеспечивающую достижение цели логического вывода и содержащую терминальные предикаты, соответствующие предикатам полученного при распознавании текста сообщения.
Для этого используем понятие составной продукции[7], которая представляет собой совокупность всех терминальных предикатов цепочки правил продукций дерева траекторий логического вывода, объединенных логическими связками и обеспечивающих независимое определение истинности или ложности целевого предиката.
Рис. 1 Дерево логического вывода
Легко видеть, что совокупность составных продукций может быть получена из выражения (4), сформированного в результате оперативной генерации дерева траекторий логического вывода после раскрытия скобок.
Сравнивая терминальные предикаты в каждой из составных продукций Psi, мы можем выделить составную продукцию с терминальными предикатами исходного текстового сообщения. Например, будем считать, что продукция Ps4 соответствует этому условию.
Выделение из текста знаний в виде правил продукций как основных содержательных элементов, и представление их как цепочек дерева логического вывода реализует, по существу, первый уровень реферирования заданного текста. При этом получение составных продукций позволяет представить содержание реферируемого текста в более обобщенном виде.
Таким образом, реализация логического вывода "вширь" с использованием режима оперативной генерации выражения (4) позволяет сформировать реферат исходного текстового сообщения. Остальные составные продукций {Ps2i}могут быть выделены в качестве семантических эквивалентов данного реферата после обработки терминальных предикатов базы знаний, требующих обращения к внешней памяти. Следовательно, изложенный метод, разработанный на основе метода логического вывода [2], обеспечивает понимание смысла текстовых сообщений с использованием картины мира, системы семантической классификации и базы знаний. Одновременно логическая обработка автоматически извлекаемых из текста правил продукций позволяет реализовать автоматическое реферирование исходного текста. Этот процесс более подробно можно изучить на основе представленного ниже примера.
Пример реферирования текстового сообщения на основе логического вывода
Рассмотрим пример реферирования отрывка текста из викторины «Города и реки России»: «В речном заливе было много яхт под парусами. По-видимому, здесь проходила парусная регата. Это свидетельствовало о том, что в городе развит парусный спорт. По мере движения к центру выясняется, что в городе есть речные вокзалы и мосты, которые разводятся. Из этого следует, что через город по реке проходят крупные суда. Поскольку в городе развит парусный спорт и через город проходят крупные суда, то, очевидно, что город стоит на крупной реке. Из путеводителя следует, что в городе проживает несколько миллионов человек. Следовательно, река протекает через крупный город. Из сказанного можно сделать вывод, что крупный город стоит на крупной реке и этот город (ответ) - Санкт-Петербург, а протекающая через город река, - Нева».
После извлечения знаний из данного фрагмента текста в соответствии с описанным выше методом (при этом используется картина мира, система семантической классификации) получим следующий набор правил, описывающих возможные варианты реферирования данного текста.
Состав выделенных из текста знаний в виде правил продукций:
1. Если через город протекает крупная река,
и город расположен на крупной реке,
и в городе большое население,
то крупный город стоит на большой реке.
2. Если в городе есть речное сообщение,
и в городе есть мосты, соединяющие части города,
то через город протекает большая река.
3. Если в городе есть мосты,
и эти мосты разводные,
то через город протекает большая река.
4. Если река делит город на несколько частей,
то город расположен на реке.
5. Если в городе развит речной спортивный флот,
и через город проходят большие суда,
то город расположен на крупной реке.
6. Если в городе есть причалы и речные трамвайчики,
то в городе есть речное сообщение.
7. Если в городе есть речные вокзалы,
и мосты в городе разводятся,
то через город проходят крупные суда.
8. Если в городе развит парусный спорт и проводятся регаты,
то в городе развит речной спортивный флот.
На основе данного множества правил продукций, используя описанный выше метод, получим четыре составные продукции следующего содержания:
1. Если в городе есть причалы и речные трамвайчики,
а также мосты, которые разводятся,
и город имеет большое население,
то крупный город стоит на большой реке.
2. Если в городе есть мосты,
и эти мосты разводные,
и город расположен на крупной реке,
и в городе большое население,
то крупный город стоит на большой реке.
3. Если река делит город на несколько частей,
и город расположен на большой реке,
и в городе большое население,
то крупный город стоит на большой реке.
4. Если в городе есть речные вокзалы,
и мосты в городе разводятся,
и в городе развит парусный спорт и проводятся регаты,
и город расположен на крупной реке,
и в городе большое население
то крупный город стоит на большой реке.
Отметим, что четвертая составная продукция соответствует исходному текстовому сообщению. Остальные составные продукции являются возможными эквивалентами исходного сообщения. Для проверки этой гипотезы необходимо провести, как было указано выше, обработку их терминальных предикатов с использованием базы знаний. При этом составные продукции, содержащие только истинные терминальные предикаты, являются семантическими эквивалентами исходного текста в процессе реферирования.
Таким образом, данный метод реализует функцию реферирования на основе извлечения знаний из текста, что позволяет перейти к автоматическому семантическому реферированию неструктурированного текста с использованием метазнаний.
Метод реферирования текста на основе формирования функциональных метазнаний
Для реализации функций реферирования текста на больших пространствах поиска правил продукций и картины мира в систему вводится дополнительный уровень функциональных метазнаний, содержащий метаправила и метафакты. Метаправила образуются автоматически, путем агрегации фрагментов сетевой структуры правил продукции, ограниченных сетевыми фреймами, определяющими альтернативные направления логического вывода, или терминальными предикатами.
При синтезе метаправил от каждого целевого правила или от правила, заключение которого связано с сетевым фреймом, определяющим альтернативные направления вывода, производится генерация составных продукций, имеющих в качестве заключения предикат правила.
За счет введения метаправил-агрегатов и соответствующих сетевых фреймов сеть правил продукций заменяется сетью метаправил. Создание уровня метаправил-агрегатов позволяет перейти к формированию метафактов, являющихся результатами обработки терминальных предикатов каждого метаправила с использованием фактуальных знаний, которые в соответствии с концептуальным описанием базы знаний относятся к данному метаправилу. С этой целью, для каждого высказывания, сформированного из предиката заключения метаправила производится генерация дерева логического вывода в рамках данного фрагмента метаправила и обработка составных продукций с использованием фактуальных знаний. В результате, фрейм метафактов каждого метаправила будет содержать значения составных продукции для каждого конкретного высказывания, образованного из предиката заключения данного метаправила.
Введение уровня метаправил и метафактов позволяет создавать логические структуры, предназначенные для семантического реферирования неструктурированного текста и гипотез распознаваемых сообщений для разговорной русской речи [2, 11, 12].
В соответствии с этим каждая составная продукция характеризуется выбором семантически значимых элементов текста, которые необходимы для краткого его изложения. Таким образом, мы переходим на уровень семиотического анализа текста, где в качестве значимых элементов используются типовые состояния, ситуации, действия в разных проблемных областях и другие типовые семантические структуры. Логический вывод на уровне метаправил обеспечивает принципиально новые возможности автоматического реферирования объемных текстов.
Важным свойством предлагаемого метода автоматического реферирования текста является возможность «усиления» функции обобщения за счет использования дополнительных семиотических структур. Это происходит, когда первоначально выбранное метаправило не позволяет достаточно полно изложить основную сущность текстовых сообщений, полученных после обработки текста или распознавания речи. В этом случае образуется фрагмент сети, включающий несколько метаправил. Они связаны с одним и тем же целевым предикатом, который определяет семантическое обобщение данного фрагмента текста.
Все составные продукции, входящие в эти метаправила, являются независимыми друг от друга и могут использовать различные семантические элементы или методы для изложения сущности поступившего сообщения. В общем случае дополнительные продукции могут включать эквивалентные преобразования исходного текста.
На Рис. 2 представлен пример образования метаправил на основе сетевой структуры правил продукций. При этом на Рис. 2а показана сформированная сетевая структура, полученная в процессе реферирования текстового сообщения, а на Рис. 2б - результат агрегации данной структуры в виде метаправил, включающих терминальные и целевые предикаты, отображающие содержание полученного реферата.
Отметим также, что возможность реализации логического вывода на метауровне с использованием метаправил и метафактов позволяет существенно повысить оперативность обработки знаний и данных за счет значительного сокращения числа обращений к внешней памяти при выполнении процедур сопоставления с образцом.
Рис. 2. Синтез метаправил:
а - сетевая структура, включающая фрагменты метаправил (I-VII);
б - структура сети метаправил-агрегатов
Если, например, в каждое метаправило в среднем входит N(p) правил продукций, содержащих N(pp) терминальных предикатов, то скорость обработки информации повысится в N(p)N(pp) раз по сравнению с реализацией логического вывода на уровне сети правил продукций. При этом сетевая структура правил продукций применяется для обеспечения доступа к соответствующим метаправилам и их последующей интерпретации. В работе [2] показано, что поскольку N(pp) ? 2, то, с учетом значения N(p) і 5 получаем N(p)N(pp) і 10.
Если после введения уровня метаправил полученное текстовое сообщение не является достаточно кратким и не может быть обработано в заданное время Toj і--Tз, то может быть введен дополнительный (второй) уровень метаправил. В результате агрегации может быть образована сеть метаправил и множество метафактов второго уровня.
Важным свойством образованной двухуровневой сетевой структуры подсистемы логического вывода является возможность ее автоматического оперативного реструктурирования за счет модификации сетевых фреймов при вводе новых или исключении правил продукций и метаправил. Это обеспечивает универсальность предложенных методов автоматического реферирования текстов для любой предметной области, включая тексты больших объемов в режиме BigData. Представленный ниже пример иллюстрирует процесс автоматического реферирования текстов с использованием метазнаний.
Рассмотрим пример реферирования текста, полученного в процессе распознавания речи комментатора футбольного матча.
Содержание фрагмента:
1. За десять минут до окончания матча тренер нашей сборной произвел замену двух нападающих на защитника и полузащитника. После этого вся команда, за исключением центрального нападающего переместилась на свою половину поля и организовала две линии защиты, перекрыв все подходы к своим воротам. Таким образом, сборная перешла к явно выраженной обороне своих ворот.
Поскольку счет в данном матче был «ничейный» (1:1), а в предыдущем матче отборочного тура сборная одержала победу, то полученный результат обеспечивал выход сборной в следующий тур соревнований. Если матч закончится с указанным «ничейным» счетом, то, по мнению тренера, стоит поберечь силы команды для успешной игры в следующем туре соревнований.
В результате применения методов логического вывода с использованием знаний, извлеченных из данного речевого сообщения после его распознавания, и сформированных метаправил может быть автоматически получен следующий реферат данного текста:
2. В конце матча наша сборная перешла к обороне. «Ничейный» результат матча позволял команде выйти в следующий тур отборочных соревнований. Тренер поберёг силы команды.
Полученный реферат сформирован автоматически, содержит основные положения исходного текста репортажа и обеспечивает четырехкратное сокращение объема текста.
Таким образом, на основе стохастики обеспечиваются функции понимания смысла и извлечения знаний из текста как основы для автоматического реферирования текстовой информации в различных проблемных областях. Это позволяет достичь универсальности разработанного метода автоматического реферирования, что обеспечивает мировой уровень новизны предложенных методических и технологических решений. Как следует из описания процесса реализации указанных функций, он может быть осуществлен с использованием квантового компьютера с интеллектом, представленного в разделе 4. Сделанный вывод открывает принципиально новые перспективы в развитии информатики и индустрии знаний в 21 веке.
Литература
1. Потапов А.С. Распознавание образов и машинное восприятие. Спб.: Политехника, 2007. - 548с.
2. Насыпный В.В. Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта. М.: Воениздат, 1994. - 248с.
3. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем. Патент РФ №2273879, номер международной заявки РСT/RU02/00258, дата подачи 28 мая 2002.
4. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся аналитической вопросно-ответной системы с извлечением знаний из текстов, заявка на патент №2007120344/09 от 06.08.2007. Получено решение на выдачу патента на изобретение от 21.07.2008.
5. Современный русский язык: Учеб.дляфилол. спец. высших учебных заведений. Под редакцией В.А. Белошапковой. М.: Азбуковник, 1999. - 928с.
6. Насыпный В.В., Насыпная Г.А. Система распознавания, понимания смысла, анимационного моделирования и синтеза речи на основе стохастической информационной технологии. М.: Прометей, 2008. - 76 с.
7. Искусственный интеллект. Справочник. Кн. 2. Модели и методы. Под ред. Поспелова Д.А. М.: Радио и связь, 1990. - 303 с.
8. Halsall F. Data communications computer networks and osi. Addison-wesley publishing company, 1988. - 973 c.
9. Насыпный В.В. Способ комплексной защиты распределенной обработки информации в компьютерных системах и система для осуществления способа. Патент РФ №2259639, номер международной заявки РСT/RU /00272, дата подачи 28.10.2003г.
10. Насыпный В.В., Насыпная Г.А. Метод семантической связи текста с трехмерной графикой. - М.: Прометей, 2007. - 27 с.
11. Насыпный В.В. Распознавание и понимание смысла речи в шумах на основе стохастики. - М.: МПГУ, Прометей, 2012. - 129 с.
Подобные документы
Простое вычислительное устройство машина Тьюринга и ее алгоритмические свойства. Тезис Черча–Тьюринга и моделирование машины Тьюринга (операции перезаписи ячеек, сравнения и перехода к другой соседней ячейке с учетом изменения состояния машины).
контрольная работа [23,3 K], добавлен 24.04.2009Этапы развития информационной системы и происходящие в ней процессы. Виды, инструментарий, составляющие информационных технологий. Производство информации для ее анализа человеком и принятия на его основе решения как цель информационной технологии.
контрольная работа [2,7 M], добавлен 18.12.2009Понятие информационных технологий, этапы их развития, составляющие и основные виды. Особенности информационных технологий обработки данных и экспертных систем. Методология использования информационной технологии. Преимущества компьютерных технологий.
курсовая работа [46,4 K], добавлен 16.09.2011Информационные технологии: понятие, история развития, классификация и структура. Направления развития информационных систем в маркетинге, внедрение и роль персональных компьютеров. Службы интернета и степень его влияния на деятельность организаций.
курсовая работа [819,7 K], добавлен 09.06.2010Рассмотрение способов оценки скорости обработки транзакций, графических возможностей, производительности суперкомпьютеров и конфигураций Web. Описание структуры и содержания электронного учебника "Методы организации сложных экспертиз компьютерных систем".
курсовая работа [1,3 M], добавлен 21.11.2010Представление информации в нужной форме. Постепенное смещение акцента на формирование содержательности информации. Инструментарий "компьютерной" технологии. Широкое использование телекоммуникационной связи и современных локальных компьютерных сетей.
презентация [55,6 K], добавлен 21.05.2015Классификации архитектур вычислительных систем. Организация компьютерных систем. Устройство центрального процессора. Принципы разработки современных компьютеров. Эволюция микропроцессорных систем. Увеличение числа и состава функциональных устройств.
дипломная работа [1,4 M], добавлен 29.01.2009Содержание информатики как научного направления, ее основные уровни. Понятие, задачи и свойства информационной технологии. Технологический процесс извлечения, обработки и транспортировки информации. Понятие компьютерных и локальных вычислительных сетей.
презентация [5,8 M], добавлен 25.06.2013Ознакомление с основными этапами развития информационных технологий; определение их сущности и видов. Рассмотрение современных информационно-телекоммуникационных технологий, используемых в домашней среде; проведение анализа их достоинств и недостатков.
курсовая работа [1,0 M], добавлен 04.09.2011Файловая модель. Виды современных информационных технологий. Информационная технология обработки данных. Информационная технология управления. Информационные технологии экспертных систем. Интерфейс пользователя. Интерпретатор. Модуль создания системы.
контрольная работа [255,1 K], добавлен 30.08.2007