Семантический словарь системы информационного мониторинга и элементы формализации его статей

Анализ лингвистического проблемно-ориентированного ресурса системы информационного мониторинга на примере макета семантического словаря информационно-технологической системы мониторинга. Исследование связи семантического словаря с видами обеспечения.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 19.01.2018
Размер файла 489,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Учреждение Российской академии наук Институт проблем информатики РАН (ИПИ РАН)

Семантический словарь системы информационного мониторинга и элементы формализации его статей

О. С. Кожунова (okozhunova@ipiran.ru)

Москва

Аннотация

В работе описывается лингвистический проблемно-ориентированный ресурс системы информационного мониторинга на примере макета семантического словаря информационно-технологической системы мониторинга РАН (ИТСМ РАН).

Введение

Сегодня для успешного функционирования больших систем необходимо гибкое и адаптивное лингвистическое обеспечение. В связи с этим привлекается большое количество лингвистических ресурсов и инструментов, используемых в сфере информационных технологий. Среди таких ресурсов в качестве наиболее продуктивных зарекомендовали себя средства поиска и представления информации, таксономии, классификации, компьютерные лексиконы, лексические базы данных, тезаурусы, базы знаний, концептуальные схемы, онтологии, семантические сети [Arano, 2005].

Среди наиболее востребованных ресурсов лидируют такие средства представления знаний как онтологии и тезаурусы. Это во многом обусловлено стремлением разработчиков систем максимально приблизить описания фрагментов областей знаний к естественно-языковым реалиям с их многообразием иерархии концептов, отношений и отсылок к другим источникам информации. В частности, онтологии могут применяться для спецификации имен и значений терминов, а в тезаурусах акцент смещен в сторону семантической составляющей и связей между понятиями [Arano, 2005]. Примерами известных общедоступных онтологий могут служить OPENCYC, SUMO, DOLCE, SOWA'S ONTOLOGY, WordNet, и т.д.[Zatsman et al., 2008].

В работе описывается один из вариантов реализации проблемно-ориентированного лингвистического ресурса предметной области в системе информационного мониторинга на примере разрабатываемой в Институте проблем информатики РАН информационно-технологической системы мониторинга РАН (ИТСМ РАН) и интегрированного в нее макета семантического словаря.

1. Семантический словарь системы информационного мониторинга

Как правило, традиционные семантические словари и тезаурусы позволяют получить информацию о терминах, являющихся дескрипторами словарей, их дефинициях и примерах использования. Однако для решения задач мониторинга, анализа и оценки кроме таких сведений пользователю системы мониторинга необходимо иметь дополнительную информацию об алгоритмах вычисления индикаторов Индикаторы - количественные оценки, вычисляемые на основе информационных ресурсов системы мониторинга., а также основных терминов области [Зацман, 2005].

Для обеспечения согласованного понимания и использования индикаторов в процессе информационного мониторинга был разработан проблемно-ориентированный семантический словарь, который включает названия показателей следующих четырех категорий [Зацман, 2005]:

индикаторы результатов, эффективности и результативности программ и проектов научных исследований [Зацман, 2005],

критерии принятия решений в процессе организации и финансирования программ и проектов,

нормативно заданные экономические, финансовые и другие параметры финансирования и управления программами и проектами,

экспертные оценки результатов, эффективности и результативности программ и проектов.

Кроме того, разработка такого словаря была мотивирована тем, что традиционные словари и другие лингвистические ресурсы не обладают той степенью эпистемологичности, которая необходима для отображения особенностей области мониторинга и классификации ее разнородных терминов. Поэтому было принято решение сформировать структуру словаря на основе схемы классификации, полученной в результате анализа Приказа № 68 и других нормативных документов области мониторинга, а также категоризации ее терминов - показателей [Приказ, 2006]. Разные категории показателей могут быть связаны между собой родовидовыми и функциональными тезаурусными отношениями.

При использовании классификационного метода в процессе разработки семантического словаря (как средства уточнения смысла индикаторов результатов научной деятельности) автором были рассмотрены и учтены следующие гипотезы и базовые положения [Зацман, 2008], [Кожунова, 2006]:

1. нормативные документы редко содержат явные определения индикаторов и других показателей;

2. иногда значения индикаторов с одинаковыми названиями определены по-разному в различных публикациях;

3. иногда индикаторы научной деятельности неодинаково интерпретируются лицами, принимающими решения, менеджерами, экспертами, специалистами по оценке, лингвистами и IT-специалистами;

4. существуют индикаторы, зависящие от нескольких параметров, изменение которых изменяет их численные значения (например, значения индексов цитирования зависят от глубины ретроспективы используемого массива научных статей). Кроме того, индикаторы могут зависеть от выбора варианта используемого алгоритма вычисления, что может изменить их смысл;

5. численные значения индикаторов могут зависеть от числа записей в используемых нормативных файлах и содержания этих записей (например, значения индексов цитирования зависят от списка используемых журналов).

Вышеперечисленные аспекты нашли применение при разработке автором процедуры уточнения смысла индикаторов, которая была проведена в два этапа.

На первом этапе осуществляется встраивание каждого предлагаемого к использованию индикатора в классификационную схему, полученную в результате категоризации показателей. Размещение в схеме позволяет согласовывать предварительное понимание значения индикатора, которое можно извлечь из этой схемы.

На втором этапе происходит уточнение смысла индикаторов посредством формирования и использования словарных статей, имеющих связи с нормативными, информационными и алгоритмическими компонентами системы мониторинга [Кожунова, 2006], [Кожунова, 2007].

Разработанная итеративная процедура согласования смысла индикаторов одновременно использует несколько компонентов ИТСМ РАН (рис.1) [Кожунова, 2008], [Кожунова, 2009]:

нормативный компонент системы;

семантический словарь с названиями и определениями видов индикаторов, критериев, параметров и экспертных оценок;

информационные ресурсы ИТСМ РАН и их структурные схемы (информационный компонент системы);

библиотеку алгоритмов и программ ИТСМ РАН (алгоритмический компонент системы).

Рис. 1. Связи семантического словаря с видами обеспечения ИТСМ РАН

Конструктивная новизна разработанного макета семантического словаря состоит в том, что он позволяет не только решать проблемы компьютерной лингвистики, свойственные данной предметной области (например, согласование понимания смысла индикаторов и частная референция [Кожунова, 2007]), но и наглядно демонстрирует один из методов проектирования и реализации лингвистического обеспечения для новой предметной области. Словарь содержит ссылки на информационные и алгоритмические ресурсы, а также на нормативные документы как источники терминов предметной области. Инструмент с таким сочетанием функций для области информационного мониторинга предложен впервые [Кожунова, 2007], [Кожунова, 2008], [Кожунова, 2009].

2. Параметризуемые статьи семантического словаря

Словарная статья разработанного семантического словаря имеет параметрический характер, поскольку содержит несколько параметров поиска и обработки найденных информационных полей, сочетание которых является запросом для вычисления значений индикаторов. Такая характеристика словарной статьи является одним из аспектов функциональности и позволяет частично относить семантический словарь ИТСМ РАН к формальным онтологиям. Программы вычисления всех вариантов хранятся в библиотеке ИТСМ РАН и могут быть использованы в задачах вычисления значений индикаторов [Кожунова, 2009].

Рассмотрим аспекты разработки семантического словаря ИТСМ РАН в ракурсе элементов формализации его статей. Словарь является частью системы информационного мониторинга, спроектированной и реализованной совместными усилиями сотрудников ИПИ РАН и ЦЭМИ РАН [Zatsman et al., 2008], [Кожунова, 2008], [Кожунова, 2009]. Семантический словарь, основанный на классификационной схеме показателей мониторинга, позволяет просматривать все уровни иерархии этой схемы (рис. 3, 4) и вычислять отдельные индикаторы (в частности, «индексы самоцитирования в описаниях изобретений»). Кроме того, ввиду особенностей проектирования и реализации схемы в ней существует возможность расширения, как существующих категорий, так и добавления новых показателей (рис. 3, 4). Xsd-представление, построенное автором для классификационной схемы словаря, основано на следующей схеме данных (рис.2):

Рис. 2. Схема данных для формирования xsd-представления классификационной схемы семантического словаря

С точки зрения программной реализации соответствующего лингвистического ресурса, xsd-представление с рекурсивной ссылкой позволяет формировать уровни иерархии внутри схемы с необходимой разработчику степенью подробности.

Таким образом, построение новых индикаторов возможно посредством их последовательной интеграции на нужные уровни иерархии и дальнейшего определения в семантическом словаре (рис. 4). Это расширяет функциональные возможности ИТСМ РАН и позволяет не только описывать новые термины и понятия в семантическом словаре, но и устанавливать между ними необходимые связи и наглядно демонстрировать их на общей схеме классификации [Кожунова, 2008], [Кожунова, 2009].

Словарные статьи семантического словаря в системе информационного мониторинга структурированы с учетом потребностей пользователей системы мониторинга.

Каждая статья содержит параметризуемую дефиницию (то есть определение значения индикатора, зависящее от нескольких модифицируемых параметров) и поэтому носит название параметризуемой. Для отдельно вычисляемого индикатора параметризуемая статья включает все необходимые для вычисления его значений параметры. Каждая статья связана с отдельной группой индикаторов в классификационной схеме. В ней представлены разные уровни классификации индикаторов с возможностями выбора вариантов их вычисления и ссылкой на внешние информационные, алгоритмические и нормативные компоненты системы [Кожунова, 2008], [Кожунова, 2009].

Необходимо подчеркнуть, что в основе формы параметризуемой статьи лежат параметры и поля запроса (рис. 5). Тем самым, конечными результатами выполнения запроса являются не найденные информационные поля, как это происходит при выполнении типичных поисковых запросов, а результат обработки найденных информационных полей. Поэтому, при построении запроса используются параметры обработки найденных информационных полей. Таким образом, формируемый запрос является комплексным запросом на поиск в БД и вычисление значений индикаторов на основе статей семантического словаря системы информационного мониторинга. информационный семантический словарь

На данный момент в макете семантического словаря реализована параметризуемая статья для группы индикаторов «индекс самоцитирования авторов описаний изобретений» (рис. 5). В состав параметров поиска этой статьи включены фамилия, имя, отчество авторов патентов, временной промежуток (отбор патентов по дате их публикации на сайте Роспатента) и отбор патентов по рубрикам МПК. Использование вычисляемых параметров в статьях семантического словаря с обращением к внешним по отношению к словарю ресурсам реализовано впервые [Кожунова, 2009].

Рис. 3. Макет реализованной классификационной схемы семантического словаря ИТСМ РАН

Рис.4. Добавление новых групп индикаторов

Рис. 5. Классификационная схема семантического словаря ИТСМ РАН

Заключение

В работе представлен разработанный для ИТСМ РАН макет семантического словаря. Разработка макета семантического словаря для предметной области с таким набором функций и формой представления является одной из первых попыток проектирования и реализации проблемно-ориентированного лингвистического ресурса для области информационного мониторинга. В частности, среди его отличительных особенностей, характеризующихся новизной, можно отметить следующие:

построение гибкой и легко модифицируемой классификационной схемы в качестве структуры семантического словаря ИСТМ РАН

наличие связей словарных статей с внешними по отношению к нему ресурсами: алгоритмическими, информационными и нормативными;

использование в качестве статей семантического словаря параметризуемых статей в виде текстовых дефиниций на естественном языке с интегрированными параметрами на поиск в базах данных и на вычисление значений индикаторов (на примере статьи для группы индикаторов «индекс самоцитирования автора изобретения» с использованием ресурсов Роспатента).

Список литературы

1. Зацман, 2005 Зацман И.М. Терминологический анализ нормативно-правового обеспечения создания систем мониторинга в сфере науки // Экономическая наука современной России, №4, 2005.

2. Зацман, 2008 Зацман И.М., Веревкин Г.Ф., Шубников С.К. Моделирование систем мониторинга. - М.: ИПИ РАН, 2008.

3. Кожунова, 2006 Кожунова О.С. Моделирование пополнения семантического словаря // Системы и средства информатики. Вып. 16.- М.: Наука, 2006.

4. Кожунова, 2007 Кожунова О.С. Семантический словарь терминов системы оценки результативности в сфере науки // Материалы международной конференции «MegaLing'2007», Партенит, 2007.

5. Кожунова, 2008 Кожунова О.С. Классификационная схема семантического словаря системы мониторинга: опыт применения в процессе оценки результативности научной деятельности // Труды международной конференции Диалог-2008 "Компьютерная лингвистика и интеллектуальные технологии". - М.: Изд-во РГГУ, 2008.

6. Кожунова, 2009 Кожунова О.С. Технология разработки семантического словаря системы информационного мониторинга: диссертация канд. техн. наук / О.С. Кожунова; Учреждение Российской академии наук Институт проблем информатики РАН, 2009.

7. Приказ, 2006 Совместный приказ Минобрнауки, Минздравсоцразвития и Российской академии наук N273/745/68 "Об утверждении видов, порядка и условий применения стимулирующих выплат, обеспечивающих повышение результативности деятельности научных работников и руководителей научных учреждений и научных работников научных центров РАН".

8. Соловьев и др., 2006 Соловьев В.Д., Добров Б.В., Иванов В.В., Лукашевич Н.В. Онтологии и тезаурусы. - М., 2006.

9. Arano, 2005 Arano S. Thesauruses and ontologies [on line]. "Hipertext.net", num. 3, 2005. http://www.hipertext.net.

10. Zatsman et al., 2008 Zatsman I., Kozhunova O. Evaluating for institutional academic activities: classification scheme for R&D indicators // Proceedings of the 10th International Conference on Science and Technology Indicators (17th - 20th September 2008, University of Vienna, Austria). - Vienna: Austrian Research Center GmbH, 2008.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.