Система обработки данных тезаурусного типа
Рассмотрение тезаурусной составляющей коммуникативных моделей. Возможности использования проекта WordNet для поисков в Интернете, автоиндексации документов, в психолингвистических исследованиях, в информационных процессах по переводу и классификациям.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 19.11.2020 |
Размер файла | 346,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Чувашский государственный университет
СИСТЕМА ОБРАБОТКИ ДАННЫХ ТЕЗАУРУСНОГО ТИПА
А.М. Харитонова
г. Чебоксары
Коммуникативная модель, опирающаяся на понятие модели коммуникации, разработанной математиками, является одним из основных объектов, с чем сталкиваются разработчики современных информационных технологий. Тезаурусная составляющая коммуникативных моделей, в частности, системы перевода, является одним из проблемных направлений современности. Тезаурусные модели основаны на принципе организации словарей, являются системами опосредованной коммуникации. Тезаурус в наиболее общем определении - это словарь с семантическими связями между словарными единицами. Среди разработок этого направления в конце ХХ{{к этого направления в конце XX века выделяются информационные технологии семейства WordNet. Лидирующим среди них признан Принстонский проект WordNet как основоположник этого семейства тезаурусов. тезаурусный коммуникативный модель интернет
Проект WordNet, в настоящее время широко используется для поисков в Интернете, автоиндексации документов, как форма представления знаний для Semantic Web, в психолингвистических исследованиях, в информационных процессах по переводу и классификациям. Это постоянно развивающийся и пополняющийся проект, так как:
во-первых, сами основатели постоянно развивают и совершенствуют его;
во-вторых, создаются языковые версии, первыми из которых можно считать EuroWordNet, BalkanNet, Russnet, Russian WordNet, появляются и другие отечественные версии;
в-третьих, каждая вновь разработанная языковая версия проекта подключается к EuroWordNet или BalkanNet, или к Принстонской версии всемирного проекта WordNet с помощью межъязыкового индекса Inter-Lingual-Index.
Существует много проблем по реализации новых версий в связи с тем, что в последние три десятилетия постоянно меняется программно-техническая составляющая любого проекта, что ведет к необходимости переделывать многие компоненты существующих. Любой проект, хорошо продуманный и разработанный, рассчитанный на использование в качестве компьютерного программно-технического обеспечения, через десятилетие становится неэффективным и нежелательным продуктом не из-за того, что он плохой и не так сделан, а в силу того, что прогресс и постоянное внедрение новейших технологий предоставляет разработчикам все более привлекательные методы, средства и оборудование, в результате использования которых получаются многоинформационные гиганты-компоненты программно-технических продуктов, в которых разобраться очень сложно.
В данной статье проводится анализ совокупности процессов и технологий, применяемых в настоящее время для создания или использования информационного продукта, исследование проекта WordNet с точки зрения его реализации и эксплуатации, получение электронного варианта фрагментов словарей чувашского языка в качестве материала тезаурусного типа и разработка экспериментальной системы обработки данных типа проекта WordNet. Особенность проекта WordNet главным образом состоит в том, что он предназначен для компьютерного использования, т.е. программно доступен и может работать как электронный многоязычный словарь, позволяя осуществлять поиск и толкование в алфавитном списке и концептуальном пространстве.
Результат анализа структур и компонентов существующих тезаурусных систем показал, что системы тезаурусного типа имеют 3 основных составляющие: лексикографичесий ресурс, средства и методы его обработки, средства формированная на основе этих составляющих базы данных.
Разработка систем обработки данных тезаурусного типа для чувашского языка проводилась в двух направлениях:
· исследование основных лексикографических источников чувашского языка - содержание, структура этих ресурсов и методы обработки;
· разработка модели системы обработки данных тезаурусного фонда чувашского языка типа проекта WordNet и алгоритмов функционирования некоторых ее компонентов.
В результате изучения имеющихся источников были отобраны два из для использования в дальнейших исследованиях:
1. 17-томный Словарь чувашского языка (Н.И. Ашмарина);
2. Словарь чувашско-русский и русско-чувашский (М.И. Скворцова и А.В.Скворцовой).
С учетом особенностей построения проектов WordNet, для разработки подобного проекта для чувашского языка можно предложить структуру такой системы обработки данных тезаурусного типа (СОДТ), представленную на рис.1.
Ниже приводится краткое описание некоторых компонентов проекта.
База данных в данном исследовании организована в СУБД Microsoft Access 2000. Основными объектами предметной области являются поля словарных статей указанных словарей. Хотя словарные статьи этих словарей и имеют неодинаковые структуры, формирование таблиц базы данных будет происходить с помощью одного и того же управляющего кода.
Рис.1 Основные составляющие проекта СОДТТ
Размещено на http://www.allbest.ru/
На рисунках 2 и 3 представлены структуры двух таблиц, являющихся основными компонентами базы данных проектируемой СОДТТ. На рис. 4 представлена схема связей между таблицами.
Основными компонентами являются разработка алгоритмов анализа словарных статей, алгоритма работы системы управления режимами наполнения базы данных, ее просмотра и навигации по ней.
Рис. 3
Рис. 4
Общий алгоритм анализа словарных статей и занесения их в базу данных приводится на рис. 5. Входными объектами для данного алгоритма являются word-документы фрагментов словарей. Ввиду того, что словарь состоит из словарных статей, включающих характерные для лексикографических файлов пометы и условные обозначения, эти фрагменты можно считать лексикографическими файлами.
Рис. 5 Блок-схема алгоритма работы управляющей части СОДТТ
Реализация алгоритмов СОДТТ представляет собой получение всей совокупности компонентов проекта. Экспериментальная система обработки данных тезаурусного типа разработана и реализована в визуальной среде Delphi которая имеет 2 режима работы:
· наполнения и модификации базы данных;
· просмотра и изучения содержимого базы данных.
Наполнение базы данных СОДТТ возможно в режиме анализа документов, в качестве которых выступают сканированные и распознанные копии словарей. Каждый анализ очередного документа вносит изменение в одну и ту же базу данных. Возможна предварительная обработка новых данных перед занесением их в базу данных.
Навигация по БД и ее исследование может проводится в режиме наполнения и просмотра базы данных, можно удалять в ней записи, проводить анализ содержания.
Представленная в статье система обработки данных тезаурусного типа использовалась в качестве примера разработки современного информационного продукта в процессе обучения студентов факультета чувашской филологии нашего университета.
Размещено на Allbest.ru
Подобные документы
Сущность потоков информации, циркулирующих в мире. Особенности создания и система управления базами данных. Общая характеристика правовых информационных структур. Методы и формы распространения баз данных по законодательству в интернете и на CD дисках.
реферат [33,7 K], добавлен 24.12.2008Обзор моделей анализа и синтеза модульных систем обработки данных. Модели и методы решения задач дискретного программирования при проектировании. Декомпозиция прикладных задач и документов систем обработки данных на этапе технического проектирования.
диссертация [423,1 K], добавлен 07.12.2010Система компьютерной обработки данных для сбора, систематизации, статистической обработки, анализа результатов учебного процесса за четверть, полугодие, год. Модуль обработки данных о качестве обучения, итогов успеваемости и данных о движении учащихся.
реферат [22,5 K], добавлен 05.02.2011Алгоритмы обработки массивов данных. Система управления базами данных. Реляционная модель данных. Представление информации в виде таблицы. Система управления базами данных реляционного типа. Графический многооконный интерфейс.
контрольная работа [2,8 M], добавлен 07.01.2007Современные информационные технологии, используемые в психологии, их функциональные возможности, направления использования. Программы для обработки математических данных. Программное обеспечение офис-менеджмента и психодиагностического исследования.
презентация [57,1 K], добавлен 02.06.2015Понятие и классификация информационных систем, их типы и функциональные особенности: связи, хранения и обработки информации, поисковые. Процесс устаревания данных систем, их значение и задачи в мире, сферы использования и возможности, управление.
презентация [555,0 K], добавлен 10.03.2015Характеристика сущности и назначения автоматизированных информационных систем (АИС), под которыми понимают совокупность информационных массивов технических, программных и языковых средств, предназначенных для сбора, хранения, поиска, обработки данных.
контрольная работа [24,4 K], добавлен 29.08.2010Понятие информационных технологий, этапы их развития, составляющие и основные виды. Особенности информационных технологий обработки данных и экспертных систем. Методология использования информационной технологии. Преимущества компьютерных технологий.
курсовая работа [46,4 K], добавлен 16.09.2011Основные характеристики и принцип новой информационной технологии. Соотношение информационных технологий и информационных систем. Назначение и характеристика процесса накопления данных, состав моделей. Виды базовых информационных технологий, их структура.
курс лекций [410,5 K], добавлен 28.05.2010Информационные банки данных, документов и знаний. Фактографические информационные системы управления базами данных. Прикладные программы и языковые средства, предназначенных для создания, ведения и использования баз данных. Механизмы обработки данных.
презентация [14,0 K], добавлен 14.10.2013