Интерактивная база данных "neoLex": опыт алгоритмизации лексикографической обработки неологизмов
Разработка системы "neoLEX" как специального интерфейса для лексикографического описания неологизмов в русском языке. Создание механизма слияния прошедших лексикографическую обработку словарных единиц с макросами выборки данных и шаблонами печати.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 12.11.2018 |
Размер файла | 16,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Институт лингвистических исследований Российской академии наук
Интерактивная база данных "Neolex": опыт алгоритмизации лексикографической обработки неологизмов
О.М. Карева, В.В. Кочнев
Основное содержание исследования
В начале ХХI века неогенность лексической системы русского языка (темпы прироста новой лексики в единицу времени) достигла нового, более высокого уровня, что отражает рост в геометрической прогрессии общего количества получаемой человечеством информации и значительно расширяет языковое пространство, требующее внимания лексикографов-неологистов. Большой и разнообразный материал нуждается в значительном времени для его обработки. Между тем одно из требований, предъявляемых к неографии, - это оперативность, предполагающая максимальное сокращение интервала между обследованным годом, датирующим материалы словаря, и годом его публикации. Указанные обстоятельства выдвигают задачу максимальной оптимизации процесса сбора и лексикографической обработки инноваций. Первостепенная роль при этом отводится компьютерным технологиям и ресурсам Интернета, которые находят все более широкое применение в словарном деле.
В текущем году при финансовой поддержке Президиума Российской академии наук в словарном секторе ИЛИ РАН сотрудниками Группы словарей новых слов начата работа над проектом "neoLEX". Данное программное обеспечение задумано как интегрированная база данных и одновременно информационно-поисковая система, предназначенная для автоматизированного ввода, хранения, поиска, статистического учета, а также структурирования и редактирования текстовых материалов, содержащих лексические инновации современного русского языка.
На основе анализа теории и практики неографии, с учетом сложившегося за 40 лет опыта работы Группы словарей новых слов авторами проекта были определены следующие первоочередные задачи:
1) создание электронного Банка неологизмов, уже зарегистрированных в словарях (с возможностью его дальнейшего пополнения);
2) формирование электронной картотеки неологизмов;
3) разработка структурированной формы для написания и макетирования новых неологических словарей. Дополнительной задачей стало обеспечение плавности перехода с классических методов обработки данных на новые компьютерные технологии: в настоящий период прежние методики составления словарных статей и работы с бумажной картотекой и использование новых электронных средств не исключают, а дополняют друг друга.
Три упомянутые выше задачи (и соответствующие им этапы работы над словарями) взаимосвязаны, их конечная реализация предполагает полную компьютеризацию всего цикла лексикографической обработки инноваций: от первичной фиксации до создания макета подготовленного к изданию словаря - с возможностью поиска, извлечения и компоновки лексических единиц по различным параметрам. Таким образом, в законченном виде "neoLEX" станет основой для создания сети ЛАРМ (Лексикографического Автоматизированного Рабочего Места - в терминологии Харьковского лексикографического общества) [2: 616].
Для разработки системы "neoLEX" большое значение имеют работы основателя отечественной неографии Н.З. Котеловой. В частности, созданный ею "Проект словаря новых слов русского языка", с точки зрения прикладного программирования, может рассматриваться как первое формальное описание алгоритмов лексикографической фиксации неолексем русского языка. Раздел "Аспекты описания словарной единицы и построение словарной статьи" [1: 43-55] был взят за основу при композиции и программировании интерфейсов "neoLEX".
Итак, на первой стадии работы необходимо было перевести в стандартный электронный формат словники всех опубликованных и готовящихся к изданию неологических словарей (всего 29 источников). Разработчики должны были определиться с выбором наиболее комфортной платформы для программирования, которой в итоге стала система управления базами данных Microsoft Access как наиболее простая и удобная для конечных пользователей. При этом вопросы импорта и экспорта в открытые форматы данных XML было решено обеспечивать средствами дополнительных внутренних модулей. В результате свыше 115 000 прошедших лексикографическую обработку неолексем сведены в единую базу данных - Банк неологизмов. Слова в Банке расположены в алфавитном порядке, снабжены ударением, грамматическими пометами и указанием на неологические словари-источники, что обеспечивает возможность их поиска стандартными средствами языка запросов.
Таким образом, в электронном Банке неологизмов наглядно представлена единым алфавитным списком совокупность всех неолексем русского языка, зафиксированных в словарях трех типов: ежегодниках серии "Новое в русской лексике" (выпуски за 1977-1995 гг. и готовящиеся к изданию выпуски 2001-2005 гг.); словарях-справочниках "Новые слова и значения", описывающих лексику десятилетнего периода (60-х, 70-х, 80-х и 90-х гг.) и сводном "Словаре новых слов русского языка (середина 50-х - середина 80-х годов)". Планируется, что первым продуктом, созданным в рамках разрабатываемого проекта, будет публикация в виде отдельной книги Банка неологизмов второй половины ХХ века. Ценность задуманного издания очевидна: наконец-то ученые-лексикологи получат в руки единый полный корпус неолексем указанного периода для лингвистических исследований самого широкого спектра. "Банк неологизмов является чрезвычайно важным логическим продолжением указанной триады словарей, обеспечивает в совокупности с ними комплексное и разноаспектное представление лексико-фразеологических инноваций русского языка. Он необходим в работе неографов и других лексикографов, а также для исследователей лексики, семантики, словообразования, фразеологии и т.п., для специалистов других гуманитарных наук" [3: 17-18].
Отметим, что в этом отношении электронная версия Банка имеет бульшие возможности и преимущества. Система "neoLEX" позволяет осуществлять автоматический поиск информации, дающей представление о словообразовательном потенциале неологизма, степени активности тех или иных моделей словообразования, а также формировать тематические и частеречные списки новой лексики, производить статистический учет разных типов неологизмов, другими словами, вести постоянный мониторинг за обновляемой частью словарного состава русского языка.
На основе данных электронного Банка неологизмов написана специальная программа, позволяющая производить "отсев" слов из текущей выборки по материалам периодической печати при установлении "презумпции новизны" слова. Эта процедура производится с помощью особого интерфейса через ручной запрос к базе данных. Таким образом осуществляется сверка слова с зарегистрированными в Банке единицами (вплоть до 2004 г.) и "отсев" уже зафиксированной неологическими словарями лексики. В дальнейшем к этой программе будут подключены данные и других используемых на этом этапе работы словарей, что позволит значительно сократить непроизводительные затраты труда.
В настоящее время ведется формирование электронной картотеки лексических новаций 2006 года, прошедших процедуру "отсева" по словарям. Для этого используется отдельный, облегченный интерфейс, который, являясь аналогом "бумажной" карточки, содержит поля для ввода информации по следующим стандартным параметрам: заголовочное слово (либо устойчивое словосочетание), цитата, источник, его выходные данные, название статьи (произведения), автор. Электронная карточка содержит также скрытые служебные поля для так называемой паспортизации ввода нового слова (с указанием фамилии составителя и фиксацией времени ввода). Эти поля заполняются автоматически, при этом производится и автоматический подсчет общего числа всех введенных в картотеку единиц. Там, где это возможно, ручной ввод заменяется механизмом автоматической подстановки. Так, для внесения в картотеку отмеченные в текстах периодики цитаты извлекаются через Интернет из электронной версии газеты (журнала) либо через архив сетевого информационного агентства "Интегрум" (http://www.integrum.ru). Поскольку работа ведется с единой базой данных, лексикографы-составители могут вносить в нее дополнительные цитаты к уже введенным словам, что расширяет возможности выбора оптимального цитирования при подготовке печатного издания. Предусмотрена возможность распечатки через специальный шаблон как отдельных электронных карточек, так и более протяженных фрагментов картотеки.
На текущем этапе обдумываются и апробируются разные методики, ведется поиск наиболее рациональных и быстрых способов обнаружения неологизмов и их первичной обработки, нацеленный на то, чтобы свести к минимуму временные затраты и сделать наименее трудоемким процесс формирования неологических картотек. В дальнейшем планируется разработка программы автоматического сканирования онлайновых ресурсов (так называемого "Паука"), которая будет сканировать заданный диапазон адресов, проверять найденные слова на отсутствие / наличие их фиксации в сформированной электронной базе данных и предоставлять специалистам конечные списки для дальнейшей обработки.
Для этапа лексикографического описания неологизма разработан специальный интерфейс. Он отражает достаточно сложную структуру словарной статьи, насыщенной различной информацией о новой лексеме, и содержит 36 полей. Порядок следования полей в записи в целом задан последовательностью описания слова в словарной статье: заголовочное слово, формы словоизменения, грамматические пометы, толкования значений, стилистические характеристики, текстовые иллюстрации с указанием их источников, речения, этимолого-словообразовательная справка и пр. Для максимальной унификации и защиты от возможных опечаток большинство элементов в каждой форме представляют собой фиксированные списки опций: выпадающие списки с автоподстановкой, взаимоисключающие положения переключателя и поля с условным разблокированием (в зависимости от предыдущего выбора).
база неологизм лексикографическое описание
На конечном этапе данного проекта планируется создать механизм слияния прошедших лексикографическую обработку словарных единиц с макросами выборки данных и шаблонами печати, что позволит полностью автоматизировать процесс подготовки новых материалов к конкретному изданию словаря.
Литература
1. Котелова Н.З. Проект словаря новых слов русского языка. Л., 1982.
2. Дубичинский В.В. Основы типологизации словарей русского языка // Слово в словаре и дискурсе. М., 2006.
3. Денисенко Ю.Ф., Буцева Т.Н. Банк неологизмов русского языка 1985-1991 гг. // Новые слова и словари новых слов. СПб, 1997.
Размещено на Allbest.ru
Подобные документы
Особенности проектирования программы на языке С++ для обработки данных из таблиц базы данных. Основные функции программы, создание концептуальной модели базы данных и диаграммы классов, разработка интерфейса пользователя и запросов к базе данных.
курсовая работа [2,1 M], добавлен 08.06.2012Построение информационно-логической модели базы данных. Корректировка данных средствами запросов. Проектирование алгоритмов обработки данных. Реализация пользовательского интерфейса средствами форм. Разработка запросов для корректировки и выборки данных.
курсовая работа [680,9 K], добавлен 19.10.2010Термины "логический" и "физический" как отражение различия аспектов представления данных. Методы доступа к записям в файлах. Структура систем управления базами данных. Отличительные особенности обработки данных, характерные для файловых систем и СУБД.
лекция [169,7 K], добавлен 19.08.2013База данных для ЗАО "ФК "Зенит", предназначенная для хранения и обработки данных о работниках клуба, его бюджете и результатах участия в соревнованиях. Разработка предварительных отношений и пользовательского интерфейса. Структура таблиц базы данных.
курсовая работа [4,4 M], добавлен 10.12.2011Возможности извлечения информации из баз данных. Программы для создания и обработки базы данных и создания пользовательского интерфейса. Обоснование выбора программных средств для реализации. Создание базы данных, интерфейса и базы данных к интерфейсу.
курсовая работа [2,9 M], добавлен 24.03.2023Характеристика Microsoft Access как системы управления базами данных. Особенности работы с различными объектами: таблицами, запросами, формами, отчётами, страницами, макросами, модулями. Разработка базы данных "Видеокарты", создание запросов и отчетов.
курсовая работа [4,2 M], добавлен 18.08.2014Создание базы данных, построение на ее основе информационной системы в виде веб-сайта. Обоснование и выбор системы управления базой данных. Датологическое проектирование, разработка алгоритма решения задачи, создание форм. Результаты обработки данных.
отчет по практике [904,1 K], добавлен 13.04.2015Особенности обработки информации в компании. Основные модели данных: иерархическая, сетевая, реляционная. Выбор подходящей системы управления базами данных. Microsoft Access как интерактивная, реляционная СУБД для операционной системы MS Windows.
статья [14,7 K], добавлен 22.02.2016Освоение сервисной системы управления базами данных Microsoft SQL. Разработка базы данных "Служба АТС" в среде Microsoft SQL Server Management Studio и создание запросов на языке SQL. Апробация инфологической модели "сущность - связь" базы данных.
курсовая работа [2,9 M], добавлен 29.06.2015Рассмотрение правил записи, способов ввода и вывода, использования функций обработки символьных данных в Pascal. Описание алгоритмизации и программирования файловых структур данных, проектирования структуры файла. Ознакомление с работой данных массива.
курсовая работа [336,2 K], добавлен 27.06.2015