Русско-украинско-английский электронный словарь лингвистической терминологии тезаурусного типа
Логико-понятийное моделирование терминосистем различных областей знаний. Создание электронного тезауруса для алфавитного, толкового и энциклопедического словарей. Разработка лексикографической и семантической базы данных лингвистических терминов.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 16.12.2018 |
Размер файла | 402,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://allbest.ru
6
Киевский национальный университет имени Тараса Шевченко
УДК 811.161.2'42:004 Филологические науки
Русско-украинско-английский электронный словарь лингвистической терминологии тезаурусного типа
Дарчук Наталия Петровна, к. филол. н.
Одной из актуальных междисциплинарных задач нашего времени является логико-понятийное моделирование терминосистем различных областей знаний, поскольку эти модели необходимы при составлении терминологических словарей, тезаурусов, баз данных и баз знаний, систем искусственного интеллекта.
Частным случаем моделирования знаний можно считать построение электронного тезауруса, который, с одной стороны, является способом формализованного представления терминологии, а с другой - считается важным источником совершенствования систем знаний конкретных наук.
Этой проблеме посвящен проект «Электронный словарь лингвистической терминологии с информационно-поисковой системой (тезаурус)», выполненный в лаборатории компьютерной лингвистики Киевского национального университета имени Тараса Шевченко.
Цель проекта - 1) составление электронного Словаря лингвистических терминов с использованием новой формализованной методики конструирования тезауруса, отвечающей современным стандартам терминографии, и представление его в Интернете; 2) благодаря разработанным компьютерным технологиям верификация теоретической тезаурусной модели путем применения ее для анализа корпуса текстов на русском / английском / украинском языках по различным разделам лингвистики.
Работа над проектом осуществлялась в два этапа. На первом этапе осуществлялось создание электронного тезауруса в виде лексикографической и энциклопедической электронной базы лингвистических терминов, состоящего из трех словарей, а именно алфавитного, толкового и тезаурусного. В алфавитном словаре для каждого терминологического слова или словосочетания (3400 терминов) украинского языка поданы русский и английский эквиваленты и толкования из авторитетных источников (около тридцати): терминологических словарей, грамматик, монографий. В словарь включены общелингвистические термины (преимущественно существительные или именные словосочетания) из всех разделов грамматики, лексикологии, прикладной и компьютерной лингвистики. Словарная статья построена в виде анкеты, которая заполнялась для каждого термина с «выкидным» списком отношений, которые для реестрового слова являются понятийными. Название отношения является двухместным предикатом R(А,В), который связывает заголовочное слово статьи (А) и введенный этим предикатом термин (В) [3, с. 22].
Тезаурус состоит из 3394 терминов, охваченных семантической сетью из более чем 9 тыс. семантических отношений (Рис. 1).
Рис. 1. Фрагмент электронного словаря лингвистической терминологии
Тезаурусный словарь представляет собой перечисление логико-семантических функций между лингвистическими терминами (список функций заимствован из работы [3], но дополнен и модифицирован нами). Построение тезауруса предусматривает раскрытие всех типов отношений между понятиями, основными из которых являются гипонимия (род / вид), соподчинение на одном уровне - парциация (часть / целое), синонимия, корреляция, ассоциация, функция, способы выражения функции и др. Разработанный электронный словарь включает не только множество отдельных терминов, представленных в виде алфавитного списка с их толкованиями, но и сами модели представления отношений между терминами в виде семантической сети - иерархизированной структуры данных, в которой выделяются узлы (термины) и дуги, выражающие разные типы отношений между узлами.
Самыми главными парадигматическими семантическими отношениями являются род - вид, синонимия, часть - целое, корреляты, которые охватывают значительную часть терминов (почти 70% всех парадигматических отношений). С точки зрения теоретической семантики, чем больше в словаре семантической информации, тем лучше, потому что богатая система отношений в ТЗ дает пользователю больше возможностей выражать в запросе свою информационную потребность.
Поскольку словарная статья представляет собой синтез информации лингвистической, переводной, толковательной и энциклопедической, в связи с информационным подходом, рассчитанным на запрос пользователя в информационно-поисковой системе, реализована диалоговая система, в которой ответы на вопросы пользователя процедурно формируются из тезаурусного графа, имеющего вид семантической сети, представляющей собою иерархически организованную структуру данных - терминов-узлов и дуг, которые выражают разные типы тезаурусных отношений, и автоматически выдаются из тезауруса в текстовом виде (Рис. 2).
Черным цветом на экране компьютера обозначаются отношения «хозяин (х.) - слуга (с.)», где реестровый термин является «хозяином», который подчиняет, а синим - «слуга - хозяин», то есть, наоборот, является слугой, значит, подчинительным (Рис. 2).
В тезаурусе есть термины, охваченные разветвленной сетью семантических отношений: предложение - 121 (х.= 24, с. = 97); слово - 62 (х.= 30, с.= 32) и т.п.
Рис. 2. Тезаурусный граф
Сетевое представление данных имеет не только чисто прикладное значение, но и позволяет глубже проникнуть в систему логики данной науки, точнее смоделировать терминосистему по лингвистике. Тезаурус состоит из 3394 терминов, которые охвачены семантической сетью в 9265 семантических отношений. Созданная на этом этапе модель является статическим представлением логико-понятийных отношений между терминами данной лингвистической терминосистемы.
Можно рассмотреть эту модель в плане динамических аспектов структуры научного знания, а именно как верификацию теоретической тезаурусной модели путем применения ее к анализу корпуса текстов из различных разделов лингвистики. Важность такого исследования объясняется тем, что любое знание имеет текстовое выражение и познается через текст. Энциклопедическая модель научного знания является производной от множества реальных текстов и репрезентаций этих текстов на уровне семантической модели. По отношению к множеству терминов определенной науки логико-понятийная система области знания - это модель плана содержания области знания. Логико-понятийная структура текста отражает основные элементы семантической парадигматики текстов.
На втором этапе осуществлялось построение динамической логико-понятийной модели путем наложения тезаурусной модели лингвистических терминов в виде иерархической классификационной схемы - сети на словник научного текста. В результате получаем также иерархическую классификационную сеть конкретного анализированного текста с абсолютной частотой употребления в конкретном тексте. Этим обеспечивается подход - от терминологического словаря - к тексту, причем частота употребления и контексты дают возможность концентрировать разрозненную терминологическую информацию для разрешения различных терминологических задач (напр., целесообразность включения предтермина в создаваемый словник терминов).
Методика состоит из таких основных этапов автоматической обработки корпуса текстов:
а) лемматизация и упорядочение по частеречной принадлежности;
б) определение для каждой леммы (существительного или прилагательного) абсолютной частоты употребления;
в) построение тезаурусного графа терминов конкретного текста с абсолютными частотами употребления в тексте путем наложения тезаурусной сети терминосистемы;
г) снятие омонимии значений терминов;
д) построение дополнительного словника слов с абсолютными частотами, которые не вошли в тезаурус;
е) поиск слов-предтерминов с иллюстративными контекстами. (Проверка работы тезауруса осуществлялась на корпусе научных статей журнала «Вопросы языкознания», длина текста - около 80 тыс. словоупотреблений [1]).
Полученный реестр объемом более 800 терминов покрывает 16,1% текста (кумулятивно около 14 тыс. терминов на 83 тыс. словоупотреблений текста). В то же время в корпусе текстов выявлено 24% терминов по лингвистике, зафиксированных в тезаурусе (821 из 3340 терминов в тезаурусе).
Следующей задачей была автоматическая проверка дополнительного реестра на предмет наличия в нем терминов/терминосочетаний, не зафиксированных в общелингвистическом тезаурусе по ряду причин: во-первых, возможны авторские термины, которые вводились в текст в связи с необходимостью изложить авторскую позицию по определенному теоретическому вопросу; во-вторых, никогда словарь не может быть полным, т.к. процесс становления, развития научно-технической терминологии не прекращается. электронный тезаурус словарь лингвистический
Текст является тем источником, в котором «рождается» и оформляется термин, только обращаясь к тексту, можно проследить «жизнь» термина, окончательно решить вопрос относительно целесообразности включения его в терминологический словарь.
Важность проекта в том, что: во-первых, электронный тезаурус в мультимедийном пространстве обеспечивает лингвистов современным словарем лингвистических терминов; во-вторых, достижением проекта является методика конструирования, а также компьютерный инструментарий для реализации этой модели; в-третьих, тезаурус совместим с интеллектуальными системами обработки текстовой информации [2], в которых он может быть использован как база знаний и инструмент распознавания смысла.
Список литературы
1. Вопросы языкознания. 1995. № 1-6.
2. Мовно-інформаційний портал [Электронный ресурс]. URL: http://www.mova.info (дата обращения: 25.01.2014).
3. Никитина С. Е. Тезаурус по теоретической и прикладной лингвистике. М.: Наука, 1979. 373 с.
Аннотация
УДК 811.161.2'42:004 Филологические науки
Русско-украинско-английский электронный словарь лингвистической терминологии тезаурусного типа. Дарчук Наталия Петровна, к. филол. н. Киевский национальный университет имени Тараса Шевченко nataliadarchuk@gmail.com
Статья посвящена описанию лексикографической и энциклопедической электронной базы данных лингвистических терминов, работа над которой осуществлялась в два этапа. На первом этапе создавался электронный тезаурус в виде лексикографической и энциклопедической электронной базы лингвистических терминов, который состоял из трех словарей: алфавитного, толкового и тезаурусного. Второй этап предполагал построение динамической логико-понятийной модели, что осуществлялось путем наложения тезаурусной модели лингвистических терминов в виде иерархической классификационной схемы - сети на словник научного текста.
Ключевые слова и фразы: термин; информационно-поисковая система; тезаурус; тезаурусные отношения; тезаурусный граф.
Annotation
Russian - Ukrainian - English electronic dictionary of linguistic terminology of thesaurus type. Darchuk Nataliya Petrovna, Ph. D. in Philology Taras Shevchenko National University of Kyiv, Ukraine nataliadarchuk@gmail.com
The article is dedicated to the description of lexicographic and encyclopedic electronic data base of linguistic terms which was worked out in two stages. At the first stage the author developed electronic thesaurus in the form of lexicographic and encyclopedic electronic data base of linguistic terms which consisted of three dictionaries: alphabetical, explanatory and thesaurus. The second stage supposed developing dynamic logical-conceptual model, which was carried out by applying thesaurus model of linguistic terms in the form of hierarchical classification network on the word list of scientific text.
Key words and phrases: term; data retrieval system; thesaurus; thesaurus relations; thesaurus graph.
Размещено на Allbest.ru
Подобные документы
Лингвистическая терминология как объект исследования. Теоретические основы описания терминов. Этапы развития лингвистической терминологии, ее формирование посредством описательных грамматик. Словари лингвистических терминов и лингвистические энциклопедии.
дипломная работа [87,1 K], добавлен 25.02.2016История словарей, их функции. Сущность толкового и терминологического их видов. Систематизация неологизмов, иностранных слов, переводческих терминов, фразеологизмов. Анализ нового в русской лексике. Использование словарей для проверки орфографии.
презентация [581,0 K], добавлен 26.10.2014Толковые словари. Издания "Толкового словаря живого великорусского языка" В.И. Даля. Однотомный словарь русского языка. Системные словари. Cловарь русских синонимов. Cловари иностранных слов. Переводные словари. Электронные словари.
реферат [36,7 K], добавлен 29.01.2007Статус консубстанциональных терминов в системе лингвистической терминологии русского и английского языков. Этимологический анализ как важная составляющая изучения специальных лексем. Историко-диахронический анализ русских и английских лексических единиц.
диссертация [509,9 K], добавлен 01.04.2011Характеристика термина как единицы языка и речи; их классификация. Рассмотрение общих и частных явлений, свойственные русской лингвистической терминологии, экстралингвистических факторов. Описание деривационных и прагматических особенностей терминов.
дипломная работа [80,3 K], добавлен 03.02.2015Сравнительное изучение иностранных языков. Основы сопоставительного анализа терминосистем и главные характеристики терминов. Системные связи, синонимия и полисемия переводоведческих терминов. Определение сходств и различий между сопоставляемыми языками.
курсовая работа [44,8 K], добавлен 21.04.2011Особенности терминов, определение места терминологии в системе языка. Характерные черты экономической терминологии. Анализ основных приемов перевода терминов, трудности, сопряженные с данным процессом. Оценка методов разрешения трудностей перевода.
дипломная работа [109,7 K], добавлен 27.06.2010Терминология - словарное ядро языка науки. Систематизация терминологической лексики, упорядочение и унификация. Формирование словника словаря терминов. Словарь военной терминологии периода Второй мировой войны (на основе "Дневника боевых действий").
курсовая работа [80,0 K], добавлен 19.12.2015Место лексикографии среди лингвистических дисциплин. Статус терминологической лексикографии, пути описания языка профессиональной коммуникации. Лексикографические термины как объект описания специальных словарей. Основные критерии отбора терминов.
курсовая работа [35,6 K], добавлен 30.10.2014Проблемы терминоведения в современной лингвистике; парадигматические связи в терминологии: полисемия и синонимия. Исследование информационно-семиотической природы терминологии "брендинга" и ее систематика с помощью метода тезаурусного моделирования.
курсовая работа [92,6 K], добавлен 15.08.2012