Проблема грамматической омонимии при статистическом анализе корпуса текстов английского подъязыка биотехнологий

Значение различения омографов в научной речи для классификации частей речи при составлении корпусов текстов и автоматических баз терминов. Анализ основных понятий, свойств и задач корпусной лингвистики и этапов создания электронного корпуса текстов.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 10.01.2019
Размер файла 17,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Проблема грамматической омонимии при статистическом анализе корпуса текстов английского подъязыка биотехнологий

Изучение языков для специальных целей в последнее время всё чаще делает необходимым использование современных методик изучения лингвистических явлений. Языки для специальных целей или подъязыки науки и техники являются отличным языковым материалом для исследования функциональных языковых модификаций. Для их изучения требуется теперь гораздо большее количество контекстов, вариантов, лексико-грамматических парадигм. Вследствие этого специалисты различных отраслей - переводчики, лексикографы, преподаватели постоянно сталкиваются с необходимостью привлечения всё больших массивов текстов.

Данная необходимость обусловила появление целой отрасли лингвистики - корпусной лингвистики.

Под термином «корпусная лингвистика» В.П. Захаров предлагает понимать раздел компьютерной лингвистики, занимающейся разработкой методологии создания и использования корпусов текстов с применением компьютерных технологий [6, с. 3].

Термин «корпус» обозначает любой систематический сборник электронных текстов, предназначенных для лингвистического исследования, которые были предварительно обработаны, размечены и систематизированы в электронной форме [2, с. 43].

Важнейшим свойством корпуса текстов считается его репрезентативность, под которой понимается «необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов» [6, с. 5]. Среди других отличительных признаков корпуса можно выделить выборочность исследования, фиксированный объём (размер), совместимость с вычислительным устройством и базу авторитетного справочника [13, р. 22].

Использование корпусов текстов играет всё более возрастающую роль в обучении языкам, психолингвистике, теоретической лингвистике. Современные корпусы отражают морфологические, синтаксические, семантические зависимости, содержат дискурсную информацию и т.п. Лингвистическая составляющая работы с корпусом может касаться морфологического анализа, изучения грамматических отношений, значений слова, структуры подачи информации, семантической репрезентации. Всё это делает возможным собрать воедино отдельные элементы корпусов, сформировать ресурсы многократной повторяемости.

Разработка и создание корпусов ведётся по двум самостоятельным направлениям. Различаются они по объёму: большие по размеру - от 100 млн единиц вхождения - и малые корпусы размером до 1 млн единиц вхождения. Важным условием составления корпуса любого объёма является соблюдение всех правил лексикографического отбора: аутентичности, хронологической и жанровой однородности, стилевой отнесенности и т.д.

Материалом нашего исследования послужил малый корпус текстов английского подъязыка биотехнологий, отобранный из 103 научных статей [8, с. 163-172]. Объём выборки составил 978 950 словоупотреблений (слов), что обеспечивает практически полный охват лексики подъязыка биотехнологий. Материалом для конструкции данного корпуса текстов послужили источники следующих типов:

1) оригинальные печатные статьи из таких журналов, как «Biotechniques» («Биотехнологии»), «Biotechnology Progress» («Биотехнологический прогресс»), «Biotechnology Advances» («Биотехнологические достижения»),

«Biotechnology and Genetic Engineering Review» («Обзор биотехнологий и генной инженерии») и т.д.;

2) научные монографии видных зарубежных ученых, занимающихся актуальными проблемами биотехнологий;

3) полнотекстовые версии научных журналов на CD-ROM корпорации EBSCO Publishing; 4) материалы Интернета.

Нам представляется, что сконструированная выборка текстов отражает реальное соотношение разделов науки и их языковых проекций. Последовательная автоматическая обработка текстов ограниченной тематики объёмом по 3-5 тыс. словоупотреблений позволила получить картину распределения частот в их абсолютном выражении.

В результате были получены:

1) алфавитный ранговый список всех словоформ текста;

2) частотный список лексем в порядке убывания их абсолютных частот.

При анализе и интерпретации результатов исследуемого корпуса приходилось решать одну техническую и одновременно лингвистическую задачи - устранения омонимии слов. Проблема омонимии разных типов является весьма актуальной проблемой при составлении корпусов текстов и автоматизированных баз терминов. Исследователи отмечают, что омонимия получила широкое распространение в английском языке для специальных целей [3, с. 32; 7, с. 146; 9, с. 158; 10, с. 168]. Для английского языка характерна только частеречная или грамматическая омонимия, возникновение которой не является следствием случайного совпадения: существует связь между омонимами данного типа, так как процесс перехода из одной части речи в другую происходит при условии изменения функционирования и свидетельствует об экономии в языке средств выражения понятий.

По определению З.А. Харитончик, грамматические омонимы - это «омонимические формы в системе одного и того же слова, различающиеся своими грамматическими значениями» [12, с. 72-73]. Частеречная омонимия (омография) состоит в том, что «слова, совпадающие по звучанию, принадлежат к различным частям речи и соответственно имеют разные грамматические значения, разную синтагматическую сочетаемость и участвуют в разных парадигматических связях» [11, с. 37].

Задача определения частей речи и классов слов является теоретически и практически важным для учёта всего арсенала лексических средств, участвующих в построении научного высказывания. Именно с этой целью и целесообразна экспликация на базе существующих грамматических категорий классов слов, более или менее значительных с точки зрения лексической стратификации. По мнению С.Д. Береснева, точное определение частеречной отнесенности - это наиболее распространенная операция при обработке больших массивов текста, «связанная с устранением неопределенности в выборе одного из двух возможных решений при распознавании образа слова» [1, с. 38].

Проблема омографии достаточно остро, по сравнению с другими языками, стоит в английском языке. Так, написание всех грамматических классов слов со строчной буквы значительно усложняет процедуру их различения от омографичных единиц. Сравним: need - потребность (сущ.) - need - нуждаться (гл.) или farming - занятие сельским хозяйством (сущ.) - farming - сельскохозяйственный (прил.).

Автоматический анализ корпуса текстов английского подъязыка биотехнологий не дал возможности классифицировать омонимичные единицы сразу в тот или иной разряд слов. Проблема отнесения таких омографичных единиц решалась преимущественно на основании синтаксической функции, выполняемой тем или иным словом в тексте. Для этого слово маркировалось в тексте и определялось процентное соотношение между двумя единицами. Пропорция давала нам абсолютную частоту употребления в общем объёме выборки.

Что касается вспомогательных глаголов (be, have) как элементов аналитических временных форм и как личных глаголов, нами не делалось различия. Проблема частеречной отнесенности затрагивает преимущественно служебные части речи или слова заполнения текста. Так, безусловно, омографичными в тексте будут неопределенное местоимение, прилагательное и существительное: one - этот, тот (неопр. мест.) - one - единственный (прил.) - one - единица (сущ.) - one - один (числ.).

Грамматическая омонимия в подъязыке биотехнологий часто наблюдается при попытке частеречной отнесённости существительного и глагола: clone - клон (cущ.) - clone - клонировать (гл.), глагола в форме прошедшего времени и причастия II: protected - защищал (гл.) - protected - защищённый (прич.), существительного и причастия I: planting - посадка (сущ.) - planting - сажающий (прич.).

Существительное и глагол являются абсолютными омографами, что обусловлено явлением конверсии, при котором «создаётся новая (производная) лексема с полным сохранением формы производящей» [4, с. 3]. В английском языке конверсия представляет собой весьма продуктивный способ словообразования, необходимым условием которого является омонимия форм исходного и производного слов, что отличает конверсию от других способов словообразования [5, с. 9].

Продуктивность явления конверсии как особого вида омонимии обусловлена особенностями грамматического строя английского языка, а именно отсутствием форм, характеризующих части речи. Данное свойство делает возможным образование от одной части речи нового слова, принадлежащего к другой части речи, без использования словообразовательных элементов. Кроме того, слово, появившееся в результате конверсии, включает в себя некую семантическую область исходного слова-основы, благодаря чему многие конверсированные слова легко восстановимы из контекста.

Таким образом, разработка и методика работы с корпусами в современных условиях обозначает широкие возможности использования корпусов для изучения синтаксиса, функционально-связанных компонентов значения и анализа корпусных баз. Одинаково успешно могут быть исследованы разделы лексики и фразеологии, прагматика и фонология, методологические и структурные методы в грамматике, а также математические основания для статистических подходов к лингвистическому анализу.

Грамматическая омонимия - это лишь одна из особенностей исследуемого корпуса. Различие омографов в речи способствует более качественной частеречной классификации, что немаловажно с точки зрения решения одной из главных задач - создания базовых частотных словарей. Следовательно, различение формы слова и снятие омографии обусловлено, прежде всего, прагматическим подходом к научному тексту. Иноязычному реципиенту для понимания текста необходимо знание не только лексического, но и грамматического значения в каждой словоформе текста.

Список источников

омограф речь лингвистика грамматический

1. Береснев С.Д. Грамматика декодирования немецкого научно-технического русским реципиентом. Киев: УМК МО, 1991. 142 с.

2. Волоснова Ю.А. Корпусная лингвистика: проблемы и перспективы // Лесной Вестник. 2006. №7. С. 43-49.

3. Гашков А.В. Автоматический поиск синтаксической омонимии в тексте // Слово, высказывание, текст в когнитивном, прагматическом и культурологическом аспектах: материалы VIII международной научной конференции. Челябинск, 2016. С. 32-34.

4. Голубева А.Ю. Конверсия в словообразовании: узус и окказиональность: автореф. дисс. … к. филол. н. Воронеж, 2014. 24 с.

5. Губанова И.С. Структурно-квантитативная характеристика омонимии в современном английском языке: автореф.

дисс. … к. филол. н. Н. Новгород, 2010. 18 с.

6. Захаров В.П. Корпусная лингвистика: учеб.-метод. пособие. СПб., 2005. 48 с.

7. Капура Н.В., Дроздова Т.В., Яшина Т.А. К вопросу о состоянии проблемы омонимии в современном английском языке // Наука, образование, общество. 2015. №4 (6). С. 145-150.

8. Кудинова Т.А. Структурно-семантические особенности многокомпонентных терминов в подъязыке биотехнологий (на материале русского и английского языков): дисс. … к. филол. н. Орёл, 2006. 245 с.

9. Николаева Н.С. Некоторые особенности семантики английских терминов (омонимия) // Филологические науки. Вопросы теории и практики. Тамбов: Грамота, 2015. №3 (45): в 3-х ч. Ч. 1. С. 157-159.

10. Порохнин А.А. Анализ статистических методов снятия омонимии в текстах на русском языке // Вестник Астраханского государственного технического университета. Серия «Управление, вычислительная техника и информатика». 2013. №2. С. 168-174.

11. Саргсян Л.В. Категориальная мотивированность звуковой формы слова. Ереван: Изд-во ЕГУ, 2012. 248 с.

12. Харитончик З.А. Лексикология английского языка: учеб. пособие. Минск: Выш. шк., 1992. 229 с.

13. McEnery T., Wilson A. Corpus Linguistics. Edinburgh: Edinburgh University Press, 1996. 240 p.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.