Проблема грамматической омонимии при статистическом анализе корпуса текстов английского подъязыка биотехнологий
Значение различения омографов в научной речи для классификации частей речи при составлении корпусов текстов и автоматических баз терминов. Анализ основных понятий, свойств и задач корпусной лингвистики и этапов создания электронного корпуса текстов.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 10.01.2019 |
Размер файла | 17,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Проблема грамматической омонимии при статистическом анализе корпуса текстов английского подъязыка биотехнологий
Изучение языков для специальных целей в последнее время всё чаще делает необходимым использование современных методик изучения лингвистических явлений. Языки для специальных целей или подъязыки науки и техники являются отличным языковым материалом для исследования функциональных языковых модификаций. Для их изучения требуется теперь гораздо большее количество контекстов, вариантов, лексико-грамматических парадигм. Вследствие этого специалисты различных отраслей - переводчики, лексикографы, преподаватели постоянно сталкиваются с необходимостью привлечения всё больших массивов текстов.
Данная необходимость обусловила появление целой отрасли лингвистики - корпусной лингвистики.
Под термином «корпусная лингвистика» В.П. Захаров предлагает понимать раздел компьютерной лингвистики, занимающейся разработкой методологии создания и использования корпусов текстов с применением компьютерных технологий [6, с. 3].
Термин «корпус» обозначает любой систематический сборник электронных текстов, предназначенных для лингвистического исследования, которые были предварительно обработаны, размечены и систематизированы в электронной форме [2, с. 43].
Важнейшим свойством корпуса текстов считается его репрезентативность, под которой понимается «необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов» [6, с. 5]. Среди других отличительных признаков корпуса можно выделить выборочность исследования, фиксированный объём (размер), совместимость с вычислительным устройством и базу авторитетного справочника [13, р. 22].
Использование корпусов текстов играет всё более возрастающую роль в обучении языкам, психолингвистике, теоретической лингвистике. Современные корпусы отражают морфологические, синтаксические, семантические зависимости, содержат дискурсную информацию и т.п. Лингвистическая составляющая работы с корпусом может касаться морфологического анализа, изучения грамматических отношений, значений слова, структуры подачи информации, семантической репрезентации. Всё это делает возможным собрать воедино отдельные элементы корпусов, сформировать ресурсы многократной повторяемости.
Разработка и создание корпусов ведётся по двум самостоятельным направлениям. Различаются они по объёму: большие по размеру - от 100 млн единиц вхождения - и малые корпусы размером до 1 млн единиц вхождения. Важным условием составления корпуса любого объёма является соблюдение всех правил лексикографического отбора: аутентичности, хронологической и жанровой однородности, стилевой отнесенности и т.д.
Материалом нашего исследования послужил малый корпус текстов английского подъязыка биотехнологий, отобранный из 103 научных статей [8, с. 163-172]. Объём выборки составил 978 950 словоупотреблений (слов), что обеспечивает практически полный охват лексики подъязыка биотехнологий. Материалом для конструкции данного корпуса текстов послужили источники следующих типов:
1) оригинальные печатные статьи из таких журналов, как «Biotechniques» («Биотехнологии»), «Biotechnology Progress» («Биотехнологический прогресс»), «Biotechnology Advances» («Биотехнологические достижения»),
«Biotechnology and Genetic Engineering Review» («Обзор биотехнологий и генной инженерии») и т.д.;
2) научные монографии видных зарубежных ученых, занимающихся актуальными проблемами биотехнологий;
3) полнотекстовые версии научных журналов на CD-ROM корпорации EBSCO Publishing; 4) материалы Интернета.
Нам представляется, что сконструированная выборка текстов отражает реальное соотношение разделов науки и их языковых проекций. Последовательная автоматическая обработка текстов ограниченной тематики объёмом по 3-5 тыс. словоупотреблений позволила получить картину распределения частот в их абсолютном выражении.
В результате были получены:
1) алфавитный ранговый список всех словоформ текста;
2) частотный список лексем в порядке убывания их абсолютных частот.
При анализе и интерпретации результатов исследуемого корпуса приходилось решать одну техническую и одновременно лингвистическую задачи - устранения омонимии слов. Проблема омонимии разных типов является весьма актуальной проблемой при составлении корпусов текстов и автоматизированных баз терминов. Исследователи отмечают, что омонимия получила широкое распространение в английском языке для специальных целей [3, с. 32; 7, с. 146; 9, с. 158; 10, с. 168]. Для английского языка характерна только частеречная или грамматическая омонимия, возникновение которой не является следствием случайного совпадения: существует связь между омонимами данного типа, так как процесс перехода из одной части речи в другую происходит при условии изменения функционирования и свидетельствует об экономии в языке средств выражения понятий.
По определению З.А. Харитончик, грамматические омонимы - это «омонимические формы в системе одного и того же слова, различающиеся своими грамматическими значениями» [12, с. 72-73]. Частеречная омонимия (омография) состоит в том, что «слова, совпадающие по звучанию, принадлежат к различным частям речи и соответственно имеют разные грамматические значения, разную синтагматическую сочетаемость и участвуют в разных парадигматических связях» [11, с. 37].
Задача определения частей речи и классов слов является теоретически и практически важным для учёта всего арсенала лексических средств, участвующих в построении научного высказывания. Именно с этой целью и целесообразна экспликация на базе существующих грамматических категорий классов слов, более или менее значительных с точки зрения лексической стратификации. По мнению С.Д. Береснева, точное определение частеречной отнесенности - это наиболее распространенная операция при обработке больших массивов текста, «связанная с устранением неопределенности в выборе одного из двух возможных решений при распознавании образа слова» [1, с. 38].
Проблема омографии достаточно остро, по сравнению с другими языками, стоит в английском языке. Так, написание всех грамматических классов слов со строчной буквы значительно усложняет процедуру их различения от омографичных единиц. Сравним: need - потребность (сущ.) - need - нуждаться (гл.) или farming - занятие сельским хозяйством (сущ.) - farming - сельскохозяйственный (прил.).
Автоматический анализ корпуса текстов английского подъязыка биотехнологий не дал возможности классифицировать омонимичные единицы сразу в тот или иной разряд слов. Проблема отнесения таких омографичных единиц решалась преимущественно на основании синтаксической функции, выполняемой тем или иным словом в тексте. Для этого слово маркировалось в тексте и определялось процентное соотношение между двумя единицами. Пропорция давала нам абсолютную частоту употребления в общем объёме выборки.
Что касается вспомогательных глаголов (be, have) как элементов аналитических временных форм и как личных глаголов, нами не делалось различия. Проблема частеречной отнесенности затрагивает преимущественно служебные части речи или слова заполнения текста. Так, безусловно, омографичными в тексте будут неопределенное местоимение, прилагательное и существительное: one - этот, тот (неопр. мест.) - one - единственный (прил.) - one - единица (сущ.) - one - один (числ.).
Грамматическая омонимия в подъязыке биотехнологий часто наблюдается при попытке частеречной отнесённости существительного и глагола: clone - клон (cущ.) - clone - клонировать (гл.), глагола в форме прошедшего времени и причастия II: protected - защищал (гл.) - protected - защищённый (прич.), существительного и причастия I: planting - посадка (сущ.) - planting - сажающий (прич.).
Существительное и глагол являются абсолютными омографами, что обусловлено явлением конверсии, при котором «создаётся новая (производная) лексема с полным сохранением формы производящей» [4, с. 3]. В английском языке конверсия представляет собой весьма продуктивный способ словообразования, необходимым условием которого является омонимия форм исходного и производного слов, что отличает конверсию от других способов словообразования [5, с. 9].
Продуктивность явления конверсии как особого вида омонимии обусловлена особенностями грамматического строя английского языка, а именно отсутствием форм, характеризующих части речи. Данное свойство делает возможным образование от одной части речи нового слова, принадлежащего к другой части речи, без использования словообразовательных элементов. Кроме того, слово, появившееся в результате конверсии, включает в себя некую семантическую область исходного слова-основы, благодаря чему многие конверсированные слова легко восстановимы из контекста.
Таким образом, разработка и методика работы с корпусами в современных условиях обозначает широкие возможности использования корпусов для изучения синтаксиса, функционально-связанных компонентов значения и анализа корпусных баз. Одинаково успешно могут быть исследованы разделы лексики и фразеологии, прагматика и фонология, методологические и структурные методы в грамматике, а также математические основания для статистических подходов к лингвистическому анализу.
Грамматическая омонимия - это лишь одна из особенностей исследуемого корпуса. Различие омографов в речи способствует более качественной частеречной классификации, что немаловажно с точки зрения решения одной из главных задач - создания базовых частотных словарей. Следовательно, различение формы слова и снятие омографии обусловлено, прежде всего, прагматическим подходом к научному тексту. Иноязычному реципиенту для понимания текста необходимо знание не только лексического, но и грамматического значения в каждой словоформе текста.
Список источников
омограф речь лингвистика грамматический
1. Береснев С.Д. Грамматика декодирования немецкого научно-технического русским реципиентом. Киев: УМК МО, 1991. 142 с.
2. Волоснова Ю.А. Корпусная лингвистика: проблемы и перспективы // Лесной Вестник. 2006. №7. С. 43-49.
3. Гашков А.В. Автоматический поиск синтаксической омонимии в тексте // Слово, высказывание, текст в когнитивном, прагматическом и культурологическом аспектах: материалы VIII международной научной конференции. Челябинск, 2016. С. 32-34.
4. Голубева А.Ю. Конверсия в словообразовании: узус и окказиональность: автореф. дисс. … к. филол. н. Воронеж, 2014. 24 с.
5. Губанова И.С. Структурно-квантитативная характеристика омонимии в современном английском языке: автореф.
дисс. … к. филол. н. Н. Новгород, 2010. 18 с.
6. Захаров В.П. Корпусная лингвистика: учеб.-метод. пособие. СПб., 2005. 48 с.
7. Капура Н.В., Дроздова Т.В., Яшина Т.А. К вопросу о состоянии проблемы омонимии в современном английском языке // Наука, образование, общество. 2015. №4 (6). С. 145-150.
8. Кудинова Т.А. Структурно-семантические особенности многокомпонентных терминов в подъязыке биотехнологий (на материале русского и английского языков): дисс. … к. филол. н. Орёл, 2006. 245 с.
9. Николаева Н.С. Некоторые особенности семантики английских терминов (омонимия) // Филологические науки. Вопросы теории и практики. Тамбов: Грамота, 2015. №3 (45): в 3-х ч. Ч. 1. С. 157-159.
10. Порохнин А.А. Анализ статистических методов снятия омонимии в текстах на русском языке // Вестник Астраханского государственного технического университета. Серия «Управление, вычислительная техника и информатика». 2013. №2. С. 168-174.
11. Саргсян Л.В. Категориальная мотивированность звуковой формы слова. Ереван: Изд-во ЕГУ, 2012. 248 с.
12. Харитончик З.А. Лексикология английского языка: учеб. пособие. Минск: Выш. шк., 1992. 229 с.
13. McEnery T., Wilson A. Corpus Linguistics. Edinburgh: Edinburgh University Press, 1996. 240 p.
Размещено на Allbest.ru
Подобные документы
Черты научного стиля, которые отличают его от других стилей английского языка. Функции и признаки текстов научного стиля, их разновидности. Исследование основных лексических, грамматических и стилистических особенностей текстов английской научной речи.
курсовая работа [603,0 K], добавлен 21.04.2015Введение основных понятий корпусной лингвистики. Понятие учебного корпуса и лингвистической разметки. Обзор разработок мультимодальных корпусов и изучение их структуры. Создание русско-немецкого подкорпуса. Разметка текстов и аннотирование данных.
курсовая работа [2,0 M], добавлен 20.06.2014Структурно-содержательные особенности медийных текстов. Характеристика современного медиадискурса. Анализ синтагматических и лингвостилистических особенностей корпуса текстов группы передовых редакторских статей в качественной и популярной прессе.
дипломная работа [76,6 K], добавлен 29.03.2016Основные понятия корпусной лингвистики. Общая характеристика Национального корпуса русского языка. Изучение лексических категорий многозначности и омонимии, синонимии и антонимии. Использование данных Корпуса при изучении синтаксиса и морфологии.
дипломная работа [95,5 K], добавлен 07.11.2013Понятие термина и виды терминологических единиц. Свойства терминов. Многокомпонентные термины и особенности их перевода с английского языка на русский. Практический анализ перевода юридических терминов на примере текстов подъязыка "юриспруденция".
дипломная работа [80,9 K], добавлен 24.05.2012Понятия "содержание" и "форма" при переводе музыкально-поэтических текстов. Сопоставительный анализ текстов оригинала (подлинника) и перевода. Лексические и грамматические трансформации при переводе музыкально-поэтических текстов песен Джона Леннона.
дипломная работа [174,2 K], добавлен 09.07.2015Особенности грамматической омонимия прилагательных и наречий английского языка: явление неизоморфности плана выражения и плана содержания, взаимодействие и взаимопроникновение различных частей речи (прилагательного и наречия), ассиметрия языковых знаков.
дипломная работа [43,2 K], добавлен 07.06.2009Изучение лексико-грамматических и стилистических особенностей перевода военных текстов. Текстуальные категории военных текстов. Выявление специфических приемов перевода, используемых для передачи текстов военного характера с английского языка на русский.
дипломная работа [94,1 K], добавлен 20.05.2015Значение диалектизмов, профессионализмов, жаргонизмов, слов с книжной и разговорной окраской. Анализ текстов разных стилей. Библиографическое описание книги, статьи, документа. Составление аннотации и рецензии. Примеры употребления фразеологизмов.
контрольная работа [39,1 K], добавлен 25.10.2013Характеристика и классификация рекламных текстов, их лексические и синтаксические особенности. Сравнительный анализ англоязычных и русскоязычных рекламных текстов. Разработка урока в рамках темы "Mass Media" на основе проанализированных рекламных текстов.
дипломная работа [4,4 M], добавлен 14.02.2013