Семантическая значимость термина "corpus" в предметной области "корпусная лингвистика"
Результаты компонентного анализа дефиниций английского термина corpus, а также характеристика семантических отношений этого термина в терминосистеме корпусной лингвистики. Наличие синонимических отношений данного термина, компонентный анализ дефиниций.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 30.10.2018 |
Размер файла | 22,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru//
Размещено на http://www.allbest.ru//
Семантическая значимость термина «corpus» в предметной области «корпусная лингвистика»
Т.Н. Сергеева
В настоящей статье представлены результаты компонентного анализа дефиниций английского термина corpus, а также характеристика семантических отношений этого термина в терминосистеме корпусной лингвистики.
Одним из самых мобильных, быстро пополняющихся разделов словарного запаса можно назвать терминологию. Ученые наших дней обращают внимание на тот факт, что ускоряющиеся за последние десятилетия темпы научно-технической революции повергли информацию во всех сферах знаний, производственной и научной деятельности к невероятному увеличению.
Совершается двойственный процесс: небывалый рост доступных исключительно для специалистов особых терминов, количество которых в любом высокоразвитом языке крайне разрастается и исчисляется миллионами, во много раз превышая установленный лексический запас, и в то же время усиленное внедрение специальной терминологии в общественную речь. Специальная терминология превращается в основной источник пополнения лексического состава общеупотребительного языка. Термины являют собой в определенной степени искусственное лексико-семантическое образование, их смысловая суть непременно должна воссоздавать ту информацию, те научные знания, которые помогают выявить содержание понятия.
В сравнении со словами, ничем не ограниченного использования, многие из которых многозначны, термины в рамках одной науки обычно должны быть однозначными. Им свойственна четко ограниченная, главным образом мотивированная специализация и бесспорная семантическая точность. Тем не менее понятие однозначности, употребляемое, как правило, как безусловная отличительная черта терминов, является в некоторой степени относительным. Это, вероятнее всего, требование к безупречным терминосистемам. В действительно имеющихся терминологиях много терминов, которым свойственна так называемая категориальная многозначность. Однако, подвергая анализу определения одного и того же термина, можно прийти к единой его интерпретации.
Сегодня немалое значение приобретает корпусная лингвистика, которая рассматривает вопросы распределения языковедческих явлений в различных языках и объективным путем добывает новейшую языковедческую информацию. «Корпусная лингвистика - раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий» [1; 3]. Преимущество данного течения состоит в том, что оно избегает субъективизма, непременного в традиционной лингвистике, и основывается на объективных познаниях. Корпусная лингвистика создана на применении корпуса, то есть крупного объема активного лингвистического материала, который можно извлечь из многообразных источников и ввести в компьютер.
Компонентный анализ определений языковедческих терминов позволяет выявить «терминополе» корпусной лингвистики, которое представляет собой систему основных понятий, вертикально и горизонтально объединенных друг с другом сетью семантических отношений. «Терминополе» метаязыка корпусной лингвистики отражает в целом научную картину, которая сложилась в данной области знания. В данной статье приводятся результаты компонентного анализа дефиниций термина corpus, который является одним из основных терминов в корпусной лингвистике.
Для начала определим, что же такое corpus. В лингвистике термин corpus определяется как информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Обратимся к дефинициям этого термина, приводимым в различных словарях.
Название словаря |
Дефиниция |
|
A Glossary of Corpus Linguistics авторов Бейкер, Гарди и Макэнери |
The word corpus is Latin for body (plural corpora). In linguistics a corpus is a collection of texts (a “body” of language) stored in an electronic database. Corpora are usually large bodies of machine-readable texts containing thousands or million of words. A corpus is different from an archive in that often (but not always) the texts have been selected so that they can be said to be representative of a particular language variety or genre, therefore acting as a standard reference. Corpora are often annotated with additional information such as part-of-speech tags or to denote prosodic features associated with speech. Individual texts within a corpus usually receive some form of meta-encoding in a header, giving information about their genre, the author, date and place of publication etc. Types of corpora include specialised, reference, multilingual, parallel, learner, diachronic and monitor. Corpora can be used for both quantitative and qualitative analyses. Although a corpus does not contain new information about language, by using software packages with process data we can obtain a new perspective on the familiar [2; 48] |
|
Wikipedia |
In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is part-of-speech tagging, or POS-tagging, in which information about each word's part of speech (verb, noun, adjective, etc.) is added to the corpus in the form of tags. Another example is indicating the lemma (base) form of each word. When the language of the corpus is not a working language of the researchers who use it, interlinear glossing is used to make the annotation bilingual. Corpora are the main knowledge base in corpus linguistics. The analysis and processing of various types of corpora are also the subject of much work in computational linguistics, speech recognition and machine translation, where they are often used to create hidden Markov models for POS-tagging and other purposes. Corpora and frequency lists derived from them are useful for language teaching [3] |
|
Merriam-Webster's Online Dictionary |
Corpus - A. All the writings or works of a particular kind or on a particular subject; the complete works of an author. B. A collection or body of knowledge or evidence; a collection of recorded utterances used as a basis for the descriptive analyses of a language [4] |
|
Russian national corpus |
A corpus is a reference system based on an electronic collection of texts composed in a certain language [5] |
|
Online glossary of corpus linguistics |
Corpora - A central term in corpus linguistics used to refer to (i) (loosely) any body of text; (ii) (most commonly) a body of machine-readable text; (iii) (more strictly) a finite collection of machine-readable texts, sampled to be maximally representative of a language variety [6] |
|
Microsoft Index Server |
Corpus refers to the entire set of documents that are indexed and represented in a catalog. A scope, on the other hand, refers to a set of documents that will be searched during a query. A scope is specified by a virtual root. The virtual root can be defined to include the entire document corpus if desired. Likewise, scopes can be defined to include only a portion of the corpus [7] |
|
Cambridge International Corpus |
A corpus is a large collection of samples of a language held on a computer. The samples can come from anywhere the language is used in speech and in writing. [8] |
|
Consistency of salesian terminology |
A corpus is a representative collection of the language in use by the entity concerned [9] |
Прежде всего, необходимо отметить наличие синонимических отношений данного термина. Для более удобного восприятия изобразим эту информацию в таблице:
Синоним |
Словарь |
|
a corpus is a collection of texts Corpora are usually large bodies of... texts |
A Glossary of Corpus Linguistics |
|
set of texts |
Wikipedia |
|
collection or body of knowledge or evidence |
Merriam-Webster's Online Dictionary |
|
body of text collection of machine-readable texts |
Online glossary of corpus linguistics |
|
set of documents |
Microsoft Index Server |
|
collection of samples |
Cambridge International Corpus |
|
collection of the language in use |
Consistency of salesian terminology |
Синоним, приводимый в русском национальном корпусе (Russian national corpus), отличается от приведенных в таблице: reference system, то есть системы ссылок. Такая формулировка, на наш взгляд, является наиболее удачной.
Далее обратим внимание, что почти все источники говорят о том, что корпус - это, прежде всего, электронная база, то есть речь идет о компьютерной базе данных, без которой корпус существовать не может:
Фраза |
Словарь |
|
Stored in an electronic database |
A Glossary of Corpus Linguistics |
|
now usually electronically stored and processed |
Wikipedia |
|
a collection of recorded utterances |
Merriam-Webster's Online Dictionary |
|
based on an electronic collection of texts |
Russian national corpus |
|
machine-readable texts |
Online glossary of corpus linguistics |
|
documents that are indexed and represented in a catalog |
Microsoft Index Server |
|
held on a computer |
Cambridge International Corpus |
Исключением здесь является источник под названием Consistency of salesian terminology, в котором такой информации не приводится.
В двух источниках даны антонимы рассматриваемого термина:
Антоним |
Словарь |
|
corpus is different from an archive |
A Glossary of Corpus Linguistics |
|
A scope, on the other hand |
Microsoft Index Server |
Далее в этих источниках приводится объяснение, чем отличаются архив и сфера от корпуса. В отличие от архива, в корпусе тексты подобраны так, что они являют собой стандартную сноску на определенный жанр или языковую вариацию. А, так называемая, сфера - это скорее не тематический подбор текстов, а вопросник, при помощи которого выявляется нужная информация.
С понятием корпус тесно связаны такие термины, как аннотирование, разметка. Данные термины связаны с кодированием информации текстов в корпусе и связаны с термином корпус ассоциативными связями, которые можно назвать «предмет-процесс».
Часть дефиниции |
Словарь |
|
Corpora are often annotated |
A Glossary of Corpus Linguistics |
|
process known as annotation part-of-speech tagging |
Wikipedia |
|
documents that are indexed |
Microsoft Index Server |
При дальнейшем исследовании дефиниций данного термина выявились его меронимические связи с такими терминами, как body и header, по отношению к которым термин corpus является голонимом.
Часть дефиниции |
Словарь |
|
form of meta-encoding in a header; a “body” of language |
A Glossary of Corpus Linguistics |
|
body of text |
Online glossary of corpus linguistics |
Компонентный анализ дефиниций термина corpus позволяет установить прямую связь с его гипонимами - specialised corpus, reference corpus, multilingual corpus, monolingual corpus, parallel corpus, learner corpus, diachronic corpus, monitor corpus.
corpus корпусный лингвистика
Часть дефиниции |
Словарь |
|
Types of corpora include specialised, reference, multilingual, parallel, learner, diachronic and monitor. |
A Glossary of Corpus Linguistics |
|
A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). |
Wikipedia |
В результате анализа научных источников не обнаруживается родовидовой связи термина corpus с какими-либо терминами-гиперонимами.
В глоссарии по корпусной лингвистике (A Glossary of Corpus Linguistics) обнаруживаем следующее определение: «Сorpora can be used for both quantitative and qualitative analyses». Из данного определения мы выявляем ассоциативную связь «предмет-предназначение» между терминами corpus и quantitative/qualitative analyses.
Из всего вышесказанного можно сделать следующий вывод: наиболее полно информация о данном термине представлена в глоссарии по корпусной лингвистике авторов Бейкер, Гарди и Макэнери. Данный словарь на сегодняшний день является наиболее полным собранием информации по корпусной лингвистике. В результате анализа дефиниций термина corpus следует, что семантическое субполе термина corpus имеет обширную сеть семантических» отношений, которые отражают многочисленные парадигматические связи этого термина в пространстве лингвистической терминологии (см. схема 1).
Библиографический список
Захаров, В.П. Корпусная лингвистика : учеб. пособие / В.П. Захаров. - СПб. : Изд-во СПбГУ, 2005. - 48 с.
Baker, P. A Glossary of Corpus Linguistics / P. Baker, A. Hardie, T. McEnery. - Edinburgh : Edinburgh University Press Ltd, 2006. - 187 p.
Размещено на Allbest.ru
Подобные документы
Определение термина. Особенности структуры терминов. Характер смысловых связей между компонентами английских терминологических словосочетаний. Сокращение числа составных частей термина. Однословные термины в английском языке.
курсовая работа [19,8 K], добавлен 24.01.2007Основные понятия корпусной лингвистики. Общая характеристика Национального корпуса русского языка. Изучение лексических категорий многозначности и омонимии, синонимии и антонимии. Использование данных Корпуса при изучении синтаксиса и морфологии.
дипломная работа [95,5 K], добавлен 07.11.2013Понятие "гипертекст", различные подходы к пониманию данного термина в контексте современной лингвистики, его структура и типы. Основные жанровые и функционально-стилевые характеристики англоязычного электронного словаря-энциклопедии "The Free Dictionary".
дипломная работа [1,3 M], добавлен 19.04.2011Зарождение понятия "компонентный анализ" в лингвистических исследованиях. Применение метода "компонентного анализа" в лингвистической практике. Взаимодействие метода компонентного анализа с другими методами лингвистических исследований.
курсовая работа [415,4 K], добавлен 27.03.2003Разграничение терминов "концепт", "понятие" и "значение" в лингвистике. Области применения термина "концепт". Познание языковых единиц. Традиционные единицы когнитивистики. Толкование одних и тех же концептов в русской и американской культурах.
курсовая работа [46,5 K], добавлен 31.03.2012Лексико-семантическая характеристика терминологии. Изменения, происходящие в составе отраслевой терминологии. Особенности системной организации терминологии. Качество семантической определенности термина. Мотивированность терминологического знака.
презентация [65,9 K], добавлен 11.03.2015Центральные проблемы неологии. Определения термина неологизм. Виды неологизмов и их словообразовательные модели. Основные типы новообразований. Лингвистический анализ неологизмов современного английского языка. Классификация по способу образования.
курсовая работа [1,1 M], добавлен 20.10.2012Рассмотрение положений лексикографии, функций словарей и проблемы их типологии. Референциальные, синонимические и описательные виды словарных дефиниций. Анализ способов лексикографического представления слов на примере многозначного существительного leg.
курсовая работа [52,4 K], добавлен 27.10.2011Понятие термина и терминосистемы, их функции и классификация. Явления синонимии и полисемии в терминологии. Анализ семантических особенностей синонимического ряда "произведение живописи", "художник", "формат рисунка" во французских медиатекстах.
курсовая работа [225,2 K], добавлен 04.10.2013Общее понимание термина "дискурс" в лингвистике. Типология и структура дискурса. Информационно-кодовая, интеракционная и инференционная модель коммуникации. Онтологизация субъектно-объектных отношений. Анализ дискурса на примере чат-коммуникации.
курсовая работа [70,3 K], добавлен 24.12.2012