Семантическая значимость термина "corpus" в предметной области "корпусная лингвистика"

Результаты компонентного анализа дефиниций английского термина corpus, а также характеристика семантических отношений этого термина в терминосистеме корпусной лингвистики. Наличие синонимических отношений данного термина, компонентный анализ дефиниций.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 30.10.2018
Размер файла 22,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru//

Размещено на http://www.allbest.ru//

Семантическая значимость термина «corpus» в предметной области «корпусная лингвистика»

Т.Н. Сергеева

В настоящей статье представлены результаты компонентного анализа дефиниций английского термина corpus, а также характеристика семантических отношений этого термина в терминосистеме корпусной лингвистики.

Одним из самых мобильных, быстро пополняющихся разделов словарного запаса можно назвать терминологию. Ученые наших дней обращают внимание на тот факт, что ускоряющиеся за последние десятилетия темпы научно-технической революции повергли информацию во всех сферах знаний, производственной и научной деятельности к невероятному увеличению.

Совершается двойственный процесс: небывалый рост доступных исключительно для специалистов особых терминов, количество которых в любом высокоразвитом языке крайне разрастается и исчисляется миллионами, во много раз превышая установленный лексический запас, и в то же время усиленное внедрение специальной терминологии в общественную речь. Специальная терминология превращается в основной источник пополнения лексического состава общеупотребительного языка. Термины являют собой в определенной степени искусственное лексико-семантическое образование, их смысловая суть непременно должна воссоздавать ту информацию, те научные знания, которые помогают выявить содержание понятия.

В сравнении со словами, ничем не ограниченного использования, многие из которых многозначны, термины в рамках одной науки обычно должны быть однозначными. Им свойственна четко ограниченная, главным образом мотивированная специализация и бесспорная семантическая точность. Тем не менее понятие однозначности, употребляемое, как правило, как безусловная отличительная черта терминов, является в некоторой степени относительным. Это, вероятнее всего, требование к безупречным терминосистемам. В действительно имеющихся терминологиях много терминов, которым свойственна так называемая категориальная многозначность. Однако, подвергая анализу определения одного и того же термина, можно прийти к единой его интерпретации.

Сегодня немалое значение приобретает корпусная лингвистика, которая рассматривает вопросы распределения языковедческих явлений в различных языках и объективным путем добывает новейшую языковедческую информацию. «Корпусная лингвистика - раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий» [1; 3]. Преимущество данного течения состоит в том, что оно избегает субъективизма, непременного в традиционной лингвистике, и основывается на объективных познаниях. Корпусная лингвистика создана на применении корпуса, то есть крупного объема активного лингвистического материала, который можно извлечь из многообразных источников и ввести в компьютер.

Компонентный анализ определений языковедческих терминов позволяет выявить «терминополе» корпусной лингвистики, которое представляет собой систему основных понятий, вертикально и горизонтально объединенных друг с другом сетью семантических отношений. «Терминополе» метаязыка корпусной лингвистики отражает в целом научную картину, которая сложилась в данной области знания. В данной статье приводятся результаты компонентного анализа дефиниций термина corpus, который является одним из основных терминов в корпусной лингвистике.

Для начала определим, что же такое corpus. В лингвистике термин corpus определяется как информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Обратимся к дефинициям этого термина, приводимым в различных словарях.

Название словаря

Дефиниция

A Glossary of Corpus Linguistics авторов Бейкер, Гарди и Макэнери

The word corpus is Latin for body (plural corpora). In linguistics a corpus is a collection of texts (a “body” of language) stored in an electronic database. Corpora are usually large bodies of machine-readable texts containing thousands or million of words. A corpus is different from an archive in that often (but not always) the texts have been selected so that they can be said to be representative of a particular language variety or genre, therefore acting as a standard reference. Corpora are often annotated with additional information such as part-of-speech tags or to denote prosodic features associated with speech. Individual texts within a corpus usually receive some form of meta-encoding in a header, giving information about their genre, the author, date and place of publication etc. Types of corpora include specialised, reference, multilingual, parallel, learner, diachronic and monitor. Corpora can be used for both quantitative and qualitative analyses. Although a corpus does not contain new information about language, by using software packages with process data we can obtain a new perspective on the familiar [2; 48]

Wikipedia

In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is part-of-speech tagging, or POS-tagging, in which information about each word's part of speech (verb, noun, adjective, etc.) is added to the corpus in the form of tags. Another example is indicating the lemma (base) form of each word. When the language of the corpus is not a working language of the researchers who use it, interlinear glossing is used to make the annotation bilingual. Corpora are the main knowledge base in corpus linguistics. The analysis and processing of various types of corpora are also the subject of much work in computational linguistics, speech recognition and machine translation, where they are often used to create hidden Markov models for POS-tagging and other purposes. Corpora and frequency lists derived from them are useful for language teaching [3]

Merriam-Webster's Online Dictionary

Corpus - A. All the writings or works of a particular kind or on a particular subject; the complete works of an author. B. A collection or body of knowledge or evidence; a collection of recorded utterances used as a basis for the descriptive analyses of a language [4]

Russian national corpus

A corpus is a reference system based on an electronic collection of texts composed in a certain language [5]

Online glossary of corpus linguistics

Corpora - A central term in corpus linguistics used to refer to (i) (loosely) any body of text; (ii) (most commonly) a body of machine-readable text; (iii) (more strictly) a finite collection of machine-readable texts, sampled to be maximally representative of a language variety [6]

Microsoft Index Server

Corpus refers to the entire set of documents that are indexed and represented in a catalog. A scope, on the other hand, refers to a set of documents that will be searched during a query. A scope is specified by a virtual root. The virtual root can be defined to include the entire document corpus if desired. Likewise, scopes can be defined to include only a portion of the corpus [7]

Cambridge International Corpus

A corpus is a large collection of samples of a language held on a computer. The samples can come from anywhere the language is used in speech and in writing. [8]

Consistency of salesian terminology

A corpus is a representative collection of the language in use by the entity concerned [9]

Прежде всего, необходимо отметить наличие синонимических отношений данного термина. Для более удобного восприятия изобразим эту информацию в таблице:

Синоним

Словарь

a corpus is a collection of texts

Corpora are usually large bodies of... texts

A Glossary of Corpus Linguistics

set of texts

Wikipedia

collection or body of knowledge or evidence

Merriam-Webster's Online Dictionary

body of text

collection of machine-readable texts

Online glossary of corpus linguistics

set of documents

Microsoft Index Server

collection of samples

Cambridge International Corpus

collection of the language in use

Consistency of salesian terminology

Синоним, приводимый в русском национальном корпусе (Russian national corpus), отличается от приведенных в таблице: reference system, то есть системы ссылок. Такая формулировка, на наш взгляд, является наиболее удачной.

Далее обратим внимание, что почти все источники говорят о том, что корпус - это, прежде всего, электронная база, то есть речь идет о компьютерной базе данных, без которой корпус существовать не может:

Фраза

Словарь

Stored in an electronic database

A Glossary of Corpus Linguistics

now usually electronically stored and processed

Wikipedia

a collection of recorded utterances

Merriam-Webster's Online Dictionary

based on an electronic collection of texts

Russian national corpus

machine-readable texts

Online glossary of corpus linguistics

documents that are indexed and represented in a catalog

Microsoft Index Server

held on a computer

Cambridge International Corpus

Исключением здесь является источник под названием Consistency of salesian terminology, в котором такой информации не приводится.

В двух источниках даны антонимы рассматриваемого термина:

Антоним

Словарь

corpus is different from an archive

A Glossary of Corpus Linguistics

A scope, on the other hand

Microsoft Index Server

Далее в этих источниках приводится объяснение, чем отличаются архив и сфера от корпуса. В отличие от архива, в корпусе тексты подобраны так, что они являют собой стандартную сноску на определенный жанр или языковую вариацию. А, так называемая, сфера - это скорее не тематический подбор текстов, а вопросник, при помощи которого выявляется нужная информация.

С понятием корпус тесно связаны такие термины, как аннотирование, разметка. Данные термины связаны с кодированием информации текстов в корпусе и связаны с термином корпус ассоциативными связями, которые можно назвать «предмет-процесс».

Часть дефиниции

Словарь

Corpora are often annotated

A Glossary of Corpus Linguistics

process known as annotation

part-of-speech tagging

Wikipedia

documents that are indexed

Microsoft Index Server

При дальнейшем исследовании дефиниций данного термина выявились его меронимические связи с такими терминами, как body и header, по отношению к которым термин corpus является голонимом.

Часть дефиниции

Словарь

form of meta-encoding in a header;

a “body” of language

A Glossary of Corpus Linguistics

body of text

Online glossary of corpus linguistics

Компонентный анализ дефиниций термина corpus позволяет установить прямую связь с его гипонимами - specialised corpus, reference corpus, multilingual corpus, monolingual corpus, parallel corpus, learner corpus, diachronic corpus, monitor corpus.

corpus корпусный лингвистика

Часть дефиниции

Словарь

Types of corpora include specialised, reference, multilingual, parallel, learner, diachronic and monitor.

A Glossary of Corpus Linguistics

A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus).

Wikipedia

В результате анализа научных источников не обнаруживается родовидовой связи термина corpus с какими-либо терминами-гиперонимами.

В глоссарии по корпусной лингвистике (A Glossary of Corpus Linguistics) обнаруживаем следующее определение: «Сorpora can be used for both quantitative and qualitative analyses». Из данного определения мы выявляем ассоциативную связь «предмет-предназначение» между терминами corpus и quantitative/qualitative analyses.

Из всего вышесказанного можно сделать следующий вывод: наиболее полно информация о данном термине представлена в глоссарии по корпусной лингвистике авторов Бейкер, Гарди и Макэнери. Данный словарь на сегодняшний день является наиболее полным собранием информации по корпусной лингвистике. В результате анализа дефиниций термина corpus следует, что семантическое субполе термина corpus имеет обширную сеть семантических» отношений, которые отражают многочисленные парадигматические связи этого термина в пространстве лингвистической терминологии (см. схема 1).

Библиографический список

Захаров, В.П. Корпусная лингвистика : учеб. пособие / В.П. Захаров. - СПб. : Изд-во СПбГУ, 2005. - 48 с.

Baker, P. A Glossary of Corpus Linguistics / P. Baker, A. Hardie, T. McEnery. - Edinburgh : Edinburgh University Press Ltd, 2006. - 187 p.

Размещено на Allbest.ru


Подобные документы

  • Определение термина. Особенности структуры терминов. Характер смысловых связей между компонентами английских терминологических словосочетаний. Сокращение числа составных частей термина. Однословные термины в английском языке.

    курсовая работа [19,8 K], добавлен 24.01.2007

  • Основные понятия корпусной лингвистики. Общая характеристика Национального корпуса русского языка. Изучение лексических категорий многозначности и омонимии, синонимии и антонимии. Использование данных Корпуса при изучении синтаксиса и морфологии.

    дипломная работа [95,5 K], добавлен 07.11.2013

  • Понятие "гипертекст", различные подходы к пониманию данного термина в контексте современной лингвистики, его структура и типы. Основные жанровые и функционально-стилевые характеристики англоязычного электронного словаря-энциклопедии "The Free Dictionary".

    дипломная работа [1,3 M], добавлен 19.04.2011

  • Зарождение понятия "компонентный анализ" в лингвистических исследованиях. Применение метода "компонентного анализа" в лингвистической практике. Взаимодействие метода компонентного анализа с другими методами лингвистических исследований.

    курсовая работа [415,4 K], добавлен 27.03.2003

  • Разграничение терминов "концепт", "понятие" и "значение" в лингвистике. Области применения термина "концепт". Познание языковых единиц. Традиционные единицы когнитивистики. Толкование одних и тех же концептов в русской и американской культурах.

    курсовая работа [46,5 K], добавлен 31.03.2012

  • Лексико-семантическая характеристика терминологии. Изменения, происходящие в составе отраслевой терминологии. Особенности системной организации терминологии. Качество семантической определенности термина. Мотивированность терминологического знака.

    презентация [65,9 K], добавлен 11.03.2015

  • Центральные проблемы неологии. Определения термина неологизм. Виды неологизмов и их словообразовательные модели. Основные типы новообразований. Лингвистический анализ неологизмов современного английского языка. Классификация по способу образования.

    курсовая работа [1,1 M], добавлен 20.10.2012

  • Рассмотрение положений лексикографии, функций словарей и проблемы их типологии. Референциальные, синонимические и описательные виды словарных дефиниций. Анализ способов лексикографического представления слов на примере многозначного существительного leg.

    курсовая работа [52,4 K], добавлен 27.10.2011

  • Понятие термина и терминосистемы, их функции и классификация. Явления синонимии и полисемии в терминологии. Анализ семантических особенностей синонимического ряда "произведение живописи", "художник", "формат рисунка" во французских медиатекстах.

    курсовая работа [225,2 K], добавлен 04.10.2013

  • Общее понимание термина "дискурс" в лингвистике. Типология и структура дискурса. Информационно-кодовая, интеракционная и инференционная модель коммуникации. Онтологизация субъектно-объектных отношений. Анализ дискурса на примере чат-коммуникации.

    курсовая работа [70,3 K], добавлен 24.12.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.