Квантитативное исследование англоязычного авторского корпуса Рэгу Н. Митры
Частотность употребления лексических единиц в англоязычном авторском корпусе Рэгу Н. Митры, полученная в результате автоматизированной обработки корпуса программой "WordSmith Tools". Преобразование текста в авторский корпус, его обработка на компьютере.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 30.03.2019 |
Размер файла | 31,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
АНО ВО "Московский информационно-технологический университет"
Московский архитектурно-строительный институт
Квантитативное исследование англоязычного авторского корпуса Рэгу Н. Митры
кандидат филологических наук, ст. преподаватель
Борунов Артем Борисович
Аннотация
Предметом исследования является частотность употребления лексических единиц в англоязычном авторском корпусе Рэгу Н. Митры, полученная в результате автоматизированной обработки корпуса программой «WordSmith Tools». Объектом исследования является англоязычный авторский корпус Рэгу Н. Митры объёмом 414311 токенов. На основе компьютерной обработки был составлен частотный список 50 единиц, а также проведено сравнение частотности употребления семантического поля «Crime» по данным Корпуса современного американского английского языка и авторского корпуса Р. Н. Митры. Методом исследования явился сравнительно-сопоставительный, статистический и математический. Преобразование текста в авторский корпус и дальнейшая его обработка проводились с помощью компьютерного ПО. Результатом данного исследования является преобразование авторского англоязычного корпуса в частотный список, сопоставление данного списка с частотным списком Корпуса современного американского английского языка, критический анализ данных. Новизна исследования заключается в попытке квантитативного анализа языкового корпуса американского языка начала 21 в. и сопоставительном анализе результатов.
Ключевые слова: квантитативный анализ, авторский корпус, Рэгу Н. Митра, ПО «WordSmith Tools», англоязычная художественная проза, частотность, Корпус американского английского, частотный список, сопоставительный анализ корпусов, лингвостатистика
Abstract
The subject of this research is the frequency of the lexical unit usage in the English-Language corpus of Raghu N. Mitra that was obtained through automated processing of the corpus with the program "WordSmith Tools". The object of the research is the English-language corpus of Raghu N. Mitra consisting of 414311 words. By the means of computer processing the author made a frequency list consisting of 50 units as well as compared the frequency of the semantic field usage of "Crime" according to the corpus of contemporary American English and author corpus of R. N. Mitra. The research methods used by the author included comparative, statistical and mathematical methods. The conversion of the text into the author corpus and its further processing were carried out using computer software. As a result of the study, the author English-language corpus was converted into the frequency list to compare this one with a frequency list of the corpus of contemporary American English and to carry out a critical analysis of the data. The novelty of this research is caused by the fact that the author attempts to conduct a quantitative analysis of the language corpus of American English of the early 21st century and comparative analysis of the results.
Keywords: Corpus of Contemporary American English, frequency, English fiction prose, WordSmith Tools, Raghu N. Mitra, author corpus, quantitative analysis, frequency list, comparative analysis of corpuses, linguostatistics
Квантитативная лингвистика, развивавшаяся в Европе и США, переживает расцвет в наши дни в России. Сегодня отечественные лингвисты обратили внимание на методы и подходы этого раздела общей лингвистики, а, с учетом возросшей компьютеризации нашей жизни, удобством использования компьютерного программного обеспечения при проведении анализа корпуса, создании конкордансов и глоссариев, машинном анализе текста, появляется всё больше интересных исследований как в области филологии, отметим, например, исследование параметрических ядер германских языков Воевудской О. М. [4], исследование параметрического ядра русской лексики по данным МАС-2 Стародубцевой Ю. А. [7], так и техническими специалистами, вносящими вклад в автоматизацию процесса текстового анализа, например, разработка автоматизированной системы семантического анализа и построения визуальных динамических глоссариев Кулешова С. В. [6]. лексический англоязычный митра текст
Квантитативный анализ, иными словами количественное исследование языка статистическими методами, позволяет, при помощи компьютерного ПО, автоматизировано получить данные по интересующему исследователя запросу.
Для проведения анализа текста использовалась компьютерная программа «WordSmith Tools» [14]. Данная программа обладает большим функционалом для всестороннего исследования текста математическими методами. Учитывая задачи настоящего следования, мы воспользовались функцией общей статистики корпуса и функцией построения частотного списка.
Фактическим материалом исследования послужил созданный нами электронный авторский англоязычный корпус из 4 полных вариантов книг и двух отрывков из книг Рэгу Н. Митры на английском языке:
1) «Очень банальная страсть» “A Very Insipid Passion” [11];
2) «Грехопадение» “Impute Fall to Sin” [9];
3) «Дождь из теней» “A Rain Full of Ghosts” [10];
4) «Если бы не смерть» “If there wasn't death” [8],
а также 2 фрагмента других произведений писателя, представленных в свободном доступе в сети Интернет:
5) “As in the falling of an eyelid” [12];
6) “At The Davies” [13].
Материал исследования. Приведем исходные параметры анализируемого корпуса, используя ПО, которые занесены в таблицу 1. «Статистические данные обработки авторского корпуса». При обработке общего файла корпуса текстов Р. Н. Митры были выделены исходные данные взятых для анализа текстов, которые составляют - 414311 слов или токенов (столбец «tokens used for word list»), либо 2 273 083 знаков с пробелами (столбец «file size»). Подробнее процедура получения электронного авторского корпуса текста и исследование его начальных параметров описано в статье, откуда позаимствован фрагмент табл. 1 [1].
Табл. 1. Статистические данные обработки авторского корпуса [1].
file size |
tokens (running words) in text |
tokens used for word list |
sum of entries |
types (distinct words) |
type/token ratio (TTR) |
STTR std.dev. |
|
2273083 |
414823 |
414311 |
19405 |
4,68 |
55,80 |
Опираясь на материал данного авторского корпуса из 414311 токенов, построим частотный список. Данный эксперимент был проведен нами с использованием программы «WordSmith Tools», функция автоматизированного построения частотного списка [14].
Эксперимент № 1: «Построение частотного списка лексических единиц исследуемого авторского корпуса программой «WordSmith Tools».
Цель эксперимента: построить частотный список и проанализировать его, затем отобрать 50 наиболее частотных единиц из авторского корпуса и провести сравнение с другими англоязычными корпусами.
Исходные данные: авторский корпус объемом 414311 токенов [1]. Исходные параметры авторского корпуса занесены в табл. 1.
Дата эксперимента: 22.02.2016.
Ход эксперимента: созданный электронный авторский корпус был загружен в программу для составления частотного словаря. Программа автоматически проанализировала корпус и составила список, ранжированный по частотности словоупотребления. Однако, несмотря на удобство и быстроту обработки информации данным ПО, отметим недостаток, а именно при автоматическом анализе корпуса отсутствует функция объединения различных словоформ в лексему, поэтому, например, слова «dog» и «dogs» считаются различными и частотность употребления подсчитывается для каждого слова, также как и в случае с грамматическими парадигмами времен. Кроме того, программа учитывает как токены служебные слова: артикли, союзы, предлоги. Мы не стали в ручную вносить коррективы в результаты обработки текста, так как не ставили задачи обработать частотность, например, исключительно номинативных единиц.
Результаты эксперимента: в составленном частотном словаре последним словом является “zoomed”, которое в ранжировке занимает место под номером 19404 с индексом частотности употребления 1. Первые места по частотности, как и ожидалось, занимают служебные слова: “the”, “I”, “a”, которые обладают частотностью употребления 19256, 11546, 11268 соответственно (см. Табл. 2). На данные слова приходится от 4,64 до 2,72 % текста.
Табл. 2. Фрагмент таблицы-отчета частотного употребления ЛЕ.
N |
Word |
Freq. |
% |
Texts |
% |
|
1 |
THE |
19256 |
4,64 |
1 |
100,00 |
|
2 |
I |
11546 |
2,78 |
1 |
100,00 |
|
3 |
A |
11268 |
2,72 |
1 |
100,00 |
|
19402 |
ZOMBIE |
1 |
1 |
100,00 |
||
19403 |
ZONES |
1 |
1 |
100,00 |
||
19404 |
ZOOMED |
1 |
1 |
100,00 |
Приведем список 50 слов с наибольшей частотностью употребления из исследуемого корпуса (Табл. 3): «Freq.» - «частотность употребления», «%» - «% в корпусе», «Texts» - в данном столбце указано, что при расчете брались данные одного корпуса. Данный список состоит из служебных слов: артиклей, предлогов, местоимений, вспомогательных и модальных глаголов, союзов, частиц, прошедшего времени глагола “said”, вводящего косвенную речь и слова “like”, которое может быть как глаголом, так и наречием. На данный список приходится 46,34% всего корпуса.
Табл. 3. Список 50 самых частотных токенов
WordList 22 фев 2016 |
|||||
N |
Word |
Freq. |
% |
Texts |
|
1 |
THE |
19256 |
4,64 |
1 |
|
2 |
I |
11546 |
2,78 |
1 |
|
3 |
A |
11268 |
2,72 |
1 |
|
4 |
TO |
10075 |
2,43 |
1 |
|
5 |
WAS |
8671 |
2,09 |
1 |
|
6 |
AND |
8630 |
2,08 |
1 |
|
7 |
OF |
8490 |
2,05 |
1 |
|
8 |
HE |
6906 |
1,66 |
1 |
|
9 |
IN |
6645 |
1,60 |
1 |
|
10 |
IT |
5587 |
1,35 |
1 |
|
11 |
YOU |
5406 |
1,30 |
1 |
|
12 |
SHE |
4961 |
1,20 |
1 |
|
13 |
THAT |
4908 |
1,18 |
1 |
|
14 |
SAID |
4812 |
1,16 |
1 |
|
15 |
NOT |
4506 |
1,09 |
1 |
|
16 |
HIS |
3655 |
0,88 |
1 |
|
17 |
HER |
3648 |
0,88 |
1 |
|
18 |
HAD |
3638 |
0,88 |
1 |
|
19 |
WITH |
3486 |
0,84 |
1 |
|
20 |
IS |
2944 |
0,71 |
1 |
|
21 |
HAVE |
2905 |
0,70 |
1 |
|
22 |
ON |
2850 |
0,69 |
1 |
|
23 |
FOR |
2756 |
0,66 |
1 |
|
24 |
MY |
2503 |
0,60 |
1 |
|
25 |
ME |
2321 |
0,56 |
1 |
|
26 |
AT |
2312 |
0,56 |
1 |
|
27 |
WHAT |
2149 |
0,52 |
1 |
|
28 |
NO |
2012 |
0,49 |
1 |
|
29 |
BE |
1907 |
0,46 |
1 |
|
30 |
DID |
1879 |
0,45 |
1 |
|
31 |
HALLEY |
1830 |
0,44 |
1 |
|
32 |
AS |
1782 |
0,43 |
1 |
|
33 |
HIM |
1673 |
0,40 |
1 |
|
34 |
OUT |
1666 |
0,40 |
1 |
|
35 |
WE |
1640 |
0,40 |
1 |
|
36 |
SANDY |
1603 |
0,39 |
1 |
|
37 |
WOULD |
1571 |
0,38 |
1 |
|
38 |
ONE |
1568 |
0,38 |
1 |
|
39 |
BUT |
1529 |
0,37 |
1 |
|
40 |
UP |
1506 |
0,36 |
1 |
|
41 |
ARE |
1441 |
0,35 |
1 |
|
42 |
WERE |
1348 |
0,32 |
1 |
|
43 |
THERE |
1347 |
0,32 |
1 |
|
44 |
AN |
1329 |
0,32 |
1 |
|
45 |
THIS |
1328 |
0,32 |
1 |
|
46 |
FROM |
1320 |
0,32 |
1 |
|
47 |
COULD |
1319 |
0,32 |
1 |
|
48 |
SO |
1303 |
0,31 |
1 |
|
49 |
ABOUT |
1244 |
0,30 |
1 |
|
50 |
LIKE |
1225 |
0,30 |
1 |
Высокую частотность употребления таких единиц как “the”, “a”, “had”, “was”, “of”, “are”, “is”, “have” и ряда других можно объяснить грамматической системой английского языка, в котором присутствует категория определенности/неопределенности, передающаяся посредством артикля, аналитический способ образования грамматических времен при помощи вспомогательных глаголов, передача части грамматических отношений через предлоги. Сравним наши данные с данными Корпуса современного американского английского языка [5] (англ. Corpus of Contemporary American English), которые представлены в Табл. 4. (Корпус современного американского английского языка).
Табл. 4. 50 самых частотных единиц по данным Корпуса современного американского английского языка [5].
Rank |
Word |
Part of speech |
Frequency |
Dispersion |
|
1 |
the |
a |
22038615 |
0.98 |
|
2 |
be |
v |
12545825 |
0.97 |
|
3 |
and |
c |
10741073 |
0.99 |
|
4 |
of |
i |
10343885 |
0.97 |
|
5 |
a |
a |
10144200 |
0.98 |
|
6 |
in |
i |
6996437 |
0.98 |
|
7 |
to |
t |
6332195 |
0.98 |
|
8 |
have |
v |
4303955 |
0.97 |
|
9 |
to |
i |
3856916 |
0.99 |
|
10 |
it |
p |
3872477 |
0.96 |
|
11 |
I |
p |
3978265 |
0.93 |
|
12 |
that |
c |
3430996 |
0.97 |
|
13 |
for |
i |
3281454 |
0.98 |
|
14 |
you |
p |
3081151 |
0.92 |
|
15 |
he |
p |
2909254 |
0.94 |
|
16 |
with |
i |
2683014 |
0.99 |
|
17 |
on |
i |
2485306 |
0.99 |
|
18 |
do |
v |
2573587 |
0.95 |
|
19 |
say |
v |
1915138 |
0.95 |
|
20 |
this |
d |
1885366 |
0.96 |
|
21 |
they |
p |
1865580 |
0.96 |
|
22 |
at |
i |
1767638 |
0.98 |
|
23 |
but |
c |
1776767 |
0.97 |
|
24 |
we |
p |
1820935 |
0.94 |
|
25 |
his |
a |
1801708 |
0.95 |
|
26 |
from |
i |
1635914 |
0.99 |
|
27 |
that |
d |
1712406 |
0.94 |
|
28 |
not |
x |
1638830 |
0.98 |
|
29 |
n't |
x |
1619007 |
0.97 |
|
30 |
by |
i |
1490548 |
0.96 |
|
31 |
she |
p |
1484869 |
0.91 |
|
32 |
or |
c |
1379320 |
0.97 |
|
33 |
as |
c |
1296879 |
0.98 |
|
34 |
what |
d |
1181023 |
0.94 |
|
35 |
go |
v |
1151045 |
0.93 |
|
36 |
their |
a |
1083029 |
0.97 |
|
37 |
can |
v |
1022775 |
0.98 |
|
38 |
who |
p |
1018283 |
0.97 |
|
39 |
get |
v |
992596 |
0.94 |
|
40 |
if |
c |
933542 |
0.97 |
|
41 |
would |
v |
925515 |
0.97 |
|
42 |
her |
a |
969591 |
0.91 |
|
43 |
all |
d |
892102 |
0.98 |
|
44 |
my |
a |
919821 |
0.93 |
|
45 |
make |
v |
857168 |
0.98 |
|
46 |
about |
i |
874406 |
0.96 |
|
47 |
know |
v |
892535 |
0.93 |
|
48 |
will |
v |
824568 |
0.97 |
|
49 |
as |
i |
829018 |
0.95 |
|
50 |
up |
r |
795534 |
0.95 |
Обратим внимание на то, что, как и в авторском корпусе Р. Н. Митры, так и в Корпусе современного американского английского языка среди 50 наиболее частотных единиц присутствуют артикли (в обоих корпусах артикль “the” во главе списка), предлоги, местоимения, вспомогательные и модальные глаголы.
Особенностью авторского корпуса Р. Н. Митры из 50 самых частотных единиц является:
а) присутствуют имена основных героев “Halley” (частотность 1830), “Sandy” (частотность 1603);
б) учитывая специфику повествования «основным героем является доктор Мартин <…>, повествование ведется от лица героя» [2, c. 17] местоимение первого лица I находится на втором месте в списке частотности (частотность 11546).
Как уже отмечалось в одной из публикаций, посвященных исследованию творчества Рэгу Н. Митры: «в рассматриваемых романах Р. Н. Митры герои работают в полиции, расследуя преступления, связанные с оборотом наркотических средств, соответственно, в их речи присутствуют обиходные слова из данной сферы, жаргонизмы, характерные для речи полицейских и преступников: fix («доза»), plant («сыщик», «внедренный агент»), stash («припрятанные наркотики»), to snort (нюхать «дурь»), pot («травка»), mole («внедренный агент»)» [3, c. 50]. Так как произведения Рэгу Н. Митры относятся к жанру детективный роман, рассмотрим, к примеру, частотность употребления слов семиотического поля «преступление» - «crime» в художественной прозе писателя и сравним с данными, полученными из Корпуса современного американского английского языка. Список слов семиотического поля «преступление» - «crime» получен методом автоматизированной частотной выборки из Корпуса современного американского английского языка [5] - см. Табл. 5. (Корпус современного американского английского языка).
Табл. 5. 50 единиц семантического корпуса « Crime » по данным Корпуса современного американского английского языка [5].
FREQ |
ALL |
% |
MI |
|||
1 |
SCENE |
3529 |
50906 |
6.93 |
6.67 |
|
2 |
ORGANIZED |
1590 |
21433 |
7.42 |
6.77 |
|
3 |
COMMITTED |
1590 |
25097 |
6.34 |
6.54 |
|
4 |
VIOLENT |
1510 |
20935 |
7.21 |
6.72 |
|
5 |
BILL |
989 |
126264 |
0.78 |
3.52 |
|
6 |
CRIME |
850 |
45581 |
1.86 |
4.77 |
|
7 |
RATE |
834 |
68763 |
1.21 |
4.15 |
|
8 |
COMMIT |
791 |
9366 |
8.45 |
6.95 |
|
9 |
RATES |
631 |
50856 |
1.24 |
4.19 |
|
10 |
HATE |
584 |
23723 |
2.46 |
5.17 |
|
11 |
VICTIMS |
551 |
27894 |
1.98 |
4.86 |
|
12 |
DRUGS |
545 |
43915 |
1.24 |
4.19 |
|
13 |
VIOLENCE |
523 |
50517 |
1.04 |
3.92 |
|
14 |
PUNISHMENT |
514 |
11369 |
4.52 |
6.05 |
|
15 |
CHARGED |
494 |
24177 |
2.04 |
4.90 |
|
16 |
LAB |
476 |
17851 |
2.67 |
5.29 |
|
17 |
SERIOUS |
430 |
64761 |
0.66 |
3.28 |
|
18 |
MURDER |
373 |
34361 |
1.09 |
3.99 |
|
19 |
DRUG |
368 |
64674 |
0.57 |
3.06 |
|
20 |
SCENES |
329 |
15930 |
2.07 |
4.92 |
|
21 |
COMMITTING |
328 |
3639 |
9.01 |
7.05 |
|
22 |
CONVICTED |
306 |
11804 |
2.59 |
5.25 |
|
23 |
VICTIM |
306 |
20671 |
1.48 |
4.44 |
|
24 |
FIGHTING |
306 |
37649 |
0.81 |
3.57 |
|
25 |
PREVENTION |
304 |
17085 |
1.78 |
4.71 |
|
26 |
GUILTY |
302 |
22995 |
1.31 |
4.27 |
|
27 |
JUVENILE |
276 |
6069 |
4.55 |
6.06 |
|
28 |
STATISTICS |
267 |
17261 |
1.55 |
4.50 |
|
29 |
REDUCE |
258 |
37287 |
0.69 |
3.34 |
|
30 |
POVERTY |
254 |
20475 |
1.24 |
4.18 |
|
31 |
WAVE |
252 |
22344 |
1.13 |
4.05 |
|
32 |
ACCUSED |
208 |
19346 |
1.08 |
3.98 |
|
33 |
SOLVE |
201 |
15396 |
1.31 |
4.26 |
|
34 |
HEINOUS |
184 |
881 |
20.89 |
8.26 |
|
35 |
FBI |
171 |
21748 |
0.79 |
3.53 |
|
36 |
WELFARE |
165 |
22526 |
0.73 |
3.42 |
|
37 |
RAPE |
164 |
11384 |
1.44 |
4.40 |
|
38 |
CORRUPTION |
161 |
10268 |
1.57 |
4.52 |
|
39 |
PHOTOS |
154 |
21651 |
0.71 |
3.38 |
|
40 |
WHITE-COLLAR |
148 |
1174 |
12.61 |
7.53 |
|
41 |
FICTION |
140 |
15269 |
0.92 |
3.75 |
|
42 |
HUMANITY |
136 |
10900 |
1.25 |
4.19 |
|
43 |
DELINQUENCY |
135 |
1519 |
8.89 |
7.03 |
|
44 |
TERRORISM |
132 |
16848 |
0.78 |
3.52 |
|
45 |
HORRIBLE |
130 |
10528 |
1.23 |
4.18 |
|
46 |
REDUCING |
121 |
14011 |
0.86 |
3.66 |
|
47 |
COMMITS |
118 |
917 |
12.87 |
7.56 |
|
48 |
ALLEGED |
115 |
11336 |
1.01 |
3.89 |
|
49 |
INVESTIGATORS |
113 |
15445 |
0.73 |
3.42 |
|
50 |
SPREE |
112 |
1473 |
7.60 |
6.80 |
Возьмем за исходный материал данные семантического поля «Crime» (Табл. 5) и сравним их с данными из авторского корпуса Рэгу Н. Митры. Создадим таблицу (Табл. 6), в правой колонке помещен список по данным Корпуса современного американского английского языка взятый нами за «эталонный», а в левой колонке приведены значения частотности употребления данных ЛЕ по данным обработки авторского корпуса Р. Н. Митры программой «WordSmith Tools».
Табл. 6. Сравнительная таблица с данными частотного употребления
№ пп |
По данным обработки авторского корпуса Р. Н. Митры программой «WordSmith Tools» |
По данным Корпуса современного американского английского языка |
|||||
Токен |
Частотность |
% в тексте |
Токен |
Частотность |
% в тексте |
||
1 |
SCENE |
59 |
0,01 |
SCENE |
50906 |
6.93 |
|
2 |
ORGANIZED |
4 |
ORGANIZED |
21433 |
7.42 |
||
3 |
COMMITTED |
43 |
0,01 |
COMMITTED |
25097 |
6.34 |
|
4 |
VIOLENT |
15 |
VIOLENT |
20935 |
7.21 |
||
5 |
BILL |
35 |
BILL |
126264 |
0.78 |
||
6 |
CRIME |
124 |
0,03 |
CRIME |
45581 |
1.86 |
|
7 |
RATE |
5 |
RATE |
68763 |
1.21 |
||
8 |
COMMIT |
16 |
COMMIT |
9366 |
8.45 |
||
9 |
RATES |
1 |
RATES |
50856 |
1.24 |
||
10 |
HATE |
15 |
HATE |
23723 |
2.46 |
||
11 |
VICTIMS |
5 |
VICTIMS |
27894 |
1.98 |
||
12 |
DRUGS |
65 |
0,02 |
DRUGS |
43915 |
1.24 |
|
13 |
VIOLENCE |
16 |
VIOLENCE |
50517 |
1.04 |
||
14 |
PUNISHMENT |
9 |
PUNISHMENT |
11369 |
4.52 |
||
15 |
CHARGED |
20 |
CHARGED |
24177 |
2.04 |
||
16 |
- |
- |
LAB |
17851 |
2.67 |
||
17 |
SERIOUS |
53 |
0,01 |
SERIOUS |
64761 |
0.66 |
|
18 |
MURDER |
211 |
0,05 |
MURDER |
34361 |
1.09 |
|
19 |
DRUG |
184 |
0,04 |
DRUG |
64674 |
0.57 |
|
20 |
SCENES |
5 |
SCENES |
15930 |
2.07 |
||
21 |
COMMITTING |
8 |
COMMITTING |
3639 |
9.01 |
||
22 |
CONVICTED |
3 |
CONVICTED |
11804 |
2.59 |
||
23 |
VICTIM |
17 |
VICTIM |
20671 |
1.48 |
||
24 |
FIGHTING |
11 |
FIGHTING |
37649 |
0.81 |
||
25 |
- |
- |
PREVENTION |
17085 |
1.78 |
||
26 |
GUILTY |
28 |
GUILTY |
22995 |
1.31 |
||
27 |
JUVENILE |
3 |
JUVENILE |
6069 |
4.55 |
||
28 |
STATISTICS |
6 |
STATISTICS |
17261 |
1.55 |
||
29 |
REDUCE |
3 |
REDUCE |
37287 |
0.69 |
||
30 |
POVERTY |
2 |
POVERTY |
20475 |
1.24 |
||
31 |
WAVE |
10 |
WAVE |
22344 |
1.13 |
||
32 |
ACCUSED |
7 |
ACCUSED |
19346 |
1.08 |
||
33 |
SOLVE |
13 |
SOLVE |
15396 |
1.31 |
||
34 |
HEINOUS |
2 |
HEINOUS |
881 |
20.89 |
||
35 |
FBI |
7 |
FBI |
21748 |
0.79 |
||
36 |
WELFARE |
4 |
WELFARE |
22526 |
0.73 |
||
37 |
RAPE |
8 |
RAPE |
11384 |
1.44 |
||
38 |
CORRUPTION |
3 |
CORRUPTION |
10268 |
1.57 |
||
39 |
PHOTOS |
2 |
PHOTOS |
21651 |
0.71 |
||
40 |
- |
- |
WHITE-COLLAR |
1174 |
12.61 |
||
41 |
FICTION |
14 |
FICTION |
15269 |
0.92 |
||
42 |
HUMANITY |
3 |
HUMANITY |
10900 |
1.25 |
||
43 |
- |
- |
DELINQUENCY |
1519 |
8.89 |
||
44 |
TERRORISM |
6 |
TERRORISM |
16848 |
0.78 |
||
45 |
HORRIBLE |
9 |
HORRIBLE |
10528 |
1.23 |
||
46 |
- |
- |
REDUCING |
14011 |
0.86 |
||
47 |
COMMITS |
1 |
COMMITS |
917 |
12.87 |
||
48 |
ALLEGED |
2 |
ALLEGED |
11336 |
1.01 |
||
49 |
INVESTIGATORS |
1 |
INVESTIGATORS |
15445 |
0.73 |
||
50 |
- |
- |
SPREE |
1473 |
7.60 |
Сравнив данные левой и правой колонок Табл. 6, отметим, что не смотря на то, что Р. Н. Митра пишет детективы, в которых, как на первый взгляд кажется, семантическое поле «Crime» должно быть доминирующим, мы наблюдаем довольно большое расхождение со списком, принятым нами за «эталонный», а в ряде случаев часть токенов из Корпуса современного американского английского языка отсутствуют в исследуемом авторском корпусе (6 позиций).
Квантитативные исследования авторского корпуса по разным параметрам представляются чрезвычайно важными в наши дни, так как дают возможность расширить и углубить данные в уже имеющихся работах, которые, как правило, рассматривают литературоведческую сторону исследования, изучая стиль, композицию и воздействие на читателя посредством интертекстуальных включений, маркированных единиц и графики. Квантитативный анализ корпуса позволяет математическими методами построить частотные глоссарии и авторские словари, выделить особенности авторского словоупотребления, проанализировать коллокации слов. Всё это, несомненно, вносит свой вклад в лингвистическое изучение как текста, так и индивидуального стиля автора.
Библиография
1. Борунов, А. Б. Исследование англоязычного авторского корпуса Рэгу Н. Митры: опыт обработки текста компьютерной программой “WordSmith Tools” / А. Б. Борунов, В. Т. Малыгин // Мир лингвистики и коммуникации: электронный научный журнал. - № 1 (43), 2016. [Электронный ресурс] - Режим доступа: URL: http://www.tverlingua.ru, свободный. Дата обращения: 10.08.2016.
2. Борунов, А. Б. Композиция как авторский приём организации повествования (на материале англоязычных текстов Р.Н. Митры) / А. Б. Борунов // Филология: научные исследования, № 1 (21), 2016. - С. 11-20. DOI: 10.7256/2305-6177.2016.1.18011
3. Борунов, А. Б. Ненормированные лексические и фонетические единицы в художественном тексте (на материале прозы Р. Н. Митры) / А. Б. Борунов // Филологические науки. Вопросы теории и практики. - 2013. № 12-1 (30). - С. 49-52.
4. Воевудская, О. М. Концепция идеографического словаря основного лексического фонда германских языков [Текст]: дисс…. д. филол. н: 10.02.04. / Оксана Михайловна Воевудская. - Воронеж, 2015. - 450 с.
5. Корпус современного американского английского языка [Электронный ресурс] - Режим доступа: URL: http://www.corpus.byu.edu/, по паролю. - Яз. англ., дата обращения: 10.08.2016.
6. Кулешов, С. В. разработка автоматизированной системы семантического анализа и построения визуальных динамических глоссариев [Текст]: дисс….к. тех. наук: 05.13.18 / Сергей Викторович Кулешов. - СПб., 2005. - 113 с.
7. Стародубцева, Ю. А. Исследование параметрического ядра русской лексики по данным МАС-2 / Ю. А. Стародубцева // Вестник ВГУ. Серия Лингвистика и межкультурная коммуникация.-№ 4, 2015. - С. 82-91.
8. Mitra, R. N. If there wasn't death / R. N. Mitra. - Denver, Colorado: Outskirts Press Inc., 2007. - 230 p.
9. Mitra, R. N. Impute Fall to Sin / R. N. Mitra. - М.: Manager, 2005. - 336 р.
10. Mitra, R. N. A Rain Full of Ghosts / R. N. Mitra. - Baltimore: Publish America, 2004. - 366 p.
11. Mitra, R. N. A Very Insipid Passion / R. N. Mitra. - М.: Manager, 2002. - 336 с.
12. Mitra, R. N. As in the falling of an eyelid (отрывок части книги). - [Электронный ресурс] / R. N. Mitra. - Режим доступа: URL: http://www. members.tripod.com/~ShibaHill/eyelid.html, свободный. - Яз. англ., дата обращения: 20. 02.2016.
13. Mitra, R. N. At The Davies: A Novel of Medical Life (отрывок части книги). - [Электронный ресурс] / R. N. Mitra. - Режим доступа: URL: http://www.members.tripod.com/~ShibaHill/atthedavies.html, свободный. - Яз. англ., дата обращения: 20.02.2016.
14. WordSmith Tools [Электронный ресурс]. - Режим доступа: http://www.lexically.net/wordsmith/index.html, свободный. - Загл. с экрана. - Яз. англ., дата обращения: 20.02.2016.
Размещено на Allbest.ru
Подобные документы
Основные понятия корпусной лингвистики. Общая характеристика Национального корпуса русского языка. Изучение лексических категорий многозначности и омонимии, синонимии и антонимии. Использование данных Корпуса при изучении синтаксиса и морфологии.
дипломная работа [95,5 K], добавлен 07.11.2013Классификация английских аббревиатур, анализ сокращенных единиц языка Интернета. Частотность использования и характеристики английских кодифицированных лексических и графических сокращений сети. Условия и причины возникновения графической аббревиации.
курсовая работа [222,5 K], добавлен 18.11.2017Определение, классификация, особенности и основные приемы передачи языковых реалий. Анализ реалий, отобранных из романа Агаты Кристи "N or M", классификация отобранного корпуса единиц и приемы перевода лексических единиц с английского языка на русский.
дипломная работа [146,9 K], добавлен 06.11.2011Передача в переводе некоторых особенностей газетно-информационного стиля, его структура и расхождения в частотности лексических единиц. Определение переводческой эквивалентности. Способы прагматической адаптации и характер лексических изменений текста.
дипломная работа [133,6 K], добавлен 03.07.2015Классификация фразеологических единиц. Исследование взаимосвязи между происхождением лексических единиц и их фразеологической продуктивностью. Изучение особенностей семантики фразеологических единиц библейского происхождения. Виды семантических полей.
курсовая работа [55,0 K], добавлен 17.02.2014История неологизмов и особенности англоязычного интернет-дискурса. Неологизмы как объект изучения современных научных исследований. Структурные особенности и функционально-прагматический анализ использования неологизмов в англоязычном интернет-дискурсе.
дипломная работа [268,5 K], добавлен 30.07.2017Лексические единицы, выражающие понятие "ограниченности умственных способностей" в библейском иврите, а также их реализация в современном языке и частотность употребления. Сводная таблица лексических синонимов с семантикой глупости, оттенки их значения.
курсовая работа [52,1 K], добавлен 13.09.2013Основные виды британского фольклора: сказка и баллада. Истоки англоязычного фэнтези - британская литературная сказка. Образы британского фольклора в англоязычном фэнтези. Путь развития основных образов, характерных для британского фольклора и фэнтези.
дипломная работа [164,5 K], добавлен 29.06.2012Исследование языка как основного средства вербализации окружающего мира. Изучение лексических единиц специфичных для американского и британского вариантов английского языка. Характеристика структурных вариантов идентичных по значению лексических единиц.
дипломная работа [60,6 K], добавлен 11.11.2011Изучение особенностей процесса редактирования, в который входит проверка и обработка текста. Описания правки лексических, морфологических и синтаксических ошибок. Характеристика литературного оформления рукописи. Прогноз воздействия текста на аудиторию.
реферат [25,9 K], добавлен 17.06.2012