Главная Коллекция "Otherreferats" Иностранные языки и языкознание Анализ поведенческих особенностей ударения в русском языке в зависимости от морфемного состава слова

Анализ поведенческих особенностей ударения в русском языке в зависимости от морфемного состава слова

Теоретические аспекты поведения ударения в русском языке. Реализации расстановки ударений в русском языке и других языках. Акцентные типы в разных частях речи. Морфемный подход. Алгоритм работы программы. Создание базы данных с золотым стандартом слов.

Рубрика	Иностранные языки и языкознание
Вид	дипломная работа
Язык	русский
Дата добавления	02.09.2018
Размер файла	790,5 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Также были рассмотрены морфемы, указывающие на однозначное ударение на первом и втором слоге суффикса - 16 и 11 случаев соответственно. Случаи падения ударения на первый слог суффикса представлены 15 морфемами: -абельн- (рентамбельный, коммуникамбельный, читамбельный), -ачий (индюшамчий, кошамчий, медвежамчий), -енек (тяжелемнек), -ибельн- (смотримбельный, носимбельный), -ированн- (экзальтимрованный, эрудимрованный, но привилегиромванный), -ительн- (впечатлимтельный, куримтельный, извинимтельный), -овенн- (солодомвенный), -овий (воломвий, кротомвий, слономвий), -онек- (далекомнек, долгомнек), -охоньк- (легомхонький), -ошеньк- (легомшенький), -усеньк- (такумсенький), -юсеньк- (малюмсенький, тонюмсенький), -янн- (деревямнный, оловямнный, стеклямнный), -ическ- (аналитимческий, каталитимческий, генетимческий, областнимческий) и одним морфемным комплексом: за-...-ованн- (заспиртомванный, закамышомванный, зашифромванный). Морфема -овенн- представлена лишь небольшой группой слов.

В случае падения ударения на второй слог суффикса было выделено 9 морфем: -еват- (кудревамтый, пылевамтый, оранжевамтый), -евит- (глянцевимтый), -иальн- (приципиамльный, бронхиамльный), -ианск- (соссюриамнский, кантиамнский, фейербахиамнский), -истическ- (табуистимческий), -овал- (годовамлый), -оват- (сиповамтый, слабовамтый, грубовамтый), -овит- (башковимтый, мозговимтый, мастеровимтый), -ональн- (профессионамльный, национамльный), 2 морфемных комплекса: под-...-оват- (подслеповамтый), про-...-оват- (продолговамтый). Из них морфемы -истическ-, -овал-, под-...-оват-, про-...-оват- представлены только небольшими группами слов.

3.4.3. Морфемы глаголов, указывающие на место ударения

В ходе исследования было рассмотрено поведение 154 морфем и морфемных образований глаголов (из них 23 суффикса, 40 префиксов и 91 префиксально-суффиксальный образований). В состав морфем также вошли их возможные сочетания с постфиксом -ся. Было выделено 50 морфем (32% от всего их количества), которые способны однозначно указывать на ударение в слове. Ниже рассмотрены следующие места возможного падения ударения в глаголах: на префикс, на корень, на предсуффиксальный слог и на суффикс.

Среди случаев, однозначно указывающих на падение ударения на префикс, была выделены морфема вы- (вымделить, вымписать) и 3 морфемных образования: вы-...-е- (вымзвездеть, вымтолщеть), вы-...-и- (вымместить), вы-...-ся (вымговориться, вымплакаться, вымспаться). Одно морфемное образование (вы-...-е-) из них представлено лишь небольшой группой слов.

Случаи, однозначно указывающие на падение ударения на корень, представлены тремя морфемными комплексами: с-...-и-...-ся (смимлостивиться, скапумтиться, скопымтиться), обез-...-е- (обездемнежеть, обезрымбеть, обезживомтеть), обез-...-и- (обезгламвить), среди которых образование с-...-и-...-ся представлено ограниченной группой слов.

На ударение в предсуффиксальном слоге однозначно указывает морфема -ка- (омйкать, вамнькать) и 16 следующих морфемных комплексов: за-...-и-...-ся (заимлиться, запаутимниться), из-...-и-...-ся (изнесчамститься, но изловчимться), при-...-ива-ся (придумриваться), вы-...-ива- (вызвамнивать), на-...-ива- (назвамнивать, накрумчивать, накрампывать), об-...-и-ся (обынтеллигемнтиться, объякумтиться), от-...-ива- (отплямсывать, отстумкивать, отсвемчивать, но откумпоривать), пере-...-ива- (перезвамнивать, перестумкивать), пере-...-ива-ся (переговамриваться, перезвамниваться, перекримкиваться), по-...-и-...-ся (посчастлимвиться, повитамимниться), по-...-ива- (побамливать, повимзгивать, подемргивать), под-...-ива- (подпамхивать, поддрамзнивать, подкамшливать), при-...-ива- (приговамривать, прикрямкивать), раз-...-ива- (разгумливать, но разжамлобливать), рас-...-ива- (раскумривать, расхамживать), у-...-и-...-ся (улетумчиться, удосумжиться), из них к небольшой группе слов относится 3 морфемных комплекса (за-...-и-...-ся, из-...-и-...-ся, при-...-ива-ся).

Среди случаев, однозначно указывающих на ударение на суффиксе, было выделено 7 морфем: -ану- (резанумть, мазанумть, секанумть), -и- (белимть, грузимть, даримть, дружимть, душимть, женимть, кормимть, косимть, крестимть, крошимть, кружимть, мочимть, мутимть, светимть, сердимть, солимть, ссудимть, сушимть, тупимть, хвалимть, двоимть, троимть), -ирова- (гримировамть, лакировамть, маршировамть), -ова- (адресовамть, титуловамть), -изирова- (автоматизимровать, витаминизимровать, механизимровать), -изова- (авторизовамть, стилизовамть), -я- (ровнямть, закреплямть, наполнямть), и 19 морфемных образований: а-...-ся (братамться, женихамться, нуждамться), -е-...-ся (виднемться), на-...-и-...-ся (наловчимться, накогтимться), -ова- (адресовамть, титуловамть), -ова-...-ся (почковамться, рубцевамться, столовамться), в-...-и-ся (вцепимться), вс-...-ну-ся (встрепенумться), за-...-а- (завожжамть, зауздамть, запоздамть), за-...-ну- (заснумть), о-...-а- (опоздамть, обеднямть), об-...-а- (обуздамть), пере-...-ова- (перефразимровать), по-...-а- (получшамть, потоньшамть, построжамть), про-...-ну-ся (проснумться), у-...-а- (утоньшамть), о-...-ну- (ополоснумть), при-...-ну- (прихворнумть, придремнумть, прилгнумть), про-...-ну- (простирнумть), с-...-ну- (сболтнумть, сгрустнумть, сполоснумть), у-...-ну- (уснумть). При этом практически все морфемные комплексы представлены небольшими группами слов.

4. МЕТОД

4.1 Алгоритм работы программы

В этой главе описывается алгоритм работы системы, созданной по итогам теоретической части исследования и способной автоматически расставлять ударение в тех словах, которые содержат в своём составе морфемы, однозначно указывающие на позицию ударения в слове. Программа реализована на языке Python 3 с использованием вспомогательных модулей, необходимых для токенизации текста (модуль nltk), определения грамматических характеристик и леммы слова (модуль pymorphy2), работы с текстом с помощью регулярных выражений (модуль re), создания пользовательского интерфейса (модуль flask), а также некоторых других дополнительных модулей.

В основе работы программы лежит морфемный подход, реализованный с помощью списков, содержащих полный список морфем, которые способны однозначно выделить ударный слог словоформы. Структура списков сформирована в соответствии с акцентными типами и стратегией поведения ударения в слове так же, как это было изложено в разделе «Морфемы, указывающие на поведение ударения». Для каждой из трёх рассматриваемых частей речи была собрана база, содержащая списки слов, являющиеся исключениями из описанных в списках правил.

Алгоритм работы программы условно разделяется на следующие этапы:

1. подготовка к работе и предобработка текста;

2. определение части речи и грамматических характеристик;

3. выделение морфемного состава начальной формы слова;

4. определение места ударения в словоформе в соответствии с акцентным типом слова;

5. обработка исключений.

В первую очередь система извлекает информацию о правилах в морфемах внутри каждой из частей речи, хранящуюся в виде списков внутри специальных директорий. Программа позволяет как определять позицию ударения в отдельных словах, так и расставлять ударения в рамках целого текста. На этапе предобработки производится токенизация текста, реализованная с помощью модуля nltk, в ходе которой текст разбивается на отдельные словоформы, последовательно обрабатывающиеся в ходе дальнейшей работы программы.

Для каждой такой словоформы автоматически определяется её часть речи, все грамматические характеристики, а также устанавливается начальная форма лексемы. Информация обо всех этих данных собирается с помощью дополнительной библиотеки pymorphy2, отвечающей за морфологический анализ языка. В случае возможной омонимии обрабатывается лексема, предложенная модулем первой. Так, при определении начальной формы в словоформе стали возможны 6 различных разборов, один из которых относит лексему к категории глагола, а остальные 5 ? к категории существительных в разных падежах. Поскольку вариант, относящий словоформу к категории глагола, предлагается модулем в первую очередь, система расстановки ударений сосредотачивается именно на этом варианте. На этом этапе не исключена вероятность ошибки, продиктованная невозможностью однозначно определить значение слова. Действительно, для определения точного значения словоформы потребовался бы контекстный анализ предложения, а также дополнительные инструменты для семантического анализа, что представляет собой отдельную масштабную задачу.

На следующем этапе в начальной форме слова производится поиск всех аффиксов, которые могут встречаться в части речи, выявленной на предыдущем этапе. Для реализации такого метода потребовалось создать списки всех морфем (префиксов и суффиксов) внутри каждой из трёх рассматриваемых частей речи. Поиск морфем в строке осуществляется путём поиска максимальной подстроки в строке. В случае префиксов такой поиск производится с начала строки, а для поиска суффиксов ? с конца строки. Поскольку сформированные списки содержат не только сами суффиксы, но и их возможные сочетания с флексиями, стемминг лексемы не производится. Информацию о таких сочетаниях стало возможным получить в результате самостоятельного исследования возможных грамматических характеристик для каждой из морфем. Внутри одной лексемы возможно встретить не только один суффикс, но комбинацию из нескольких суффиксов (брезгливость, высказывание). Несмотря на то, что информация о ряде суффиксальных сочетаний также даётся в рамках списков, многие из них остались не рассмотрены, и поведение ударения в случае комбинации из нескольких суффиксов нуждается в дополнительном изучении. При работе системы анализируется последний суффикс, входящий в состав лексемы. Выбор метода, применяющего поиск максимальной подстроки в строке, мотивирован тем, что для исследования требуется инструмент, позволяющий с очень высокой точностью произвести разделение на морфемы. В ходе создания системы были протестированы различные алгоритмы и модули, направленные на проведение морфемного анализа в слове, однако наибольшую эффективность для задачи определения ударения показал подход, при котором информация поступает из составленных списков морфем, поскольку они содержат наиболее полный состав морфемы для рассматриваемых частей речи и учитывают сочетаемость таких морфем с флексиями слов, в которых они могут встречаться. Здесь стоит также отметить, что ряд морфем может частично совпадать по написанию с другими морфемами данной части речи (ср.: -ук и -чук; -ит и -енит, -инит в именах существительных). Несмотря на то, что метод выбора максимальной подстроки в строке в ряде случаев может ошибочно определить морфему (например, выделение суффикса -овец в слове ловец, суффикса -лищ(е) в слове пепелище), в подавляющем большинстве случаев именно он способствует выделению верного аффикса в слове. Кроме того, не стоит забывать, что в рамках закона аналогии слова подчиняются определенным закономерностям вследствие фонетического сходства, благодаря чему даже при ошибочном включении части корня в состав суффикса высока вероятность, что ударение в таком слове также соответствует тенденции для слов с похожим конечным сегментом. Разумеется, подход, в рамках которого эти случаи разграничиваются и обрабатываются отдельно друг от друга, мог бы принести большие результаты, подробнее способы улучшения существующего алгоритма будут изложены в разделе «Пути улучшения алгоритма». Ошибки в выделении морфем также широко распространены среди заимствований и имён собственных, имеющих особые тенденции поведения ударения, ввиду чего в этих категориях слов могут встречаться ошибки при определении позиции ударения. Подробные случаи будут также изложены в разделе «Пути улучшения алгоритма».

На следующем этапе работы программа анализирует выделенные морфемы и производит анализ, направленный на выделение ударной позиции в изначальной словоформе. Информация о тактике поведения ударения в словоформах с той или иной морфемой хранится в виде правил, при которых учитывается и акцентный тип лексемы. Правила позволяют однозначно указать и выделить ударный слог слова.

На последнем этапе производится проверка, направленная на выявление исключений. В случае, если лексема содержится в списках исключений, постановка ударения в словоформе производится в соответствии с описанными правилами.

В результате работы система возвращает полученный на вход текст с расставленными ударениями в тех словах, где это оказалось возможным, при этом предоставляя информацию о том, на основе чего был сделан выбор об ударении (часть речи слова, выделенный суффикс и правило, по которому он падает на какой-либо из участков слова). Такая информация может оказаться полезной для студентов, изучающих русский язык как иностранный, а также в рамках других исследований, направленных на установление зависимостей поведения ударения.

Пользовательский интерфейс был реализован в виде сайта совместно в рамках проекта «sStress» (http://linghub.ru/stress/), где другим подходом к определению места ударения в тексте послужило создание нейронного акцентуатора (Ponomareva и др., 2017).

4.2. Пути улучшения алгоритма

Улучшения существующего метода возможны в шести различных направлениях:

? поиск подходов, направленных на установление мотивирующего слова;

? обработка иностранных слов, заимствований, топонимов и имён собственных;

? улучшение алгоритма разбиения слова на морфемы;

? исследования, направленные на изучение поведения ударения в словах с последовательностью суффиксов;

? расширение списка частей речи;

? рассмотрение случаев вариативного ударения в слове, а также случаев побочного ударения и переноса ударения на предлог.

Отсутствие возможности определить мотивирующее слово в словоформе ? проблема, с которой связана большая часть случаев неприменимости автоматического подхода к постановке ударения. Так, ударение у слов с одной и той же морфемой может отличаться лишь в зависимости от части речи или прочих характеристик мотивирующего слова. Также нередки случаи, когда ударение в слове падает на тот же слог, что и в мотивирующем слове. Таким образом, результаты дополнительных исследований, направленных на поиск мотивирующего слова для каждой конкретной лексемы, могут существенно увеличить полноту работы программы.

При работе системы наиболее часто возникают ошибки, связанные с именами собственными, в том числе топонимами, и заимствованиями. Ошибки такого рода возникают вследствие особых тенденций поведения ударения или ошибочного морфемного деления слова. Например, в существительных суффикс -он всегда выступает ударным, однако в случае имён собственных с таким же конечным сегментом, ударение может быть определено неправильно (ср.: Джон Лемннон и *Ленномн). Исследование, направленные на обнаружение тенденций поведения ударения в таких случаях, а также составление списков имён собственных и заимствований могли бы улучшить работу программы.

Как уже упоминалось выше, часть ошибок связана с неправильным разбиением слова на морфемы. Такое может происходить в случае, если существует две морфемы различной длины, пересекающихся по написанию (например, -ит и -енит). Ошибки могут возникать в тех случаях, когда корень заканчивается тем же сегментом, что и начало более длинного суффикса (селенит с суффиксом -ит) и когда корень целиком включает сегмент, аналогичный самому длинному суффиксу (зенит). Несмотря на то, что в большинстве случаев тенденции падения ударения в таких словах одинаковы (керченимт, селенимт, зенимт), и система во всех случаях выставляет правильное ударение, такие случаи было бы более корректно обрабатывать отдельно. Для того, чтобы это стало возможным, необходимо собрать список всех распространенных корней русского языка и при морфемном анализе слова проверять, существует ли в таком списке сегмент, оставшийся после удаления всех найденных префиксов, суффиксов и окончаний.

Также уже отмечалась необходимость более детального исследования случаев, когда в слове встречается последовательность из нескольких суффиксов. Исследование может направлено как на выделение и анализ всех употребимых сочетаний, так и, продолжая исследования А. А. Зализняка, на разбор поведения и доминантности каждого суффикса в окружении других морфем.

Кроме того, было бы полезно рассмотреть и учесть случаи поведения морфем в наречиях, причастиях и деепричастиях, а также случаи переноса ударения на предлог. Неоспоримым плюсом будет также определение и постановка побочного ударения в словах и анализ случаев слов, в которых сейчас возможны разные варианты постановки ударения.

5. АНАЛИЗ КАЧЕСТВА СИСТЕМЫ

5.1 Создание базы данных с золотым стандартом слов

Для тестирования работы системы необходимо было создание золотого стандарта: списка словоформ с расставленными ударениями. Такой золотой стандарт слов был собран по материалам акцентологического подкорпуса Национального корпуса русского языка, в золотой стандарт были включены также имена собственные и слова, недавно пришедшие в язык. После сбора данных они были обработаны, в частности, было принято решение оставить только те слова, которые содержат больше одного слога и несут на себе только одно ударение. В результате был создан список уникальных словоформ, включающий 5335 вхождений, среди которых 2548 имён существительных, 929 имён прилагательных и 1055 глаголов.

На основе слов золотого стандарта было проведено исследование статистических данных, касающихся тенденций в месте постановки ударения в словах с разным количеством слогов. Были проанализировано распределение слов с разным количеством слогов внутри золотого стандарта (см. таблицу 1), а также распределение позиции ударения в словах с разным количеством слогов (см. график 1 и 2).

Таблица 1. Распределение слов с разным количеством слогов

Кол-во слогов в слове	2	3	4	5	6	7	8	10
Кол-во вхождений	2255	1878	790	296	85	23	5	1

График 1. Распределение ударений (с начала слова) в словах с разным количеством слогов

График 2. Распределение ударений (с конца слова) в словах с разным количеством слогов

Подобное исследование было также проведено внутри каждой из частей речи. Для имён существительных данные представлены на графиках 3 и 4, для имён прилагательных ? на графиках 5 и 6, для глаголов ? на графиках 7 и 8.

График 3. Распределение ударений (с начала слова) в именах существительных с разным количеством слогов

График 4. Распределение ударений (с конца слова) в именах существительных с разным количеством слогов

График 5. Распределение ударений (с начала слова) в именах прилагательных с разным количеством слогов

График 6. Распределение ударений (с конца слова) в именах прилагательных с разным количеством слогов

График 7. Распределение ударений (с начала слова) в глаголах с разным количеством слогов

График 8. Распределение ударений (с начала слова) в глаголах с разным количеством слогов

Результаты проведенного исследования подтвердили две тенденции, изложенные в (Фунтова, 2010), а именно тенденцию ударения к тяготению к центру слову и предпочтением второй половины слова.

5.2 Анализ точности и полноты

Для анализа точности и полноты текста сначала было проанализировано качество распознавания частей речи модулем pymorhy2. Для проведения такого анализа были использованы данные словаря, содержащего в себе части речи для всех словоформ слова. Из 5335 случаев, входящих в золотой стандарт, часть речи была распознана для 3887 словоформ (73%), остальные 1448 словоформ содержали омонимичные разборы или отсутствовали в словаре. При поиске пересечений было выявлено 145 случаев, когда часть речи, распознанная модулем, не совпадала с частью речи, предложенной в словаре. Все эти случаи были проанализированы вручную, в ходе чего было обнаружено, что для большинства словоформ возможны два морфологических разбора (прилагательное или наречие для противоположно, прилагательное или компаратив для мудрее, причастие или краткое прилагательное для виден). Ошибочный морфологический разбор модулем pymorphy2 встретился только в слове капучино, которое было выделено как краткое прилагательное. В ряде случаев модуль pymorphy2 показал лучшие результаты, нежели словарно-ориентированный модуль. Например, в случае словоформ несет и позовет модуль pymorphy2 отнёс их к глаголам, а словарно-ориентированный модуль ? к именам существительным. Так же произошло со словоформами землею и огнем, которые модуль pymorphy2 причислил к именам существительным, а словарно-ориентированный модуль ? к глаголам. Таким образом, анализ качества работы модуля pymorphy2 показал, что он справляется с задачей определения части речи в подавляющем большинстве словоформ (99%).

На следующем этапе была проанализирована точность и полнота работы программы. Для этого системой были обработаны словоформы, входящие в золотой стандарт. В результате работы системы ударение не было проставлено в 4014 случаях из 5335 (таким образом, покрытие составило 25%), вследствие наличия в золотом стандарте слов, не относящихся к категориям имен существительных, прилагательных или глаголов, а также отсутствия в словоформах морфем, способных однозначно указать на ударение в слове. При рассмотрении словоформ золотого стандарта, относящихся только к этим трём частям речи, покрытие составило 29% (ударение было определено для 1321 случая из 4532). В частности, позиция ударения была установлена для 764 случаев имён прилагательных, 1656 случаев имён существительных и 791 случая глаголов.

На следующем этапе было проведено сравнение места ударения, выделенного программой, с местом ударения, определённом в золотом стандарте. В 9 случаях программа не справилась с постановкой ударения, приписав ударение согласному. Такие случаи были связаны с разными корнями в формах единственного и множественного числа (детей и ребёнок), а также с усечением основы в случаях морфем, указывающих на ударный суффикс слова (господ и господин, татар и татарин, замер и замереть). В 903 случаях, в частности, в 126 именах прилагательных, 628 существительных и 149 глаголах, ударение в словоформе было определено верно. В 409 случаях программа определила неправильное место ударения в словоформе. Такие случаи были проанализированы вручную, при этом для каждой словоформы была установлена причина, по которой позиция ударения оказалась неправильной.

Так, неправильное определение места ударение встретилось в 39 прилагательных. В 7 случаях ошибочная постановка ударения была связана с тем, что в слове присутствовала комбинация суффиксов, не рассмотренная в рамках теоретической части. В частности, слова с морфемами -ост-н- встретились 2 раза, но в них был выделен только суффикс -н-, а слова с морфемами -у-ющ- ? 5 раз, но в них не был распознан аффикс -у-. Случаи ошибочного определения места ударения вследствие неправильного выделения суффикса словоформы возникли в 11 случаях, самым частотным стал суффикс -н-, распознанный как -отн- в составе слов болотная, потное, плотная. Случаи нехарактерного поведения ударения встретились 21 раз (6 раз для морфемы -енн-, 5 раз для -ир-ова-нн- и по 2 раза для морфем -им-, -ущ- и -янн-).

У существительных встретилось 261 словоформ, в которых было ошибочно определено место ударения. В 16 случаях такое произошло вследствие неправильного выделения суффикса в именах собственных (-ин для Пушкин, Путин, Бабурин; -он для Элтон, Джексон, Леннон; -ень для Маккартни, неправильно лемматизированном как Маккартень). В 4 случаях ошибочная позиция ударения вызвана комбинацией суффиксов, не все из которых были распознаны. Так, в слове бомбардировщик* присутствуют морфемы -ард-ир-ов-щик, первые две из которых не были распознаны программой; в слове внутренности ? -енн-ост- ошибочно выделена цепочка -нн-ост-; в слове зондирование - не был выделен аффикс -ир-. Случаи неправильного выделения суффикса наиболее частотны, их количество составило 203 случая (неправильные разборы: -да в вода, -ир в Владимир, -ад в сад, -ба в труба, -ва в глава и др.). Нехарактерная позиция ударения была обнаружена в 31 случае морфем, в частности, бабумшка, девумшка, матумшка, молодумшка с самоударным морфом -ушка; жамлование, испомльзование, исслемдование* с самоударным морфом -ование и в ряде других. В семи случаях неправильное определение места ударения было связана с ошибочным определением начальной формы слова модулем pymorphy2, среди них: лесах и леса, неверье и неверие, поля и поль, полков и полок.

В 109 глаголах также ударение было определено неверно. Большая часть ошибок (78 случаев) связана с нехарактерным поведением морфемы: 26 случаев из них касаются сочетания -и-...-ся с ударением на суффиксе (но окомнчился, осмемлился, познакоммился и др.). 30 случаев ошибочного определения позиции ударения приходятся на случаи неправильного выделения суффикса в слове. Самый частотный случай (21 словоформ) связан с суффиксами -к-а-, когда корень слова оканчивался на сегмент -к: возникать, втекать, завтракать. Наконец, один случай приходился на случай омонимии: в золотом стандарте ударение в слове свемжей падает на первый слог, а система поставила ударение на втором (свежемй), но оба эти варианта являются допустимыми.

На следующем этапе было выбрано по 100 примеров из категорий с правильной и неправильной позициями ударения, а также из категории слов, где ударение поставлено не было. Создание такой выборки было необходимо для того, чтобы определить, в каких случаях ошибочная постановка ударения вызвана неправильно определённой морфемной структурой слова. Такая выборка включила в себя 65 имён существительных, 16 имён прилагательных и 19 глаголов для случаев с правильно определённым местом ударения; 67 имён существительных, 8 имён прилагательных и 25 глаголов для случаев с ошибочно определённой позицией ударения; 44 имени существительных, 19 имён прилагательных, 20 глаголов и 17 слов других частей речи для случаев, когда ударение определено не было. На основе данных был проведён анализ количества словоформ, в которых присутствуют или отсутствуют морфемы из списков, способные однозначно указать на ударение. Здесь стоит повторно отметить, что у существительных чрезвычайно высок процент слов, в которых конечный сегмент слова аналогичен по написанию с суффиксом, но полностью или частично входит в состав корня. При этом, такие слова в большинстве сохраняют тенденцию, проявляющуюся в словах с аналогичными суффиксами (ср.: комбамйн-ер и дизамйнер, в которых на позицию ударения влияет конечный сегмент -айнер; литр-амж и пилот-амж, багамж и колламж, где ударение определяет сегмент -аж). Таким образом, в случае правильного определения позиции морфемы нам не так важно, включает ли слово саму морфему или аналогичный ей сегмент, если он указывает на место ударения. Тем не менее, в Таблице 2 и при подсчете точности и полноты будут отдельно рассмотрены случаи, в которых ударение определено правильно вследствие наличия нужной морфемы, и случаи, когда такая морфема в слове отсутствует (т. е. слово заканчивается на аналогичный ей сегмент).

Таблица 2. Распределение случаев случайной выборки в соответствии с наличием или отсутствием морфем, однозначно указывающих на ударение, и правильностью постановки ударения.

	однозначная морфема есть	однозначной морфемы нет
ударение определено	43	57
ударение не определено	31	69
ударение отсутствует	0	100

В Таблице 3 показаны характеристики, зависящие от наличия или отсутствия определённого места ударения и наличия морфем. Мы экстраполировали полученные данные (см. Таблицу 2) на подвыборке золотого стандарта, содержащей имена существительные, прилагательные и глаголы. Результаты отражены в Таблице 3. 9 случаев, в которых система обнаружила неправильную работу и поставила ударение на согласный звук, в таблице не представлены.

Таблица 3. Количество словоформ, в зависимости от наличия или отсутствия определённого места ударения и наличия морфем.

Ударение определено правильно	Ударение определено неправильно	Ударение не определено
Морфемный состав определён правильно	Морфемный состав определён неправильно
389	514	409	3211

В соответствии с данными, полученными в результате исследования, Accuracy (соотношение случаев правильно определённого ударения к подвыборке золотого стандарта, включающей имена существительные, прилагательные и глаголы) составила 20%. Полнота (соотношение случаев, когда программа поставила ударение, к общему объёму золотого стандарта) составила 25%.

По сравнению с другими системами для определения места ударения, разработанными для русского языка, например («Морфер», http://morpher.ru/accentizer/) и (Ponomareva и др., 2017), предложенный подход даёт не самый высокий результат. Тем не менее, он обладает рядом преимуществ, к примеру, обладает способностью не только указывать на место ударения в слове, но и объяснять закономерности, на основании которых было принято решении о месте падения ударения.

ЗАКЛЮЧЕНИЕ

В результате работы было проведено подробное теоретическое исследование и создана система, способная автоматически расставлять ударения в словах русского языка, обладающих рядом морфем, однозначно указывающих на позицию ударения.

В рамках исследования все цели и задачи были выполнены в полном объеме. Так, по материалам «Русской грамматики» были собраны полные списки морфем, встречающихся внутри трёх основных частей речи (именах существительных, прилагательных и глаголах). Для каждой из реализаций морфем была собрана информация о стратегиях поведения ударения в словах, в которых она содержится. Для каждой морфемы был проведён подробный анализ, включающий анализ поведения ударения со всеми её реализациями и сбор информации о том, может ли такая морфема однозначно указать на позицию ударения в слове. По результатам проведённого исследования была создана автоматическая система, способная в случае обнаружения в слове ряда морфем, однозначно выделить ударную гласную в слове.

Таким образом, это исследование позволило приблизиться к пониманию закономерностей поведения в русском языке в зависимости от морфемного состава слов. Кроме того, была структурирована и подробно описана информация по морфемам, способным однозначно указать на расположение ударения в слове. Подробная информация о поведении всех реализаций морфем содержится в таблицах, созданных в ходе исследования.

Дальнейшие исследования, направленные на усовершенствование морфемного подхода к постановке ударения, могут в первую очередь быть направлены на улучшение алгоритма разбиения словоформы на морфемы, поскольку ошибочные морфемные разборы значительно снижают качество работы системы. Также для улучшения качества работы может быть реализована обработка заимствований, неологизмов и имён собственных, которые характеризуются особыми стратегиями поведения ударения в них. Поиск методов, направленных на обнаружение мотивирующего слова, а также расширение списков анализируемых частей речи, позволит существенно увеличить полноту системы. Кроме того, в рамках морфемного метода могут проведены дополнительные исследования, направленные на изучение стратегий поведения ударения в словоформах с последовательностью суффиксов, а также исследования, направленные на анализ случаев вариативности в словах с определённым набором морфем, случаев переноса ударения на предлог и побочного ударения.

СПИСОК ЛИТЕРАТУРЫ:

1. Алексеевский, Липунова 2016 -- Д. А. Алексеевский, А. Е. Липунова. Автоматическое определение ударных позиций в словах русского языка по корпусу ошибок // Труды международного семинара «Диалог16» по компьютерной лингвистике и ее приложениям (электронный документ).

http://www.dialog-21.ru/media/3444/alexeyevskydalipunovaae.pdf. 2016.

2. Барбук 2013 -- С. Барбук.Некоторые особенности русского ударения // Мова і культура, 2013. Вып. 16, т. 5. С. 164-169.

3. Вольская, Коваль, Опарин, Погарева, Скрелин, Смирнова, Таланов 2005 -- Н. Вольская, А. Коваль, С. Опарин, Е. Погарева, П. Скрелин, Н. Смирнова, А. Таланов. Синтезатор русской речи по тексту нового поколения // Труды международного семинара «Диалог05» по компьютерной лингвистике и ее приложениям (электронный документ). http://www.dialog-21.ru/media/2431/volskayan.pdf. 2005.

4. Голев 1999 -- Голев Н. Д. Омофонический и омографический фонды современного русского языка часть 1. Общие вопросы. Лексические омофоны и омографы //Известия Алтайского государственного университета, 1999. №. 4.

5. Гришина, Зеленков, Орехов 2015 -- Е. А. Гришина, Ю. Г. Зеленков, Б. В. Орехов. Наивная поэзия в акцентологическом корпусе // Труды Института русского языка им. ВВ Виноградова, 2015. №. 6, С. 257-272.

6. Еськова 1994 -- Н. А. Еськова. Краткий словарь трудностей русского языка: Грамматические формы. Ударение. Около 1200 слов. М., 1994.

7. Зализняк 1974 -- А. А. Зализняк. Обратный словарь русского языка. М.: Советская энциклопедия, 1974.

8. Зализняк 1977 -- А. А. Зализняк. Грамматический словарь русского языка: Словоизменение. Ок. 100 000 слов. М.: Русский язык, 1977.

9. Зализняк 1985 -- А. А. Зализняк. От праславянской акцентуации к русской. М., 1985.

10. Зеленков, Зобнин, Маслов, Титов 2014 -- Ю. Г. Зеленков, А. И. Зобнин, М. Ю. Маслов, В. А. Титов. Илья Сегалович и развитие идей компьютерной лингвистики в Яндексе // Труды международного семинара «Диалог14» по компьютерной лингвистике и ее приложениям (электронный документ). http://www.dialog-21.ru/digests/dialog2014/materials/pdf/ZelenkovYuG.pdf. 2014.

11. Каленчук, Касаткина 1996 -- М Л. Каленчук, Р. Ф. Касаткина. Просодия слова и побочное ударение // Просодический строй русской речи. М., 1996.

12. Кодзасов 2009 -- С. В. Кодзасов. Исследования в области русской просодии. М.: Языки славянских культур, 2009.

13. Колесов 1972 -- В. В. Колесов. История русского ударения: Именная акцентуация в древнерусском языке. Ленинград: Издательство Санкт-Петербургского университета, 1972.

14. Крысин 2008 -- Л. П. Крысин (отв. ред.). Современный русский язык. Активные процессы на рубеже XX-XXI веков. М.: Языки славянских культур, 2008.

15. Лебедева 1986 -- Ю.Г. Лебедева. Звуки, ударение, интонация: Учеб. пособие по фонетике русского языка для иностранцев. М., 1986.

16. Лефельд 1987 -- В. Лефельд. Некоторые наблюдения над изменениями акцентной нормы современного русского языка // Revue des йtudes slaves, 1987. Т. 59, №. 3, С. 617-624.

17. Липунова 2015 -- А. Е. Липунова. Автоматическая расстановка ударений на основе ошибочного написания слов. М., 2015.

18. Липунова 2017 -- А. Е. Липунова. Автоматическое определение места ударения в слове в зависимости от его морфемного состава. М., 2017.

19. Тихонов 1996 -- А. Н. Тихонов. Морфемно-орфографический словарь. М.: Шк.-пресс, 1996.

20. Трофимова 2013 -- Е. Б. Трофимова. Пространство нормы словесного акцента в русском языке // Мир лингвистики и коммуникации: электронный научный журнал, 2013. Т. 1, №. 33, С. 72-83

21. Турдуматова 2007 -- Э. Б. Турдуматова. Вариативность как эволюционный процесс развития языка // Этнокультурная концептология и современные направления лингвистики. Элиста: Изд-во Калм. Ун-та, 2007. С. 129-132

22. Федянина 1993 -- Н. А. Федянина. Ударение и структура русского глагола // Wiener Slawistischer Almanach. 31. 1993. С. 219-243.

23. Фунтова 2010 -- И. Л. Фунтова. Тенденции и основные правила, определяющие место словесного ударения в английском и русском языках // Известия Самарского научного центра Российской академии наук, 2010. Т. 12. №. 5-1.

24. Хомицевич, Рыбин, Таланов, Опарин 2008 -- О. Г. Хомицевич, С. В. Рыбин, А. О. Таланов, И. В. Опарин. Автоматическое определение места ударения в незнакомых словах в системе синтеза речи // Материалы XXXVI Международной филологической конференции. Санкт-Петербург, 2008.

25. Шведова 1980 -- Н. Ю. Шведова (гл. ред.). Русская грамматика. Академия наук СССР институт русского языка «Русская грамматика» -- М.: Наука, 1980.

26. Шкуропацкая 2013 -- М. Г. Шкуропацкая. Экспериментальное исследование именной акцентуации в современном русском языке // Филология и человек, 2013. №. 3, С. 175-192.

27. Ciobanu, Dinu, Dinu 2014 -- A. M. Ciobanu, A. Dinu, L. Dinu. Predicting Romanian Stress Assignment // Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, volume 2: Short Papers, 2014. С. 64-68.

28. Gams 2002 -- M. Gams et al. Automatic lexical stress assignment of unknown words for highly inflected Slovenian language // International Conference on Text, Speech and Dialogue. Springer, Berlin, Heidelberg, 2002. С. 165-172.

29. Kabak, Vogel 2001 -- B. Kabak, I. Vogel. The phonological word and stress assignment in Turkish // Phonology, 2001. Т. 18, №. 3, С. 315-360.

30. Martin 1989 -- P. Martin. Automatic assignment of lexical stress in Italian // First European Conference on Speech Communication and Technology, 1989.

31. Pearson 2000 -- S. Pearson et al. Automatic methods for lexical stress assignment and syllabification // Sixth International Conference on Spoken Language Processing, 2000.

32. Ponomareva 2017 -- M. Ponomareva M. et al. Automated Word Stress Detection in Russian // Proceedings of the First Workshop on Subword and Character Level Models in NLP, 2017. С. 31-35.

33. Ukiah 1998 -- N. Ukiah. Stress Retraction in Phrases of the Type нб день, зб сорок, нй был in Modern Russian // Russian linguistics, 1998. Т. 22, №. 3, С. 287-319.

Список ресурсов:

1. Accentonline. Онлайн-словарь ударений (электронный документ): http://accentonline.ru/

2. BZ Soft. RussAcc - Озвучиватель текстов, создатель аудиокниг, расстановщик ударений (электронный документ): http://bzsoft.spb.ru/russacc.html

3. sStress. Система автоматической расстановки ударений (электронный документ): http://linghub.ru/stress/

4. Udarenie. Словарь ударений (электронный документ): https://udarenie.su/

5. Слепов С. Программа расстановки ударений (электронный документ): http://morpher.ru/accentizer

6. Национальный корпус русского языка (электронный документ): http://www.ruscorpora.ru/

ПРИЛОЖЕНИЕ 1.

Списки морфем и их маркировок, собранные по трудам А. А. Зализняка.

	v	>	<	v D	< D	> D
и м е н а с у щ е с т в и т е л ь н ы е	-ай	-б-а	-ив-о	-аг-а	-ик (заимств.)	-аж (Polysyll)
	-ов'j-е	-j-е/о (Monosyll; несобират.)	-ов-о	-ыг-а	-ик-а (кроме назв. ягод)	-еж, ёж
	-овк-а	-к-о (кроме назв. лошад. мастей)	-тв-а	-яг-а	-л-ь (Init)	-j-е/о (собират.)
	-овник, -яник (Monosyll)	-ик (отадъективное)	-(е)ств-о	-аж	-н-ь (Init)	-ак
	-инк-а	-овик (Monosyll)	-j-а	-ей	-ен-ь (Init)	-чак
	-ишк-а, ишк-о	-ок (обычн. / Deox)	-иj-е	-ак (изредка)	-сор, -тор	-як
	-ин (сингулятивы)	-изн-а (Polysyll)	-к-а	-ак-а	-т-ь (Init)	-няк
	-ин-а (кроме отадъективных имён качества \| Deox)	-ин-а (отадъективные имена качества)	-к-о (назв. лошад. мастей)	-ик-а (назв. ягод)	-'- (Init)	-н-я (собират.; имена действия)
	-чин-а, -щин-а	-ар-ь (отыменное \| Monosyll)	-ушек	-ашк-а		-овн-я (имена действия)
	-ын-я	-ц-а, -ец-а	-ышек	-ушк-а (кроме ласкат.- почтит.)		-отн-я
	-от-а (отглагол.)	-ц-о/е (Polysyll)	-ик (уменьшит.)	-ык-а		-ун
	-их-а	-ец-о, -иц-е	-чик	-юк-а, -як-а		-ар (изредка)
	-иц-а	-ец (обычн. / Monosyll \| не уменьшит.)	-очк-а, -очк-о, -ечк-о	-як (изредка)		-яр (изредка)
	-ниц-а (аддитивное)	-ич	-ушк-а (ласкат.- почтит.)	-ул-я, -юл-я		-от-а (отадъективные имена качества)
	-ович (Triv \| апеллятивы и отчества)	-ыш	-ушк-о, -ышк-о	-ан, -ан-я		-ач
	-ищ-а		-оньк-а	-овн-я (назв. помещений)		-аш
	-ищ-е		-л-а	-ён- (назв. детенышей)
	-овищ-е		-л-о	-он-я
			-тел-ь	-ун-я
			-н-я (кроме собират.; имена действия)	-ар
			-ар-ь (отглагол.)	-яр
			-ост-ь	-ят- (назв. детенышей и проч.)
			-ец (уменьшит. \| Triv)	-ах-а, -ех-а
			-ш-а (Triv)	-ох-а, ух-а
			-бищ-е	-ович (фамилии)
				-уш-а
и м е н а п р и л а г а т е л ь н ы е	-лив- (Monosyll Deox)	-овск- (Monosyll \| семант. группа колдовства, плутовства)	-(и)j- (притяжат.)	-ав-
	-чив-	-ин- (фамилии)	-к-	-ив-
	-ов- (Triv \| Притяжат.)		-(е)ск-	-ляв-
	-еj(е) (сравнит.)		-еньк-, -оньк-	-юсеньк-, -ёшеньк-, -ёхоньк-
	-енек, -онек		-л-	-ин- (не притяжат.)
	-ок-		-н- (Polysyll \| причастное)	-енн- (усилит.)
	-овск- (Triv \| кроме семант. группы колдовства, плутовства)		-н'-	-ат-
	-ом-		-ин- (притяжат.)	-оват-
	-овн- (Monosyll)		-нн- (Polysyll)	-ит-
	-ён(н)-, -ен(н)- (причастное)		-енн- (отыменное)	-овит-
	-ист- (Deox \| кроме "содерж-ий соотв. вещество")		-шн'-	-аст-
	-ейш-, -айш-		-т- (обычн. / Polysyll)	-уч-, -яч-
	-ущ- (причастное)		-чат-	-ущ- (усилит.)
	-ящ-		-ист- (Triv \| "содерж-ий соотв. вещество")	-ющ- (усилит.)
			-ш-е (сравнит.)
			-(в)ш-
г л а г о л ы	-а-ть (отыменные aj-глаголы)		-(е)ствова-ть	-а-ть (вторичные имперфективы)
	-ова-ть (Min)		-ыва-ть	-изирова-ть
	-е-ть		-(н)ича-ть	-и- (в составе -и-л-, -и-тел-)
	-ове-ть, ене-ть, -яне-ть (Monosyll)		-ну-ть (выпадающее в прош. врем.)
	-ну-ть (не выпадающее в прош. врем.)

ПРИЛОЖЕНИЕ 2

Детальные таблицы с поведением разных реализаций морфем в словоформах имён прилагательных, существительных и глаголов, собранные на основе «Русской грамматики»:

https://github.com/bennett-ray/sStress_rules

ПРИЛОЖЕНИЕ 3

Полный список морфем имён существительных, однозначно указывающих на падение ударения на суффикс:

1. Морфемы в словах мужского рода:

-авец (мерзамвец, красамвец)

-ад (маринамд, рафинамд, лимонамд)

-аж (фиксамж, инструктамж, хронометрамж)

-ал (театрамл, феодамл, провинциамл)

-алеj (дуралемй)

-амент (медикамемнт)

-ан (великамн, брюхамн, головамн, старикамн)

-ан-ин (чужамнин-чужамне, англичамнин-англичамне)

-анс (резонамнс, конферамнс)

-ант (оккупамнт, проектамнт, консультамнт, диктамнт)

-арад (маскарамд)

-ариус (архивамриус, сценамриус)

-ариj (парламентамрий, мандатамрий, инструментамрий)

-арник (кустамрник, кочкамрник, пихтамрник, свинамрник)

-ат (экспонамт, препарамт, диктамт, плагиамт, пролетариамт)

-ат(ый) (вожамтый, провожамтый)

-атаj (ходамтай, орамтай, глашамтай)

-атник (медвежамтник)

-атор (рационализамтор, классификамтор, организамтор, новамтор)

-ачеj (собачемй, казначемй, домрачемй)

-аj (урожамй)

-евт (терапемвт, фармацемвт)

-емент (аккомпанимемнт, ангажемемнт, абонемемнт)