Анализ поведенческих особенностей ударения в русском языке в зависимости от морфемного состава слова

Теоретические аспекты поведения ударения в русском языке. Реализации расстановки ударений в русском языке и других языках. Акцентные типы в разных частях речи. Морфемный подход. Алгоритм работы программы. Создание базы данных с золотым стандартом слов.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 02.09.2018
Размер файла 790,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Правительство Российской Федерации

Федеральное государственное автономное образовательное учреждение высшего образования

Национальный исследовательский университет

«Высшая школа экономики»

Факультет гуманитарных наук
Образовательная программа «Компьютерная лингвистика»
Липунова Александра Евгеньевна
Анализ поведенческих особенностей ударения в русском языке в зависимости от морфемного состава слова
Выпускная квалификационная работа
студента 2 курса магистратуры группы МКЛ161
Москва 2018
Оглавление
1. Введение
2. Обзор литературы и существующие подходы и решения
2.1 Теоретические аспекты поведения ударения в русском языке
2.1.1 Основные свойства ударения
2.1.2 Вариативность ударения
2.1.3 Поведение ударения в разных частях речи
2.1.4 Отражение акцентной нормы в орфоэпических словарях
2.1.5 Связь места ударения и морфемного состава слова
2.2 Практические реализации расстановки ударений
2.2.1 Практические реализации расстановки ударений в русском языке
2.2.2 Практические реализации расстановки ударений в других языках
3. Морфемный подход к постановке ударения
3.1 Теоретическая база исследования
3.2 Акцентные типы в разных частях речи
3.2.1 Акцентные типы имён существительных
3.2.2 Акцентные типы имён прилагательных
3.2.3 Акцентные типы глаголов
3.3 Применимость морфемного подхода
3.4 Морфемы, указывающие на поведение ударения
3.4.1 Морфемы имён существительных, указывающие на место ударения
3.4.2 Морфемы имён прилагательных, указывающие на место ударения
3.4.3 Морфемы глаголов, указывающие на место ударения
4. Метод
4.1 Алгоритм работы программы
4.2 Пути улучшения алгоритма
5. Анализ качества системы
5.1 Создание базы данных с золотым стандартом слов
Заключение
Список источников
Приложение 1
Приложение 2
Приложение 3
Приложение 4
Приложение 5
1. ВВЕДЕНИЕ
ударение русский морфемный программа
Ударным элементом в русском языке называется такой элемент, который характеризуется наибольшей силой, отчётливостью и длительностью произношения. В зависимости от того, идёт ли речь о логическом или словесном ударении, элемент может быть группой слов, отдельным словом или слогом в слове. В рамках этого исследования мы сосредоточимся на исследовании словесного ударения.
Ударение - один из ключевых компонентов звуковой структуры слова. Для определения значения слова недостаточно обладать знанием о его фонемном составе. Словесное ударение является неотъемлемым признаком слова, поскольку в подавляющем большинстве случаев именно ударение может послужить маркером того, какое именно значение закладывается в слово говорящим. Во многих языках ударение является фиксированным, иными словами, его место чётко закреплено за определённым слогом в слове. Так, например, в французском языке ударение практически всегда падает на последний слог слова, в польском - на предпоследний слог, а в чешском языке - на первый слог. В отличие от этих и некоторых других языков, в русском языке отсутствует чёткая система правил, регламентирующих место постановки ударения в слове. Саму суть русского ударения можно описать следующими свойствами:
1. Разноместность или свободность русского ударения. Иными словами, ударение не закреплено за одним определенным слогом слова и может находиться на любом из его слогов. Как отмечал известный советский учёный Рубен Иванович Аванесов: «Разноместность ударения делает его в русском языке индивидуальным признаком каждого отдельно взятого слова».
2. Подвижность русского ударения. При изменении грамматической формы одного и того же слова (рода, числа, падежа и т.д.) или при образовании родственных слов ударение может как сместиться на другой слог слова, так и остаться на той же гласной в слове (ср.: стомл - столб, сиротам - сиромты, пунял - понялб, замговор - договомр; товамрищ - товамрища, вимдишь - вимдевший).
Из подвижности русского ударения также следует необходимость запоминать не только ударение в самом слове, но и ударение во всех его словоформах. Однако, как отмечалось в (Липунова, 2017), «нельзя утверждать, что способность носителей русского языка правильно определить место ударения основана лишь на запоминании словоформ, поскольку количество словоформ огромно. Кроме того, средний русский человек без труда сможет поставить ударение и в практически любом незнакомом ему слове. Отсюда можно сделать вывод, что бытовые, повседневные слова, безусловно, запоминаются носителем вместе с ударением, однако при необходимости поставить ударение в словах менее тривиальных задействуются правила системы ударений русского языка, выученные носителем на примере других слов. Из этого явно следует, что существуют определенные закономерности в том, как устроена акцентуация в русском языке. Тем не менее, современное русское ударение организовано чрезвычайно сложно и все его закономерности не могут быть сформулированы в виде набора простых фраз или тезисов, покрывающих всю систему ударений в русском языке».
Тем не менее, в системе акцентуации русского языка можно обнаружить тенденции и факторы, которые способны указать на местоположение ударения в слове. Одним из таких факторов является морфемный состав слова. Согласно закону аналогии, некоторые элементы языка способны образовывать продуктивную и более распространённую модель и влиять на элементы, схожие с элементами этой модели, но пока не включённые в неё. Каждый новый элемент языка присоединяется к языковой системе по уже сформированным моделям. К примеру, заимствованные слова в русском языке при включении в языковую систему принимают категории рода и склонения даже в том случае, если в языке, из которого слово заимствуется, такие категории отсутствуют. Система ударений также подчиняется закону аналогии. Так, заимствованные слова включаются в языковую систему с тем ударением, которое распространено в языке-источнике, но впоследствии уподобляются фонетически близким к ним словам. При возникновении новый языковых тенденций, ? к примеру, при смещении ударения к концу слова в определённом классе слов, ? сперва ударение смещается лишь у небольшой группы слов, но со временем все большее количество слов принимает новую систему ударений, подчиняясь закону аналогии.
В области акцентуации формирование моделей напрямую завязано на морфемный состав слов. Таким образом, из самой структуры слова можно получить информацию об общих тенденциях и правилах постановки ударения у целых классов слов.
Цель проводимого исследования ? создать полный обзорный анализ места расположения ударения в слове в зависимости от его морфемного состава среди основных частей речи в русском языке (глаголов, имён существительных и прилагательных). В рамках этой цели можно выделить следующие задачи:
? Формирование полного списка морфем для каждой из частей речи;
? Сбор информации о месте ударения в словах с определённым набором морфем;
? Анализ получившихся результатов;
? Создание автоматической системы, способной в случае обнаружения в слове морфем, однозначно указывающих на место положения ударения, выделить ударную гласную.
Объект исследования ? морфемика и система ударений русского языка, а предмет ? зависимость места ударения от его морфемного состава. В рамках исследования применяются такие методы, как: теоретический анализ, наблюдение, методы индукции и дедукции.
Функция автоматического определения места постановки ударения в русскоязычных текстах востребована в области компьютерной лингвистики, в частности, в системах синтеза речи и в системах распознавания и генерации стихотворных текстов. Также она может быть полезна и в других областях, например, при разработке акцентуированных текстов для обучения иностранных студентов русскому языку. Несмотря на значительные достижения учёных в области русской акцентологии, теория просодии является наименее исследованной разделом фонологии; многие проблемы описательной и теоретической акцентологии остаются нерешенными до сих пор. В частности, комплексные исследования в области выявления зависимостей между ударной позицией слова и его морфемным составам практически не проводились ранее. Это делает подобное исследование чрезвычайно актуальным.
Новизна исследования заключаются в том, что ранее не существовало системы, которая описывала бы всю систему зависимостей позиции ударения от морфемного состава слова. Впоследствии материал, полученный в ходе исследования, можно будет использовать в качестве базы для анализа других особенностей поведения морфем, а также для систематизации знаний об ударении в русском языке. Это обуславливает научную значимость данной работы.
Практическая значимость обуславливается тем, что по результатам исследования будет создан готовый продукт, способный разделять слово на морфемы и предсказывать место ударения в зависимости от того, обнаружились ли в слове морфемы, однозначно указывающие на положение ударения в слове. Кроме того, система будет способна объяснить, чем обусловлена ударная позиция гласного в слове. Это может быть использовано иноязычными студентами при изучении русского языка, а также может лечь в основу систем, в рамках которых необходима информация об ударении в слове.
В теоретическую основу дипломной работы легли материалы «Русской грамматики» (Грамматика, 1980), а также материалы книги «От праславянской акцентуации к русской» (Зализняк, 1985). В этих трудах описаны тенденции поведения ударения при разном наборе морфем в слове.
Структура дипломной работы обусловлена целью и задачами исследования. Работа состоит из введения, четырёх глав и заключения.
2. ОБЗОР ЛИТЕРАТУРЫ И СУЩЕСТВУЮЩИЕ ПОДХОДЫ И РЕШЕНИЯ
Эта глава состоит из двух частей: обзора лингвистической литературы, посвященной функционированию русского ударения, и обзора прикладных систем определения места ударения в русском и других языках.
2.1 Теоретические аспекты поведения ударения в русском языке
2.1.1 Основные свойства ударения
Ранее были описаны два ключевых свойства русского ударения, такие как разноместность и подвижность. Систематическое описание этих явлений содержится в «Русской грамматике» (Грамматика, 1980), а также легло в основу грамматического словаря А. А. Зализняка (Зализняк, 1977). Поскольку русское ударение разноместно, оно является индивидуальным признаком каждого слова и выполняет словоразличительную функцию. Ударение в русском языке способствует правильному толкованию омографов: слов, обладающих одинаковым написанием, но имеющих различное произношение. Такие слова могут возникать как при совпадении написания у слов, обладающих разным значением (ср.: атламс ? амтлас), так и между разных грамматических форм одного и того же слова (ср.: делам ? демла). В некоторых случаях оно также помогает различать дополнительные смысловые оттенки слова, к примеру, зумбчатый (похожий на зуб) и зубчамтый (состоящий из зубцов).
Отдельно стоит упомянуть слова, включающие в свой состав букву «ё», которая в настоящее время на письме очень часто заменяется буквой «е». В таких случаях может возникнуть ситуация, когда подобное слово при написании его с буквой «е» становится омографом другому слову (ср.: бемрег - берёг). Кроме того, существуют пары слов, которые точно также отличаются друг от друга наличием буквы «ё» в одном из слов, но ударение в них падает на один и тот же слог, а в зависимости от буквы меняется смысл слова (ср.: всем и всё, нембо и нёбо). Подробную информацию о явлении омографии и разных видах омографов можно получить из трудов (Барбук, 2013) и (Голев, 1999).
Свойства русского ударения не ограничиваются явлениями подвижности и разноместности. К примеру, во многих сложных словах может присутствовать не только основное, но и побочные ударения (веМчнозелёный, дМевятьсомт, аМвтомоМтоклумб). Помимо сложных слов побочное ударение может присутствовать в сложносокращенных словах (меМдсаМнчамсть, гоМсбамнк), в словах с рядом неодносложных приставками (аМнтиобщемственный, свеМрхпримбыль), а также в некоторых словах иноязычного происхождения (поМстскримптум). Тема побочного ударения затрагивается в работе «Современный русский язык. Активные процессы на рубеже XX-XXI веков» (Крысин, 2008), в которой автор отмечает явление акцентирования первых основ сложных слов и приводит ряд примеров, а также разбирает изменения, произошедшие в акцентуации сложных слов с середины XX века. Кроме того, тема побочного ударения широко освещается во второй главе книги «Просодический строй русской речи» (Каленчук, Касаткина, 1996).
Все слова в русском языке имеют своё ударение, однако в ряде случаев при примыкании одного слова к другому одно из них может стать неударным. Так происходит, например, при примыкании предлогов или частиц к именам существительным или числительным, причём безударным может становится как предлог (на домум), так и самостоятельная часть речи (нам дом). Этой тематике полностью посвящена статья «Stress Retraction in Phrases of the Type нб день, зб сорок, нй был in Modern Russian» (Ukiah, 1998), в которой на примере нескольких словосочетаний разбирается тенденции поведения ударения. Эта тема также освещается в (Крысин, 2008). Автор подробно разбирает случаи поведения ударения на разных языковых примерах, перечисляя как случаи уже закрепившихся в языке вариантов ударения, так и случаи, в которых допускается несколько вариантов ударения (нам год - на гомд, зам зиму - за зимму и др.). Согласно Л. П. Крысину, во всех подобных словосочетаниях «наблюдается одна отчетливо обозначенная тенденция ? отказ от исключений, от идиоматики в акцентуации, подчинение всех случаев сочетаний предлогов со знаменательными словами общему правилу безударного произношения предлогов» (Крысин, 2008: 379).
2.1.2. Вариативность ударения
Вариативность является неотъемлемым свойством любой языковой системы, поскольку без возникновения новых вариантов язык не смог бы эволюционировать и изменяться. Подобные взгляды неоднократно высказывались такими исследователями, как К. С. Горбачевич, К. М. Рябова, Г. П. Торсуев, Д. А. Шахбагова. Вариативность в области русского ударения широко распространена: при изменении языковой нормы у определенного класса слов каждое из таких слов в определенный момент времени может иметь более одного варианта постановки ударения. Определить, какой именно из вариантов допускается «правильным», позволяют акцентные нормы. Так, могут существовать:
? Равноправные варианты (твомрог - творомг, щемпоть - щепомть)
? Литературный и разговорный варианты (бамловать - баловамть)
? Литературный и устаревший варианты (обеспемчение ? обеспечемние)
? Литературный и профессиональный варианты (имскра ? искрам)
? Литературный и диалектный варианты (вемрба ? вербам)
? Литературный и просторечный варианты (алкогомль ? амлкоголь)
Явление вариативности изменения языковой нормы подробно разбирается во многих трудах отечественных лингвистов. Так, уже упоминавшееся ранее исследование (Крысин, 2008) полностью посвящена этому явлению, в частности там разбираются и процессы, произошедшие в области русской акцентуации. Автор подробно останавливается на случаях изменения языковой нормы в случае словосочетаний предлогов с числительными и именами существительными, а также на случаях изменения ударения в формах прошедшего времени бесприставочных невозвратных и возвратных глаголов, в кратких формах прилагательных и в сложных словах. Статья «Экспериментальное исследование именной акцентуации в современном русском языке» (Шкуропацкая, 2013) также целиком посвящена проблеме изменения акцентных норм. В статье разбираются закономерности и причины возникновения вариативности разных форм, среди них: закон аналогии, упоминавшийся во введении к данной работе; влияние на литературный язык диалектов, бытовой разговорной речи, а также отдельных слов специфической лексики; наличие в языке большого количества слов, заимствованных из других языков, и «стремление к их русифицированию путем постановки в них ударения по аналогии с русскими или уже достаточно обрусевшими словами». Также теме заимствований и их стремлении встроиться в сложившуюся языковую систему посвящена работа (Турдуматова, 2007), а тема изменения языковой нормы освещается в работах (Трофимова, 2013), (Лефельд, 1987), (Фунтова, 2010).
2.1.3. Поведение ударения в разных частях речи
В каждой части речи наблюдаются свои тенденции в распределении ударения и изменения места ударения в слове. Область акцентуации до сих пор не является полностью исследованной, на данном этапе выявлены многие закономерности, влияющие на место постановки ударения, однако пока не представляет возможным создать стройную систему правил, полностью описывающую акцентную ситуацию в языке: «Можно утверждать, что в результате исследований последних лет определен инвентарь акцентных единиц в словоизменении всех грамматических разрядов слов, выявлены многие закономерности, основанные на зависимости ударения от различных факторов. Тем не менее, системный, функциональный анализ ударения, исследование иерархии факторов, его определяющих, еще впереди. Мы только в начале пути» (Федянина, 1993). Таким образом, в этом разделе мы сосредоточимся на изложении некоторых выявленных закономерностей и правил поведения ударения.
Наиболее разнообразно представлена система ударения в именах существительных, которые более остальных частей речи подвержены изменениям языковой нормы. К примеру, слово музыка, пришедшее из французского языка, изначально было заимствовано с ударением оригинального слова (на второй слог). Так, в своём романе «Евгений Онегин» А. А. Пушкин писал: «Музымка уж греметь устала». Однако позднее слово адаптировалось в системе русского языка, вследствие чего произошел сдвиг акцентной нормы на первый слог (мумзыка). Подобные явления широко наблюдаются и среди других иноязычных слов (жамлюзи ? жалюзим, аммпер ? ампемр). Некоторые особенности поведения ударения в существительных можно описать рядом правил, причём для каждого из родов правила постановки ударения будут различаться. Так, согласно (Лебедева, 1986), имена существительные мужского рода с беглыми согласными о, е имеют ударную флексию во всех косвенных падежах (отемц - отцам, отцум и т.д.), для существительных женского рода характерны сдвиги ударения с флексии на основу в формах множественного числа или в винительном падеже единственного числа (войнам ? вомйны, рукам ? румку), а для существительных среднего рода существует закономерность, согласно которой если в единственном числе ударение наосновное, то в форме множественного числа оно переходит на флексию (мемсто ? местам) и наоборот (селом ? сёла).
Вариативность в акцентуации имён прилагательных наблюдается в основном в кратких формах (прамвы ? правым, мимло ? милом). Согласно (Еськова, 1994), «среди прилагательных с односложной основой, имеющих краткие формы, слова с подвижным ударением составляют большинство. При этом, подвижное ударение свойственно словам, отличающимся широкой употребительностью». В кратких формах причастий и имён прилагательных ударение обычно сохраняет вариант, представленный в полной их форме (перегрумженный ? перегрумжен), однако в некоторых кратких формах также наблюдается перенос ударения на флексию в форме женского рода (вамжный ? вамжен, вамжно, вамжны, важнам). Согласно (Крысин, 2008), в формах множественного числа кратких форм прилагательных наблюдается смещение ударение на флексию, а в формах среднего рода нормативным остается ударение на основе (номвый ? номво). Но при этом для форм параметрических прилагательных характерна особая акцентуация форм среднего рода и множественного числа, при которой допустимы варианты как наосновного, так и наконеченого ударения (умзко, умзки и допустимо узком, узким).
Сложность постановки ударения в глаголах связана, в основном, с формами прошедшего и будущего времени. Так, у наиболее частотных глаголов форма прошедшего времени женского рода отличается тем, что ударение в ней падает на окончание, тогда как в остальных формах (включая множественное число) ударение закрепляется на основе (брамть ? брамл, брамло, брамли, бралам). Согласно (Федянина, 1993), «ударение глагольной словоформы находится в жесткой зависимости от морфемной структуры основы ? наличия или отсутствия формообразующего суффикса». Так, в словоформах со слоговым суффиксом ударение падает преимущественно на суффикс (читамть, читамла), иногда ? на корень (думмать, думмала), но никогда не падает на флексию. В случаях накорневого ударения в глагольной словоформе с неодносложным корнем оно всегда закреплено на последнем слоге корня (готомвить, рабомтать).
Более подробно о закономерностях поведения ударения и изменении акцентных норм в различных частях речи говорится в (Зализняк, 1985), (Крысин, 2008), (Лефельд, 1987), (Трофимова, 2013), (Турдуматова, 2007), (Федянина, 1993), (Шведова, 1980), (Шкуропацкая, 2013), (Фунтова, 2010), (Лебедева, 1986). Особо подчеркнем, что в работах А. А. Зализняка (Зализняк, 1974 и др.) активно используется понятие акцентного типа лексемы, определяемого отдельно для разных частей речи (см. главу «Морфемный подход к постановке ударения»).
2.1.4. Отражение акцентной нормы в орфоэпических словарях
Акцентология ? это область, на которой наиболее ярко сказывается изменение языковой нормы. Как упоминалось выше, в настоящий момент в языке отсутствует стройная система правил, способных покрыть все случаи поведения ударения. Большинство проводимых исследований в этой области направлены на выявление и анализ существующих закономерностей при расстановке ударения. Для того, чтобы отразить всю вариативность и изменения языковой нормы были созданы орфоэпические словари, в которых приводится информация о произношении, ударении и образовании грамматических форм каждого включенного в них слова. Первый орфоэпический словарь «Русское литературное произношение и ударение» был составлен в 1955 году под редакцией Р. И. Аванесова и С. И. Ожегова. В 1983 году увидело свет второе издание словаря «Орфоэпический словарь русского языка» под редакцией Р. И. Аванесова. Подробнее об этих словарях и разницей при подходе к их составлению пишет В. Лефельд в статье «Некоторые наблюдения над изменениями акцентной нормы современного русского языка». Е. Б. Трофимова в статье «Пространство нормы словесного акцента в русском языке» описывает исследование, проведённое на базе четырёх орфоэпических словарей с целью отбора и исследования лексем, в которых наблюдалась акцентная вариативность.
2.1.5. Связь места ударения и морфемного состава слова
«Грамматический критерий в акцентологии предполагает соотнесение ударения с морфемным членением словоформы, что является одним из основных принципов описания русского ударения, который был сформулирован еще И. А. Бодуэном де Куртене и впоследствии обоснован Е. Куриловичем, широко используется в современных исследованиях по русской акцентологии» (Федянина 1993). Связь ударения с морфемным составом слова бесспорна, во многих учебниках и статьях (Лебедева, 1986, Фунтова, 2010, Федянина, 1993) упоминается зависимость места ударения от морфемного состава слова, а также приводится список суффиксов, на которые всегда падает ударение.
Более комплексно тема такой зависимости освещена в первой главе труда А. А. Зализняка «От праславянской акцентуации к русской», также вошедшей в состав книги «Труды по акцентологии. Том I». Это исследование, так же, как и соответствующие разделы «Русской грамматики» (Грамматика, 1980), будет детально представлено в главе «Морфемный подход к постановке ударения».
2.2 Практические реализации расстановки ударений
2.2.1. Практические реализации расстановки ударений в русском языке
На настоящий момент существует несколько подходов в области автоматического определения места расположения ударения в слове. Условно можно разделить их на три типа:
? подходы, работающие напрямую со словарями ударений;
? подходы, основанные на правилах;
? подходы, использующие статистические данные и машинные методы обучения.
Подходы, использующие в своей работе исключительно данные орфоэпических словарей и словарей ударений, ограничены набором слов, содержащимся в этих словарях. Таким образом, они не покрывают некоторые категории слов, не содержащихся в этих словарях (неологизмы и имена собственные, а также нечастотные слова). Кроме того, программное обеспечение, основанное на словарном подходе, со временем устаревает, поскольку языковая норма довольно изменчива и наиболее явно это изменение проявляется на отдельных словах. Словарный подход наиболее распространён среди систем, расставляющих ударение, поскольку для его реализации требуются минимальные затраты, и даже при не самой высокой полноте он гарантирует высокую точность, поскольку учитываются данные для каждого слова. Существует большое количество систем и электронных ресурсов, которые используют такой подход - как отдельно, так и в составе более сложных алгоритмов. Примером таких систем могут служить такие системы синтеза речи, как «Оратор», «RussAcc», «Acapela-Group», где в качестве основного материала, позволяющего определить ударение в слове, послужили базы данных, в которых каждой лексеме приписаны все её словоформы, их грамматические характеристики и ударения в них. В частности, в системе «Оратор», разработанной в «Центре речевых технологий», был приспособлен и расширен электронный словарь Aot.ru, содержащий информацию об ударениях в слове. Помимо систем синтеза речи существует множество электронных ресурсов, позволяющих расставить ударения в неакцентуированном тексте («Морфер», http://morpher.ru/accentizer/) или в отдельных словах («Accentonline», http://accentonline.ru/; «Udarenie», https://udarenie.su/). Несмотря на то, что подобные системы показывают высокий результат, проследить закономерности расстановки ударения и объяснить то, почему ударение падает на тот или иной слог слова, в подобных системах не представляется возможным.
Правиловые подходы, напротив, при расстановке ударений используют закономерности языковой системы, а не частный подход к определению ударений. Многие из закономерностей, сформулированных в теоретических исследованиях, а также статистические данные о тенденциях расположения ударения в слове могут быть использованы и реализованы в рамках этого подхода. От комбинации правил, применяемой в рамках каждой конкретной реализации правиловой системы, зависит уровень точности и полноты работы системы. Также эти метрики зависят и от возможных ошибок в некоторых дополнительных модулях, которые могут применяться с целью эти закономерности реализовать. К примеру, для того, чтобы определить ударение в слове механизировать, применяя правиловый подход, основанный на морфемном составе слова, необходимо в начале с помощью дополнительных программ и модулей установить часть речи этого слова, а затем произвести морфемный разбор. На каждом из этих двух этапов вероятен некоторый процент ошибки, что может повлиять на точность работы программы в целом. Правиловый подход, основанный на морфемном составе слова в именах существительных, применялся и подробно описан в (Липунова, 2017).
Помимо правил, касающихся морфем и статистической информации в слове, в рамках правилового подхода могут быть также использованы фонетические законы, согласно которым безударный звук в слове редуцируется и произносится менее отчётливо, а, следовательно, вероятность допустить орфографическую ошибку в безударной гласной намного выше, чем в ударной. К примеру, в слове определемние на письме возможно встретить ошибочное написание *апридилемние, но практически никогда (за исключением опечаток в слове) - *определимние. Описанный подход применим для расстановки ударений только в том случае, когда программа на вход получает большой объём текста, поскольку в данном случае информация о позициях безударных гласных для каждой словоформы может быть получена только в ходе обработки текста. Подробнее об исследовании, основанном на таком подходе, можно прочитать в (Липунова, 2015).
Рассмотрим также случай, когда наравне с правиловым применяется словарный подход. Словари, в том числе орфоэпические, часто хранят информацию лишь о начальной форме слова, поэтому для корректной работы программы на всех грамматических формах необходимо составить базу данных с этими формами и информацией о расположении ударения в них. Такая база данных может быть составлена вручную или автоматически, если в качестве дополнительного инструмента использовать информацию об их акцентном типе. Но в случае одновременного применения правилового и словарного подходов такая база данных может и не понадобиться. К примеру, выше упоминалось, что для существительных среднего рода действует закономерность: в случае, если ударение в начальной форме наосновное, в форме множественного числа оно будет падать на флексию (мемсто ? местам), в обратном случае - на основу (селом ? сёла). Чтобы определить место расположения ударения в словах такого типа, необходимо:
? использовав дополнительный лингвистический модуль, определить часть речи и грамматические характеристики слова и установить начальную форму слова;
? обратиться к словарю для определения места расположения ударения в начальной форме этого слова;
? произвести стемминг для определения того, куда падает ударение (на основу или на флексию);
? используя полученную информацию о грамматической форме слова, поставить в нём ударение в зависимости от того, куда падает ударение в начальной форме.
Разумеется, подобное правило может быть применено только к случаям, когда слово является существительным среднего рода. Ударение в словах других родов или принадлежащих иным частям речи распознано не будет. Даже при применении более чем одной закономерности практически невозможна ситуация, при которой будет покрыт весь объём слов, поскольку, как уже говорилось выше, в настоящее время отсутствует стройная система правил, описывающая все случаи поведения ударения. Также не стоит исключать и случаи, в которых закономерность может нарушаться, такие ситуации типичны и распространены вследствие изменения языковых норм. Таким образом, применение такого подхода может не давать высокой полноты и точности, но одинаково хорошо работает на всех словах русского языка вне зависимости от того, занесены ли они в словари. Также правиловый подход помогает объяснить пользователю закономерность, по которой ударение может быть поставлено в одном из слов, что может быть использовано в рамках различных исследовательских задач или при изучении русского языка как иностранного.
Суммируя вышесказанное, становится понятно, что у подхода, основанного исключительно на правилах, есть свои преимущества и недостатки. В частности, правиловый подход оправдан при исследовательских задачах, в рамки которых входит выявить эффективность применения подобного метода. С точки зрения практической пользы наиболее эффективной покажет себя программа, основанная на базе данных, но включающая в себя элементы правилового подхода для слов, которые не входят в такую базу. Одним из примеров подобных программ является вышеупомянутая система синтеза речи «Оратор», которая использует правиловый подход и статистические данные для выявления места ударения в несловарных словах.
Большинство систем синтеза речи при нахождении слов, не найденных в базах данных или словарях, определяет место ударения в слове по формуле (n+1)/2, где n - это количество слогов в слове. По этой формуле ударение в незнакомых словах обычно падает на середину слова в случае нечётного количества слогов, а в случае чётного количества слогов оно падает на серединный слог, который ближе к началу слова. Такой алгоритм основан на грубых статистических данных и нередки случаи, когда ударение, поставленное по такому правилу, ошибочно падает не на ударный слог (особенно частотна такая ситуация в случае сложных слов). Система синтеза речи «Оратор», когда-то тоже использовавшая эту формулу, разработала улучшенный алгоритм, позволяющий с большей степенью точности определять ударение в слове. Улучшенный алгоритм состоит из следующих шагов:
1. В составе слова находятся стандартные префиксы, являющиеся всегда безударными;
2. В составе слова ищутся суффиксы, которые притягивают на себя ударение (-ованн-, -енок-), а также суффиксы, которые всегда выступают безударными (-шик-, -ыва-);
3. В случае, если в слове обнаружено два корня, анализируется вторая часть сложного слова, поскольку часто в таких случаях она является безударной (-способный, -видный);
4. В конечном сегменте слова ищутся стандартные окончания неизменяемых слов, которые также могут выступать безударными;
5. В тех случаях, когда алгоритм не выявил в слове ни один из перечисленных элементов, программа устанавливает ударение на последней гласной основы.
Кроме того, программа способна распознать омонимичные формы и снять омонимию, используя информацию о левом и правом контексте слова, и на основе этой информации принять решение о месте ударения. В первую очередь контекст анализируется на предмет слов, согласованных по роду, числу и падежу со словом, в котором необходимо снять омонимию и выставить ударение. Такой метод позволяет обрабатывать случаи частеречной омонимии. Так, в словосочетании «простой метод» слово простой согласовано с следующим за ним существительным, а, следовательно, является прилагательным (ср.: простой метод - простой поездов). В случае, когда необходимо снять омонимию внутри одной части речи, используется система анализа дальнего контекста, при которой учитывается сочетаемость разных слов в предложении и на основе этой информации делается выбор в пользу того или иного значения омонима. Например, в случаях, когда внутри одного предложения присутствуют слова «стоит» и наименование любой денежной единицы, наиболее вероятен выбор ударения на первый слог: «стомит», а не «стоимт».
Подробнее изучить то, как устроена система «Оратор» можно в статьях (Вольская и др., 2005) и (Хомицевич и др., 2008).
Мы рассмотрели словарный и правиловый подходы, теперь остановимся на подходе с машинным обучением, применяемым для выбора места ударения. Для того, чтобы обучить систему расставлять ударения методом машинного обучения необходимо собрать список признаков, на которых система пройдёт обучение. Это могут быть любые статистические данные на достаточно объёмной выборке: ударные слоги в различных словах, порядковый номер ударного слога, длина слова, морфема, на которую падает ударение, и др. Подход, включающий машинное обучение, при правильном выборе признаков и метода обучения способен дать очень хорошие результаты. На настоящий момент очень многие системы пользуются машинным обучением для решения задачи детекции места ударения в слове. В качестве примера систем, в рамках которых был реализован такой подход, можно привести статьи (Гришина и др., 2015), (Зеленков и др., 2014), (Ponomareva и др., 2017).
2.2.2. Практические реализации расстановки ударений в других языках
Так же, как и в русском языке, для определения ударения в других языках применяются подходы, основывающиеся на словарях, правилах и машинном обучении. В статье «Automatic assignment of lexical stress in Italian» (Martin, 1989) автор описывает устройство системы ударений в итальянском языке, в котором ударение может падать на одну из последних четырёх гласных в случае имён существительных, прилагательных, местоимений и наречий, и на одну из последних шести - в случае глаголов. Автор упоминает предыдущие исследования в области акцентологии, в ходе которых было установлено, что ударение в итальянском языке коррелирует с структурой слова фонетически, фонологически и морфологически. С точки зрения морфемного подхода к определению ударения итальянский напоминает русский язык, поскольку ударение в нём разноместно, и, так же, как и в русском, в нём выделяется определенный набор морфем, которые всегда притягивают ударение или же, наоборот, всегда безударны. В частности, префиксы в итальянском безударны всегда; корни, суффиксы и флексии могут быть ударны или безударны (в зависимости от употребляемой морфемы), а в случае падения ударения на корень ударным будет последний или предпоследний его слог.
Программа, описанная в статье, основана на правилах и вероятностях того, что определённые морфемы в слове окажутся ударными. Для корректной работы программы вручную были собраны списки морфем (60.000 вхождений, включая корни слов) и информация о поведении ударения в них. В ходе работы применялись дополнительные модули, позволяющие установить начальную форму слова, определить его грамматические характеристики, произвести морфемный разбор и на основе информации из базы данных определить, какая из гласных слова с большей вероятностью окажется ударной. В случае нахождения омонимичных словоформ система в выдаче приводит все возможные разборы и коннотации словоформы.
На примере этого исследования мы видим, что зависимость ударения от морфемного состава слова характерна не только для русского языка, но встречается и в других языках.
Также в других языках широко распространен и подход, включающий в себя методы машинного обучения. Список признаков для румынского, словенского и английского языков, выбранные методы машинного обучения и результаты можно найти в исследованиях (Ciobanu, Dinu, Dinu, 2014), (Gams, 2002) и (Pearson, 2000).
3. МОРФЕМНЫЙ ПОДХОД К ПОСТАНОВКЕ УДАРЕНИЯ
В этой главе представлен морфемный подход к определению ударения в слове. В первую очередь здесь описывается теоретическая база исследования, в которую входят два масштабных труда: «От праславянской акцентуации к русской» А. А. Зализняка и «Русская грамматика» (Грамматика, 1980), и приводится информация об акцентных типах частей речи, которая необходима для определения места ударения в косвенных падежах. Также подробно рассматриваются случаи, в которых при применении морфемного подхода становится возможным определить место ударения в слове, а также те случаи, в которых применение подхода не приносит значительных результатов. В последнем разделе приводится полный анализ материала, собранного по результатам теоретической части исследования.
3.1 Теоретическая база исследования
Как уже неоднократно отмечалось выше, в языковой системе русского языка существуют закономерности, указывающие на зависимость ударения от морфемного состава слова. Наиболее комплексно система таких зависимостей разобрана в двух трудах, которые и легли в основу данного исследования: «От праславянской акцентуации к русской» (Зализняк, 1985) и «Русская грамматика» (Грамматика, 1980).
В книге «От праславянской акцентуации к русской» автор описывает систему ударений, сложившуюся в современном русском языке. Особое внимание он уделяет аффиксам, к которым предлагает применять технику акцентных маркировок, способных указать на место расположения ударения в рамках произвольной словоформы. Несмотря на то, что подобная техника определения места ударения намного менее действенна для современного русского языка, нежели для древнерусского и старославянского языков, обладавших более чёткой системой языковых правил, с помощью неё всё же можно проследить ряд акцентных зависимостей в современной языковой системе. А. А. Зализняк предлагает следующую классификацию, применимую для всех типов морфем кроме флексии. В рамках предлагаемой классификации выделяются следующие основные маркировки, описывающие свойства каждой из морфем.
1. Маркировки, указывающие на позицию ударения относительно морфемы:
1.1. v («самоударность») - ударение падает на морфему;
1.2. < («левоудареность») - ударение падает на гласную слева от морфемы;
1.3. > («правоударность») - ударение падает на гласную справа от морфемы. В случае, когда такая гласная отсутствует, ударение падает на флексию;
2. Маркировка, указывающая на доминантность морфемы, т.е. преимущество морфемы в борьбе за ударность. Доминантность описывается символом D;
3. Ряд маркировок, использующихся для дополнительной маркировки суффиксов.
Последовательно записанные маркировки всех морфем, входящих в состав основы наблюдаемой словоформы, составляют цепь маркировок для данной словоформы. При применении к такой цепи базисных правил становится возможным однозначно определить место ударения в словоформе. Базисные правила, согласно А. А. Зализняку, формулируются следующим образом:
1. Ударение привязано к самой правой морфеме, имеющей доминантность, но если таковой является морфема, имеющая маркировку >D и стоящая не последней в цепи, то ударение привязывается к следующей справа морфеме;
2. Если в цепи маркировок отсутствуют маркировки с D, то ударение привязывается к самой левой морфеме, имеющей маркировку v или <;
3. Если таких маркировок тоже не находится, то ударение привязывается к самой правой морфеме, имеющей маркировку >.
Разберём такое правило на примере слов бандитимзм, горомшинка и слепымш. Для этих слов цепь маркировок будет выглядеть следующим образом: банд(v)-ит(vD)-изм(vD), горош(v)-ин(v)-к(<)-(а) и слеп(>)-ыш(>) [примеры из (Зализняк 1985: 38)]. В слове бандитимзм постановка ударения обусловлена первым базисным правилом, согласно которому ударение привязывается к самой правой доминантной морфеме (если это не морфема с маркировкой >D, стоящая не последней в цепи). В слове горомшинка отсутствуют морфемы с доминантностью, но присутствуют самоударные и левоударные морфемы. Согласно второму базисному правилу ударение в этом слове падает на самую левую морфему. Поскольку морфема -к- не содержит гласных, ударение привязывается к ближайшей гласной слева от неё. В цепи маркировок слова слепымш отсутствуют доминантные, самоударные и левоударные морфемы, следственно ударение, согласно третьему базисному правилу, падает на самую правую морфему основы.
Для применения базисных правил необходимо иметь в распоряжении полную цель маркировок в словоформе, включая и маркировку корня. Количество аффиксов в русском языке фиксировано и не слишком обширно, однако в случае корней ситуация затруднена их большим количеством в русском языке. Таким образом, использовать систему автоматической расстановки ударений, опираясь только на классификацию, описанную А. А. Зализняком, возможно лишь при наличии полного списка маркировок всех существующих корней русского языка. Не имея данных о маркировке корня, однозначно определить место ударения представляется возможным лишь для тех словоформ, которые оканчиваются морфемами с маркировками vD или >D (согласно первому базисному правилу).
Еще один труд, в котором детально разбирается зависимость ударений от морфемного состава слова, ? это «Русская грамматика», выпущенная под редакцией Н. Ю. Шведовой (Грамматика, 1980). В грамматике полностью описана система фонетики, словообразования, морфологии и синтаксиса русского языка. В частности, в разделе, посвящённом фонологии, для каждой части речи приводится информация о поведении ударения с различными морфемами русского языка. Информация об ударении подана в виде древовидной структуры, где описание поведения ударения напрямую привязано к конкретной реализации морфемы в словах определенного типа. Так, при описании морфемы учитывается информация о:
? части речи, в которой эта морфема встречается;
? модели словообразования внутри словоформы (суффиксальная, префиксальная, префиксально-суффиксальная модели).
В ряде случаев внутри последней категории встречается разделение по части речи мотивирующего слова (к примеру, случай реализации морфемы в суффиксальных существительных, мотивированных глаголами). Внутри каждой из перечисленных категорий также возможно разделение по:
? значению, которое несёт эта реализация морфемы (например, случай реализации морфемы в суффиксальном существительном, мотивированном прилагательным, со значением «носитель признака»);
? склонению (случай реализации в суффиксальном прилагательном, мотивированным существительным, смешанного склонения).
Таким образом, информация в «Русской грамматике» подробно описывает поведение ударения в случаях каждой конкретной реализации морфемы, однако в такой классификации ударение может иметь разные модели поведения с одной и той же морфемой в зависимости от того, какое слово выступает мотивирующим при образовании словоформы (ср.: пемкарь, лемкарь - словамрь, бунтамрь), или же просто от его значения (ср.: голубимка, клубнимка, чернимка ? полеммика, периомдика, гимнамстика, симвомлика). Таким образом, для решения первых двух задач исследования необходимо для каждой морфемы создать собственную полную картину поведения, собрав информацию из разных разделов «Русской грамматики».
3.2 Акцентные типы в разных частях речи
Информация об акцентных типах, распространённых в языке, чрезвычайно важна для данного исследования, поскольку помимо постановки ударения в начальной форме необходимо также установить и закономерности, по которым ударение ведёт себя в формах косвенных падежей. Существует несколько разных классификаций, распределяющих части речи по акцентным типам. В данном исследовании будет представлена система, изложенная в «Русской грамматике», потому что данные именно этой классификации использовались при создании системы. Такой выбор обусловлен тем, что в рамках данного исследования большую часть теоретической базы составила именно информация из «Русской грамматики», где для каждой морфемы указаны не только закономерности в поведении ударения, но также рассматривается связь акцентных типов со словами, содержащими такую морфему.
3.2.1. Акцентные типы имён существительных
Согласно «Русской грамматике» в именах существительных выделяется 8 различных акцентных типов:
? Акцентный тип A - неподвижное ударение на одной и той же гласной основы во всех формах (мотимв, мотимва, мотимву, мотимв, мотимвом, мотимве; мотимвы, мотимвов, мотимвам, мотимвы, мотимвами, мотимвах);
? Акцентный тип B - неподвижное ударение на флексии во всех формах (льдам, льдум, лемд, льдомм, льдем; льдым, льдомв, льдамм, льдым, льдамми, о льдамх);

Подобные документы

  • Теоретические аспекты ударения. Базовые англоязычные термины "stress" и "accent". Семантический и ритмический факторы определения места и степени ударения в английском языке. Акцентные типы многосложных слов. Вариативность как объективное свойство языка.

    курсовая работа [40,8 K], добавлен 14.06.2011

  • Основные свойства ударения в русских словах: разноместность и подвижность. Особенности постановки ударения в именах существительных (в разных падежах и числах), именах прилагательных, глаголах (в различных формах времени), страдательных причастиях.

    реферат [18,3 K], добавлен 17.02.2013

  • Изучение лексикологической и морфологической функций ударения в русском языке. Анализ особенностей фонетического объединения слов в одно целое. Характеристика акцентных систем: монотонии и политонии. Обзор формирования современного русского произношения.

    контрольная работа [44,2 K], добавлен 21.06.2012

  • Определение роли различных частей речи. Проблема универсальности их природы. Во всех ли языках выделяются части речи и одинаков ли их набор во всех языках. Критерии выделения частей речи в трудах различных ученых. Роль частей речи в русском языке.

    контрольная работа [23,7 K], добавлен 20.02.2010

  • Понятие о типах образования слов. Аффиксация как способ образования слов. Особенности современного словообразования в русском языке. Словообразовательные аффиксы в современном русском языке. Префиксально-суффиксальный (смешанный) способ словообразования.

    курсовая работа [26,8 K], добавлен 27.06.2011

  • Теория лингвистических исследований. Сравнительно-исторический метод как основа для классификации языков. Изучение этимологических гнёзд в современной науке. Исконная и заимствованная лексика. История слов, восходящих к корню "men" в русском языке.

    дипломная работа [81,1 K], добавлен 18.06.2017

  • Теоретические основы исследования слов категории состояния как самостоятельной части речи. Основная проблематика учения о процессах переходности на уровне частей речи. Анализ категории состояния как самостоятельной части речи в современном русском языке.

    курсовая работа [42,5 K], добавлен 08.12.2017

  • Классификация заимствований и их исторические сферы употребления. Функциональные особенности англицизмов в русском языке. Модные слова: содержание и лексический состав. Языковые факторы, определяющие развитие словарного состава языка путем заимствования.

    курсовая работа [101,8 K], добавлен 05.12.2016

  • Понятие семантического поля. Понятийное поле "жилище" в русском языке. Сравнение русского и английского языков. Трудности, возникающие при переводе с одного языка на другой. Формирование лексико-семантической группы слова "жилище" в английском языке.

    курсовая работа [34,3 K], добавлен 07.03.2014

  • Выделение частей речи в русском и китайском языках, основы грамматики. Общие признаки имени существительного как части речи. Грамматические категории имени существительного в русском и китайском языке (одушевленность/неодушевленность, род, число, падеж).

    дипломная работа [84,2 K], добавлен 03.12.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.