Комплексный метод снятия частеречной омонимии с использованием статистики совместного употребления слов в тексте на русском языке

Описание комплексного метода снятия частеречной омонимиии в тексте на русском языке. Сравнительная оценка эффективности классического N-граммного подхода и собранной статистики совместной сочетаемости слов для задачи POS-tagging при комплексном подходе.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 18.01.2018
Размер файла 29,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Московский государственный институт электроники и математики

Комплексный метод снятия частеречной омонимии с использованием статистики совместного употребления слов в тексте на русском языке

М.И. Литвинов

promithias@yandex.ru

Статья посвящена описанию комплексного метода снятия частеречной омонимиии в тексте на русском языке. Производится сравнительная оценка эффективности классического N-граммного подхода и собранной статистики совместной сочетаемости слов для задачи POS-tagging в составе комплексного подхода.

На основании широкоизвестных N-граммных тэггеров было сделано множество практических систем. Например, крупные поисковые системы Yandex [Зеленков, 2005] и Google[Google, 2006] используют этот подход для различных задач автоматической обработки текста на естественном языке. Несмотря на то, что триграммные модели хорошо зарекомендовали себя, существенным недостатком для них является потребность в тщательно размеченном эталонном корпусе, где каждому слову приписана однозначная морфологическая интерпретация в рамках данного контекста. Общемировая практика привела к идее создания национальных корпусов, содержащих в себе метатекстовую, частеречную, морфологическую и семантическую разметку. К сожалению, не всегда такие размеченные корпуса доступны широкому кругу исследователей. Исключением не стал и проект «Национальный Корпус Русского Языка» [НКРЯ], доступ к которому формально есть через открытую поисковую форму на сайте, но тем не менее не доступен для проведения вычислительных экспериментов по обработке текстов.

По исследованиям компании Google на 22 сентября 2006 имеющаяся в их распоряжении цифровая коллекция англоязычных текстов содержит 1012 словоупотреблений. Национальные корпуса Англии [BNC, 2010] и США[ANC, 2010] содержат порядка 108 размеченных словоупотреблений. По последней информации на январь 2008 года (на момент написания статьи прошло больше двух лет) в «Национальном Корпусе Русского Языка» содержится около 5,8*106 словоупотреблений со снятой омонимией. Провести даже автоматизированную разметку 1012 словоупотреблений Такое число словоупотреблений взято для качественных сравнений. представляется трудно выполнимой с экономической точки зрения задачей, возможно даже и не нужной. Реализация практических приложений для работы с 109 триграмм (оценку количества для английского языка см. в [Google, 2006]) потребует значительных вычислительных ресурсов или медленной производительности в настольных системах.

Во избежание вышеуказанных проблем было решено использовать свойство синтаксических хозяев и применять обучение на неразмеченных корпусах большого объема, что позволило получить статистику совместного употребления слов и значительно сократить число комбинаций по сравнению с триграммами Имеется в виду оценочное количество 109 триграмм для английского языка..

Получение статистики совместного употребления слов

Прежде всего, для автоматического определения связей в предложении необходимо решить проблему лексической и синтаксической неоднозначностей. В текстах на русском языке встречается порядка 30% однозначных слов и, как следствие, вероятность встретить группу однозначных слов достаточно велика. В работе [Клышинский, 2010] нами были выдвинуты две гипотезы. Первая гипотеза - в тексте достаточно большого объема группы из однозначных с точки зрения морфологического анализа слов будут встречаться достаточно часто, чтобы собрать статистически значимые результаты. Вторая гипотеза - в предложении может быть однозначно определено синтаксическое подчинение Так называемое понятие синтаксических хозяев. слов друг другу даже без проведения синтаксического анализа. В соответствии со сформулированными гипотезами для сбора статистики совместного употребления слов нами были использованы следующие простые положения.

1. Следующая за единственным в предложении глаголом группа существительного синтаксически подчиняется данному глаголу.

2. Единственная группа существительного, расположенная в начале предложения перед единственным глаголом, синтаксически подчиняется данному глаголу.

3. Прилагательные, расположенные перед первым в предложении существительным или между глаголом и существительным, синтаксически подчиняются данному существительному.

4. Положения 1-3 могут быть применены к деепричастиям и причастиям.

5. В тексте на русском языке должно быть представлено достаточно большое количество неомонимичных групп, попадающих под положения 1-4.

Таким образом, на основании вышеприведенных гипотез удалось получить 6 достаточно простых правил:

1. verb + noun* ( глагол + существительное )

2. adj + noun* (прилагательное + существительное )

3. deepr + noun* ( деепричастие + существительное )

4. participle + noun ( причастие + существительное )

5. adv + verb ( наречие + глагол )

6. adv + deepr ( деепричастие + наречие )

* Возможно наличие предлога (prep).

По результатам экспериментов при помощи полностью автоматического обучения были получены базы сочетаемости глаголов и существительных, деепричастий и существительных, существительных и прилагательных, существительных и причастий. Описание состава получившихся баз приведено в источнике [Клышинский, 2010].

В цифровой коллекции текстов из 109 словоупотреблений приняло участие 21500 глаголов из 26400, представленных в морфологическом словаре «Кросслятор», 53300 существительных из 83000, 23700 прилагательных из 45300 имеющихся. После обучения в нашем распоряжении имеется чуть менее 107 словосочетаний, что меньше оценки в 109 триграмм Для русского языка, имеющего более богатую морфологию, число триграмм может быть гораздо больше.. Однако результаты получены за очень короткий срок без ручной разметки корпусов лингвистами. Кроме того, несомненное достоинство базы - это использование как локальных зависимостей между словами, так и дальнодействующих Согласно оценкам в источнике [Протасов, 2008], зависимые слова в предложении отстоят друг от друга на 5-7 слов, и триграммная модель не может учесть эту зависимость., но избегая проблемы редких данных, которая усложняет как процесс обучения, так и обработки текстов (см. [Протасов, 2008]).

Комплексный метод снятия омонимии

В нашей системе используется комплексный подход для снятия частеречной омонимии, качественные показатели работы каждого подхода по отдельности и в совокупности будут приведены в следующем разделе. Классические системы по автоматической обработки текстов работают по следующим основным этапам: графематический анализ, морфологический анализ, снятие омонимии с помощью триграмм и дальнейшая обработка, в зависимости от требований системы. Отчасти из-за отсутствия размеченных корпусов в свободном доступе, отчасти из-за желания отказаться от обучения по вручную размеченным эталонным коллекциям, в нашей системе после морфологической разметки слов используется база сочетаемости слов для снятия частеречной омонимии вместо триграммного метода.

В общем виде N-граммная модель записывается следующим образом:

и означает вероятность встречи неизвестного тэга , если соседей известны.

комплексный омонимия сочетаемость

Для триграммной модели, чтобы избежать проблемы редких данных и не получить нулевую вероятность появления комбинации тэгов применяют сглаженную вероятность

где .

При проверке на сочетаемость слов между собой в нашей системе используется следующая биграммная модель:

,

где означает расстояние, на котором может быть неизвестное слово от известного. Обычно величина варьируется в пределах 5-7 и позволяет учитывать дальнодействующие связи в предложении.

В источнике [Зеленков, 2005] авторы заложили в свою модель снятия омонимии определение неизвестного тэга не только левыми соседями, но и по правым. Аналогичный подход используется и нами при работе системы с включенной триграммной моделью - неизвестный тэг определяется по левым соседям:

, (2.1)

по правым:

, (2.2)

по левому и правому соседям:

. (2.3)

Как бы это прозаично не звучало, поток электронных текстовых корпусов неумолимо растет - появляются новые труды и переводятся в цифровой вид прежние. Ввиду этого, практически невозможно собрать в одном месте абсолютно все текстовые коллекции и обучиться по ним, а уж тем более создать золотые стандарты на все случаи жизни. Чтобы как-то справиться с этой проблемой мы решили заложить в нашу систему методы, основанные на триграммных правилах и частичной оптимизации совокупности лексических признаков слов в предложении. Два последних подхода позволят модели принимать решения в условиях неполной информации.

В нашем понимании правила - это определение морфологической структуры В данном случае части речи. неизвестного слова по информации о морфологических структурах Лексическая информация используется в триграммной моделе и при проверке на сочетаемость. соседей, без использования лексем как таковых. Правила, как и триграммы, используют левых и правых соседей - выражения (2.1, 2.2, 2.3). Здесь можно отметить, что привлекательным направлением исследований выступает автоматическое пополнение морфологического словаря по наборам текстов новых предметных областей с использованием триграммных правил. Стоит признаться, что в нашей системе триграммные правила были получены по статистике появления связок из трёх слов, взятых из тщательно размеченной эталонной дорожки, но, тем не менее, мы рассматриваем возможность получения таких правил неконтролируемым обучением.

После снятия омонимии с помощью базы сочетаемости (или триграммной модели) и триграммных правил в тексте может остаться процент неизвестных слов, особенно если обрабатывать тексты неизвестной системе предметной области. Возможный выход из такой ситуации - это оптимизация совокупности морфологических структур слов в предложении, который мы заложили в свою систему и подробнее о нём будет рассказано ниже. Среди публикаций отечественных исследователей не удалось найти применение какой-либо оптимизации при решении задачи по устранению частеречной омонимии.

В рамках нашего подхода, оптимизация - это нахождение морфологических структур слов в предложении по определенным раннее соседям, путём перебора вариантов возможных значений неизвестных слов. Следуя сказанному раннее, задача состоит в том, чтобы найти наибольшую вероятность совокупности морфологических структур слов в предложении:

, (2.4)

где - число слов в предложении, - морфологическая структура i-го слова. Оптимизация всего предложения пригодна скорей для языков с бедной морфологией и зачастую не имеет смысла, так как в предложении изначально есть процент однозначных слов. В нашей системе оптимизация идёт самым последним этапом в модуле снятия омонимии, и к этому моменту неоднозначность понижена с помощью статистики совместного словоупотребления и триграммных правил. Таким образом, с использованием априорной информации и результатов предыдущей обработки предложение делится на фрагменты, которые будут оптимизироваться по отдельности. Границы фрагментов выбираются так, чтобы левой и правой границей были известные слова. Но, если предложение оканчивается или начинается с неизвестного слова, то приходится отступать от этого правила. В любом случае нахождение наилучшего значения идёт от периферии фрагмента к центру. Сама оптимизация даёт относительно большой прирост процента разбора слов в предложении, но в сравнении с триграммами и даже правилами имеет низкое качество.

Оптимизация фрагмента будет происходить аналогично выражению (2.4) для всего предложения:

,

где - число слов, которые содержит в себе фрагмент.

Оптимальное значение каждого фрагмента по отдельности должно в итоге привести к наилучшей комбинации морфологических структур во всем предложении. Следующий раздел будет посвящен качественной оценки работы каждого метода по отдельности, комбинации методов и всех методов одновременно.

Условия проведения эксперимента

Оценка результатов работы системы с различными параметрами велась по тщательно размеченной дорожке, содержащей около 2300 словоупотреблений, но, тем не менее, содержащий некий процент словоформ, которые могут разбираться двояким образом. По аналогии с областью информационного поиска брались 2 оценки качества работы системы - Precision (процент правильных ответов из всех выданных системой) и Accurancy (процент правильных ответов из всей предложенной дорожки).

At - число правильно выданных ответов.

Afa - число неправильно выданных ответов.

Afn - число не выданных ответов.

Precision = At / (At + Afa )

Accurancy = At / (At + Afa + Afn )

Расшифровка настроек, с которыми работала система при проведении эксперимента:

Триграммы - работа модуля морфологического анализа совместно с триграммами.

База - работа модуля морфологического анализа совместно с базой сочетаемости слов.

Правила - работа модуля морфологического анализа совместно с триграммными правилами.

Оптимизация - работа модуля морфологического анализа совместно с модулем оптимизации совместного употребления морфологических структур слов в предложении.

База+Правила - работа модуля морфологического анализа совместно с базой сочетаемости слов и триграммными правилами (аналогично для других совместных настроек).

Табл. 1

Параметры

Покрытие Accurancy

Точность Precision

Триграммы

71.5089

98.2185

База

71.9844

96.7461

Правила

77.7345

95.9445

Триграммы+База

72.0277

96.748

Триграммы+Правила

77.7345

95.9445

Триграммы+База+Правила

78.0372

95.6038

Триграммы+Правила+Оптимизация

81.15

94.6546

База+Правила

78.0372

95.6038

Правила+Оптимизация

81.15

94.6546

База+Правила+Оптимизация

81.2797

94.6626

Триграммы+База+Правила+Оптимизация

81.2797

94.6626

В таблице 1 приведены качественные показатели работы системы со всеми возможными настройками, чтобы наглядно показать какой относительный прирост даёт каждый метод.

При снятии частеречной омонимии наша реализация метода Триграмм и Базы Сочетаемости Слов даёт сопоставимый результат, с высоким качеством выдаваемых результатов, но в то же время и с низким процентом разбора дорожки. Добавление метода, основанного на правилах и частичной оптимизации совокупных лексических признаков, значительно повышает процент разбора, но с несколько меньшим качеством. На основании того, что настройки системы «Триграммы+База+Правила+Оптимизация», «База+Правила+Оптимизация» и «Триграммы+Правила+Оптимизация» дают не сильно различающиеся результаты как по показателю Precision, так и по Accurancy, то можно использовать что-то одно в качестве базового метода для снятия частеречной омонимии.

В источнике [Сокирко, 2004] указано, что системы Inxight и Trigram дают точность 94,5 и 94,6 соответственно, что сопоставимо с результатами нашей системы, но стоит особо подчеркнуть, что всё сильно зависит от исходных данных и условий проведения эксперимента. Чтобы однозначно сказать, насколько одна система лучше другой, нужно проводить эксперимент на одной дорожке. Основная цель данной работы - показать, что полностью автоматическими методами обучения можно с меньшими затратами получить результат, сопоставимый с обучением на эталонных корпусах.

Заключение и возможные направления исследований

В процессе исследований удалось получить полностью автоматический метод получения базы совместного употребления слов. Проведены эксперименты по эффективному применению этой базы для разрешения частеречной омонимии в текстах на русском языке. После добавления новых слов в морфологический словарь и обучения на неразмеченном корпусе текстов соответствующей предметной области, возможно снятие частеречной омонимии без дополнительного привлечения лингвистов для разметки эталонных дорожек, как это было в случае использования классических N-граммных тэггеров. По скромным оценкам база сочетаемости слов может служить для решения задач глубинного синтаксического анализа, вероятностного синтаксического анализа, разрешения омонимии разных видов, построения семантических отношений (после кластеризации результатов). Несмотря на то, что есть класс задач, которым достаточно проведения только POS-tagging стоит отметить, что накопленную статистику можно использовать для задачи Lemma-tagging, но после проведения соответствующих исследований. Помимо всего прочего, интересным направлением исследований выглядит получение N-граммных правил полностью автоматическими методами на неразмеченных корпусах текстов любого жанра и обучение морфологического словаря с помощью них.

Благодарности. Данная работа выполнена при частичной финансовой поддержке ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы.

Список литературы

1. М. Агеев, И. Кураленок, И. Некрестьянов Приложение А. Официальные метрики РОМИП 2009 // Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП 2009 (Петрозаводск, 16 сентября 2009г.). - Санкт-Петербург: НУ ЦСИ, 2009.

2. Зеленков Ю.Г., Сегалович Ю.А., Титов В.А. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог'2005., 2005.

3. ] Клышинский Э.С., Кочеткова Н.А., Литвинов М.И., Максимов В.Ю. Автоматическое формирование базы сочетаемости слов на основе очень большого корпуса текстов. // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог'2010., 2010.

4. Литвинов М.И. Модели управления на основе сочетаний из трех слов и глагольное управление для поверхностного синтаксического анализа. // Сб. трудов научно-практического семинара «Новые информационные технологии в автоматизированных системах-13». - М.: МИЭМ, 2010.

5. Национальный корпус русского языка, http://www.ruscorpora.ru.

6. Протасов С.В. Вывод и оценка параметров дальнодействующей триграммной модели языка. // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог'2008., 2008.

7. Сокирко А.В., Толдова С.Ю. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп) // Международная конференция «Корпусная лингвистика 2004». - Санкт-Петербург, 2004.

8. Национальный корпус США, http://americannationalcorpus.org.

9. Национальный корпус Великобритании, http://www.natcorp.ox.ac.uk.

10. Официальный сайт компании Google, http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html.

Размещено на Allbest.ru


Подобные документы

  • Выбор метода проектирования транслятора с языка Паскаль на язык Си, разработка и кодирование алгоритма программы. Использование допустимых операторов в исходном тексте, определение типов переменных и синтаксиса логических и арифметических выражений.

    курсовая работа [1,0 M], добавлен 03.07.2011

  • Рассмотрение основ создания калькулятора на объектно–ориентированном языке программирования Java, который будет подсчитывать длину текста. Математическая модель и алгоритм работы программы. Описание файлов готовой программы расчета символов в тексте.

    курсовая работа [276,5 K], добавлен 28.11.2014

  • Создание программы с кодом на языке Delphi, которая ищет в тексте заглавные буквы, выдает сообщение о количестве и замене их на малые буквы. Описание переменных, вспомогательных процедур, входных и выходных данных, необходимых для реализации задачи.

    курсовая работа [540,4 K], добавлен 21.09.2010

  • "Метод ключевых слов" как один из распространенных методов перехода к математической модели документа. Закономерности распределения частоты слов, отраженные в законе Ципфа. Экспериментальная оценка статистического анализа текста по модели TF*IDF.

    реферат [591,7 K], добавлен 24.06.2009

  • Сущность и описание симплекс-метода и улучшенного симплекс-метода (метода обратной матрицы), преимущества и недостатки их применения в линейном прогаммировании. Листинг и блок-схема программы на языке Turbo Pascal для решения математической задачи.

    курсовая работа [45,0 K], добавлен 30.03.2009

  • Проектирование программного комплекса на языке С++ с использованием принципов объектно-ориентированного программирования. Разработка разных меню, помогающих пользователю работать с программой. Описание процесса формирования статистики по памятникам.

    курсовая работа [799,9 K], добавлен 01.12.2016

  • Аналоги текстовых редакторов с русскоязычным интерфейсом. Разработка и тестирование программного продукта, позволяющего работать с текстом и файлами в редакторе на языке программирования, основанным на русском языке. Алгоритм функционала программы.

    дипломная работа [2,8 M], добавлен 21.07.2013

  • Графическое изображение последовательности технологического процесса. Описание метода решения задачи на математическом языке. Общий алгоритм решения задачи и структура программы. Основные понятия сетевых моделей. Разработка программы на языке С++.

    курсовая работа [1,3 M], добавлен 23.05.2013

  • Особенности системы вопросно-ответного поиска информации. Выбор таксономии семантических тэгов. Ознакомление с символьными шаблонами вопросов на английском языке из системы OpenEphyra. Правила работы тривиального модуля анализа вопросов на русском языке.

    реферат [776,7 K], добавлен 16.03.2014

  • Организация возможности просмотра текстовых файлов и осуществления поиска нужных слов в тексте. Редактирование текста (шрифт, размер). Алгоритм поиска подстроки в строке (метод Кнута-Морриса-Пратта). Загрузка текста из файла (с расширением .txt).

    курсовая работа [2,2 M], добавлен 29.05.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.