Главная Коллекция "Otherreferats" Программирование, компьютеры и кибернетика Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования

Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования

Решение задач автоматической кластеризации новостных документов, расстановка списка тематических меток для всех классов. Тематические метки и ключевые слова, биграммные конструкции. Кластеризация, грамматика конструкций, эксперимент, соответствующий цели.

Рубрика	Программирование, компьютеры и кибернетика
Вид	дипломная работа
Язык	русский
Дата добавления	29.10.2017
Размер файла	1,8 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Коллострукционный анализ применим для оценки сочетаемости слов. Сгенерированный текст (например, при машинном переводе) может быть грамматически корректен, но лишен, при этом, всякого смысла. Встречаются фразы, причины семантической несогласованности которых далеко не очевидны, а подчас и необъяснимы. Трудно объяснить, к примеру, разницу в оттенках значений слов жаркий и горячий (см. [Апресян 2010: 510]). Хотя на первый взгляд, эти слова можно назвать синонимами, существительные, с которыми они сочетаются, у каждого свои. Возникает вопрос: почему горячая вода и горячий чайник сочетаются, тогда как горячая погода, горячее лето уже нет? Универсальный ответ для любого словосочетания найти невозможно.

Поскольку лексическая конструкция определяется как словосочетание, которое встречается в речи, естественно предположить, что, если некоторая фраза встретилась в достаточно большом корпусе, ее можно считать лексической конструкцией. Здесь, впрочем, возникают определенные проблемы. На практике далеко не каждая биграмма является лексической конструкцией -- это может быть описка, нарочное искажение, неверно снятая омонимия, наконец, оба слова могут относиться к разным лексическим конструкциям. Поэтому важно определить именно степень сочетаемости слов. Ясно, что совместная частота встречаемости не вполне отражает то, насколько данные слова характерны друг для друга, ведь одно из них может быть частотным само по себе. Например, фраза хороший цвет имеет большую частоту, чем фраза пурпурный цвет, при этом сочетаемость последней должна быть выше.

А. Стефанович и С. Грис [Stefanowitsch, Gries 2003] рассмотрели в качестве степени сочетаемости вероятность того, что события «встретилось слово x» и «встретилось слово y» зависимы. Для этого строилась статистическая модель, называемая таблицей сопряженности, а зависимость признаков оценивалась точным критерием Фишера. При таком подходе наибольшее значение получали устойчивые лексические конструкции.

Однако, если словосочетание отсутствует в корпусе, это вовсе не значит, что оно не является лексической конструкцией. Каким бы большим ни был корпус, нельзя ожидать, что он вместит в себя все мыслимые коллокации. Так, например, слово краска может встречаться с набором слов красный, белый, зеленый, но не встречаться со словами бежевый или фиолетовый. Возникает задача -- как извлечь информацию о сочетаемости слов, если они не встречались в корпусе. Данная задача получила свое разрешение в нашей статье [Букия и др., 2015].

Оценка взаимозаменяемости элементов конструкций

Для решения основных задач данного исследования мы разработали авторскую методику оценки взаимозаменяемости элементов конструкций, в которой развиваются идеи коллострукционного анализа А.Стефановича и Ст. Гриса [Bukia и др. 2015].

Итак, мы будем рассматривать текст как марковскую цепь нулевого порядка, считая, что каждое следующее слово зависит лишь от соседнего, а зависимостью от всего предшествующего текста мы пренебрегаем. Данное предположение можно обосновать тем, что корреляционная связь элементов внутри биграммной конструкции значительно сильнее, чем каждого элемента в отдельности со всем остальным текстом. Рассмотрим следующий пример:

Вдоль реки протянулась забытая всеми железная дорога.

Ясно, что конструкции забытая всеми и железная дорога воспринимаются как единое целое, их нельзя поэлементно разбить и заменить элементы синонимами, тогда как влияние остальных слов на эти конструкции значительно меньше, слово протянулась можно заменить на слово пролегла, слово реки можно заменить на Волхова и это едва ли заметно изменит значение каждой конструкции.

Таблица сопряжённости

Обозначим за событие «встретилось слово » и за - «встретилось слово ». Если вероятность события при условии события равна самой вероятности события , мы полагаем, что фраза не является конструкцией. Это значит, что слово не характерное или не специфическое для и связь между этими словами отсутствует.

Наоборот, если после слова вероятность встретить слово заметно повышается, то можно с уверенностью говорить, что между этими словами есть связь. Это означает, что события и коррелированы, а величина корреляции отражает степень связи.

Из корпуса мы можем извлечь следующие статистические данные:

· Частота встречаемости первого слова ,

· Частота встречаемости второго слова ,

· Совместная частота встречаемости

· Общее количество слов в корпусе .

Чтобы оценить корреляцию событий и , нужно представить данные в виде таблицы сопряжённости и воспользоваться одной из стандартных статистик. Обозначим, как это принято за и отрицания соответствующих событий. Тогда таблица сопряжённости выглядит следующем образом:

Здесь:

- частота события ,

- частота события «встретилось слово , а слово не встретилось,

- частота события «не встретилось ни , ни ».

Тогда для оценки корреляции можно воспользоваться следующими критериями.

Оценка корреляции в таблицах сопряжённости

Мы оставим за скобками теоретическое описание данных критериев, сославшись лишь на монографию, посвященную статистическим критериям корреляции [Кендалл и др., 1973].

Коэффициент ассоциации. Статистика критерия:

Принимает значения от 0, если слова не связаны, до 1 в случае полной тождественности. Эта оценка слишком приближенная, зато легко поддается вычислению.

Коэффициент коллигации Юла. Статистика критерия:

Между и существует связь:

Коэффициент контингенции . Статистика критерия:

Значения статистики от 0, если слова не связаны, и возрастает при наличии связности. Применим при больших значениях параметров, что, в случае с частотами, бывает далеко не всегда, особенно в корпусах небольшого размера.

Точный критерий Фишера. Статистика критерия:

С достоверностью проверяемые события коррелируют, значит в качестве степени сочетаемости здесь нужно положить . Он работает лучше, чем , когда параметры таблицы сопряженности малы.

Быстрый критерий z. Статистика критерия:

Статистика критерия применима, если или , зато он не требует больших вычислительных мощностей.

-критерий Вулфа [Woolf, 1957]. Для четырехклеточных таблиц критерий Вулва наиболее теоретически обоснован.

Каждый критерий имеет свои внутренние особенности, поэтому окончательный выбор можно осуществить только при непосредственной проверке.

3.2 Автоматическое выделение ключевых слов в документах

Существует немало методов автоматического извлечения ключевых слов как общего профиля, так и терминов, относящихся к определенной предметной области. Сравнение общих подходов можно найти в работе [Мирзагитова, 2014]. Вслед за большинством исследователей, под ключевыми словами мы будем понимать минимальный набор слов, наилучшим образом представляющий документ или коллекцию документов.

Спектр использования данной задачи в лингвистике чрезвычайно широк. Ключевые слова могут представлять документ для обеспечения быстрого поиска, для сортировки или группировки документов по смыслу или для установления тематической направленности. В узком смысле ключевые слова могут пониматься как термины, например, при автоматическом анализе научных работ. Подобным образом ключевые слова могут использоваться в новостных статьях для нахождения новостей близкой тематики.

Ввиду широкой трактовки самого понятия ключевых слов ему нельзя дать однозначного определения, которое не опиралось бы на интуитивное представление носителей языка. Это приводит к определённой проблеме при анализе качества методов. Как правило, про некоторые слова однозначно можно сказать, что они являются ключевыми, про другие - наоборот, что они однозначно ими не являются. Но существенная часть слов находится посередине и выбор их в качестве ключевых является в известном смысле субъективным и зависит от поставленной цели. В некотором случае, при работе над конкретной задачей исследователь может сузить границы неопределённости и подобрать удачный метод.

Понятие ключевого слова

Ещё в 40-е годы прошлого века были первые попытки описать ключевые слова с точки зрения психолингвистики [Соколов 1941]. В современной науке есть несколько вариантов трактовки этого понятия.

В статьях [Камшилова 2013] и [Сахарный 1988] ключевые слова рассматриваются как разновидность «текста-примитива». С этой точки зрения набор ключевых слов:

· достаточны для восстановления исходного текста,

· используют наименьший возможный набор слов.

Для таких списков основополагающими являются не формальные (грамматические), а функциональные признаки (восприятие человеком).

Другая точка зрения постулирует, что максимизацию тематической составляющей и минимизацию связности между элементами.

В статье [Виноградова, Иванов 2015] отражены следующие представления о ключевых словах:

· совокупность ключевых слов должна представлять текст [Камшилова 2013];

· слова и конструкции, отражающие содержание документа [Шереметьева 2015];

· индексируемые слова, по которым может вестись поиск документа [Абрамов 2011];

· важные термины в документе, которые могут дать высокоуровневое описание содержания документа для читателя [Гринева 2009];

· неслучайно встречающиеся в документах слова и словосочетания, важные для рассматриваемой выборки (выдачи) в рамках общего массива документов [Большакова и др. 2011];

· слова, наиболее важные для решения поставленных в инструкции задач [Большакова и др. 2011].

Первые подходы, основанные на частотности слов, были предложены еще в середине прошлого столетия [Luhn 1957], с тех пор появилось немало новых алгоритмов, которые можно разделить на три категории: статистические, лингвистические и гибридные. Общий принцип всех этих методов можно сформулировать так:

1. Предварительная обработка текста. Исключение элементов маркировки, приведение слова к словарной форме, удаление стоп-слов, не несущих смысловой нагрузки (предлоги, союзы, частицы, местоимения, междометия и т. д.).

2. Отбор кандидатов в ключевые слова.

3. Фильтрация кандидатов в ключевые слова (анализ значимых признаков для каждого кандидата).

4. Отбор ключевых слов из числа кандидатов.

Первый этап, как правило, не отличается для различных методов и имеет немало стандартных реализаций. Наиболее существенные различия возникают на третьем этапе.

Лингвистический подход

В прошлом столетии лингвистические методы были широко распространены [Солтон, 1979]. Как правило, они используют методы синтаксического и семантического анализа.

Это может быть описание правил построения текстов, разметка, словари терминов, антологии и прочее. Чаще всего такие методы недоступны для быстрой реализации, потому что требуют длительной подготовки и большого числа специалистов, ведь создание антологий - очень трудоёмкий процесс. Отдельные проблемы могут возникнуть из-за авторских прав при использовании готовых словарей. Как правило, лингвистические методы не универсальны и разрабатываются под конкретную задачу. Подобная технология использовалась при разработке автоматической информационной системы аудита нормативных документов [Баканова 2014].

Оригинальный способ обойти указанные проблемы был предложен в статье [Гринева 2009], в которой антология автоматически строится на основе корпуса статей Википедии. Тематический охват такой антологии был достаточно широк для охвата существенной части корпуса, при этом для работы системы не требовалось дополнительного обучения - термины выделяются на любом, сколь угодно маленьком корпусе, а внушительная система перекрёстных ссылок позволила достаточно неплохо оценить семантическую близость потенциальных ключевых слов.

В [Ефремова 2010] описывается способ извлечения с помощью лексико-синтаксических шаблонов, описывающих типичные терминологические конструкции. Такие системы особенно хорошо работают в текстах, имеющих жёсткую синтаксическую структуру, например, в научных статьях.

Статистические методы

Статистические методы обладают широким спектром применения и, как правило, гораздо проще и дешевле в реализации, чем методы чисто лингвистические. С другой стороны, отсутствие лингвистической обработки приводит к тому, что полученные результаты нередко плохо согласованны, содержат шум и требуют дальнейшей обработки для практического использования.

Как правило, в статистических методах учитывается относительная частота встречаемости слов в документе. Слово, с одной стороны характерное для данной группы документов, с другой не характерное для всего корпуса, с большой вероятностью является тематическим. Традиционная статистика, оценивающая эту величину TF-IDF. TF (term frequency - частота слова) - отношение числа вхождения слова к общему количеству слов в документе:

Она характеризует, насколько данное слово является значимым для документа.

IDF (inverse document frequency - обратная частота документов) - инверсия частоты документов, содержащих данное слово:

Эта метрика уменьшает вес частотных слов языка, которые характерны для любых текстов коллекции.

Результирующая статистика является произведением TF и IDF, тем самым учитывает оба фактора [Маннинг 2011].

Сейчас появилось немало модификаций данного метода [Рубцова 2014].

В нашей работе составление тематического словаря производится оригинальным методом, который учитывает специфическую природу новостных документов.

Гибридные методы

Часто для выделения ключевых слов используют комбинированный подход, пытаясь свести тем самым недостатки отдельных методов к нулю. В сущности, гибридный метод бывает двух типов, условно говоря, стати-лингвический и лингво-статистический.

В первом случае в качестве постобработки ключевых слов используют статистическую информацию об их встречаемости в корпусе, например, для сокращения перечня ключевых слов или для сортировки списка. Во втором случае используется лингвистическая обработка - морфо-синтаксические шаблоны, приведение к нормальному виду и прочее. В строгом смысле гибридных методов, в которых на равных участвует оба подхода, почти нет. Это обусловлено тем, что серьёзный лингвистический аппарат, как правило, сопряжён с высокими затратами на его создание, при этом существенно эффективность может и не повыситься. Поэтому, как правило, используются стандартные парсеры на этапе пред- и постобработки текста. Примеры таких подходов - алгоритмы C-Value, KEA, RAKE и др.

Мы тоже будем использовать простейший морфоанализатор, находящийся в открытом доступе, для повышения эффективности алгоритма.

Известны и другие подходы к выделению ключевых слов, например, интересные идеи предлагаются в работе [Лукашевич 2011], в которой используется спектральный анализ и всё более популярное вейвлет-преобразование для представления текстов. Множество идей основано не только на статистических, но и на алгебраических и графовых представлениях, среди которых заметен алгоритм TextRank, ранжирующий слова методом, аналогичным ранжированию web-страниц - путем запуска случайного блуждания и пересчета весов.

4. Автоматическая кластеризация текстов в новостном корпусе с назначением ключевых слов - меток кластеров

4.1 Общие положения

Приступая к третьей главе нашей работы, скажем несколько слов о самом эксперименте.

Имеется корпус новостных документов, требуется кластеризовать его, построить тематический словарь и выставить метки кластерам документов.

При кластеризации корпуса текстов на небольшие группы, крупные темы, охватывающие сразу несколько групп, согласно стандартным метрикам будут иметь вес меньший, чем темы, соответствующие только одной группе. Это не отвечает интуитивному представлению ключевого слова: хотелось бы, чтобы глобальная тема война в Сирии имела больший вес, чем какая-нибудь локальная тема, задавая, тем самым, контекст для остальных ключевых слов. С другой стороны, попытка изменить это может привести к тому, что увеличится вес у слишком общих, частотных слова, охватывающих всю коллекцию.

Чтобы отделить зерна от плевел, мы разработали специальный двухступенчатый алгоритм, применимый в той или иной мере именно к новостным информационным сайтам.

Основное предположение

Было замечено, что многие новостные порталы публикуют новости двух классов - серьезные и развлекательные. К первому типу относятся политические, финансовые новости. Ко второму - новости о звездах, «британские ученые доказали» и тому подобные материалы. Как оказалось, в тои или иной степени этой классификации отвечает большинство порталов.

Этой особенностью мы решили воспользоваться следующим образом: разбить методом кластеризации корпус на две части: серьезную и несерьезную и составить словарь ключевых слов, основываясь на следующем принципе: если слово характерно для одной группы и не характерно для другой, то оно скорее является тематическим и имеет больший вес. Такой метод позволил избавиться от нейтральных слов, при этом поднять вес крупным темам. Можно назвать эту идею центральной идеей всей работы.

Применение

Может быть несколько вариантов применения данного метода. Прямое применение - организовать серию перекрестных ссылок, проставив метки каждому документу. Другой способ - составлять новостные карточки, объединяя новости с разных порталов и составлять краткое описание с помощью извлеченных ключевых слов подобно тому, как это делается порталом «Яндекс.Новости». Наконец, третий способ, как нам кажется, наиболее интересный и актуальный, - составление рекомендаций и ранжирование новых документов, исходя из предпочтений пользователя.

Данные

В работе использовался корпус новостей портала Ruposters за май 2016 года, объемом 94 тысячи словоупотреблений и 428 документов. Каждый документ имеет пометку «news» или «life», означающую категорию новости.

Мы нарочно ограничили корпус документов - в задачах машинного обучения без учителя увеличение корпуса приводит лишь к улучшению работы алгоритма - это было проверено на корпусе новостей за 2015 год. Далеко не всегда имеется в распоряжении такой большой корпус. Поэтому мы рассмотрели пограничный случай: когда корпус мал, чтобы алгоритму было «слишком легко», но достаточно велик, чтобы оценка была статистически значимой.

Тексты были предобработаны с помощью модуля Pymorphy2, каждое слово было переведено в нормальную форму и получило метку части речи.

Моделирование произведено на языке Python с использованием дополнительных математических библиотек numpy, scipy, scikit-learn и некоторых технических модулей.

План эксперимента

Таким образом, наш эксперимент состоит из четырех шагов:

1. Кластеризация новостного корпуса на два кластера, анализ кластеризации, подбор оптимальных параметров. Сравнение с эталонной классификацией.

2. Выделение ключевых слов, характерных для серьезного и несерьезного кластеров. Сравнение метрик, оптимизация алгоритма. Анализ списков.

3. Выделение конструкций, дополняющих список ключевых слов. Сравнение и анализ коллокационных метрик.

4. Кластеризация корпуса текстов на множество близких небольших групп. Анализ проставления меток кластеру.

4.2 Кластеризация

Основная цель данного эксперимента

Мы воспользовались порталом Ruposters, на котором разработчиками сайта уже произведена разметка: каждый документ, относящийся к серьезным и несерьезным новостям, размечен соответственно либо как news, либо как life. Эту классификацию будем считать эталонной и проверим, какие методы кластеризации при каких параметрах показывают лучшие результаты. Тем самым, при работе с другими порталами можно использовать оптимизированный алгоритм.

Итак, задача этого раздела отделить серьезные новости от несерьезных, приблизив параметры алгоритма к эталонным.

Корпус

Представим ниже типичные заголовки обоих классов.

Раздел life

· Пользователи Сети нашли серьезное нарушение Джамалой правил "Евровидения";

· Звезда реалити-шоу "Дом-2" попала в психиатрическую больницу;

· Звезда "Дома-2" Ольга Бузова полностью обнажилась, шокировав своих поклонников;

· В Москве установят павильоны "Куку-вата";

· 10 самых откровенных нарядов Каннского кинофестиваля.

Раздел news

· Красноярские чиновники "погуляли" в командировках почти на 6 млн бюджетных рублей;

· Кудрин заявил о "последнем рубеже", которого достигла российская экономика;

· Глава Азербайджана объявил о ядерной угрозе со стороны Армении;

· Эрдоган захотел реформировать Совбез ООН;

· "Газпром" продал свои 37% в эстонской AS Eesti Gaas.

Входные данные

В первую очередь, с помощью модуля Pymorphy2 производится предобработка корпуса, которая заключается в следующем:

1) Графематическая обработка, разделение слов и знаков препинания;

2) Приведение каждого слова к нормальному виду;

3) Выставление частеречных меток, отделенных от слова знаком `_';

Тем самым, каждый документ представлен в следующем виде:

речь_NOUN идти_INFN о_PREP хмель_NOUN ,_PNCT который_ADJF придавать_INFN алкогольный_ADJF напиток_NOUN характерный_ADJF горьковатый_ADJF вкус_NOUN._PNCT он_NPRO оказывать_INFN благотворный_ADJF воздействие_NOUN на_PREP организм_NOUN ,_PNCT благодаря_PREP свой_ADJF способность_NOUN останавливать_INFN рост_NOUN бактерия_NOUN и_CONJ развитие_NOUN болезнь_NOUN ._PNCT

Векторизация документов

Для кластеризации каждый документ представляется в векторном виде. При этом используется модель «мешка слов», то есть не учитывается порядок появления слов в документе. На данном этапе такое допущение вполне корректно - порядок слов будет учитываться при выделении конструкций.

Вектор документа имеет размерность, равную количеству уникальных слов в корпусе. Таким образом, каждому слову для данного документа соответствует некоторое число. Это стандартная в таких задачах модель представления в виде матрицы «слова на документы».

Функцию определим двумя способами:

1) - частота слова в документе ;

2) - метрика TF-IDF.

Метод кластеризации

Мы выбрали наиболее эффективные методы кластеризации, позволяющие задать фиксированное число кластеров.

· Метод k средних;

· Спектральный метод

· Иерархические методы

Метрики оценки качества

Качество кластеризации оценивается стандартными критериями, описанными в первой главе:

· Несмещенный индекс Ранда

· Несмещенная взаимная информация

· Точность

· Полнота

· V-мера

· Коэффициент силуэта

Выходные данные

Модуль строит 4 текстовых документа:

· Объединенные в один файл документы, попавшие в первый кластер;

· Объединенные в один файл документы, попавшие во второй кластер;

· Файл с ошибочными документами первого класса, попавшие во второй кластер;

· Файл с ошибочными документами второго класса, попавшие в первый кластер.

Первые два файла необходимы для дальнейшей работы программы, тогда как другие два вспомогательные и позволяют проанализировать ошибки алгоритма.

Результат кластеризации

Результат помещен в двух таблицах - в первой даны значения метрик для частотной матрицы «слова на документы», а во второй - TF-IDF матрицы.

Рисунок 1. Меню первого файла программы: опции позволяют настроить кластеризацию

Таблица 1. Результаты кластеризации с использованием частотной матрицы «слова на документы»

	Rand	MI	h	c	v	s
k-mean	0.838	0.757	0.757	0.779	0.768	0.013
Spectral	0.787	0.69	0.69	0.713	0.702	0.013
Agglomerative	0.698	0.58	0.58	0.596	0.588	0.01

Таблица 2. Результаты кластеризации с использованием метрики TF-IDF в матрице «слова на документы»

Rand

MI

h

c

v

S

k-mean

0.972

0.938

0.938

0.939

0.939

0.009

Spectral

0.754

0.681

0.681

0.72

0.7

0.008

Agglomerative

0.746

0.643

0.635

0.651

0.643

0.008

Эксперимент показал, что использование метрики TF-IDF существенно повышает качество кластеризации, особенно в случае метода k средних, который чувствителен к шуму. TF-IDF существенно снижает шум - слова, равномерно распределенные по документам и имеющие высокую частоту (например, предлоги), в этом случае существенно на кластеризацию не влияют.

Высокий результат метода k средних косвенно подтверждает главный тезис: лексика серьезного и несерьезного классов существенно отличается.

Рисунок 2. Распределение документов при частотной векторизации. Вверху кластеризация, внизу эталонная классификация. Черным цветом обозначены документы, помеченные как серьезные, серым цветом - как несерьезные.

Рисунок 3. Распределение документов при TF-IDF векторизации. Вверху кластеризация, внизу эталонная классификация. Черным цветом обозначены документы, помеченные как серьезные, серым цветом - как несерьезные.

Заметно, что кластеры выпуклые и, при использовании TF-IDF, хорошо разделены. Это и объясняет полученный результат.

Анализ ошибок

Ряд документов из пограничной области был неверно размечен методом k средних. Анализ их лексики показал, что в действительности эти документы можно отнести как к первой, так и ко второй группе. Продемонстрируем один из таких документов:

Иракские ополченцы, сражающиеся против террористов "Исламского государства", предложили своим подписчикам в Instagram самим решить судьбу пойманного ими боевика при помощи онлайн-голосования.

"Юг Мосула. Вы можете проголосовать: убить его или отпустить. На голосование отводится один час. Мы сообщим о его судьбе через час", -- написали авторы аккаунта @iraqiswat в Instagram, опубликовав фотографию пленного террориста.

4.3 Выделение ключевых слов

После кластеризации документов, произведенной в предыдущем разделе, мы хотим извлечь слова, которые характерны для первого класса, и, в то же время, не характерны для второго. Согласно гипотезе, это и будут ключевые слова. В качестве входных данных используются файлы, полученные на предыдущем этапе.

Метод выделения ключевых слов

Здесь мы снова возвращаемся к модели таблицы сопряженности. Нам нужно оценить, в какой степени данное слово тяготеет к одному или другому документу. Обозначим:

- частота встречаемости слова в первом документе;

- частота встречаемости слова во втором документе;

- общая частота остальных слов в первом документе;

- общая частота остальных слов во втором документе;

и воспользуемся одним из критериев корреляции в таблице сопряженности, которые мы описали выше.

Сортируя слова, получим два списка ключевых слов, отвечающих каждой группе.

Статистики корреляции

Мы будем использовать следующие статистики:

· Быстрый критерий z;

· Коллигация Юла

· G-критерий Вулфа

· Взаимная информация

· Ассоциация

· Точный критерий Фишера

· Хи-квадрат

Статистики, принимающие неограниченные значения нормируются стандартным преобразованием .

Выходные данные

На выходе строятся два файла, отвечающие каждому кластеру. В каждом файле ранжированный по данной метрике список ключевых слов. Через табуляцию для каждого слова выводится его частота в первом кластере, во втором кластере и значение метрики.

Рисунок 4. Меню второго модуля программы. Опции позволяют регулировать длину списка.

Результаты

Быстрый критерий Z

Одна из простейших метрик показала достаточно неплохие результаты. Она не очень чувствительна к общим словам (в топ-10 попало слово как), но в целом ранжирование можно назвать удовлетворительным.

Таблица 3. Топ-10 ключевых слов для быстрого критерия Z

Life words

L

N

Вес

News words

L

N

Вес

мужчина_NOUN

73

3

0.889

россия_NOUN

27

233

0.927

life_LATN

55

0

0.881

украина_NOUN

3

166

0.926

женщина_NOUN

72

7

0.879

президент_NOUN

1

124

0.916

фильм_NOUN

53

3

0.869

российский_ADJF

17

158

0.914

девушка_NOUN

53

7

0.855

сирия_NOUN

0

106

0.911

учёный_NOUN

45

5

0.849

сша_NOUN

15

132

0.906

ранее_ADVB

78

22

0.848

страна_NOUN

31

161

0.903

как_CONJ

241

133

0.848

крым_NOUN

2

86

0.899

ruposters_LATN

57

11

0.847

глава_NOUN

4

86

0.896

картина_NOUN

30

0

0.845

савченко_Surn

0

70

0.893

Коллигация Юла, взаимная информация, ассоциация

Эти три метрики словам, встретившимся лишь в одном классе, дают максимальный вес, поэтому слово ячменный будет всегда выше слова Россия.

Таблица 4. Топ-10 ключевых слов для неудачных критериев

Life words

L

N

Вес

News words

L

N

Вес

a_LATN

3

0

1.0

ячменный_ADJF

0

2

1.0

персональный_ADJF

2

0

1.0

вооружение_NOUN

0

10

1.0

петербургский_ADJF

2

0

1.0

катастрофа_NOUN

0

3

1.0

печень_NOUN

2

0

1.0

понижать_INFN

0

2

1.0

жаркое_NOUN

2

0

1.0

касьянов_Surn

0

3

1.0

жанр_NOUN

2

0

1.0

кастро_Surn

0

4

1.0

пик_NOUN

2

0

1.0

пономарев_Surn

0

10

1.0

пикантный_ADJF

3

0

1.0

понятный_ADJF

0

5

1.0

пиксель_NOUN

2

0

1.0

вооружённый_ADJF

0

15

1.0

пингвин_NOUN

5

0

1.0

пообещать_INFN

0

21

1.0

G-критерий Вулфа

Данный критерий показал наиболее хороший результат. G-критерий с одной стороны не очень чувствителен к частотным общим словам, с другой - к редким словам, встретившимся в одном классе текстов. На наш взгляд ранжирование в целом отвечает интуитивному представлению о ключевых словах.

Таблица 5. Топ-10 ключевых слов для G-критерия Вулва

Life words

L

N

Вес

News words

L

N

Вес

мужчина_NOUN

73

3

0.988

украина_NOUN

3

166

0.995

life_LATN

55

0

0.986

россия_NOUN

27

233

0.994

женщина_NOUN

72

7

0.984

президент_NOUN

1

124

0.993

фильм_NOUN

53

3

0.982

сирия_NOUN

0

106

0.992

девушка_NOUN

53

7

0.976

российский_ADJF

17

158

0.992

учёный_NOUN

45

5

0.975

сша_NOUN

15

132

0.990

картина_NOUN

30

0

0.974

крым_NOUN

2

86

0.990

специалист_NOUN

33

2

0.973

страна_NOUN

31

161

0.989

ruposters_LATN

57

11

0.972

савченко_Surn

0

70

0.989

животный_ADJF

28

1

0.972

глава_NOUN

4

86

0.988

Точный критерий Фишера

Точный критерий Фишера в данной задаче показывает вполне удовлетворительный результат, однако его ранжирование отличается от g-критерия. Он так же чувствителен к перекосам.

Таблица 6. Топ-10 ключевых слов для точного критерия Фишера

Life words

L

N

Вес

News words

L

N

Вес

life_LATN

55

0

1.0

украинский_ADJF

1

72

1.0

мужчина_NOUN

73

3

1.0

крым_NOUN

2

86

1.0

женщина_NOUN

72

7

1.0

ес_NOUN

0

57

1.0

фильм_NOUN

53

3

0.999

президент_NOUN

1

124

1.0

девушка_NOUN

53

7

0.999

трамп_NOUN

1

65

1.0

картина_NOUN

30

0

0.999

военный_NOUN

4

77

1.0

учёный_NOUN

45

5

0.999

украина_NOUN

3

166

1.0

ruposters_LATN

57

11

0.999

сирия_NOUN

0

106

1.0

ранее_ADVB

78

22

0.999

страна_NOUN

31

161

1.0

как_CONJ

241

133

0.999

российский_ADJF

17

158

1.0

Хи-квадрат

Стандартный критерий Хи-квадрат показал результат, близкий к тривиальной метрике z.

Таблица 7. Топ-10 ключевых слов для критерия хи-квадрат

Life words

L

N

Вес

News words

L

N

Вес

мужчина_NOUN

73

3

0.984

россия_NOUN

27

233

0.993

life_LATN

55

0

0.981

украина_NOUN

3

166

0.993

женщина_NOUN

72

7

0.981

президент_NOUN

1

124

0.991

фильм_NOUN

53

3

0.977

российский_ADJF

17

158

0.991

девушка_NOUN

53

7

0.971

сирия_NOUN

0

106

0.990

как_CONJ

241

133

0.968

сша_NOUN

15

132

0.989

учёный_NOUN

45

5

0.968

страна_NOUN

31

161

0.988

ранее_ADVB

78

22

0.968

крым_NOUN

2

86

0.987

ruposters_LATN

57

11

0.967

глава_NOUN

4

86

0.986

картина_NOUN

30

0

0.965

савченко_Surn

0

70

0.985

При работе с большими корпусами имеет смысл хранить только верхушку корпуса. Наш модуль позволяет обрезать списки ключевых слов автоматически, исходя из распределения или задавая параметры вручную, построив гистограмму.

Рисунок 5. Гистограмма распределения весов ключевых слов для критерия Вулва. Вверху несерьезные, внизу серьезные документы. Наиболее удачные слова имеют вес, больший 0.7.

4.4 Выделение конструкций

Задача

В корпусе текстов выделить биграммы, лексемы которых с одной стороны обладают высокой степенью ковариации, с другой - являются ключевыми словами.

Униграммы не всегда в полной мере могут описать текст. Например, ключевое слово Владимир ни о чём не говорит, тогда как биграмма Владимир Путин является важной меткой. В данной работе рассматриваются только конструкции-биграммы, однако предложенный метод без труда обобщается и на более сложные конструкции.

В качестве входных данных используются файлы, полученные на предыдущих этапах.

Выделение тематических конструкций

Выше мы подробно описывали, как, развивая идеи Стефановича и Гриса, можно выделять биграммы, лексемы которой обладают высокой ковариацией, то есть характерны друг для друга.

Интуитивно ясно, что если биграмма является конструкцией по Стефановичу, то она оказывается лучшей меткой для статьи, чем каждая ее лексема в отдельности. При этом, даже если одна из них не попала в список ключевых, вполне возможно, что вся конструкция, тем не менее, может являться меткой.

Простейшая функция, отвечающая этим параметрам, задается следующим образом: вес биграммы равен сумме весов ее лексем, умноженный на их корреляцию. Иными словами, если вес слова обозначить за , а меру связи за , вес биграммы равен:

Как и в предыдущем разделе, мы рассмотрим те же метрики для таблиц сопряженности, однако теперь победители будут совсем другие. Попрежнему метрики, принимающие неограниченные значения нормируются стандартным преобразованием .

Шаблоны

Поскольку мы имеем данные о частях речи, можно применить стандартные шаблоны, чтобы получившиеся конструкции были более осмысленными. В большей степени это необходимо для того, чтобы сократить пространство, однако даже такая простейшая обработка помогает избавиться от незавершенных конструкций (вроде, пригласил в). Используются следующие шаблоны:

· Прил. + сущ.

· Сущ. + гл.

· Гл. + сущ.

· Имя + фам.

· * + латиница

и т.п. комбинации.

Рисунок 6. Меню модуля выделения конструкций

Выходные данные

На выходе получается список биграмм, который отдельной процедурой объединяется с униграммами и упорядочивается.

Результаты

Итак, теперь поочередно применим различные варианты меры связи и сравним списки. Как и в случае с ключевыми словами, ниже будут представлены десять биграмм из каждого кластера.

Быстрый критерий Z

Данный метод показал себя не лучшим образом - его достоинство в этой задаче обратилось в недостаток. Он слишком чувствителен к частотным словам, в результате чего наибольший вес получили биграммы, состоящие из самых частотных слов.

Таблица 8. Конструкции, полученные методом z

Life

Вес

News

Вес

свой мужчина

1.885

российский украина

1.910

свой женщина

1.882

российский сирия

1.908

свой фильм

1.880

российский президент

1.906

свой снимка

1.857

российский глава

1.903

свой тело

1.849

российский военный

1.897

свой лента

1.847

российский политика

1.894

свой собака

1.845

российский мид

1.894

свой поклонник

1.843

российский власть

1.892

свой песня

1.841

российский правительство

1.891

свой композиция

1.841

российский лидер

1.891

Коллигация Юла

Данный метод, как нам кажется, выделяет наилучшие биграммы, которые действительно можно назвать тематическими.

Таблица 9. Конструкции, полученные методом коллигации Юла

Life

Вес

News

Вес

ruposters life

1.953

исламский государство

1.896

rolling stones

1.791

минский соглашение

1.858

нижний бельё

1.790

барак обама

1.839

домашний питомец

1.782

петр порошенко

1.831

семейный пара

1.775

владимир путин

1.828

откровенный фотосессия

1.774

олег пешков

1.797

разбитый сердце

1.772

иностранный министр

1.792

метаболический синдром

1.755

дипломатический представительство

1.784

сексуальный фантазия

1.744

иностранный дело

1.782

психотропный вещество

1.736

вооружённый сила

1.781

G-критерий Вулва

Здесь частотность существенно повлияла на веса: очевидно фразы данный момент, данное заболевание попали в верхушку списка из-за этого.

Таблица 10. Конструкции, полученные критерием Вулва

Life

Вес

News

Вес

ruposters life

1.956

российский военный

1.950

хороший возраст

1.874

украинский власть

1.938

данный момент

1.867

владимир путин

1.932

откровенный фотосессия

1.852

исламский государство

1.929

знаменитый актёр

1.835

российский мид

1.917

пользователь youtube

1.832

американский президент

1.913

хороший фильм

1.823

европейский страна

1.912

данный заболевание

1.814

сирийский оппозиция

1.912

оригинальный фильм

1.811

иностранный министр

1.911

обычный мужчина

1.808

российский авиация

1.903

Взаимная информация

Взаимная информация страдает тем же недугом, однако сортирует слова иначе.

Таблица 11. Конструкции, полученные с помощью взаимной информации

Life

Вес

News

Вес

ruposters life

1.955

украинский власть

1.938

хороший возраст

1.888

владимир путин

1.937

сексуальный певица

1.887

сирийский оппозиция

1.934

данный заболевание

1.887

исламский государство

1.933

откровенный фотосессия

1.884

иностранный министр

1.930

оригинальный фильм

1.882

турецкий власть

1.921

обычный мужчина

1.881

российский военный

1.920

сексуальный тело

1.880

сирийский войско

1.916

женский тело

1.880

сирийский народ

1.916

пользователь youtube

1.877

российский авиация

1.914

Ассоциация

Распределение коэффициента ассоциации оказалось очень близко к сортировке методом взаимной информации.

Таблица 12. Конструкции, полученные методом ассоциации

Life

Вес

News

Вес

ruposters life

1.959

владимир путин

1.939

хороший возраст

1.888

исламский государство

1.936

откровенный фотосессия

1.884

сирийский оппозиция

1.931

данный заболевание

1.876

иностранный министр

1.930

пользователь youtube

1.876

украинский власть

1.925

данный момент

1.874

российский авиация

1.916

оригинальный фильм

1.873

мирный гражданин

1.909

обычный мужчина

1.867

сирийский народ

1.908

знаменитый актёр

1.867

турецкий власть

1.905

начать эксперимент

1.8656

верховный депутат

1.902

Точный критерий Фишера

Метод, предложенный Стефановичем и Гриссом показал неудовлетворительный результат. Частотные слова слишком сильно увеличивают вес конструкции.

Таблица 13. Конструкции, полученные точным критерием Фишера

Life

Вес

News

Вес

ruposters life

1.959

российский президент

1.983

хороший фильм

1.918

российский военный

1.979

свой тело

1.912

украинский президент

1.976

свой поклонник

1.905

сирийский президент

1.975

обычный мужчина

1.905

российский мид

1.972

свой композиция

1.903

российский лидер

1.968

данный заболевание

1.903

украинский политика

1.967

оригинальный фильм

1.900

украинский власть

1.965

хороший возраст

1.896

российский глава

1.964

начать эксперимент

1.888

украинский мид

1.962

Хи-квадрат

Еще один традиционный метод ничем не выделяется от остальных.

Таблица 14. Конструкции, полученные методом Хи-квадрат

Life

Вес

News

Вес

ruposters life

1.959

российский военный

1.973

хороший возраст

1.895

украинский власть

1.962

хороший фильм

1.888

российский мид

1.959

данный заболевание

1.888

российский войско

1.947

откровенный фотосессия

1.886

американский президент

1.946

оригинальный фильм

1.884

европейский страна

1.946

обычный мужчина

1.883

сирийский президент

1.945

пользователь youtube

1.881

владимир путин

1.942

данный момент

1.880

сирийский оппозиция

1.942

начать эксперимент

1.875

турецкий власть

1.939

Как оказалось, коэффициент коллигации Юла - наиболее подходящий критерий для оценки сочетаемости в адаче выделения ключевых слов.

На гистограмме видно, что наш способ взвешивания биграмм может быть доработан. Некоторые биграммы имеют вес, больший единицы, при этом явно уступают лучшим униграммам, вес которых всегда меньше единицы. Поэтому возможна настройка алгоритма с помощью дополнительных коэффициентов, полученных эмпирически.

Рисунок 7. Гистограмма распределения тематических меток для метода Юла

4.5 Выделение тематических меток в кластере новостных документов

Общее положение

Чтобы иллюстрировать качество выделения тематических меток для группы документов, произведем кластеризацию любым методом и для произвольной группы извлечем ключевые слова. При этом вес каждой тематической метки умножается на частоту в кластере. Ниже представлены тексты одного кластера, состоящего из четырех документов, с выделенными ключевыми словами.

Результат

Ключевые слова:

турция 6.89853420862

сша 5.94330227089

президент 4.96131582517

страна 4.94784744148

обама 4.89944481432

война 3.91119922742

право 3.82381747822

беженец 3.77026358358

болгария 3.43676387354

год 3.39483088399

международный право 3.07828953878

европа 2.85682103533

османский империя 2.35259785334

россия 1.98925601691

сирия 1.98588165513

глава 1.97779589388

ес 1.97308425211

государство 1.9715097254

правительство 1.95040262693

анкара 1.94853523608

исламский государство 1.89643005104

штаты 1.88154406128

встреча 1.85888711847

эрдоген 1.81639801475

освобождение 1.79199105972

заявление 1.73539433659

интерес 1.72973210732

безвизовый режим 1.7187762516

оппозиционный газета 1.68356065688

международный сообщество 1.64126028237

российский флаг 1.60639565483

дипломатический миссия 1.58962410986

турецкий власть 1.57835846238

турецкий сторона 1.47742446702

русский армия 1.47685128012

международный принцип 1.4736234574

турецкий войско 1.46084793496

османский иго 1.43954482025

официальный представитель 1.43750799581

ополченец 1.43359953676

американский президент 1.40762378158

русский солдат 1.3939957058

официальный встреча 1.38029651251

конкретный страна 1.32705925561

этот война 1.26007091627

газета zaman 1.24067373402

европейский конвенция 1.2320622458

империя 1.18551520529

саудовский аравия 1.18551520529

этот страна 1.10822728857

американский правительство 1.00306018498

Количество ключевых слов регулируется в зависимости от требований в конкретной задаче. Представим тексты целиком с тем, чтобы ярче проиллюстрировать, насколько тематические метки удачны.

Текст 1

Официальный представитель МИД Болгарии Бетина Жотева опровергла информацию о приглашении президента Турции Реджепа Тайипа Эрдогана на празднование 138-ой годовщины освобождения от османского ига, передает ТАСС.

"В официальных мероприятиях принимают участие главы дипломатических миссий, аккредитованных в Софии", - сказала Жотева.

Он также назвала слухи о приглашении на празднование президента Турции "грубой манипуляцией, не соответствующей действительности".

День освобождения от османского ига Болгария ежегодно отмечает 3 марта. В торжествах участвуют десятки тысяч человек. Многие приходят на мероприятия с болгарскими и российскими флагами, отдавая дань уважения местным ополченцам и русским солдатам, погибшим за освобождение страны.

В 1396-1878 Болгария входила в состав Османской империи. После подавления Турцией апрельского восстания в Болгарии в 1876, а также обращения боснийских повстанцев к сербам о помощи, Сербия и Черногория объявили Османской империи войну. Россия вступила в войну 24 апреля 1877 года, которая вошла в историю как русско-турецкая война 1877-1878 годов. Русской армии и ополченцам удалось разгромить турецкие войска. В Болгарии эта война названа Освободительной.

Текст 2

Президент США Барак Обама отказал главе Турции Реджепу Тайипу Эрдогану в личной встрече в США, пишет The Wall Street Journal.

Источники в американском правительстве рассказали, что президент Турции попросил Обаму о встрече в штате Мэриленд, где Эрдоган будет открывать мечеть, построенную на деньги Анкары. Однако глава Белого Дома отклонил предложение Эрдогана. Кроме того, Обама не планирует никаких официальных встреч с ним в формате "один на один".

В Белом Доме подчеркнули, что отказ президента "не следует расценивать, как проявление неуважения" и напомнили, что он уже встречался с Эрдоганом в ноябре на саммите "Большой двадцатки", а в феврале провел с ним телефонную беседу.

8 марта официальный представитель Госдепартамента США Джон Кирби прокомментировал давление турецких властей на оппозиционную газету Zaman. В своем заявлении он раскритиковал руководство Турции и отметил, что оно игнорирует сигналы международного сообщества, нарушает международные принципы и собственную конституцию. За несколько недель до этого Эрдоган выступил с обвинениями в адрес США и России.

Текст 3

Президент США Барак Обама в интервью The Atlantic назвал "нахлебниками" некоторых союзников Вашингтона в Европе и на Ближнем Востоке.

По мнению Обамы, ряд государств пытаются за счет США решить собственные проблемы. Он не стал называть конкретные страны, однако упомянул Саудовскую Аравию -- этой стране, по его мнению, следует найти способ уживаться с Ираном.

Затрагивая тему отношений с Тегераном, американский президент подчеркнул, что США не может предпочитать интересам Ирана интересы своих союзников, поскольку страны долгое время враждовали.

Барак Обама также упомянул ситуацию в Сирии. Он подчеркнул, что гордится тем, что в 2013 году США не начали прямой военный конфликт с правительством Сирии, несмотря на то, что на карту был поставлен его личный авторитет и доверие к Америке.

Террористическая группировка "Исламское государство", по мнению Обамы, не является серьезной угрозой для Соединенных Штатов. Более существенной проблемой президент США назвал изменение климата.

Текст 4

Управление Верховного комиссара ООН по делам (УВКБ) беженцев назвало незаконным соглашение между Евросоюзом и Анкарой, согласно которому мигрантов будут возвращать обратно в Турцию, передает Reuters.

В заявлении отмечается, что "быстрая сделка" ЕС по массовой отправке беженцев в Турцию нарушает их права на защиту, гарантированные европейским и международным правом.

Региональный директор УВКБ по Европе Винсент Коштель заявил, что планы Европы на добровольной основе переселить 20 тысяч беженцев за два года являются сомнительными. Он рассказал, что Турция в прошлом приняла очень небольшое количество беженцев из Афганистана и Ирака -- в районе 3% от общего потока.

"Массовая высылка иностранцев запрещена в соответствии с Европейской конвенцией по правам человека. Соглашение о высылке беженцев в третью страну не согласуется ни с европейским, ни с международным правом", -- сказал он на пресс-конференции.

Ранее лидеры Евросоюза приветствовали предложение Анкары забрать всех мигрантов, попадающих в Европу с территории Турции и дали принципиальное согласие на требования турецкой стороны дать больше денег, ускорить переговоры о вступлении в ЕС и безвизовом режиме.

Оценка

Анализ этого и других кластеров показал, что метод хорошо ранжирует тематические слова и может быть доработан с учетом специфики применения - в самом алгоритме предусмотрена гибкая регулировка параметров. Мы планируем на основе данного ранжированного списка строить рекомендации новостей и для этого оптимизировать параметры алгоритма.

Заключение

В данной работе была представлена автоматическая кластеризация документов с присвоением тематических меток. Для проведения экспериментов была написана компьютерная программа, позволяющая кластеризовать документы и выделять тематические метки из корпуса новостных текстов, используя множество тонких настроек алгоритма.

Мы считаем, что поставленная цель достигнута - документы кластеризованы, конструкции выделены, тематические метки расставлены. Развивая идеи Стефановича, мы смогли извлечь достаточно неплохие тематические конструкции, которые почти не требуют постобработки. Но это не значит, что на этом следует остановиться.

Полученные результаты можно назвать промежуточными и, в зависимости от дальнейшего направления работы, их можно адаптировать в ту или иную сторону, поэтому в программу уже заложена возможность тонкой настройки на всех уровнях работы.

В дальнейшем мы планируем приступить к разработке рекомендательных систем для сайта Рупостерс. После проведения дополнительных экспериментов и подготовки черновой версии алгоритма мы планируем связаться с руководителем портала и предложить внедрить алгоритм на сайт, но это потребует дополнительные ресурсы.

А данную работу можно считать оконченной.

Список литературы

1. Новая философская энциклопедия в 4-х томах / под ред. Степина В.С. -- М.: Ин-т философии РАН, Нац. обществ.-науч. фонд, Мысль, 2000--2001.

2. Энциклопедический словарь Брокгауза и Ефрона в 86 т. -- СПб. АО «Ф. А. Брокгауз -- И. А. Ефрон», 1890--1907.

3. Плюта В. Сравнительный многомерный анализ в экономических исследованиях -- М.: Статистика, 1980. -- 152 с.

4. Терентьев П. В. Метод корреляционных плеяд / Вестник ЛГУ. -- 1959. -- № 9. -- С. 137--141.

5. Trion R. G. Cluster analysis. -- L.: Ann Arbor Edwards Bros. -- 1939. -- 139 p.

6. Мандель И.Д. Кластерный анализ -- М.: Финансы и статистика, 1988 -- 176 с.

7. Воронцов К.В. Машинное обучение (курс лекций) -- публикация на сайте http://www.machinelearning.ru

8. Jain A., Murty M., Flynn P. Data clustering: A review // ACM Computing Surveys. -- 1999. -- Vol. 31, no. 3. -- Pp. 264-323.

9. Лагутин М. Б. Наглядная математическая статистика. -- М.: П-центр, 2003.

10. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. -- Новосибирск: ИМ СО РАН, 1999.

11. Rosenberg A. and Hirschberg J. Detecting pitch accent using pitch-corrected energy-based predictors. -- In Interspeech, 2007

12. Четвёркин И. И. Кластеризация оценочных слов по тональности на основе марковских цепей // Новые информационные технологии в автоматизированных системах. Вып. 16 / 2013.

13. Шмулевич, М. М., Пивоваров, В. С., Киселев, М. В. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики. - Уральский федеральный университет, 2005

14. Aggarwal, Charu C., ChengXiang Zhai A survey of text clustering algorithms // Mining Text Data, 77-128. Springer, 2012.

15. Savova, Guergana, T. Pedersen, A. Purandare, A.Kulkarni Resolving ambiguities in biomedical text with unsupervised clustering approaches - University of Minnesota Supercomputing Institute Research Report, 2005

16. Schьtze, H. Automatic word sense discrimination // Computational linguistics 24 / 1. - MIT Press, 1998. С. 97-123.

17. Navigli, R. Word Sense Disambiguation: A Survey // ACM Computing Surveys 41 (2). - ACM, 2009. C. 1-69.

18. Lin, D.; Pantel, P. Discovering word senses from text // 8th International Conference on Knowledge Discovery and Data Mining (KDD). - Edmonton, Canada, 2002. C. 613-619.

19. Lin, D. Automatic retrieval and clustering of similar words // 17th International Conference on Computational linguistics (COLING). - Montreal, Canada, 1998. C. 768-774.

20. Филлмор Ч. Дело о падеже; Дело о падеже открывается вновь. - В кн.: Новое в зарубежной лингвистике, вып. X. - М., 1981

21. Fillmore Ch.J. 1982c - Frame semantics // Linguistics in the morning calm: Selected papers from the SICOL-1981. - Seoul: Hanship, 1982. - P. 111- 137.

22. Fillmore, Ch. J.; Kay, P.; O'Connor, M. C. 1988. Regularity and idiomaticity in grammatical constructions: The case of LET ALONE // Language, 64.3, 501--538

23. Goldberg, A. 1995. Constructions: A Construction Grammar Approach to Argument Structure. Chicago: University of Chicago Press.

24. Stefanowitsch, A.; Gries, S. Th. 2003. Collostructions: investigating the interaction between words and constructions // International Journal of Corpus Linguistics 8.2, 209--43.

25. Gries, Stefan Th., Anatol Stefanowitsch 2004. Extending collostructional analysis: a corpus-based perspective on `alternations'. International Journal of Corpus Linguistics 9 (1). Pp. 97-129

26. Stefanowitsch, A., Gries, S. Th. 2005. Covarying collexemes // Corpus Linguistics and Linguistic Theory 1.1, 1--43.

27. Woolf B. The log likelihood ratio test [the G-test]. Methods and tables for tests of heterogeneity in contingency tables // Ann. Human Genetics. 1957. V. 21. P. 397-409.

Страница:

1
2
3

дипломная работа "Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования" скачать

Подобные документы

Анализ данных дистанционного практикума по программирования с помощью методов Data Mining
Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.

курсовая работа [728,4 K], добавлен 10.07.2017

Кластерный анализ социальных сетей
Особенности кластеризации социальных сетей, методы распознавания сообществ. Особенности локального прореживания графа. Разработка рекомендаций по выбору метода кластеризации для выделенных классов задач. Оптимизация процесса дальнейшей обработки данных.

курсовая работа [1,8 M], добавлен 30.06.2017

Кластеризация с помощью нейронных сетей
Сущность, структура, алгоритм функционирования самообучающихся карт. Начальная инициализация и обучение карты. Сущность и задачи кластеризации. Создание нейронной сети со слоем Кохонена при помощи встроенной в среды Matlab. Отличия сети Кохонена от SOM.

лабораторная работа [36,1 K], добавлен 05.10.2010

Технология нейронных сетей
Алгоритмы кластеризации данных, отбора факторов, построения множественной линейной регрессии, оценки параметров процесса на скользящем постоянном интервале. Решение задач анализа данных на нейронных сетях и результаты моделирования нелинейных функций.

контрольная работа [1,5 M], добавлен 11.01.2016

Моделирование сети кластеризации данных в MATLAB NEURAL NETWORK TOOL
Сущность и понятие кластеризации, ее цель, задачи, алгоритмы; использование искусственных нейронных сетей для кластеризации данных. Сеть Кохонена, самоорганизующиеся нейронные сети: структура, архитектура; моделирование кластеризации данных в MATLAB NNT.

дипломная работа [3,1 M], добавлен 21.03.2011

Разработка и построение прогностических моделей на основе нейронной сети в аналитической платформе Deductor
"Наивная" модель прогнозирования. Прогнозирование методом среднего и скользящего среднего. Метод опорных векторов, деревьев решений, ассоциативных правил, системы рассуждений на основе аналогичных случаев, декомпозиции временного ряда и кластеризации.

курсовая работа [2,6 M], добавлен 02.12.2014

Интеллектуальный анализ данных. Классификация и регрессия
Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.

контрольная работа [26,1 K], добавлен 13.01.2013

Сравнительный анализ методов кластерного анализа в решении задач группировки
Роль информации в мире. Теоретические основы анализа Big Data. Задачи, решаемые методами Data Mining. Выбор способа кластеризации и деления объектов на группы. Выявление однородных по местоположению точек. Построение магического квадранта провайдеров.

дипломная работа [2,5 M], добавлен 01.07.2017

Система контент-анализа естественно-языковых текстов
Морфологические анализаторы (морфологизаторы) на различных языках программирования. Анализ методов и технологий автоматической обработки ЕЯ-текстов. Разработка модуля графематического анализа и создания таблицы лексем. Программная реализация классов.

дипломная работа [3,0 M], добавлен 06.03.2012

Методы Data Mining
Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.

курсовая работа [3,2 M], добавлен 19.05.2011

Другие документы, подобные "Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования"

главная

рубрики

по алфавиту

вернуться в начало страницы

вернуться к началу текста

вернуться к подобным работам

Рубрики

По алфавиту

Закачать файл

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

	Rand	MI	h	c	v	S
k-mean	0.972	0.938	0.938	0.939	0.939	0.009
Spectral	0.754	0.681	0.681	0.72	0.7	0.008
Agglomerative	0.746	0.643	0.635	0.651	0.643	0.008

Life words	L	N	Вес	News words	L	N	Вес
мужчина_NOUN	73	3	0.889	россия_NOUN	27	233	0.927
life_LATN	55	0	0.881	украина_NOUN	3	166	0.926
женщина_NOUN	72	7	0.879	президент_NOUN	1	124	0.916
фильм_NOUN	53	3	0.869	российский_ADJF	17	158	0.914
девушка_NOUN	53	7	0.855	сирия_NOUN	0	106	0.911
учёный_NOUN	45	5	0.849	сша_NOUN	15	132	0.906
ранее_ADVB	78	22	0.848	страна_NOUN	31	161	0.903
как_CONJ	241	133	0.848	крым_NOUN	2	86	0.899
ruposters_LATN	57	11	0.847	глава_NOUN	4	86	0.896
картина_NOUN	30	0	0.845	савченко_Surn	0	70	0.893

Life	Вес	News	Вес
свой мужчина	1.885	российский украина	1.910
свой женщина	1.882	российский сирия	1.908
свой фильм	1.880	российский президент	1.906
свой снимка	1.857	российский глава	1.903
свой тело	1.849	российский военный	1.897
свой лента	1.847	российский политика	1.894
свой собака	1.845	российский мид	1.894
свой поклонник	1.843	российский власть	1.892
свой песня	1.841	российский правительство	1.891
свой композиция	1.841	российский лидер	1.891

Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Оценка взаимозаменяемости элементов конструкций

Вдоль реки протянулась забытая всеми железная дорога.

Таблица сопряжённости

Оценка корреляции в таблицах сопряжённости

Коэффициент ассоциации. Статистика критерия:

Принимает значения от 0, если слова не связаны, до 1 в случае полной тождественности. Эта оценка слишком приближенная, зато легко поддается вычислению.

Коэффициент коллигации Юла. Статистика критерия:

Между и существует связь:

Коэффициент контингенции . Статистика критерия:

Точный критерий Фишера. Статистика критерия:

Быстрый критерий z. Статистика критерия:

Статистика критерия применима, если или , зато он не требует больших вычислительных мощностей.

-критерий Вулфа [Woolf, 1957]. Для четырехклеточных таблиц критерий Вулва наиболее теоретически обоснован.

3.2 Автоматическое выделение ключевых слов в документах

Понятие ключевого слова

В статьях [Камшилова 2013] и [Сахарный 1988] ключевые слова рассматриваются как разновидность «текста-примитива». С этой точки зрения набор ключевых слов:

Лингвистический подход

В прошлом столетии лингвистические методы были широко распространены [Солтон, 1979]. Как правило, они используют методы синтаксического и семантического анализа.

Статистические методы

IDF (inverse document frequency - обратная частота документов) - инверсия частоты документов, содержащих данное слово:

Результирующая статистика является произведением TF и IDF, тем самым учитывает оба фактора [Маннинг 2011].

Сейчас появилось немало модификаций данного метода [Рубцова 2014].

В нашей работе составление тематического словаря производится оригинальным методом, который учитывает специфическую природу новостных документов.

Гибридные методы

4. Автоматическая кластеризация текстов в новостном корпусе с назначением ключевых слов - меток кластеров

4.1 Общие положения

Приступая к третьей главе нашей работы, скажем несколько слов о самом эксперименте.

Имеется корпус новостных документов, требуется кластеризовать его, построить тематический словарь и выставить метки кластерам документов.

Основное предположение

Применение

Данные

Тексты были предобработаны с помощью модуля Pymorphy2, каждое слово было переведено в нормальную форму и получило метку части речи.

Моделирование произведено на языке Python с использованием дополнительных математических библиотек numpy, scipy, scikit-learn и некоторых технических модулей.

План эксперимента

4.2 Кластеризация

Основная цель данного эксперимента

Корпус

Раздел life

Входные данные

В первую очередь, с помощью модуля Pymorphy2 производится предобработка корпуса, которая заключается в следующем:

Векторизация документов

Функцию определим двумя способами:

Метод кластеризации

Метрики оценки качества

Выходные данные

Результат кластеризации

Результат помещен в двух таблицах - в первой даны значения метрик для частотной матрицы «слова на документы», а во второй - TF-IDF матрицы.

Анализ ошибок

4.3 Выделение ключевых слов

Метод выделения ключевых слов

Статистики корреляции

Выходные данные

Рисунок 4. Меню второго модуля программы. Опции позволяют регулировать длину списка.

Результаты

Быстрый критерий Z

4.4 Выделение конструкций

Задача

Выделение тематических конструкций

Шаблоны

Результаты

Быстрый критерий Z

4.5 Выделение тематических меток в кластере новостных документов

Общее положение

Результат

Ключевые слова:

Оценка

Заключение

А данную работу можно считать оконченной.

Список литературы

Подобные документы