Роль ключевых предложений в построении текста

Понятие автоматического реферирования текста. Взаимосвязь между КП, автоматически сгенерированным рефератом. Разработка программы извлечения ключевых предложений из текста. Изучение пользовательского интерфейса. Проведение оценки качества работы системы.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 30.09.2016
Размер файла 248,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

20

Оглавление

Введение

Глава I. Ключевые предложения и проблема автоматического реферирования текста

1.1 Роль ключевых предложений в построении текста

1.2 Понятие автоматического реферирования текста

1.3 Взаимосвязь между КП и автоматически сгенерированным рефератом

Глава II. Разработка программы извлечения ключевых предложений из текста

2.1 Алгоритм извлечения КП

2.2 Пользовательский интерфейс

2.3 Оценка качества работы системы

Заключение

Список использованной литературы

Приложение

реферирование автоматический интерфейс

Введение

Постоянное увеличение объемов существующей в мире информации является вполне естественным процессом. В его основе лежат как стремительно развивающийся научно-технический прогресс, так и многочисленные социально значимые, культурные и политические события. А современные постоянно совершенствующиеся технологии хранения и передачи информации в свою очередь в большой степени решают проблему ее доступности.

Однако у открытого доступа к практически неисчерпаемому объему информации есть серьезный побочный эффект, который получил название проблемы информационной перегрузки. Эта проблема возникает, когда потоки входящей информации начинают превышать возможности ее обработки. В подобной ситуации человек оказывается физически неспособен даже ознакомиться с доступными источниками в полном объеме, а тем более выбрать и проанализировать самые важные из них. Таким образом, на первый план выходит проблема эффективности работы с информацией.

Решением данной проблемы занимаются, в частности, специалисты в области информационных технологий. Отдельным направлением их деятельности является разработка методов анализа текста. Это объясняется тем, что несмотря на все разнообразие информационных носителей, текст остается основным среди них.

Одной из первостепенных задач в области автоматической обработки текста является разработка методов его автоматического реферирования.

Интерес к проблеме автоматической генерации рефератов возник более 50 лет назад. Работа Г. Луна (Luhn, 1958) появилась одной из первых и обозначила основные проблемы и сложности этого процесса и послужила отправной точкой для развития данного направления. С тех пор многие исследователи (П. Браславский, Т. Вишняков, Е. А. Гридина, И. Колычев, П. Г. Осминин, С. А. Тревгода, С. Шилов, В. Яцко, R. Barzilay, M. S. Binwahlan, M. Elhadad, K. Jeћek, E. Lloret, K. McKeown, A. Nenkova, N. Salim, L. Suanmali, J. Steinberger) занимались изучением и разработкой различных способов реализации автоматического реферирования текста.

На сегодняшний день выделяется несколько общих подходов к рассматриваемой проблеме. В частности, можно назвать извлекающий (или экстрагирующий) подход, основная идея которого заключается в выявлении наиболее содержательных, важных для понимания общей идеи текста фрагментов.

Выделение ключевых предложений в тексте по своей сути является одним из вариантов реализации извлекающего подхода. Сопоставление наборов ключевых предложений, извлеченных вручную, с автоматически составленными рефератами показало, что выбранные системы автореферирования создают информативные рефераты, в то время как ключевые предложения текста образуют его индикативный реферат. Таким образом, лингвистические характеристики ключевых предложений могут быть использованы как самостоятельно, так и в комбинации с другими текстовыми параметрами для совершенствования существующих методов автоматического реферирования текста.

Актуальность проблемы автоматического реферирования текста подтверждается проведением многочисленных исследований в этой области, а также широким полем применения методов автореферирования. Они активно используются как в системах извлечения информации (IR systems), поисковых машинах, новостных агрегаторах, в процессе подготовки информации к использованию в мобильных устройствах, так и, например, в делопроизводстве, электронной коммерции, электронных и традиционных библиотеках, и даже в обучении иностранному языку (Yatsko, Shilov, Vishniakov, 2005: 48-59).

Научная новизна исследования заключается в разработке и реализации метода автоматического реферирования текста на основе извлечения его ключевых предложений, являющихся «грамматической, языковой реализацией категории последовательности и стилистико-функционального единства в тексте» (Романова, 1990: 177).

Целью данной работы является разработка системы автоматического извлечения ключевых предложений текста посредством оценки их формальных лингвистических характеристик.

Для достижения поставленной цели необходимо решить ряд задач:

Сформулировать определение ключевых предложений текста, охарактеризовать их место в текстовой структуре и описать алгоритм их выделения в тексте;

Рассмотреть основные алгоритмы автоматического реферирования текста, работающие на основе извлечения ключевой информации;

Сравнить результаты работы нескольких программ автоматического реферирования текста с результатом ручного извлечения ключевых предложений текста;

Выбрать формальные лингвистические характеристики, позволяющие извлечь ключевые предложения из текста;

Разработать систему автоматического извлечения ключевых предложений текста;

Разработать пользовательский интерфейс;

Оценить качество работы системы.

Объектом исследования в данной работе являются ключевые предложения текста.

Предмет исследования - характеристики, позволяющие извлекать ключевые предложения из текста автоматически.

Исследование проводится на материале 40 текстов статей, опубликованных общественно-политическим еженедельником "Литературная газета" (http://www.lgz.ru) и интернет-журналом ПостНаука (http://postnauka.ru).

Тестовое автоматическое реферирование текстов выполнено с помощью таких программных продуктов, как TextAnalyst v2.01 (demo), VisualWorld (beta) и проект «Автоматическая суммаризация текста», размещенный на странице http://g-calendar.appspot.com/analyze (demo).

Для решения поставленных задач использовались следующие методы исследования:

теоретический анализ методической литературы, научных изданий и диссертационных исследований, посвященных изучению структуры текста и методов автоматического реферирования текста;

анализ и обобщение рассмотренных подходов и алгоритмов автоматического реферирования текста;

анализ публицистических и научно-популярных статей с целью выделения в них ключевых предложений;

общестатистический метод автоматического реферирования текста;

сравнительный анализ результатов ручного извлечения ключевых предложений текста и автоматически сгенерированного реферата.

Данное исследование принимало участие в конкурсах научно-исследовательских работ студентов, и его результаты прошли апробацию на студенческих научных конференциях:

XII научно-практическая конференция студентов и преподавателей НИУ ВШЭ - Нижний Новгород «Современные проблемы в области экономики, менеджмента, бизнес-информатики, юриспруденции и социально-гуманитарных наук», апрель 2014 г. - «Синтагматические и парадигматические отношения ключевых предложений текста»;

Конкурс научно-исследовательских работ студентов НИУ ВШЭ - Нижний Новгород, диплом 2 степени в номинации «Лингвистика и филология», 2014 г. - «Синтагматические и парадигматические отношения ключевых предложений текста»;

I Междисциплинарная студенческая конференция «Интеллектуальный город: взгляд в будущее», апрель 2015 г. - «Ключевые предложения и проблема автоматического реферирования текста»;

II Междисциплинарная студенческая конференция «Интеллектуальный город: взгляд в будущее», апрель 2016 г. - «Ключевые предложения и проблема автоматического реферирования текста»;

Конкурс научно-исследовательских работ студентов НИУ ВШЭ - Нижний Новгород, диплом 2 степени в номинации «Лучшая научная работа по социально-гуманитарным наукам», 2016 г. - «Ключевые предложения и проблема автоматического реферирования текста»;

Городская студенческая межвузовская конференция Нижегородского государственного педагогического университета имени Козьмы Минина «Язык: история и современность», май 2016 г. - «Ключевые предложения и проблема автоматического реферирования текста».

Глава I. Ключевые предложения и проблема автоматического реферирования текста

1.1 Роль ключевых предложений в построении текста

В первую очередь введем несколько базовых понятий рассматриваемой предметной области: текст, сложное синтаксическое целое, межфразовая связь.

Текст. Одним из базовых понятий лингвистики является текст. Учитывая то, насколько сложно устроена эта система, вполне ожидаемо звучит замечание З. Я. Тураевой: «Определение текста, которое можно было бы считать исчерпывающим и которое носило бы терминологический характер, еще не выработано». (Тураева, 1986: 11)

Изучению текста посвящено большое количество исследований, многие из которых проводятся в рамках относительно нового раздела науки о языке - лингвистики текста. Лингвистика текста как самостоятельная научная дисциплина появилась в России к концу 40-х годов XX века и объединила многие работы, использующие различные подходы (лингвоцентрический, антропоцентрический, текстоцентрический, когнитивное направление, специальные методы изучения медиатекстов) для описания феномена текста.

Одним из наиболее содержательных, вскрывающих антологические и функциональные признаки текста кажется определение, данное Р. И. Гальпериным: «Текст - это произведение речетворческого процесса, обладающее завершенностью, объективированное в виде письменного документа, литературно обработанное в соответствии с типом этого документа, произведение, состоящее из названия (заголовка) и ряда особых единиц (сверхфразовых единств), объединенных разными типами лексической, грамматической, логической, стилистической связи, имеющее определенную целенаправленность и прагматическую установку» (Гальперин, 2006: 18).

Кроме этого, тексту традиционно приписывают такие обязательные свойства, как информативность (способность быть носителем законченного сообщения, передавать информацию), диалогичность (внутреннюю и внешнюю), целостность (невозможность сведения свойств текста к сумме свойств составляющих его единиц и восприятие текста читателем как завершенного сообщения, выражающего единый смысл), членимость (делимость на более мелкие единицы), последовательность (логичность изложения мысли), связность (глобальную и локальную), а также текстовую модальность (интерпретацию субъектом речи отношения ситуации и ее элементов, отражаемых в тексте, к действительности, выражаемую при помощи различных языковых и речевых средств) и некоторые др. свойства. (Головкина, Смольников, 2006: 11)

Сложное синтаксическое целое (ССЦ) - наибольший структурный компонент текста, синтаксическая единица, состоящая из самостоятельных предложений, обладающих структурно-смысловой корреляцией.

Идея сочетания предложений в более сложные единства берет свое начало в работах М. В. Ломоносова, который выдвинул учение о «периоде», но отнес его к риторике, не подвергая синтаксическому анализу. Далее следовали работы А. Х. Востокова, Ф. И. Буслаева, А. А. Потебни и Д. Н. Овсянико-Куликовсого. В 40-е 50-е годы XX в., ставшие первым этапом в развитии современной лингвистики текста, понятие ССЦ прочно вошло в российский синтаксис. Сложному синтаксическому целому посвящены в частности работы Г. О. Винокура и Н. С. Поспелова. Далее эту тему разрабатывали Л. М. Лосева, Т. И. Сильман и др. Кроме термина сложное синтаксическое целое в своих работах исследователи этого феномена использовали также такие названия, как сверхфразовое единство (Л. А. Булаховский, Р. И. Гальперин) и прозаическая строфа (Г. Я. Солганик).

Изучение ССЦ расширяет рамки синтаксической науки, так как вводит в нее в качестве объекта изучения единицу большую, чем предложение (Тураева, 1986:10). На сегодняшний день накоплено значительное количество фактов, не нашедших объяснение в рамках теории предложения. На основании многочисленных исследований ССЦ можно утверждать, что:

* ССЦ - одна из основных единиц членения текста на синтаксическом уровне.

* ССЦ как отрезок текста характеризуется относительной смысловой и функциональной завершенностью, тесными логическими, грамматическими и лексическими связями, объединяющими его составляющие.

* ССЦ может быть прозаическим, стихотворным или диалогическим.

* Каждое ССЦ имеет свою микротему (редко несколько микротем). Совокупность микротем ССЦ составляет основную тему текста.

* ССЦ выявляет стилевые особенности текста.

* В ССЦ, как правило, можно выделить три части: зачин, основную часть и концовку. Зачин - одно или несколько предложений, которые вводят новую микротему и структурно организуют ССЦ. Основная или средняя часть - несколько предложений, которые развивают введенную микротему. Концовка завершает ССЦ.

* Зачин ССЦ очень часто представляет собой ключевое предложение.

Межфразовая связь - это «связь между предложениями, ССЦ, абзацами, главами и другими частями текста, организующая его смысловое и структурное единство» (Лосева, 1980: 9).

Чаще всего выделяют цепной и параллельный типы связи. Цепная связь реализуется посредством повторения в том или ином виде какого-либо члена предыдущего предложения, развёртывания части его структуры в последующем предложении. При параллельной связи информация не заимствуется из предыдущего предложения. Каждое предложение имеет свой смысл, соотносящийся с общим смыслом высказывания. (Панченко, Качесова, Комиссарова, Чувакин, Земская, 2010: 58-59)

В добавление к рассмотренным типам связи некоторые исследователи, например, Г. Я. Солганик выделяют также присоединительную связь. Это такой принцип построения высказывания, при котором часть его в виде отдельной, как бы дополнительной информации прикрепляется к основному сообщению по ассоциации, в виде пояснения, комментария и т.д. Значительное разнообразие и выразительность делают присоединительные конструкции привлекательными для писателей. Однако присоединительная связь не способна самостоятельно образовывать тексты. (Солганик, 1997: 84-85)

Существуют и другие классификации типов межфразовых связей. Например, И. П. Севбо различает их по способам выражения. Согласно ее классификации, существуют связи: а) имеющие в тексте графические показатели и б) не имеющие их.

В первом случае формально-грамматически выделяются:

1) синтаксические связи, выражающие лишь синтаксические отношения; значение этих отношений и есть семантика связи. В качестве средств их создания выступают все семантические союзы (например, причинный так как, целевой чтобы, условный если и т.д.), порядок слов, видо-временная система глаголов-сказуемых, степени сравнения, вопросно-ответная форма, водные конструкции, синтаксический параллелизм;

2) лексические связи. Их создают повторение одинаковых или семантически близких понятий, а также различные виды слов-заместителей;

3) пограничные связи, выражаемые союзными словами. Их природа двойственна: с одной стороны, они, как и союзы передают синтаксические отношения; с другой стороны, их значение соотносится со значением некоего полнозначного слова в главном предложении. Кроме союзных слов в создании пограничных связей участвуют союзы, частицы, наречия, предлоги, междометия, словосочетания-скрепы.

В случае (б) имеется в виду «значащее» отсутствие показателей («значащий нуль», нулевой субститут). Например, на лексическом уровне это эллипсис или умолчание, на грамматическом - неполные предложения, а на семантическом - подтекст.

Более того, можно назвать графические (знаки препинания, красная строка, шрифты), семантические (единое семантическое поле, порядок следования предложений), стилистические (повторы, художественные фигуры) и ритмико-мелодические (длина фразы, темп, гармония, ритм, интонация, эмфазы) способы связи. (Кузнецова, Трофимова, 2010)

Межфразовые связи между предложениями обеспечивают связность, а, следовательно, и цельность текста. Различают локальную и глобальную связность. Локальная связность - это связность линейных последовательностей. Глобальная связность - это то, что обеспечивает единство текста как смыслового целого. (Панченко, Качесова, Комиссарова, Чувакин, Земская, 2010: 58-59)

Далее перейдем непосредственно к описанию одного из центральных понятий данной работы - ключевого предложения.

Ключевые предложения текста (КП) - наиболее значимые для содержания предложения, несущие основной смысл, соотносимый с темой (названием) текста в его развитии.

Кроме термина ключевые предложения в работах разных авторов можно также встретить понятия коммуникативно-сильные предложения (Н. Д. Бурвикова/Зарубина), предложения с твердым началом (В. Г. Гак), контекстно-независимые предложения (В. А. Сулимов) и этапные предложения (Т. В. Романова).

КП обладают следующими характерными чертами.

Во-первых, ключевые предложения обеспечивают реализацию таких текстовых категорий, как целостность, связность (глобальная и локальная), членимость, последовательность, диалогичность, а также текстовая модальность. (Головкина, Смольников, 2006: 11)

Во-вторых, ключевые предложения текста содержат в себе (вычленяют) его основную информацию. Они наиболее важны для содержания текста, отражают его главную мысль, развивают сюжет и раскрывают смысл названия.

Также рассматриваемые предложения определяют отношения, в которых должны находиться предыдущий и последующий контексты (абзацы). Отношения между ключевым предложением и абзацем или ССЦ являются подчинительными: повествовательно-распространительные, описательно-распространительные, пояснительно-распространительные, причины и следствия и т.д.

Ключевыми чаще всего являются такие предложения, понимание которых возможно без обращения к соседним высказываниям. Следующие же предложения находятся с ними в подчинительных отношениях. Кроме того, в ключевых предложениях обычно отсутствуют грамматически ясно выраженные средства связи между предложениями, и не содержится никаких показателей зависимости предложения от контекста. (Романова, 1989: 89-90)

Внутри текста КП вступают друг с другом и с распространяющим контекстом в два типа отношений: парадигматические и синтагматические. Для изучения особенностей каждого типа отношений в частности была проанализирована выборка из 20 статей, опубликованных «Литературной газетой» (см. Приложение 2), содержащая 32 вхождения парадигматических отношений и 82 вхождения синтагматических отношений.

Парадигматические отношения КП- связи между КП, которые реализуют текстообразующую функцию КП. Вступая в парадигматические отношения, КП раскрывают содержание заголовка и могут заключать в себе новую информацию, частично новую, конкретизировать информацию, содержащуюся в предыдущих КП, выражать оценку этой информации, выполнять обобщающую функцию по отношению к КП и тексту в целом. (Романова, 1989: 89-90)

Парадигматические отношения КП лежат в основе глобальной связности текста, то есть соединяют фрагменты текста в целостное, тематически и интенционально связанное речевое произведение. Как правило, они являются сочинительными и могут быть представлены тематическим единством, отношениями синонимии, антонимии, а также отношениями части и целого. (Романова, 1989: 91)

На диаграмме 1 представлено распределение названных типов парадигматических отношений в проанализированной текстовой выборке.

Диаграмма 1

Тематические отношения характеризуют КП через связи между обозначаемыми ими явлениями. Эти отношения весьма разнообразны - в их перечень можно включить пространственную соотнесенность, развитие сюжета, описание явления, процесса или состояния, раскрытие сравнения, отношения между тезисом и аргументами, а также хронологическую последовательность.

В проанализированных текстах тематические отношения оказались самыми распространенными и встретились 22 раза из 32. В их число вошли отношения раскрытия понятия, пространственной соотнесенности, описания процесса, отношения между тезисом и аргументами, описания явления и отношения хронологической последовательности.

ПРИМЕР отношений хронологической последовательности.

КП1. Двадцать лет назад в международном конкурсе «Европ-Джаз-Контест» музыканты из СССР братья Михаил и Андрей Ивановы в составе своей группы «Ростовское трио», обойдя всех, завоевали Гран-при.

КП2. Сегодня им выпала честь исполнять свои произведения для первых лиц страны.

В данном случае отношения хронологии поддерживаются обстоятельствами времени (двадцать лет назад, сегодня).

Отношения синонимии возникают, когда разные языковые конструкции передают одно и то же содержание, но с учетом цели и условий коммуникации. При этом различают такие типы смысловой синонимии в тексте, как синонимия раскрытия понятия, описания действия или раскрытия смысла сравнения. Кроме того, часто отдельно выделяют хронологическую синонимию, согласующую дату, время и событие в тексте. В рассмотренной выборке текстов представлен лишь 1 пример отношений синонимии.

ПРИМЕР отношений синонимии признака

КП1. С болью в душе прочитал статью Александра Калинина «До последнего вздоха» - об угасании русской деревни («ЛГ», № 11).

КП2. Автор статьи «До последнего вздоха» Александр Калинин печалится, что в российской глубинке некому хоронить покойников.

КП3. Статья «До последнего вздоха» - это крик души, но вот не знаю, прочитают ли её в правительственных кругах, примут по ней какие-либо меры.

Отношения синонимии здесь поддерживаются тематической лексикой, описывающей эмоциональное состояния авторов статей (с болью в душе, печалится, крик души).

Частным случаем отношений синонимии являются отношения части и целого или отношения подобия. Такой вид межфразовой связи объединяет предметы, признаки и действия на основе родо-видовых отношений, отношений вхождения/включения, а также отношений выделения.

В анализируемой текстовой выборке по 2 раза встретились родо-видовые и выделительные отношения, а также отношения включения/вхождения.

ПРИМЕР отношений включения/вхождения

КП1. День города начался для многих уже 5 сентября.

КП2. Выступивший для собравшихся танцевальный ансамбль Игоря Моисеева, как всегда, был на высоте.

КП3. Классические номера Моисеева, которые увидели кремлёвские зрители? - это больше чем просто зрелище.

Отношения реализуются посредством тематической лексики, находящейся в гиперо-гипонимических отношениях (день города, выступивший танцевальный ансамбль И. Моисеева, классические номера Моисеева).

Отношения антонимии напротив основываются на противопоставленности содержания ключевых предложений. Они формируют и передают главную мысль, идею текста с помощью антонимичных характеристик признака, качества, понятий и событий. Использование таких отношений направлено на усиление впечатления, связанного с основным содержанием текста, акцентирование внимания на оттенках значения и выражение перекрещивания идей ключевых предложений для обеспечения смысловой и композиционной целостности текста. В наиболее общем случае отношения антонимии можно свести к трем типам: антонимия признака, антонимия понятия, хронологическая антонимия.

В проанализированных текстах отношения антонимии (3 вхождения) оказались представлены только отношениями хронологической антонимии.

ПРИМЕР отношений хронологической антонимии

КП1. К тридцатилетию со дня смерти одного из интереснейших писателей СССР, подлинного летописца сложнейшей эпохи, бывшего главного редактора «ЛГ» (1950-1953) Константина Михайловича Симонова (1915-1979) была приурочена презентация электронной коллекции его творческого наследия «Да, мы живём, не забывая», прошедшая на Шаболовке, в библиотеке № 172.

КП2. К сожалению, сегодня про такую работу почти забыли.

КП3. Однако кое-что всё-таки сделано.

КП4. Заместитель начальника окружного управления культуры ЮАО Марина Реер выразила готовность и далее поддерживать работу с наследием К.М. Симонова.

Данные отношения выражены при помощи временной соотнесенности используемой лексики: КП1 и КП2 соотносятся с настоящим временем (сегодня), КП3 - с прошлым (все-таки сделано) и КП4 - с будущим (далее поддерживать).

Парадигматические отношения КП могут устанавливаться различными (лексическими, грамматическими, синтаксическими, интонационными) способами. Среди них в частности можно назвать общность временного плана, создаваемую видо-временным, модальным, стилистическим и прагматическим (учитывающим личность говорящего или слушающего) согласованием глаголов-сказуемых, синтаксический параллелизм, лексические повторы, синонимы, антонимы, слова, находящиеся в гиперо-гипонимических отношениях, а также слова из одной тематической группы.

Очевидно, в рассмотренных текстах среди парадигматических отношений КП наиболее предпочтительными оказались тематические отношения. Они более остальных опираются на содержательную сторону текста. Отношения подобия и антонимии, хотя и встречались в выбранных текстах реже, тем не менее хорошо подходят для построения публицистических текстов, так как помогают выстроить логическую цепочку повествования и дать рассматриваемому событию, предмету или явлению оценку (в том числе и эмоциональную). Отношения синонимии, встретившиеся в текстовой выборке лишь однажды, кажутся менее характерными для публицистического стиля, по крайней мере для таких жанров, как рецензия и газетная статья.

Синтагматические отношения КП- это связь КП и контекста на основе их смежности. Они более разнообразны, так как образуются на основе соединения синтаксических и семантических признаков КП с контекстуальными признаками. (Романова, 1989: 60)

Синтагматические отношения КП обеспечивают локальную связность текста и реализуются в большой степени при помощи лексических, морфологических и синтаксических языковых средств.

Итак, текст строится по принципу распространения ключевых предложений. Многие исследователи отмечают, что отношения между ключевыми предложениями и контекстом имеют значительное сходство с отношениями между частями сложноподчиненного предложения (Лосева Л. М., Романова Т. В.). Среди способов распространения ключевых предложений можно назвать детализацию и конкретизацию (основанные на описательно-распространительных, повествовательно-распространительных, пояснительных отношениях, отношениях уточнения), вывод и обобщение (основанные на причинно-следственных, результативно-следственных и сопоставительных отношениях), а также сравнение, противопоставление и отношения уступки. (Романова, 1989: 3)

Формально отношения, перечисленные выше, могут выражаться такими лексико-грамматическими средствами, как лексический повтор, ассоциативная, синонимичная или антонимичная замена наиболее значимых лексем ключевого предложения в следующем предложении или подстановка на их позицию местоимений и местоименных наречий. Кроме того, для этих целей активно используются сочинительные и подчинительные союзы, частицы, модальные слова и вводные конструкции, специальные сочетания модальных глаголов и инфинитивов, проецирующие последующее сообщение. Среди синтаксических средств связи наиболее сильными являются порядок слов и эллипсис последующего предложения, а также синтаксический параллелизм и вопросно-ответные формы.

При этом едва ли существуют однозначные соответствия между типом отношений и характерными для него способами связи. Конечно, не сложно выделить группы семантических союзов, которые более типичны для определенных типов отношений (например, союзы причины поэтому, так как весьма употребительны при создании причинно-следственных отношений, а уступительные союзы несмотря на, тем не менее - уступительных отношений) или заметить, что различного рода слова-заместители (местоименные и синонимические замены) гораздо чаще встречаются при создании отношений детализации или конкретизации. Однако в каждой конкретной ситуации набор средств связи может варьироваться.

ПРИМЕРЫ реализации причинно-следственных отношений

1. Ведущий вечера Андрей Головин предоставлял слово всем желающим - и гостям, и активистам клуба «Суть времени». Именно поэтому разговор получился живой, острый и бескомпромиссный. И хорошо бы, национальные вопросы всегда обсуждались именно так - цивилизованно, а не на площадях и баррикадах. Причинно-следственные отношения здесь формально выражены сочетанием выделительной частицы и наречия причины (именно поэтому).

2. Симфоджаз братьев Ивановых наполнен русской культурой. В их колокольных аккордах слышатся русский перепляс, мотивы обрядовых песен. Их творчество обогащено и мировой классикой, и джазом, и фольклором. Широко открытые всему новому братья Ивановы не теряют самобытности, не отрываются от своих корней и своим патриотическим творчеством обогащают будущие поколения. В данном случае, напротив, причинно-следственные отношения определяются по контексту. Межфразовые связи здесь создают местоименная замена (их), тематическая лексика (русская культура, русский перепляс, мотивы обрядовых песен) и контекстные синонимы (наполнен, слышится, обогащено). В области синтагматики в проанализированных текстах практически в половине случаев межфразовые связи устанавливались на основе повествовательно-распространительных отношений (37 вхождений из 82). Также довольно часто использовались причинно-следственные (11 вхождений) или результативно-следственные (7 вхождений) отношения. Чуть реже связь устанавливалась на основе пояснительных (9 вхождений) или уточнительных (6 вхождений) отношений, сопоставительных отношений (4 вхождения) и описательно-распространительных отношений (4 вхождения), а также отношений уступки (4 вхождения). Распределение перечисленных типов синтагматических отношений КП в анализируемой текстовой выборке отражено на диаграмме 2.

Диаграмма 2

Таким образом, повествовательно-распространительные синтагматические отношения КП и ССЦ в выбранных текстах встречались чаще всего. Возможно этот факт связан с тем, что такие отношения можно считать наиболее нейтральными, позволяющими передать информацию о чем-либо, раскрыть суть явления. Так как одной из задач публицистического текста является оценка и анализ события, явления или предмета, то довольно характерными для него являются также и причинно- или результативно-следственные отношения. По тем же причинам часто используются сопоставительные отношения. Однако описательно-распространительные отношения в публицистических текстах довольно редки, так как не отвечают целям и характеристикам публицистического стиля, и встречаются в них, выполняя в основном вспомогательную роль или составляя побочную линию повествования.

Итак, анализ текстов показал, что, несмотря на разнообразие используемых типов межфразовых смысловых и логических отношений, публицистический стиль накладывает некоторые ограничения на их использование (например, парадигматические отношения синонимии или синтагматические описательно-распространительные отношения). Кроме того, основываясь на полученных результатах можно сделать вывод о том, что даже однотипные межфразовые связи могут реализовываться различными наборами языковых средств. Строгих правил на этот счет не существует, однако с одной стороны некоторые средства более распространены при создании определенных видов связи, а с другой - существуют разного рода ограничения на применение языковых средств при построении некоторых типов отношений. Таким образом, еще раз подчеркивается роль функционального типа речи и стиля текста при его построении.

Основываясь на выявленных смысловых и формальных (собственно языковых) характеристиках ключевых предложений, для их выделения в тексте можно применить следующий алгоритм:

Внимательное прочтение, определение темы и идеи текста;

Анализ абзацного деления текста (если абзац содержит КП, то как правило, им является его первое (реже последнее) предложение);

Выбор КП по следующим признакам:

Оно заключает в себе основную мысль микротемы (абзаца);

Оно распространяется соседними предложениями, то есть от него можно задать вопрос к другим предложениям этого абзаца по типу вопросов от главной части сложноподчиненного предложения к придаточной;

Оно не начинается с местоимения 3 лица, относящегося к последнему существительному предыдущей фразы;

Оно крайне редко начинается с союза, связывающего его с предыдущей фразой;

Лексические повторы, контекстные синонимы, слова-заместители, а также модальные слова и вводные конструкции не усиливают его зависимость от контекста;

Оно использует порядок слов и не содержит эллиптических конструкций.

Проверка соответствия выбранных предложений теме и идее исходного текста: если стянуть выбранные предложения, то должен получиться сжатый, емкий по содержанию рассказ, без детализирующих описаний.

1.2 Понятие автоматического реферирования текста

Реферирование является одним из основных способов анализа текстовой информации. Его конечным продуктом является реферат - «краткое изложение содержания документа или его части, включающее основные фактические сведения и выводы, необходимые для первоначального ознакомления с документом и определения целесообразности обращения к нему» («Как составить реферат?»). Из определения следуют два основных требования к реферату: сжатие исходной информации (объем реферата должен составлять 5-30% от исходного документа (Башмаков А.И., Башмаков И.А., 2005: 79)) и отражение основных положений исходного документа.

Работа с рефератами существенно упрощает и ускоряет процесс обработки больших объемов текстовой информации за счет опущения несущественных деталей. Реферат позволяет создать представление о тексте, установить его основное идеи и положения, а также принять решение о том, содержит ли первоисточник релевантную поставленной цели информацию. Таким образом, основное назначение реферата - помощь в оперативном поиске и отборе наиболее полезной и ценной информации.

Исходя из содержания реферата, традиционно выделяются три их типа: индикативный, информативный и критический. Индикативные рефераты (рефераты-резюме, расширенные аннотации) позволяют читателю определить общую направленность текста, увидеть список, раскрываемых в первоисточнике тем. Информативные рефераты содержат конспективное изложение фактов из первоисточника. Они извлекают наибольшее количество информации, позволяя читателю ознакомиться с проблематикой и могут даже заменять собой первоисточник. Критические же рефераты - это рефераты, которые составлены на основе информации из текста, но содержат также и дополнительную информацию, включающую комментарии, оценки и ссылки автора реферата.

Другим основанием для классификации является количество реферируемых текстов. Основой для реферата может служить не только один документ (монографический реферат), но и набор документов схожей тематики (сводный реферат).

Еще один аспект - язык оригинального текста. Свою специфику имеют рефераты, составленные на основе мультиязычных текстов.

Кроме того, можно выделить два подхода, на которых основывается реферирование: общий и специфический. В первом случае реферат отражает все основные положения текста. При специфическом подходе при создании реферата учитывается тип документа (стиль, тематика). Также возможно составление реферата с учетом запроса пользователя.

В обобщенном виде процесс реферирования сводится к следующему алгоритму:

анализ источника (определение тематической направленности, осмысление документа в целом);

выделение наиболее информативных фрагментов (ключевых слов, словосочетаний, предложений, фрагментов текста);

формирование выводов (объединение выделенных компонентов в единый текст).

На практике составление реферата является трудоемким процессом, требующим значительного количества времени. Поэтому в последние годы активно ведется разработка методов и программ автоматического реферирования текста.

В обзорных работах по теме автореферирования (Осминин, 2012; Nenkova, McKeown, 2011; Lloret; Steinberger, Jeћek, 2009) выделяются два глобальных подхода к данной проблеме: экстрагирующий/извлекающий (sentence extraction), работающий на основе извлечения ключевых фрагментов информации, и генерирующий (summary generation, abstraction), создающий на основе анализа полученной информации новый связный текст.

Иногда также выделяют уровни реферирования: поверхностный, сущностный и дискурсивный (Lloret: 3-5). На поверхностном уровне реферирование подразумевает работу с частотностью слов, их позицией в тексте, появлением слов в заголовках, сигнальными словами/фразами (например, «в этой статье», «в заключение»). На сущностном уровне происходит моделирование текстовых сущностей и их отношений. При этом учитываются пересечения внутри словаря, степень похожести слов/предложений/абзацев, дистанция между текстовыми единицами, совместные вхождения, логические и синтаксические отношения между текстовыми единицами. На дискурсивном уровне моделируется глобальная структура текста с учетом формата документа, логики развития темы и риторической структуры текста.

Принимая во внимание цель данной работы, интересовать нас будет экстрагирующий подход к монографическому реферированию. Этот подход самый первый и самый разработанный. Его совершенствованию сегодня уделяется значительное внимание исследователей.

Основная задача при генерации экстрагирующих рефератов - определение наиболее информативных элементов (фрагментов/фраз/предложений) исходного документа.

Среди явных достоинств данного подхода можно назвать относительную простоту реализации и независимость от языка текста-оригинала.

Значительным недостатком такого подхода является отсутствие связности между предложениями. Кроме того, достаточно велика вероятность потери некоторых важных для понимания логических связей и появления в тексте реферата неразрешенной анафоры.

Итак, назовем несколько самых распространенных подходов к монографическому автореферированию на основе экстракции.

Большую группу образуют статистические методы, основанные на частотности слов и работающие без учета значений слов и их комбинаций. К этой группе относятся: выявление наиболее частотных слов (Luhn, 1958), TF*IDF (TermFrequency*InverseDocumentFrequency) (Nenkova, McKeown: 124-125), подходы логарифмического отношения правдоподобия (Log-likelihood ratio approaches) (Nenkova, McKeown: 125-127), общестатистический метод (general statistic method (GSM)), метод нечеткой логики (fuzzy logic method) (Suanmali, Salim, Binwahlan, 2009), построение графов (Steinberger, Jeћek: 1005; Nenkova, McKeown: 128-131), метод построения лексических цепочек (Lexical chains) (Steinberger, Jeћek: 1004), методы моделирования риторической структуры текста (Тревгода, 2009; Steinberger, Jeћek: 1005).

На сегодняшний день уже выявлено довольно большое количество различных индикаторов важности предложений и исследования в этой области продолжаются. Так как очевидно, что ни один из них не является универсальным, актуальной становится проблема их комбинирования. Эту задачу решают методы машинного обучения, анализирующие пары документ/реферат.

Например, эксперимент, проведенный Дж. Купиком, Дж. Педерсеном и Ф. Ченом на коллекции технических статей и их рефератов (188 пар) с использованием Байесовского классификатора, показал, что наиболее эффективной оказалась комбинация позиции предложения, сигнальных фраз и длины предложения. (Kupiec, Pedersen, Chen, 1995)

Еще один вариант - использование скрытой марковской модели (Hidden Markov Model). В основе этого метода лежит предположение о том, что вероятность попадания предложения в реферат зависит от статуса предыдущего предложения (включено ли оно в реферат). (Nenkova, McKeown: 132-133)

Следует заметить, что основной проблемой реализации автоматического реферирования с помощью машинного обучения является необходимость наличия готовых рефератов, составленных человеком. В первую очередь, это очень трудоемкий и времязатратный процесс. Кроме того, во многих работах замечается, что рефераты, составленные вручную довольно индивидуальны и разные люди, могут по-разному осмыслить и зареферировать один и тот же текст.

1.3 Взаимосвязь между КП и автоматически сгенерированным рефератом

В настоящее время активно ведется разработка программного обеспечения, реферирующего текст. Учитывая определение понятия КП текста, можно предположить, что они так или иначе попадают в автоматически сгенерированный реферат.

Для проверки данной гипотезы было проведено исследование, сопоставлявшее наборы КП, извлеченные из текста вручную и с помощью трех систем автоматического реферирования: TextAnalyst v2.01 (demo), VisualWorld (beta) и проект «Автоматическая суммаризация текста», размещенный на странице http://g-calendar.appspot.com/analyze (demo). Выбор систем мотивировался тремя параметрами: экстрагирующий подход, поддержка русского языка и доступность.

Материалом для анализа послужили 20 статей из общественно-политического еженедельника "Литературная газета" (см. Приложение 2).

При анализе текстов использовались настройки по умолчанию.

В частности, программа TextAnalyst v2.01 извлекала предложения с весом не менее 90 единиц. При этом она не смогла сгенерировать рефераты для четырех текстов, и в десяти случаях пришлось снизить весовой порог для извлекаемых предложений (2 раза до 80, 4 раза до 70, 1 раз до 60, 2 раза до 50 и 1 раз до 20), чтобы получить результат. Вероятно, такие трудности связаны со сравнительно небольшим объемом исходных текстов (в среднем 284 слова).

Система VisualWorld самостоятельно определяет уровень сжатия текста, исходя из трех режимов: краткого, среднего и полного. При анализе текстов средний режим сжатия устанавливался только при отсутствии извлеченных предложений в кратком режиме. В среднем система извлекала около 30% предложений из каждого текста (минимум 6%, максимум 70%).

Особенностью программы является порядок следования предложений в реферате. Они располагаются не в хронологической последовательности, а в порядке уменьшения веса.

Следует отметить, что в процессе анализа текстов был выявлен недостаток предобработки исходного текста, а именно его деления на предложения. В нескольких случаях происходил разрыв предложения или выпадение из него первой буквы.

Система «Автоматическая суммаризация текста» по умолчанию извлекала по три наиболее информативных предложения из каждого текста. Этот показатель не менялся, так как разница объемов исходных текстов незначительна. Характерной чертой алгоритма, лежащего в основе программы стала заметная опора на имена собственные, что в некоторых случаях ухудшало качество готовых рефератов.

Сравнительный анализ полученных рефератов (количество совпадений автоматически извлеченных предложений с КП, извлеченными вручную; содержательность) позволил сделать несколько выводов.

Во-первых, совпадения автоматически извлеченных предложений с КП текста оказались довольно редки. С одной стороны, программа извлекает из текста далеко не все КП. С другой стороны, КП обычно составляют небольшую часть всех извлеченных предложений.

Во-вторых, автоматически сгенерированные рефераты стремятся отразить фактологическую информацию, содержащуюся в исходных текстах. Поэтому в них часто не попадают предложения, констатирующие тему/подтему текста.

Например, для статьи «Мир глазами ребенка» программа «Автоматическая суммаризация текста» составила следующий реферат:

«Из небольших зарисовок, как бы отрывочных эпизодов, всплывающих в памяти из далёкого детства, возникает образ по-настоящему счастливой семьи, в которой довелось появиться на свет автору этих воспоминаний, двум её сёстрам и брату. С его наивным непониманием многого из того, что происходит вокруг, с его упрощёнными суждениями о том, что правильно и что неправильно, и с немного странным и смешным «детским» языком. Лёгкость и безмятежность, с какими дети относятся ко всему, что происходит вокруг (война, голод, болезни, смерть), помогают им легче переносить невзгоды, иногда даже не замечая тягот, от которых взрослые тяжело страдают».

Однако в выработанном нами понимании ключевыми в этом тексте являются другие предложения:

С годами всё больше утверждаюсь в мысли, что единственной настоящей жизненной опорой является крепкая, хорошая семья.

Именно такое ощущение чистоты и теплоты возникает при чтении книги воспоминаний Нины Шнирман «Счастливая девочка».

Нине Шнирман удалось главное - рассказать о детских годах не с позиций умудрённого опытом человека, а позволить читателю самому увидеть мир глазами совсем юного человека.

«Счастливую девочку» хочется читать и перечитывать, и единственная претензия к автору состоит в том, что слишком мало написано, ведь очень хочется узнать - а что же было дальше?

Кроме того, существует ряд факторов, значительно усложняющих восприятие готового реферата (например, наличие неразрешенных анафорических выражений в извлеченных предложениях, возможность нарушения логики изложения информации, потеря информации за счет отражения не всех подтем текста).

Ключевые предложения, извлеченные вручную, напротив, маркируют переход к новой мысли/подтеме, устанавливают логические связи между компонентами текста и, как правило, содержат мало фактографической информации.

Формально они обеспечивают глобальную связность текста, поэтому в большинстве случаев лишены таких недостатков, как неразрешенная анафора или нарушение логики при взаимодействии с остальными ключевыми предложениями.

Таким образом, ключевые предложения способствуют созданию скорее индикативного реферата текста, в то время как рассмотренные системы автоматического реферирования ориентированы на создание информативного реферата.

Глава II. Разработка программы извлечения ключевых предложений из текста

В данном разделе выпускной квалификационной работы описывается процесс разработки программы извлечения КП текста, а также производится оценка качества ее работы.

2.1 Алгоритм извлечения КП

Выбранный алгоритм подразумевает применение общестатистического метода, в основе которого лежит взвешивание предложений по ряду параметров и выбор среди них предложений с наибольшими весами. В данном случае предложения в реферате располагаются в хронологическом порядке.

Непосредственно программа извлечения КП текста выполнена на языке Python 3.4 в виде скрипта, логически разделенного на 4 функции: предобработка текста, взвешивание предложений, выбор КП, составление реферата.

Далее рассмотрим процесс создания программы поэтапно.

На этапе предобработки исходного текста происходит его разбиение на абзацы и извлечение из каждого абзаца первого и последнего предложения. Разделение абзаца на предложения производится с помощью функции sent_tokenize() из специализированной библиотеки для обработки естественного языка NLTK 3.0. Таким образом, функция предобработки возвращает список списков. Каждый вложенный список соответствует абзацу текста и содержит его первое и последнее (если оно не совпадает с первым) предложения.

Вторая функция принимает на вход строку, содержащую одно предложение, и ее стартовый вес.

Стартовый вес зависит от позиции предложения внутри абзаца. Для первого предложения абзаца он равен 20, для последнего - 7. Разница выбранных значений обусловлена тем фактом, что появление КП в позиции первого предложения абзаца более вероятно. Например, в проанализированной текстовой выборке почти 85% всех КП находятся именно в этой позиции. Фактически позиция предложения в тексте является одним из основных критериев выделения КП. Однако в данной реализации программы она учитывается при задании стартового веса, и поэтому формально не включается в список оцениваемых функцией параметров.

Итак, рассматриваемое предложение токенизируется с помощью регулярного выражения re.findall('\w+', sentence), лемматизируется средствами специальной библиотеки pymorphy2 и приводится к единообразному написанию буквы е вместо ё. Кроме того, проводится анализ частеречного состава предложения и формируется список соответствующих тегов, расположенных в хронологическом порядке.

Далее происходит оценка данного предложения по ряду параметров и соответствующее оценке изменение его условного веса (вес параметра указан в скобках).

Длина предложения меньше 3 (-3) или больше 30 слов (-1). Очень короткие предложения (меньше 3 слов) часто оказываются частью парцеллированного предложения, эллиптическим предложением или предложением, связанным с предшествующим контекстом присоединительной связью, то есть не имеющим самостоятельного значения. Очень длинные предложения (более 30 слов) в свою очередь могут оказаться слишком детализированными и имеет смысл проверить и другие предложения, претендующие на статус ключевых. Верхний порог установлен на уровне 30 слов, так как в этом случае предложение оказывается длиннее среднего значения более, чем в 2 раза (средняя длина предложения, приблизительно равная 15 словам, вычислена по корпусу из 40 текстов, использованных для оценки качества работы программы).

Наличие местоимений 3 лица в начале предложения (-10). Данный параметр выбран, так как велика вероятность, что местоимение 3 лица, стоящее в одной из 5 первых позиций (так как возможны начальные союзы и вводные слова и конструкции) предложения, является анафорической заменой объекта (предмета, явления, действия), названного в предшествующем контексте.

Непрямой порядок слов (-1). Считается, что предложение имеет непрямой порядок слов, если в нем за глаголом в изъявительном наклонении или кратким прилагательным следует существительное или местоимение-существительное в именительном падеже.

Отсутствие в предложении слов самостоятельных частей речи (-11). Предложение, в составе которого нет слов самостоятельных частей речи, скорее всего носит экспрессивный, а не информативный характер.

Отсутствие подлежащего (-3). В данном случае отсутствие подлежащего должно маркировать его эллипсис, поэтому учитывается не только отсутствие в предложении существительного или местоимения-существительного в именительном падеже, но и отсутствие инфинитива, глагола 3 лица множественного числа настоящего или будущего времени и слова нет. Подобные ограничения позволяют не уменьшать вес многих безличных и неопределенно-личных предложений. Стоит отметить, что определение других схем реализации односоставных бесподлежащных предложений в данном варианте программы не реализовано, так как оно требует более глубокого синтаксического анализа.

Наличие анафорических замен (-9). Кроме личных местоимений 3 лица, система учитывает наличие в предложении указательных и определительных местоимений, а также наречий места, способных выполнять роль анафорической замены. При этом анализируется только первые 10 слов предложения. Подобное ограничение мотивировано тем, что средняя длина предложения на русском языке равна 10,38 слов (http://www.artint.ru/projects/frqlist.php). Логично предположить, что более длинные предложения с большей вероятностью являются сложными, а, следовательно, в них могут входить местоимения и наречия, поясняющиеся внутри того же предложения.


Подобные документы

  • История появления и развития шифрования текста. Проблема шифрования и дешифрования текстовых сообщений в современности. Создание программы для зашифровки и расшифровки вводимого текста пятью методами: Атбаш, Цезаря, Полибия, Гронсфельда и Винжера.

    курсовая работа [923,6 K], добавлен 26.12.2011

  • Работа в окне документа. Ввод текста. Вставка и удаление текста. Отмена результатов выполненных действий. Перемещение и копирование текста методом "перетащить-оставить". Форматирование текста. Сохранение документа. Шаг вперед: смена регистра.

    лабораторная работа [220,9 K], добавлен 10.03.2007

  • Разработка программы, реализующей процедуры шифрования и расшифрования текста по стандарту DES (Data Encryption Standard). Структура алгоритма шифрования, схема выработки ключевых элементов. Использование криптографического программного средства.

    курсовая работа [1,7 M], добавлен 15.06.2013

  • Разработка программы, аналога Paint системы Windows, с функциями открытия изображения в графическом редакторе и его сохранения, написания текста в любом указанном мышкой месте, изменения шрифта, размера и цвета текста на языке программирования Delphi.

    курсовая работа [278,5 K], добавлен 06.04.2014

  • Разработка системы автоматического конвертирования исходного текста программ для станков с ЧПУ. Обоснование целесообразности создания такой системы. Критерии экономической эффективности ее функционирования. Оценка безопасности и экологичности проекта.

    дипломная работа [2,1 M], добавлен 23.06.2008

  • "Метод ключевых слов" как один из распространенных методов перехода к математической модели документа. Закономерности распределения частоты слов, отраженные в законе Ципфа. Экспериментальная оценка статистического анализа текста по модели TF*IDF.

    реферат [591,7 K], добавлен 24.06.2009

  • Распознавание текста на изображениях как очень важная задача, имеющая множество практических приложений. Особенности архитектуры интегрированной системы получения текстовой информации из изображений. Общая характеристика методов выделения текста.

    курсовая работа [1,7 M], добавлен 12.06.2016

  • Работа с фигурным текстом. Форматирование и редактирование текста. Редактирование узлов фигурного текста. Привязка текста к фигурам. Выравнивание текста на фигуре. Перспектива, оболочки и выдавливание. Работа с простым текстом.

    реферат [12,7 K], добавлен 21.12.2003

  • Анализ особенностей работы и основных операций с символьными строками, указателями, функциями, динамически выделяемой памятью. Ввод текста в пустые строки. Вывод введённого текста на экран. Замена первых слов строк. Проверка правильности работы программы.

    курсовая работа [1,9 M], добавлен 17.07.2014

  • История развития компьютерного анализа текста на естественном языке; выделение его проблем. Принципы извлечения информации и обработки разговорной речи. Ознакомление с программными продуктами, реализующими машинный перевод и проверку орфографии.

    реферат [371,0 K], добавлен 13.02.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.