На пути к автоматическому упрощению текстов на русском языке

Область применения автоматической адаптации текстов, понятие их удобочитаемости. Оценка работы упрощающих систем и этапы реализации соответствующего алгоритма. Выбор лучшего кандидата в рассматриваемом контексте. Формирование упрощенных текстов.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 28.11.2019
Размер файла 3,6 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Выпускная квалификационная работа

На пути к автоматическому упрощению текстов на русском языке

Введение

автоматический адаптация алгоритм удобочитаемость

Актуальность:

Сложность восприятия текста может быть различна. Длинные предложения со сложными грамматическими конструкциями, малоупотребительная лексика, нестандартный порядок слов - это и многое другое усложняет текст. Адаптация текстов необходима, например, для людей с нарушениями речи или интеллектуальными нарушениям, для детей, для взрослых с низким уровнем грамотности. Также широко применяется адаптация текстов в сфере обучения иностранным языкам, где требуется текстовый материал, одновременно отражающий современное состояние языка и соответствующий уровню владения учащихся. Кроме того, грамматически-сложные предложения вызывают трудности применения систем обработки естественного языка, таких как системы автоматического реферирования.

Русский язык является одним из популярных языков для изучения, поэтому всегда существует спрос на качественные учебники по русскому языку как иностранному (далее РКИ) и на адаптированные книги для чтения на русском языке. Тексты, используемые для обучения должны соответствовать уровню знаний читателя. Для некоторых языков уже существуют системы адаптации текстов, однако для текстов на русском языке преимущественно применяется трудоемкий и долгий процесс ручной адаптации. Таким образом, разработка инструментов автоматической адаптации текстов является актуальной задачей современной компьютерной лингвистики.

Объектом исследования являются методы автоматической адаптации текста.

Предмет исследования: применение методов лексической адаптации к текстам, написанным на русском языке.

Практическая значимость состоит в реализации одного из методов автоматической лексической адаптации и анализе результатов его применения к русскоязычным текстам.

Цель: изучение методов автоматической адаптации текстов и написание программного кода, реализующего эти методы на лексическом уровне языка.

Исходя из цели, были сформулированы задачи:

1. Провести обзор исследований методов автоматической адаптации текстов;

2. Проанализировать специфику адаптации текстов для изучения РКИ;

3. С учетом этой специфики отобрать методы адаптации для реализации практической части исследования;

4. Осуществить оценку применения этих методов к русскоязычным текстам;

5. Идентифицировать ошибки в упрощении текстов этими методами и предложить объяснение их появлению с точки зрения лингвистики.

Методы и материалы исследования:

Реализация выбранного в ходе исследования метода автоматической адаптации текста проводилась на языке программирования Python 3.4.4 с использованием среды разработки JupiterNotebook 5.0.0.

Для морфологического анализа слов были применены библиотеки для Python pymorphy2 (pymorphy2.readthedocs.io; Korobov, 2015) и pymystem3 (pythonhosted.org/pymystem3/pymystem3.html).

В качестве базы синонимов для лексической замены были выбраны:

1. Большой русский словарь-справочник синонимов, квазисинонимов и парадигматических (вертикальных) связей системы ASIS (http://www.trishin.ru/left/dictionary/);

2. Тезаурус YARN (https://russianword.net, Braslavski и др., 2016);

3. Предобученные дистрибутивно-семантические модели, предоставляемые инструментарием для создания веб-интерфейсов для векторных семантических моделей RusVectфrзs (rusvectores.org/ru; Kutuzov, Kuzmenko, 2017).

Материалами для построения статистической языковой модели и определения сложности слова послужили списки частотных униграмм, биграмм и триграмм, предоставляемых Национальным Корпусом Русского языка (www.ruscorpora.ru) - далее НКРЯ.

Текстовые материалы, на которых производилась оценка работы упрощающей системы, были собраны с новостного портала Яндекс.Новости (news.yandex.ru) методами автоматического сбора текстов с использованием библиотек для Python Selenium (selenium-python.readthedocs.io) и Beautiful Soup (www.crummy.com/software/BeautifulSoup/bs4/doc/).

Сгенерированные алгоритмом пары слов «исходное - упрощающий кандидат» были классифицированы как правильные и неправильные методом компонентного анализа.

Оценка реализованного метода была проведена с использованием таких статистических метрик, как Recall, Precision, F1-measure.

Обоснование структуры исследования:

Данная работа состоит из введения, двух глав, заключения, библиографии и приложения. Во введении формулируется проблема, обосновывается актуальность исследования, отмечается практическая значимость работы, определяются цель, задачи и методы исследования, обозначается объект и предмет исследования.

Первая глава работы представляет собой теоретическую часть исследования. В ней описываются сферы применения адаптации текстов и связанные с этим особенности их упрощения, рассматривается понятие читаемости текста, производится обзор существующих исследований по автоматической адаптации текстов. Далее приводятся методы автоматической адаптации текста на лексическом уровне языка и подходы к оцениванию упрощающих систем.

Вторая глава посвящена практической части исследования, в ходе которой были отобраны и реализованы методы лексической адаптации. В ней последовательно описывается алгоритм работы над системой упрощения текста, с обоснованием каждого отдельного этапа. Также приводятся примеры работы программы, и дается оценка разработанной системе.

В заключении обобщаются теоретические и практические результаты исследования и анализируются недостатки использованных методов.

В приложении приводятся примеры текстового материала, на котором тестировался алгоритм, иллюстрации применения алгоритма и результаты компонентного анализа, примененного к сгенерированным алгоритмам упрощениям.

1. Задача автоматического упрощения текста и существующие подходы к её решению

1.1 Область применения автоматической адаптации текстов

Задача идентификации единиц, усложняющих восприятие текста, во многом зависит от цели упрощения, а значит от потребностей аудитории или компьютерной системы, для которой этот текст адаптируется.

Упрощение текста может быть инструментом предварительной обработки в системах, работающих с естественным языком. Это объясняется тем, что производительность таких систем снижается с увеличением длины и грамматической сложности предложений. Такое упрощение преимущественно производится на синтаксическом уровне и часто подразумевает сегментацию предложения на клаузы. Синтаксическое упрощение является важной частью автоматического реферирования текстов, а также может применяться для улучшения производительности систем машинного перевода и парсеров. Для суммаризации может применяться и лексическое упрощение. (Saggion, Hirst, 2017:73-75)

Что касается упрощения текстов для облегчения их восприятия человеком, то можно разграничить языковые явления, представляющие трудность для широкого круга читателей, и специфические для конкретных групп. Трудными в целом можно считать длинные и синтаксически осложненные предложения, а также малоупотребительную лексику.

Для людей страдающих афазией (в словаре Брокгауза и Ефрона определяемой как расстройство уже сформировавшейся речи вследствие травмы или болезни) на синтаксическом уровне наибольшую трудность представляют такие языковые явления как неправильный порядок слов и пассивный залог, а на лексическом - малочастотные слова (Carroll и др., 1998:9).

Потребность в адаптации текстов испытывают и люди с растройствами аутистического спектра. Согласно Всемирной ассоциации здравоохранения10, «расстройства аутистического спектра проявляются в диапазоне состояний, которые характеризуются определенным нарушением социального поведения, коммуникации и вербальных способностей и сужением интересов и деятельности». Языковые единицы, требующие упрощения в рассматриваемом случае, во многом совпадают с теми, что выделяются в исследованиях читабельности текстов для людей с афазией. Также упоминается о связи этих расстройств с трудностями в понимании слов с абстрактным значением, фигур речи, иронии и восприятия относительных предложений (Yaneva et al., 2016:480).

В отдельную группу исследователи выделяют читателей с дислексией. В Педагогическом терминологическом словаре дается такое определение дислексии: «частичное расстройство процесса овладения чтением (его технической и смысловой стороной). При Д. наблюдаются стойкие замены букв, перестановки, пропуски, трудности понимания слова, предложений, текста, аграмматизм» (Бим-Бад, 2007:72). У читателей с дислексией отмечаются трудности с точным и быстрым распознаванием слов, а также с освоением правописания и транскрипции (Saggion, Hirst, 2017:72). Группа исследователей во главе с Luz Rello (2013) предлагают упрощение текстов для дислектиков через лексическую замену длинных и нечастотных слов на их короткие и частотные синонимы или представление списка этих синонимов в качестве подсказок к тексту. Также они отмечают положительный эффект при замене числительных на их числовые эквиваленты.

Особого подхода требуют тексты для людей с интеллектуальными нарушениям. Эта группа адресатов текстов рассматривается, к примеру, в исследовании Фенга и соавторов, направленном на отбор материала для чтения, подходящего людям с легкой степенью умственной отсталости (коэффициент интеллекта (IQ) в диапазоне от 55 до 70). Среди особенностей таких читателей авторы отмечают проблемы с рабочей памятью и с репрезентацией дискурса, что затрудняет запоминание информации. Их основная исследовательская гипотеза заключается в том, что количество уникальных языковых единиц коррелирует с уровнем удобочитаемости текста для читателей с умственной отсталостью.

Большую группу читателей, которым необходимы упрощённые тексты, составляют люди, изучающие иностранный язык. Лексика и грамматика осваиваются учащимися постепенно, начиная с самых простых конструкций и общеупотребимых слов. Особенность упрощения текстов для данной аудитории заключается в том, что набор языковых явлений, требующих упрощения, определяется в зависимости от уровня владения языком. Исследователи, обращающиеся к этой проблеме, часто используют корпуса текстов, маркированных по уровню владения языком, собранные на основе учебных пособий. Так, в работе Heilman и соавторов (2007) используется статистическая униграммная языковая модель, определяющая вероятность появления слова в текстах рассматриваемого уровня. На синтаксическом уровне удобочитаемость текста определяется исследователями по набору признаков, часть из которых выделена с использованием синтаксического анализатора (наличие пассивного залога, определительных придаточных предложений), часть морфологическим анализатором (времена глаголов и частеречные теги), а часть являются статистическими (длина предложения). В зависимости от уровня текста, разные признаки вносят свой вклад в формирование коэффициента удобочитаемости.

Следует отметить, что сбор таких корпусов может быть нетривиальной задачей, поэтому для определения языковых единиц, требующих упрощения, могут быть использованы списки лексических минимумов, а также может применяться написание правил на основе государственных стандартов по рассматриваемому языку как иностранному.

1.2 Понятие удобочитаемости текста

Задача упрощения текста тесно связана с понятием его удобочитаемости. Определение удобочитаемости может производиться, как на уровне всего текста, чтобы оценить, соответствует ли он читательской способности целевой аудитории, так и на уровне отдельных его единиц (например, предложений), для выявления элементов, требующих упрощения. Количественное измерение удобочитаемости текста даёт возможность автоматизировать принятие решения о необходимости его упрощения, а также помогает в оценке работы упрощающих систем.

К традиционным метрикам относятся, например, среднее количество слогов в словах (ASL) и слов в предложении (ASW). Они составляют основу двух самых широко используемых формул определения читабельности - индекса Флеша (Flesch, 1949) и школьного теста Флеша-Кинкейда (Kincaid и др., 1975).

Индекс Флеша (см. формулу №1) основан на следующей гипотезе: чем меньше слов в предложениях и чем короче эти слова, тем проще текст. Данный индекс принимает значение от 1 до 100, где тексты с индексом меньше 30 очень трудно читать, а документы с индексом 70 и выше должны быть легко читаемыми (Saggion, Hirst, 2017:). Функция, описывающая удобочитаемость текста по Флешу, - линейная регрессия. В действительности такое распределение не всегда отражает этапы развития языковой компетенции.

Школьный тест Флеша-Кинкейда (см. формулу №2) разработан для применения в школах в учебных целях. С его помощью индекс Флеша может быть интерпретирован как уровень или школьный класс, читательской способности учеников которого соответствует анализируемый текст.

Эти формулы, отличаясь простотой и функциональностью, получили широкое распространение и были модифицированы исследователями применительно к другим языкам. Так для русского языка коэффициенты в формуле были подобраны, например, Ириной Владимировной Оборневой (2005) в её диссертации «Автоматизированная оценка сложности учебных текстов на основе статистических параметров». Сопоставив среднюю длину слов в словаре русского языка под редакцией Ожегова и англо-русском словаре под редакцией Мюллера, Оборнева адаптировала коэффициенты индекса Флеша и теста Флеша-Кинкейда для русского языка, получив следующие формулы (№3,4):

Такие формулы как FOG и SMOG основаны на соотношении числа трудных слов (состоящих из трёх и более слогов) и количества слов или предложений в тексте, а описываемые ими закономерности нелинейны. Следует отметить, что они, также как и тесты Флеша и Флеша-Кинкейда, предназначены для текстов, имеющих единообразный формат и относительно большую длину. (Saggion, Hirst, 2017:9)

Язык обладает тенденцией к экономии, поэтому наиболее часто употребляющиеся и, соответственно, знакомые большему числу читателей слова состоят из меньшего числа слогов, чем редкие и трудные, однако это правило не универсально. Так, длинное и фонетически трудное слово здравствуйте изучающие русский язык узнают одним из первых, оно известно и детям дошкольного возраста и, соответственно, является частотным и легким. Тогда как некоторые термины, такие как шлюз могут быть короткими, оставаясь при этом малочастотными и трудными для понимания. В связи с этим для оценки удобочитаемости могут использоваться лингвистические ресурсы, предоставляющие информацию о частотности лексического состава текста, автоматически составленные на основе корпусов - списки частотности.

При адаптации учебных текстов широко применяются списки слов, ранжированных по возрасту или школьному классу, в которых учащийся должен уже знать эти слова. Для русского языка разработана градуальная серия лексических минимумов по РКИ под редакцией Андрюшиной (Андрюшина, и др., 2015).

Рассмотренные подходы к задаче определения удобочитаемости основывались на усреднении метрик, игнорируя дискурсивные явления. Очевидно, что такие подходы имеют ограничения: так разные категории читателей имеют разные интересы, поэтому длинные имена персонажей и названия заклинаний из детских книг не требуют упрощения в текстах для детей, тогда как более частотные и короткие слова могут быть им незнакомы.

Большой вклад в исследования читабельности текста привнесло развитие корпусной лингвистики, методов языкового моделирования и алгоритмов машинного обучения. В современных исследованиях определение читабельности основано на автоматическом извлечении из текста синтаксических и семантических признаков и анализе того, как эти признаки взаимодействуют, с использованием алгоритмов машинного обучения. Так, в исследовании Si и Callan (2001:575) традиционные метрики ASL и ASW переосмысляются с использованием корпусов текстов, ранжированных по уровням, и статистического моделирования языка. Авторы используют комбинацию двух языковых моделей - на лексических униграммах и на длинах предложений. Первая модель дает информацию о вероятности появления каждой лексемы в текстах рассматриваемого уровня сложности, а вторая, соответственно, о вероятности появления в них предложений некоторой длины. В их исследовании точность определения уровня на тестовом наборе составила 75%, в то время как показатель читабельности по Флеш-Кинкейду правильно предсказывал уровень только для 21% текстов из набора.

Задача определения удобочитаемости сводится в таком случае к задаче классификации текстов по уровням и подразумевает использование машинных алгоритмов классификации. Развивая идеи Si и Callan, исследователи Schwarm и Ostendorf (2005) обращаются к методу опорных векторов (SVM), который принимает решение об отнесении текста к некоторому классу на основе следующих типов признаков:

· традиционные: средняя длина предложения, среднее количество слогов на слово и индекс Флеша-Кинкейда и др.;

· синтаксические: средняя высота дерева разбора, среднее количество именных и глагольных групп и др.;

· словарные признаки: процент слов, не включённых в наиболее частотные 100, 200 и 500 слов;

· признаки языковой модели: языковые модели входного текста (построенные на 1-, 2- и 3-граммах) сопоставляются с языковыми моделями на корпусах текстов различных уровней сложности на основе перплексии - метрики, измеряющей предсказательную способность модели.

Как можно заключить из предыдущего примера, современные методы определения удобочитаемости требуют использования параллельных корпусов упрощенных и исходных текстов. Ручная адаптация текстов существует на протяжении уже многих лет, и на сегодняшний день существуют онлайн-ресурсы, предоставляющие доступ к упрощенным материалам. В своём обзоре Saggion и Hirst (2017:5) упоминают следующие источники:

· шведская «легкая для чтения» газета 8Sidor (http://8sidor.lattlast.se);

· норвежская газета Klar Tale (http://www.klartale.no);

· бельгийская газета l'Essentiel (http: // www.journal-essentiel.be/) и Wablie (http://www.wablieft.be).

· испанский новостной сайт Noticias Fбcil news (http://www.noticiasfacil.es);

· веб-сайт Literacyworks (http://www.literacyworks.org/learningresources/), предоставляющий новости CNN в оригинальном и упрощенном форматах;

· веб-сайт Inclusion Europe (http://www.inclusion-europe.org), предоставляющий упрощённые и сокращённые тексты на разных языках.

В качестве базы для составления параллельных корпусов исследователями нередко используется The Simple English Wikipedia (http://simple.wikipedia.org), в которой статьи из обычной Википедии переформулированы с использованием простых слов и простых грамматических структур.

Для русского языка в открытом доступе таких корпусов не имеется, и исследователи вынуждены составлять их самостоятельно на основе учебных пособий по РКИ или ограничиваться использованием лексических минимумов и списков частот слов. Показательно в этом отношении исследование Николая Карпова и соавторов (2014). В своей работе они обратились к определению уровня читабельности не всего текста, а отдельных его единиц - предложений. Авторы используют 25 числовых метрик, среди которых:

· словарные признаки, полученные с использованием лексических минимумов;

· традиционные метрики, основанные на длине слова и предложения;

· синтаксические метрики (например, информация о синтаксических предикативных связях).

При ранжировании признаков по приросту информации (степени корреляции признаков с принятыми классами текстов) наиболее значимых оказались лексические признаки. Сопоставление нескольких алгоритмов классификации, показало, что наибольшая точность достигается с использованием алгоритма Random Forests (Karpov, и др., 2014:100).

Таким образом, определение удобочитаемости в современной лингвистике - задача, требующая использования целого ряда признаков, различных лингвистических ресурсов, корпусных данных и качественных грамматических анализаторов, однако некоторую информацию об удобочитаемости текста можно получить уже на основе традиционных статистических подходов, использующих только информацию, извлечённую из входного текста.

1.3 Типы упрощения текстов

Все имеющиеся системы упрощения текстов можно разделить на три типа, исходя из степени видимых преобразований исходного текста:

1. Системы, адаптирующие текст, изменяя его, заменяя лексику и/или синтаксические конструкции. К ним относится большинство систем упрощения.

2. Системы, не изменяющие оригинальный текст, но предлагающие пользователю варианты адаптаций. С одной стороны, это замедляет упрощение, так как требует вмешательства человека. Однако во многих случаях такой подход является оправданным. Например, так работает инструмент ATA (Automatic Text Adaptation) (Burstein, 2007). Она не меняет оригинальный текст напрямую, но позволяет читать его с адаптациями, отображаемыми вместе с оригинальным текстом. Они включают в себя лексическую поддержку, заметки на полях, синтез речи. Такая система может быть использована для изучения иностранного языка.

3. Вспомогательные алгоритмы для приложений. Этот тип упрощения используется с целью подготовки текста для дальнейшей работы с ним других систем, например, машинного перевода или автореферирования. Пользователь чаще всего не видит результат их работы.

Также автоматическую адаптацию можно подразделить по уровням языка на лексическую и синтаксическую.

1.4 Адаптация текстов на лексическом уровне

Постановка задачи лексической адаптации и основные подходы к её решению

Нередко для лучшего понимания текста необходимо упростить его лексическую составляющую. Актуально это и для адаптации текстов с целью обучения неродному языку, так как лексический запас человека, изучающего язык, ограничен его уровнем владения языком. Цель лексического упрощения заключается в замене трудных слов на их более простые для понимания или чтения эквиваленты, с сохранением смысла текста. Под трудными словами в исследованиях по упрощению текстов понимаются слова, понимание которых может быть сложным для целевой аудитории упрощаемых текстов.

Таким образом, процесс лексической адаптации можно представить в виде трёх этапов:

1. идентификация трудных слов;

2. нахождение множества кандидатов для замены исходного слова;

3. выбор среди них лучшего кандидата в рассматриваемом контексте.

Рассмотренные выше методы определения удобочитаемости предназначены для оценки сложности текста в целом или составляющих его предложений, но не отдельных слов. Количество признаков, которые можно извлечь из слова, значительно меньше. Традиционные подходы к идентификации трудных слов основаны на тех же двух параметрах, что и первые подходы к определению сложности текста: частотность и длина.

Показатель частотности может быть модифицирован. Так, например, существует подход, основанный на определении информационного содержания слов (information content) (D. Siobhan, G. Unthank, 2006:65). В его основе лежит гипотеза, что информативность слова соотносится со скоростью и, соответственно, сложностью его понимания. Информационное содержание вычисляется следующим образом:

где freq (w) - частота слова w в корпусе C.

Более простыми считаются те кандидаты, которые имеют меньший показатель информационного содержания по сравнению с другими кандидатами и исходным словом. Кандидаты ранжируются на основе разницы между информационным содержанием исходного слова и кандидата на упрощение.

Критерий частотности, однако, не универсален: некоторые нечастотные слова могут быть понятны из контекста и не требовать замены, и наоборот, некоторые частотные слова могут употребляться в нечастотном и, соответственно, неизвестном читателю значении.

Появление корпусов упрощенных текстов позволяет использовать вместо частотности показатель вероятности слова, вычисляемый на основе униграммной языковой модели. (H. Saggion, G. Hirst, 2017:26) Для текстов, предназначенных для обучения иностранному языку могут также использоваться списки лексических минимумов.

В своем обзоре исследований по идентификации трудних слов M. Shardlow (2013:103) отмечает также подходы к лексическому упрощению, при которых трудными признаются все слова в тексте или же такие из них, для которых можно найти замену в используемом лингвистическом ресурсе. В первом случае возрастает количество случаев излишней замены, что может привести к искажению смысла текста. Во втором искажается оценка работы упрощающей системы. Такой подход реализован, например, в системе лексического упрощения для испанского языка, LexSiS (Bott и др., 2011).

Обучение и оценка работы упрощающих систем часто производятся с участием аннотаторов, вручную маркирующих исходные слова как трудные и простые для понимания, а слова-замены как подходящие и неподходящие по контексту. Отсутствие общепринятых критериев определения уровня сложности слов может привести к субъективности таких оценок.

Современные методы идентификации трудных слов рассматривают эту задачу как бинарную классификацию и применяют для её разрешения алгоритмы машинного обучения. В частности, одним из популярных алгоритмов можно назвать систему опорных векторов (SVM), позволяющую определить вклад каждого рассматриваемого признака в решение классификатора. Среди классических признаков, использующихся при классификации, можно назвать частотность слова, его длину в символах, количество слогов. Также привлечение информации из тезаурусов или словарей позволяет извлечь такие показатели, как количество смыслов слова и число его синонимов, отражающие степень многозначности слова (Shardlow, 2013:106). Информативными оказались также показатель вероятности слова, вычисляемый n-граммной языковой моделью, построенной на корпусе упрощенных текстов (Paetzold, Specia., 2016), и показатель частоты по документам (document frequency) (Wrobel, 2016). Кроме того, в последних исследованиях развивается идея использования данных тезауруса для определения степени многозначности слова и к классифицирующим признакам добавляется количество гиперонимов и гипонимов слова (Paetzold, Specia., 2016:563).

Для решения задачи нахождения кандидатов для замены чаще всего используются различные словари, онтологии и тезаурусы. В качестве кандидатов могут подбираться синонимы, гиперонимы, гипонимы, словарные определения, перифразы и др. Задача выбора среди них лучшего сводится к разрешению лексической неоднозначности (disambiguation) и ранжированию кандидатов.

Первые подходы к лексическому упрощению использовали только критерий частотности слов и не проводили разрешение лексической неоднозначности. Так, в исследовании J. Carroll и соавторов (1998) для поиска слов-кандидатов используется тезаурус WordNet, а замена осуществляется на основе списка частот слов из Оксфордской психолингвистической базы данных. Авторы утверждают, что малочастотные слова не склонны к полисемии, и потому число ошибок при замене не должно быть большим.

Эта гипотеза в дальнейшем опровергается исследователями. В частности, в работе M. Shardlow (2014) рассматриваются типы ошибок, возникающих при лексическом упрощении без разрешения лексической неоднозначности. Автором было проанализировано 183 упрощающих операции. Поведение упрощающей системы было классифицировано автором следующим образом:

· Тип 1: система безошибочно заменяет слово;

· Тип 2A: трудное слово ошибочно идентифицируется системой как простое;

· Тип 2B: простое слово ошибочно идентифицируется системой как трудное;

· Тип 3A: отсутствуют замены для целевого слова;

· Тип 3B: среди доступных замен для целевого слова отсутствуют упрощающие;

· Тип 4: смысл предложения существенно изменяется из-за ошибки при разрешении лексической неоднозначности слов;

· Тип 5: из-за ошибки при ранжировании выбирается замена, которая не упрощает понимание предложения. (Shardlow, 2014:1585)

В рассматриваемой работе упрощение без учета контекстуального значения слова было произведено без ошибок лишь в 10% случаев. Полное числовое соотношение ошибок приведено в Таблице №1.

Description

Error Code

Amount

No error

Type 1

19

Word not identified as complex

Type 2A

20

Word incorrectly identified as complex

Type 2B

99

No substitution found

Type 3A

11

No simpler substitution found

Type 3B

16

Substitution changes word sense

Type 4

11

Substitution does not simplify

Type 5

7

Наибольший процент ошибок был связан с идентификацией трудных слов и с ограничениями лингвистических ресурсов, выбранных для поиска упрощающих кандидатов (см. 2 и 3 типы ошибок). Следует отметить, что часть слов, для которых тезаурус не предлагает подходящей замены, не может быть упрощена и силами экспертов.

Также M. Shardlow (2014:1586) отмечает проблему именованных сущностей, таких как имена и топонимы. Не существует общепринятых критериев, идентифицировать ли эти слова как трудные. Кроме того, именованные сущности чаще всего не включены в тезаурусы и словари или могут быть омонимичны содержащимся в них именам нарицательным. Последнее может повлечь неправильную лексическую замену и привести к искажению смысла текста. Следовательно, лексическое упрощение предпочтительно выполнять с использованием модуля разрешения (т.е. определения) именованных сущностей. Для правильного поиска по базе кандидатов необходим также качественный модуль контекстуальной лемматизации.

Исследования по экспертной лексической адаптации текста рассматривают следующие типы замен:

1. замена слов более частотными синонимами;

2. замена гипонима на гипероним;

3. замена гиперонима на гипоним (редко);

4. замена словами одного тематического ряда

Отмечается, что применение последних двух способов возможно при сохранении содержания текста на уровне пропозиций и, как следствие, коммуникативного смысла. Так, например, возможна замена слова печень согипонимом сердце в тексте, в котором эти слова выступают причиной недомогания (Первухина С.В., 2011:131).

В энциклопедическом лингвистическом словаре Ярцевой подчёркивается, что эквивалентная замена гиперонима на гипоним возможна, «если они соотносятся с одним и тем же денотатом». Такой переход «связан с получением дополнительной информации и конкретизацией обозначаемого, так как значение гипонима семантически сложнее, чем у гиперонима, а представляемый им класс предметов умже: ср. «шампиньон» `съедобный серовато-белый пластинчатый гриб' и «гриб» (tapemark.narod.ru/les/104b.html; Ярцева, 1990).

Доступность больших корпусов текстов и развитие методов моделирования языка привели к появлению нового подхода поиска слов для упрощающей замены - использование информации о дистрибуции слова, т.е. его окружения в тексте.

Применение дистрибутивно-семантического подхода для лексического упрощения

Встретив незнакомое слово в тексте, читателю не обязательно приходится обращаться к словарю - значение слова может быть приблизительно понятно из контекста.

Рисунок №1

Приведём пример. На Рисунке №1 представлено одно из вхождений слова чело в НКРЯ. Контекст этого слова - кивать, хмуриться, лицо, глаза, - позволяет мысленно заменить его общеупотребительным и более частотным словом лоб. Слово переводится со сложного субкода на упрощенный. При применении этого принципа ко всем трудным словам, «текст становится семантической записью текста оригинала, которая состоит из сем и пропозиций, отражающих идею исходного (оригинального) текста». (Первухина С.В., 2011:131)

Формально рассматриваемую закономерность отражает дистрибутивная гипотеза Харриа: «Слова, возникающие в одинаковых контекстах, как правило, схожи по значению» (Z. Harris, 1954). Члены основных семантических классов дистрибутивно ведут себя схожим образом. Например, если два слова встречаются в контекстах с одним и тем же третьим словом, и, как следствие, имеют сходные свойства распределения, то эти два слова принадлежат к общему семантическому классу.

Современные исследования по автоматическому лексическому упрощению обращаются к развитию этой идеи с точки зрения статистического моделирования языка. Хотя компьютер и не способен понять текст как его понимает человек, он может имитировать эту способность человеческого мозга и представить семантику слова в формальном виде. Для этого выбирается окно контекста - n слов слева и справа от целевого. Контекст переводится в числа, и слово представляется в виде вектора из этих чисел. Чтобы определить семантическую близость слов, необходимо измерить косинусную близость - косинус угла между их векторами в n-мерном пространстве. Чем он больше, тем слова семантически более похожи. Эти векторы могут также последовательно кодировать отношения между словами - они кодируют сходство не только слов, но и пар слов. В научной литературе часто приводят следующий пример: v(королева) ? v(король) ? v(женщина) ? v(мужчина).

Предобученная дистрибутивно-семантическая модель используется в исследовании G. Glavaљ и S. Љtajner (2015). Для каждого трудного слова w они извлекают из модели список слов v, векторы которых близки по косинусному расстоянию с вектором w. Этот список затем ранжируется на основе следующих критериев:

1. семантическое сходство - семантическая близость с исходным словом;

2. сходство контекста - среднее от семантической близости со словами, составляющими контекст исходного слова;

3. показатель информационного содержания кандидата по сравнению с показателем исходного слова;

4. адекватность кандидата контексту, измеряемая как показатель вероятности слова по 5-граммной языковой модели (Glavaљ, Љtajner 2015:64-65)

Однако этот подход не лишен ограничений. При поиске слова по модели, алгоритм возвращает список его семантических аналогов, ранжированных по косинусной близости. Основную часть этого списка составляют квазисинонимы - слова, объединённые с исходным словом одним из целого ряда возможных типов отношений:

1. Синонимы - абсолютные (являться - быть) и контекстуальные (являться - приходить)

2. Антонимы

3. Гиперонимы

4. Гипонимы

5. Согипонимы (слова, имеющие общий гипероним)

Кроме того к семантически близким словам дистрибутивно-семантическая модель может относить словообразовательные и морфологические дериваты слов, их грамматические варианты (экс - екс), родовые пары а также слова, с которыми искомое слово составляет частотную синтагму (данные - получены).

Слова, относящиеся к любой из этих категорий, могут уточнять и пояснять значение искомого слова. Однако для задачи адаптации текста может потребоваться их разделение по категориям. Например, квазисинонимы, относящиеся к гиперонимам и синонимам, могут заменять исходное слово с сохранением смысла и облегчением понимания текста, тогда как замена слова на его согипоним приведёт к искажению смысла. На Рисунке №2 приведён пример поиска семантических аналогов слова белорусский в веб-интерфейсе предобученных семантических моделей RusVectфrзs5 (Kutuzov, Kuzmenko, 2017).

Рисунок №2

Очевидно, что представленные согипонимы не могут заменить исходное слово в большинстве контекстов без искажения смысла.

В случае, когда тип адаптирующей системы подразумевает не замену трудного слова на простое, а генерацию подсказки для объяснения его значения, может использоваться маркирование квазисинонимов по типу их отношений с исходным словом.

Алгоритмы, ранжирующие слова только по косинусной близости, не разделяют квазисинонимы по категориям. Список квазисинонимов неравномерен, и пороговых значений косинусной близости для разных категорий не существует. (Artuur Leeuwenberga et al, 2016) Для разграничения квазисинонимов может потребоваться изменение готовой модели. Например, с помощью добавления к ней авторитетной лексической базы данных в качестве фильтра (H. Saggion, G. Hirst, 2017:26). Кроме того, применительно к решению прикладных задач, может быть необходимо изменять вектора уже тренированной модели. Так, Faruqui и соавторы усовершенствовали векторное пространство, используя информацию о синонимах и гиперонимах из лексической базы данных (Faruqui et al., 2015).

В сочетании с дистрибутивным методом для достижения лучшего результата исследователями использовалось, например, предположение, что слова, которые переводятся одинаково, очень близки по смыслу (Van der Plas, Tiedemann, 2006).

1.5 Оценка работы упрощающих систем

К задаче оценивания упрощающих систем существует множество подходов, выбор между которыми может обосновываться целями упрощения, особенностями алгоритма и доступностью размеченных данных. Единых критериев для оценивания таких систем не существует. В связи с тем, что в настоящей работе акцент сделан на упрощении текста на лексическом уровне, рассматриваемые ниже методы оценивания также применимы к системам лексического упрощения.

Некоторое представление о качестве работы модели дают метрики удобочитаемости, как говорилось в параграфе 1.2 Понятие удобочитаемости текстов. Однако индексы удобочитаемости не отражают смысловое и грамматическое единство текста, поэтому их использование при оценке упрощающих систем ограничено.

Обучение и оценка работы упрощающих систем часто производятся с участием аннотаторов, вручную маркирующих исходные слова как трудные и простые и слова-замены как подходящие и неподходящие по контексту. В роли аннотаторов могут выступать как сами исследователи и привлекаемые эксперты-лингвисты, так и представители целевой аудитории упрощающей системы (Bott, 2012). Отсутствие общепринятых критериев выделения трудных слов может привести к субъективности таких оценок.

Также эксперты могут привлекаться для составления параллельных корпусов упрощенных и оригинальных текстов в случае отсутствия таких корпусов для выбранного языка упрощения или для специфической целевой аудитории (например, людей с дислексией).

Использование корпусов позволяет применять математические методы оценивания качества упрощения. Интуитивным и широко применимым подходом является подсчет процента верно замененных слов в текстах тестовой выборки. Более продвинутыми и классическими метриками признаются метрики классификации: Точность (Precision), Полнота (Recall), Правильность (Accuracy), F-мера (F-score, среднее гармоническое Precision и Recall) и G-мера (G-score, среднее гармоническое Accuracy и Recall). Также измеряется процент замененных слов.

Задача упрощения текстов во многом сближается с задачей машинного перевода: в обеих рассматривается интерпретатор сообщения, создающего из него новый текст на ином языковом коде. (Первухина, 2011:130) Это свойство привело исследователей к идее использования метрик машинного перевода для оценивания упрощения. Так, например, может применяться метрика BLEU (bilingual evaluation understudy), оценивающая качество машинного перевода на основании схожести текста, преобразованного машиной, с эталонным текстом, созданным человеком.

В современной компьютерной лингвистике разрабатываются методы, специально предназначенные для оценивания систем лексического упрощения. Некоторые из них реализованы в библиотеке для Python LEXenstein (Paetzold, Specia, 2015). Для её применения необходимо составление золотого стандарта - базы лексических замен, ранжированных экспертами по их простоте. Определение качества генерации и отбора замен предлагается измерять с использованием следующих метрик:

· Потенциал (Potential) системы - доля случаев, в которых система предложила хотя бы одну замену, присутствующую в золотом стандарте;

· Точность (Precision) - отношение предложенных замен, которые присутствуют в золотом стандарте, к общему количеству предложенных замен;

· F-мера (F-measure) - среднее гармоническое из потенциала и точности).

2. Реализация упрощающего алгоритма

2.1 Характеристика средств разработки и материала исследования

В рамках настоящей работы был реализован алгоритм автоматического лексического упрощения текстов на русском языке. Была написана программа на языке программирования Python 3.4.4 с использованием среды разработки JupiterNotebook 5.0.0. Выбор языка программирования Python обусловлен тем, что для него существует большое количество библиотек для обработки естественного языка.

Для упрощения текста необходимо провести его предварительную обработку. В неё входит токеницация текста, его лемматизация, морфологический анализ. Для этой задачи была использована библиотека морфологического анализа для Python pymystem3. Полученные в результате работы анализатора леммы (начальная форма) слов, их части речи и индекс в тексте сохранялись как атрибуты слова, объекта класса Токен. Кроме словесных токенов выделялись и сохранялись также токены пунктуационные (тег PUNKT) и пробельные (тег SPACE). Таким образом, по завершению работы упрощающего алгоритма возможно составление текста из первоначальных токенов с включением сгенерированных алгоритмом замен.

В качестве материала для упрощения было выбрано использовать новостные тексты, в соответствии с традиционным подходом для упрощающих систем. Основная функция новостных текстов - информативная, они содержат актуальную информацию и, как следствие, отражают современное состояние языка. Новостные тексты характеризуются оперативностью: сочетанием новизны сообщаемой информации и быстроты её речевого оформления, которое достигается использованием частотных языковых средств, устойчивых речевых оборотов (клише). Эти качества делают новостные тексты хорошим материалом для упрощения в целях обучения языку как иностранному. Для новостных текстов как текстов публицистического стиля характерна документально-фактологическая манера изложения: использование специальных терминов, профессионализмов. Такие лексические единицы могут требовать упрощения при использовании текстов в обучающих целях. Фактографичность новостных текстов может вызывать затруднения у упрощающих систем из-за большого количества именованных сущностей, поэтому система упрощения должна быть оснащена модулем разрешения именованных сущностей. В настоящей работе разрешение именованных сущностей осуществляется в ходе морфологического анализа библиотекой pymystem3. Немаловажным свойством новостных текстов как материала для упрощения является их доступность.

Для сбора материала для упрощения был написан код-краулер (crawler), с использованием библиотек Selenium и Beautiful Soup. Выбранным материалом стали новостные тексты на русском языке, извлеченные с агрегатора Яндекс.Новости (news.yandex.ru). Используемый источник характеризуется разнообразием тем (рубрик), а значит и лексического состава текстов. Тексты, предоставляемые новостным агрегатором, являются результатом автоматической суммаризации новостных текстов с других новостных сайтов. Для них характерна небольшая длина и сложные синтаксические структуры, создающие высокую информационную насыщенность. Таким образом, эти тексты обладают признаками текстов с низким уровнем удобочитаемости, и для их использования в целях обучения иностранному языку необходимо упрощение.

Были извлечены тексты, относящиеся к следующим новостным рубрикам: В мире (world), Политика (politics), Технологии (computers), Экономика (business), Наука (science) и Спорт (sport). Примеры из сформированной таблицы текстов приведены на Рисунке № 3.

Рисунок № 3

Для моделирования синтагматических связей в языке использовались списки частот биграмм и триграмм, предоставляемые НКРЯ (http://www.ruscorpora.ru/), лемматизированные (приведенные к начальной форме) в ходе создания алгоритма. Идентификация трудных слов производилась с использованием списка частот униграмм, также предварительно лемматизированного.

2.2 Выбор типа упрощающей системы

Классификация типов упрощающих систем проводится по двум принципам: степень изменения текста и уровень языка, на котором производится упрощение.

Упрощение текстов компьютерными методами можно подразделить на упрощение на лексическом и на синтаксическом уровне. Проведение синтаксического упрощения возможно только при наличии инструментов достоверного синтаксического анализа (Feng R.,2008:5). Так, например, для правильного упрощения необходимо разрешение анафор и кореферентности, иными словами, установления связи между местоимением и соотносимой с ним именной группой и связи между двумя именными группами, относящимися к одному и тому же элементу действительности - референту. Также для синтаксического упрощения необходимо написание блока правил классификации конструкций по читабельности, в соответствии с языковой компетенцией читателей, и правил соответствия между трудными типами и их упрощенными вариантами (Feng R.,2008:5). Таким образом, задача адаптации синтаксиса представляется сложной для формализации. В современных исследованиях нередко применяется сопоставление конструкций, извлекаемых из параллельных корпусов оригинальных текстов и их адаптированных версий, выровненных по предложениям. В настоящее время для русского языка таких корпусов не существует.

В то же время, для упрощения лексики существуют подходы, использующие только автоматически извлекаемые параметры слова, такие как: частота слова, его сочетаемость с другими словами в контексте и семантическое сходство слов. В связи с этим, в настоящей работе акцент сделан на упрощении текста на лексическом уровне.

Во многих исследованиях по лексическому упрощению текстов используется морфологический критерий для отбора упрощающих кандидатов. Это обусловлено тем, что большинство разрабатываемых в них алгоритмов относятся к первому типу упрощающих систем: они изменяют исходный текст посредством замены трудных слов на их более простые эквиваленты. Для аналитических языков реализация такой замены представляется менее трудоемким процессом, чем для синтетических, к которым относится и русский язык. Характерная для русского языка флективность усложняет не только задачу разрешения морфологической неоднозначности, но и задачу постановки слова в нужную форму в контексте: для этого необходимо моделирование синтаксических связей с другими словами в тексте и формирование списка правил согласования. Также недостаток морфологического критерия в выборе замен обосновывается ограниченными возможностями морфологических анализаторов. Так, морфологический критерий не позволяет учитывать субстантивацию: слово «больной» представляется хорошим кандидатом для пояснения слова «пациент» в большинстве контекстов, однако при определении его части речи вне контекста внутри словаря, анализатор приписывает ему частеречный тег прилагательного, что исключает его из списка кандидатов.

Вследствие рассмотренных причин в настоящей работе было выбрано упрощение текста без замены трудных языковых единиц. Разработанный алгоритм предлагает пользователю наиболее предпочтительный вариант для лексической адаптации. Полученные в результате работы алгоритма тексты с отобранными упрощающими кандидатами могут использоваться экспертами для облегчения ручной адаптации, а также учащимися, изучающими РКИ для помощи в усвоении новой лексики.

Разработанный алгоритм лексического упрощения базируется на трёх, принятых в научной литературе, этапах:

1. идентификация трудных слов;

2. нахождение множества кандидатов для замены исходного слова;

3. выбор среди них лучшего кандидата в рассматриваемом контексте.

2.3 Идентификация трудных слов

Важным компонентом упрощающих систем, имеющих целью упрощение текстов на неродном для адресата языке, становится соотнесение слов в тексте с выбранным уровнем владения языком.

С опорой на исследование Карпова Н.В. и Сибирцевой В.Г, было выбрано ориентироваться на упрощение лексики до порогового уровня владения русским языком (B1) (Карпов Н.В., Сибирцева В.Г, 2014: 19). Таким образом, подразумевается, что прототипический читатель адаптированных разрабатываемой в ходе курсовой работы текстов должен обладать следующими навыками:

· понимание общего содержания сложных текстов на абстрактные и конкретные темы, построенных на частотном языковом материале повседневного и профессионального общения;

· описания событий, чувств, намерений в письмах личного характера; (Н.П. Андрюшина и др. 2015: 4)

В настоящей работе использование лексического минимума объединяется с метрикой информационного содержания (information content, см. Формула №5) (D. Siobhan, G. Unthank, 2006:65). Её можно понимать как логарифм относительной частоты слова в корпусе или униграммную языковую модель. Чем больше информационное содержание, тем частотнее и, соответственно, проще слово. Для всех слов, включенных в список лексического минимума языка для порогового уровня владения русским языком (B1), было произведено вычисление информационного содержания.

Как уже было рассмотрено в пункте 1.4.1, частотные слова не всегда могут быть трудными для читателей. Так, на Рисунке №4 представлено распределение показателя информационного содержания для слов, включенных в минимум B1.

Рисунок №4

Исходя из данных, представленных на рисунке №6, можно утверждать, что в минимуме могут присутствовать и слова с малой частотой. Однако малочастотные слова скорее относятся к пассивному словарному запасу учащихся, чем к активному, так как даже в речи носителей языка такие слова употребляются редко. Вычисление медианного значения информационного содержания позволяет определить наиболее характерное значение этого параметра для слов, включаемых в минимум. Для лексического минимума B1 это значение составило -9,6. Таким образом, упрощающий алгоритм захватывает большое количество слов, предположительно затрудняющих восприятие текста, предоставляя эксперту принимать решение о необходимости их упрощения.

Из слов, маркируемых как трудные, были исключены именованные сущности, так как поиск упрощающей замены либо был невозможен из-за отсутствия слова в словаре, либо приводил к искажению смысла текста. Так, например, наибольшее предпочтение алгоритм отдавал согипонимам именованных сущностей (Интерфакс - ТАСС; Санкт-Петербург - Питер), а не их синонимам или гиперонимам (Интерфакс - агентство; Санкт-Петербург - город). Для определения именованных сущностей был составлен список ограничительных тегов морфологического анализа pymystem3: "гео", "имя", "фам", "сокр". Следует отметить, что pymystem3 не всегда правильно выделяет именованные сущности, и часть из них остаётся в списке трудных слов, что влияет на оценку работы упрощающего алгоритма.

Также следует отметить, что в настоящей работе в качестве языковых единиц, подлежащих упрощению, рассматривались только слова. В используемом морфологическом анализаторе определение границ слова основано на графическом аспекте (слово - последовательность знаков, ограниченная пробелами), традиционно основным для задач автоматической обработки текстов.


Подобные документы

  • Характеристика и классификация рекламных текстов, теоретические аспекты перевода. Лингво-переводческий анализ воспроизведения гендерных особенностей в англо-русском переводе, сопоставительная оценка переводов текстов, выявление адекватности их специфики.

    курсовая работа [76,4 K], добавлен 21.06.2011

  • Категория побудительности в языковедении. Анализ особенностей предписывающих немецких текстов на примере рекламы. Изучение текстов директивно-регулятивного типа, их места в системе речевой коммуникации. Немецко-русский перевод предписывающих текстов.

    курсовая работа [33,0 K], добавлен 10.04.2013

  • Характеристика и классификация рекламных текстов, их лексические и синтаксические особенности. Сравнительный анализ англоязычных и русскоязычных рекламных текстов. Разработка урока в рамках темы "Mass Media" на основе проанализированных рекламных текстов.

    дипломная работа [4,4 M], добавлен 14.02.2013

  • Лексико-грамматические особенности перевода научно-технических текстов. Понятие "стиль" и требования, предъявляемые к научно–техническому стилю русского языка в англо–русском переводе. Эквивалентность и адекватность перевода научно–технических текстов.

    дипломная работа [189,2 K], добавлен 26.02.2011

  • Понятия "содержание" и "форма" при переводе музыкально-поэтических текстов. Сопоставительный анализ текстов оригинала (подлинника) и перевода. Лексические и грамматические трансформации при переводе музыкально-поэтических текстов песен Джона Леннона.

    дипломная работа [174,2 K], добавлен 09.07.2015

  • Факторы речевой организации текста. Характеристика текста как особой речевой единицы. Основные типы текстов. Построение текстов различных стилей. Особенности построения текстов в научном, публицистическом, официально-деловом и художественном стилях.

    курсовая работа [46,9 K], добавлен 22.05.2015

  • Становление теории вторичных текстов (ВТ), их классификация. Понятие ВТ как построенного на основе текста-источника с другими прагматическими целями и в другой коммуникативной ситуации. Сохранение в ВТ элементов когнитивно-семантической структуры текста.

    статья [37,4 K], добавлен 23.07.2013

  • Теоретическое исследование вопроса перевода многозначных слов на примере газетных текстов. Многозначные слова в русском и английском языках. Особенности газетно-информационных текстов. Изучение закономерных соответствий между конкретными парами языков.

    дипломная работа [142,1 K], добавлен 06.06.2015

  • Структурно-содержательные особенности медийных текстов. Характеристика современного медиадискурса. Анализ синтагматических и лингвостилистических особенностей корпуса текстов группы передовых редакторских статей в качественной и популярной прессе.

    дипломная работа [76,6 K], добавлен 29.03.2016

  • "Метаязык" как понятие в лингвистике и переводоведении. Особенности научного стиля и обзор классификаций текстов. Жанр телепередач и прагматический аспект перевода научных текстов. Особенности перевода французских текстов научно-популярного подстиля.

    курсовая работа [44,2 K], добавлен 06.03.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.