На пути к автоматическому упрощению текстов на русском языке

Область применения автоматической адаптации текстов, понятие их удобочитаемости. Оценка работы упрощающих систем и этапы реализации соответствующего алгоритма. Выбор лучшего кандидата в рассматриваемом контексте. Формирование упрощенных текстов.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 28.11.2019
Размер файла 3,6 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

2.5 Поиск кандидатов для упрощения исходного слова

Обоснование и характеристика используемых методов

Наиболее широко используемым в научной среде источником упрощающих лексем является тезаурус. В значительном числе работ по упрощению текстов на английском языке лексическая информация извлекается из тезауруса WordNet. Для русского языка эквивалентным источником может послужить разработанный П. Браславски и соавторами тезаурус YARN (https://russianword.net; Braslavski и др., 2016). В настоящей работе используется основанная на тезаурусе база синсетов - списков синонимов слов (около 70 тысяч синсетов).

Также, вслед за исследователями, изучающими возможность упрощения текстов только с использованием ресурсов, подготовленных автоматически, без ручного вмешательства, в данной работе в качестве источника лексической информации используется предобученная дистрибутивно-семантическая модель. Для получения представления о том, как слово функционирует в языке, корпус, на котором обучается такая модель, должен быть большим и разнообразным. В связи с этим, семантические модели были выбраны из тех предобученных на больших корпусах моделей, что предоставляются инструментарием RusVectфrзs (rusvectores.org; Kutuzov, Kuzmenko, 2017).

Автоматически собранную информацию о слове предоставляет также Большой русский словарь-справочник синонимов, квазисинонимов и парадигматических (вертикальных) связей системы ASIS (http://www.trishin.ru/left/dictionary/).

Характерной особенностью двух последних источников является то, что в список кандидатов для упрощения составляют не только синонимы, но и другие слова, вступающие в регулярные парадигматические и синтагматические отношения с исходным словом, что вызывает необходимость применения комплексных методов ранжирования кандидатов.

С целью сравнения вышеперечисленных лексических ресурсов была рассчитана метрика Потенциал (Potential), предложенная в работе Paetzold и Specia, (2015) и рассмотренная в параграфе 1.5. Для настоящей работы она была модифицирована следующим образом: в качестве «Золотого стандарта» был принят не подготовленный список правильных замен, а список слов, входящих в лексический минимум B1. Это обосновано отсутствием в разрабатываемой системе данных параллельных корпусов и, как следствие, невозможностью составить список эталонных примеров упрощения. Таким образом, значение преобразованной метрики можно интерпретировать как вероятность того, что в лексическом ресурсе будут найдены упрощающие кандидаты, соответствующие выбранному уровню сложности. Вычисленные значения представлены в Таблице №2

Лексический ресурс

Потенциал

ASIS

0.38

YARN

0.27

MODEL

0.30

Таким образом, наибольшим потенциалом для поиска упрощающих кандидатов требуемого уровня языковой компетенции обладает словарь-справочник синонимов, квазисинонимов и парадигматических (вертикальных) связей системы ASIS. Следует отметить, что рассматриваемая метрика не оценивает качество найденных кандидатов: их соответствие контексту и семантические отношения между исходным словом и упрощающим кандидатом. В проанализированных в параграфе 1.4.1 критериях выбора лексической замены при ручном упрощении текстов для упрощения предлагается выбирать лексемы, вступающие в синонимические или родовидовые отношения с упрощаемым словом. Списки слов, предоставляемые словарём ASIS, содержат слова, связанные с искомым словом более широким списком семантических отношений.

Поиск кандидатов осуществляется для лемм слов (начальных форм). Список кандидатов для каждого слова определяется как пересечение множеств синонимов, извлеченных из синсетов YARN, словаря ASIS и 10 ближайших по косинусному расстоянию слов, полученных из дистрибутивно-семантической модели. Встречающиеся в списках ближайших слов морфологические дериваты слова исключаются в процессе лемматизации поисковой выдачи, однако это не позволяет исключить из них словообразовательные дериваты.

В предобученных дистрибутивно-семантических моделях разрешение морфологической неоднозначности осуществлено при помощи морфологического анализатора UDPipe. Каждое слово в модели обладает частеречным тегом. Для поиска слова по модели необходимо составить запрос следующим образом: `слово_POSTAG'. Так как анализ упрощаемого текста проводился при помощи инструмента pymystem3, для сопоставления тэгов UDPipe и MyStem использовался соответствующий словарь.

Выбор источника дистрибутивно-семантической информации

На начальном этапе работы необходимо было сравнить эффективность подбора слов-кандидатов у разных моделей. Из представленных на сайте RusVectores моделей для сравнения были отобраны следующие семантические модели для русского языка:

1. на русскоязычных новостях с сентября 2013 до ноября 2016 объемом около 5 млрд слов;

2. на корпусе Araneum Russicum Maximum объемом около 10 млрд слов;

3. на НКРЯ и Википедии, за декабрь 2017 объемом 600 миллионов слов

Более подробное описание параметров выбранных моделей представлено в Приложении №1.

Все три модели были применены к пяти случайным новостным текстам, извлеченным при помощи краулера с новостного сайта life.ru. Тексты статей и списки найденных каждой из моделей квазисинонимов были отданы на оценку пяти аннотаторам. В роли последних выступили студенты 4 курса направления Фундаментальная и прикладная лингвистика. Аннотаторам было дано задание: с опорой на текст, отметить те трудные слова, для которых проверяемая модель нашла хотя бы одно подходящее упрощающее слово в контексте рассматриваемой статьи. Такие примеры помечались буквой С, оставшиеся - буквой Н. Пример в виде одного из текстов и списка квазисинонимов, найденных для него каждой из трех моделей, представлен в Приложении №2.

В результате независимой перекрестной проверки, каждый из списков квазисинонимов получил оценку двумя экспертами. Таким образом, каждое трудное слово, имеющее список квазисинонимов получило одну из трех видов отметок: СС, НС и НН. Также, все трудные слова из текстов были вручную проверены по словарю синонимов WordNet на наличие таких синонимов, которые входили бы в лексический минимум и соответствовали контексту. Оценка алгоритмов производилась на основе точности (Precision), полноте (Recall) и сбалансированной F-мере.

Точность вычислялась по следующей формуле:

Точность бралась по её нижней границе - правильными признавались только те случаи, по которым оба эксперта пришли к единому мнению. Результаты экспертной оценки можно посмотреть в таблице, представленной в Приложении №3. Отметим, что при подсчете количества трудных слов в тексте не учитывались именованные сущности.

Специфика применения поиска квазисинонимов для задачи упрощения текста, накладывала серьезные ограничения на возможность оценить полноту модели. Логичным для оценки было бы сопоставлять количество найденных замен с количеством замен, которые можно найти в достоверном источнике или в эталонном упрощенном тексте. Так, например, для оценки автоматического поиска синонимов для машинного перевода нередко применяется оценивание полноты модели по сравнению с опорным словарём синонимов. Этот подход, однако, неприменим для задачи упрощения текстов. Во-первых, любой словарь имеет ограничения по размерам и не может вместить многообразие слов-замен. Во-вторых, сравнение всевозможных синонимов из опорного словаря с контекстом для оценки модели может производиться только вручную, что не дает возможность оценить достаточно большое для достоверной оценки количество замен. И наконец, критерии, позволяющие понять, может ли тот или иной словарь использоваться как опорный, также сложно выделить. Что касается экспертной оценки полноты, она требует участия лингвистов-экспертов, обладающих навыками упрощения текстов, и существенного количества времени на оценку даже одного небольшого текста. В такой оценке на данном этапе работы нет необходимости, поэтому полноту модели предлагается оценивать через отношение количества слов, для которых нашлись какие-либо квазисинонимы, к общему количеству трудных слов.

С использованием такой формулы, значение полноты и, соответственно, F-меры, оказывается низким - у всех трёх моделей оно не достигло даже 0,5. Это объясняется малым объемом лексического минимума и жанровой спецификой текстов, на которых проводилось тестирование. Новостные тексты включают большое количество слов, для которых подобрать синонимичную замену невозможно.

Для нахождения F-меры использовалась общепринятая формула:

В Таблице №3 приводится сопоставление точности, полноты и F-меры для трёх моделей, обозначенных по названиям корпусов, на которых они были обучены.

Русскоязычные новости

Araneum Russicum Maximum

НКРЯ и Википедия 2018

Нижняя граница точности

0.419

0.424

0.379

Полнота

0.426

0.395

0.363

F1-мера

0.422

0.408

0.371

Таким образом, результат первых двух моделей оказался лучше. Модель, обученная на корпусе русскоязычных новостей превосходит модель на корпусе Araneum по F-мере на 0.014. И хотя такая небольшая разница в значениях может быть незначимой, предпочтение для дальнейшей работы было отдано новостному корпусу, поскольку тестирование итоговой вероятностной модели также планировалось проводить на новостных текстах.

2.6 Выбор лучшего кандидата в рассматриваемом контексте

Параметры ранжирования кандидатов

Традиционно в системах, упрощающих тексты на лексическом уровне, ранжирование кандидатов производится по их частотности и (в некоторых работах) длине. Такое ранжирование не выполняет разрешение лексической неоднозначности, так как не учитывает значение слова в контексте. Для разрешения неоднозначности необходим анализ слов на морфологическом и лексическом уровнях. В настоящей работе для ранжирования кандидатов используется информационное содержание слова в сочетании с рядом метрик, определяющих соответствие слова контексту, которые будут приведены ниже.

Морфологическая неоднозначность разрешается с использованием морфологического анализатора pymystem3, который определяет часть речи, в зависимости от контекста. Так, например, словоформа стали будет определена как существительное или глагол, что в дальнейшем обеспечит поиск соответствующих упрощающих кандидатов.

Для разрешения лексической неоднозначности применены два вида метрик: семантическое сходство и контекстуальное сходство, используемые, например, в работе Glavaљ и Љtajner (2015:64-65).

Семантическое сходство определяется как разница между значением косинусной близости слова и рассматриваемого упрощающего кандидата и средним от аналогичного значения для остальных упрощающих кандидатов и вычисляется по формуле:

где n - количество упрощающих кандидатов для слова w.

Этот параметр извлекается из выбранной дистрибутивно-семантической модели и отражает то, как пересекаются множества сем (компонентов значения) исходного и упрощающего слова во всевозможных контекстах, представленных в обучающем корпусе. Чем ниже его значение, тем больше дифференциальных и тем меньше интегральных сем можно выделить у рассматриваемых слов в ходе компонентного анализа. Следует отметить, что этот параметр не учитывает контекстуальное значение слова и не может определять, какие семы актуализируются в контексте. Так, например, слово обращение в новостной статье может быть употреблено в контексте изымать из обращения, но наиболее высокое семантическое сходство будет приписано синонимам, отражающим более частотные варианты его значения: заявление, телеграмма. Также такая метрика может быть нерелевантна, если исходное слово употреблено в переносном значении.

Третья метрика - контекстуальное сходство. Для её вычисления моделируется симметричное контекстное окно заданной длины. Для каждого слова в контекстом окне поочередно считается контекстуальная близость с каждым из упрощающих кандидатов и определяется среднее. Разница между средней косинусной близостью для рассматриваемого кандидата и для трудного слова и принимается за значение данной метрики. В настоящей работе выбранное значение длины контекстного окна составило 6 слов (по 3 слева и справа от упрощаемого слова). Схематично можно представить контекст через w с индексами от -3 до 3, где w0 - исходное трудное слово:

В качестве контекста принимаются графически выделенные слова, которые в своем морфологическом анализе не имеют тегов именованных сущностей, но имеют частеречный тег. При составлении контекстного окна алгоритмом намеренно пропускались знаки препинания, цифры, пробельные символы и слова, для которых морфологический анализатор не смог определить часть речи, так как для них невозможен поиск по дистрибутивно-семантической модели и словарным базам. Для вычисления контекстуального сходства упрощающего кандидата на место слова w0 подставлялся анализируемый кандидат.

Таким образом, формулу косинусного сходства можно представить в следующем виде:

где t - слова из контекстного окна

Контекстуальное сходство может быть интерпретировано как количество интегральных сем трудного слова и его упрощающего кандидата, актуализируемых в рассматриваемом контексте. Этот параметр показателен в тех случаях, когда контекст слова состоит из значимых знаменательных слов, синтаксически связанных с анализируемым. При достаточно большом объеме обучающего корпуса дистрибутивно-семантической модели, переносное значение слов должно отражаться в значении данного параметра.

Четвёртый используемый для характеристики упрощающих кандидатов параметр - контекстуальная вероятность - предназначен для моделирования синтагматических связей слова в языке. Он рассчитывается как вероятность последовательности слов контекстуального окна, разбитого на все возможные n-граммы. Вероятность одной n-граммы при этом вычисляется по формуле максимального правдоподобия:

где обозначает n-грамму, а C - число вхождений n-граммы в корпус, что в рамках настоящей работы понимается как частота n-граммы по списку частот НКРЯ.

Наиболее широко используемыми в исследованиях по автоматической обработке текстов являются n-граммы с n = 3, сохраняющие баланс между производительностью и качеством моделирования синтагматических связей. В связи с этим, в настоящей работе также составляется модель на триграммах.

Чтобы избежать деления на ноль, в тех случаях, когда в корпусе не встречается искомая биграмма, было применено Add-1 сглаживание. Таким образом, вероятность каждой триграммы, составляющей контекст вычислялась по формуле:

,

где V - объем словаря.

Так как триграммы и биграммы были лемматизированы, объем словаря можно приравнять к количеству ключей в словаре лемматизированных униграмм по НКРЯ.

Для предсказания вероятности высказывания, было использовано предположение Маркова, согласно которому, вероятность последовательности определяется через произведение вероятностей составляющих его n-грамм.

В качестве корпуса для статистической модели были использованы триграммы и биграммы из НКРЯ. В связи с большими объемами корпуса, количество вхождений биграмм обычно значительно превышает количество вхождений триграмм, поэтому вероятности триграмм представляют собой очень маленькие числа. При их перемножении, число становится слишком маленьким, чтобы быть сохраненным в памяти программы. Чтобы этого избежать, был использован переход в логарифмическое пространство. Вычисление вероятности фразы при этом производилось по формуле:

Для нахождения логарифма вероятности упрощающих кандидатов в контексте, каждое слово-кандидат подставлялось на место исходного слова w0 во всех триграммах.

Чтобы упростить дальнейшее представление формулы примем следующие обозначения:

,

,

где w0- исходное слово, cn - слово-кандидат

В связи с тем, что знаки препинания в списках н-грамм и анализируемых текстах были отброшены, синтагматические связи моделируются лишь частично. Также качество этой характеристики определяется количеством значимых знаменательных слов в анализируемом контексте.

Аналогично отбору трудных слов, из предлагаемых лексическими ресурсами кандидатов для упрощения для дальнейшего ранжирования отбирались только те из них, что состояли из одного слова (определяемого графически). Такой критерий отбора обусловлен выбранными методами ранжирования кандидатов: поиск по дистрибутивно-семантической модели осуществляется только для словоформ, а реализованное определение вероятности по языковой модели ориентировано на обработку последовательностей равной длины.

Алгоритм ранжирования кандидатов

Вслед за исследователями Glavaљ и Љtajner (2015:65), в настоящей работе выбрано ранжировать кандидаты на основе суммы значений их параметров. Однако диапазоны возможных значений перечисленных в подпункте 2.5.1 параметров значительно отличаются. Для того чтобы вычислить вероятность выбора некоторого упрощающего кандидата, необходимо приведение данных к одному диапазону. Для этого параметры были разделены на два типа: первые сравнивались со значением этого же параметра для исходного слова, а вторые - среднего значения параметра для других упрощающих кандидатов.

К первому типу относятся параметры, характеризующие частотность слов, их контекстуальную близость и контекстуальную вероятность. Вклад первого типа параметров вычислялся по формуле:

Применяя такую формулу, получаем, что чем выше значения признаков кандидата по сравнению со значениями признаков исходного слова, тем выше становится показатель p1.

Второй тип составляет показатель семантической близости, по которому возможно только сопоставление кандидатов между собой, но не с исходным словом. Он вычисляется по следующей формуле:

Аналогично первой формуле, чем выше семантическая близость исходного слова, тем выше значение показателя p2. Таким образом, происходит приведение всех признаков кандидата к диапазону от -1 до 1.

Ранжирование кандидатов осуществляется на основе суммы параметров, их характеризующих. Если сочетаемость кандидата с контекстом ниже, чем у исходного слова, его семантические и синтаксический параметры становятся отрицательными и уменьшают сумму показателей. Решение о необходимости упрощения принимается на основе знака итоговой суммы: если он отрицательный, значит, рассматриваемый кандидат не соответствует контексту исходного слова, и, следовательно, не может быть использован для упрощения.

2.7 Формирование упрощённых текстов

Сформированный на основании описанных выше признаков алгоритм упрощения текстов состоял из следующих этапов:

1. Морфологический анализ текста;

2. Формирование списков объектов класса Токен со следующими атрибутами:

a. Словоформа;

b. Нормальная форма;

c. Положение в тексте;

d. Информационное содержание;

e. Вхождение в минимум;

f. Часть речи или иной характеризующий тег;

g. Необходимость упрощения;

3. Формирование списков объектов класса Трудное слово, наследующего атрибуты класса Токен и имеющего следующие специальные атрибуты:

a. Контекстное окно, состоящее из словесных объектов класса Токен;

b. Список кандидатов на упрощение, состоящий из объектов класса Замена (дочернего для класса Токен), составленный на основе выбранной лексической базы;

4. Определение признаков семантического сходства, контекстуального сходства и контекстуальной вероятности для объектов класса Трудное слово и их упрощающих кандидатов;

5. Ранжирование упрощающих кандидатов на основе суммы их параметров и выбор лучшего;

6. Генерация и вывод упрощённых текстов.

Код, реализующий вышеприведенные этапы алгортима представлен в Приложении №8.

Упрощение текстов производилось методом генерации упрощающих подсказок. Подсказки были оформлены как нормальная форма слова, заключенная в символ «/» и вставлены в тексте после упрощаемых трудных слов, что проиллюстрировано на Рисунке №5.

Рисунок №5

Полученные таким образом тексты могут использоваться для дальнейшего упрощения текстов вручную. Решение, использовать ли сгенерированную подсказку, принимает эксперт.

2.8 Оценка работы программы

Для оценивания работы алгоритма он был опробован на подвыборке из пятнадцати текстов, составленной из текстов пяти новостных рубрик. В результате были сформированы три таблицы - по одной на каждый из используемых лексических ресурсов (ASIS, YARN, MODEL). В каждой таблице объединяется информация об исходном слове, его контексте и начальной форме упрощающего кандидата (см. Рисунок №6), а также о характеристиках этого кандидата, полученных в ходе работы алгоритма (см. Рисунок №7).

Рисунок №6

Рисунок №7

Так как для русского языка в настоящий момент не существует параллельных корпусов упрощенных и оригинальных текстов, классификация ранжированных системой кандидатов как подходящих или неподходящих производилась вручную. Согласно принципам лексического упрощения, обозначенным в пункте 1.4.1, лексическая замена возможна с использованием слов, вступающих с трудным словом в синонимические или родовидовые отношения. При замене необходимо учитывать контекст - сохранять содержание текста на уровне пропозиций.

В рамках данной работы нас интересует функциональная сторона синонимии - «способность языковых единиц благодаря тождеству или сходству их значений замещать друг друга во всех или определённых контекстах, не меняя содержания высказывания» (tapemark.narod.ru/les/446c.html; Ярцева, 1990). По словарю Ярцевой «Семантическая сущность синонимии -- эквивалентность всего объёма значений лексических единиц («языкознание» -- «лингвистика»), отдельных их значений («дорога» -- «путь») или совпадающих сем значений («ключ» `источник, в котором вода выходит с напором, с силой' -- «родник» `источник, в котором вода просачивается на поверхность земли')» (tapemark.narod.ru/les/446c.html; Ярцева, 1990). В настоящем исследовании в качестве подходящих для лексического упрощения синонимов принимаются те, у которых совпадают все семы - элементарные семантические признаки - или отдельные семемы - совокупности сем, характеризующие одно значение слова. Принятие решения относительно упрощающих кандидатов с совпадающими семами значений при наличии дифференциальных сем тех же значений осуществляется на основании контекста. Так, например, упрощающий алгоритм генерирует для лексемы сквер упрощающую лексему парк. В словаре Ушакова сквер определяется как «Небольшой общественный сад в городе», а парк как «Большой сад, рода с дорожками для гуляния». На основании приведённых дефиниций можно выделить следующие семы в структуре лексемы сквер: /сад/, /небольшой/. В структуре лексемы парк выделяются семы /сад/, /большой/. В контексте постройка храма на месте сквера сема /небольшой/ актуализируется в семантической структуре лексемы сквер, так как на основании экстралингвистических знаний можно заключить, что размеры храма сопоставимы с размерами сквера, но не парка. Таким образом, в рассматриваемом контексте сгенерированный алгоритмом упрощающий кандидат не может быть классифицирован как подходящая лексическая замена для трудного слова.

Всё вышеперечисленное относится к смысловой или идеографической синонимии. В отношении стилистических синонимов решение принималось на основании следующего критерия: при подстановке упрощающего кандидата в анализируемый контекст не происходит стилистическая транспозиция - лексема стилистически согласуется с текстом. Предпочтительно отсутствие в семантической структуре упрощающего кандидата коннотативных сем, но в некоторых контекстах может быть допустима коннотативная сема /разг./.

Что касается родовидовых отношений между трудным словом и упрощающим кандидатом, то если последний является гиперонимом исходного, то замена признаётся возможной, а кандидат - подходящим. Замена согипонимом осуществима только при нейтрализации дифференциальных сем в структуре исходной и упрощающей лексем в контексте. Гипонимическая замена возможна, если обозначаемое конкретизируется в контексте так, что можно сделать вывод, что у упрощающего кандидата тот же денотат, что и у трудного слова.

Для классификации выбранных кандидатов использовался метод компонентного анализа - «метод исследования содержательной стороны значимых единиц языка, имеющий целью разложение значения на минимальные семантические составляющие» (tapemark.narod.ru/les/233d.html; Ярцева, 1990). С его помощью были проанализированы интегральные и дифференциальные семы, актуализируемые и нейтрализуемые в структуре исходной и упрощающей лексем в рассматриваемом контексте. На основании сопоставления дифференциальных сем заключался вывод о характере семантических отношений между семемами. Для подведения итогов анализа была сформирована таблица, включающая в себя упрощаемые слова, анализируемый контекст, выбранные системой упрощающие кандидаты, а также колонки анализа: дефиниции упрощаемых и упрощающих слов, их интегральные и дифференциальные семы, вывод о семантических отношениях исходного слова и упрощающего кандидата и о возможности упрощения. В рамках данной работы анализ производился для одного, актуализируемого в рассматриваемом контексте значения слова - семемы Это обусловлено поставленной прикладной задачей - определение, возможна ли лексическая замена одного слова другим в одном конкретном контексте, а не во всём их многообразии. Вследствие этого в колонке дефиниций приводится только одно значение для каждого слова.

Примером подходящего кандидата является слово больной для исходного пациент в контексте «предоставлять доступ в реанимационные отделения родственникам пациента». По словарю Ушакова слово пациент определяется как «больной, лечащийся у врача», а слово больной имеет дефиницию «страдающий какой-нибудь болезнью, нездоровый; пораженный болезнью». Интегральной для этих двух лексем является сема /страдающий болезнью/. Дифференциальная сема исходного слова - /лечащийся у врача/, может актуализироваться в семантической структуре лексемы-кандидата в контексте «предоставлять доступ в реанимационные отделения родственникам пациента». Таким образом, выбранный алгоритмом кандидат является смысловым синонимом по отношению к упрощаемой лексеме.

Для кандидатов, получивших положительную оценку по критерию семантической сочетаемости, определялась также лексическая сочетаемость, методом поиска вхождений по НКРЯ. В последнем примере осуществлялся поиск по НКРЯ следующего запроса: «родственник (S) на расстоянии 1 от больной (S),(gen|gen2)». В результате был найден 21 документ с 23 вхождениями, что позволяет маркировать упрощающий кандидат как подходящий.

В качестве примера неудачной замены можно привести кандидат трагедия для слова происшествие в контексте в результате происшествия никто не пострадал. По словарю Ушакова дефиниция слова происшествие - «событие, приключение, случай, что-нибудь, нарушающее нормальный порядок, обычный ход вещей», тогда как значение слова трагедия, актуализируемое в рассматриваемом контексте - «ужасное происшествие, потрясающее событие». Интегральной семой для этих двух семем является /неординарное событие/, а дифференциальной семой кандидата - /ужасное/. Сема /ужасное/ может актуализироваться в структуре упрощаемой лексемы в некотором множестве контекстов, однако в анализируемом контексте она не актуализируется. Следовательно, выбранный алгоритмом кандидат является гиперонимом для исходной лексемы, и не может быть использован для упрощения.

Аналогичным образом был произведен анализ всех пар слов, генерируемых упрощающим алгоритмом. Таблица, иллюстрирующая проведённый компонентный анализ, приведена в Приложении №7.

Обобщая результаты анализа, группу положительных замен составили полные, смысловые и стилистические синонимы и гиперонимы, причём большую часть составили именно смысловые синонимы. Среди подходящих кандидатов не оказалось таких, которые бы являлись согипонимами или гипонимами соответствующего трудного слова. Таким образом, подтверждается тезис о том, что наиболее продуктивными способами лексического упрощения является синонимическая и гиперонимическая.

Группу ошибочно подобранных упрощающих кандидатов составили:

· Согипонимы исходных слов, чьи дифференциальные семы не нейтрализуются в контексте;

· Синонимы, дифференциальная сема которых не нейтрализуется в контексте;

· Синонимы, не имеющие в своей семантической структуре семы, актуализируемой в структуре исходного слова в контексте;

· Слова, имеющие интегральную сему и относящиеся к одной семантической группе, но не вступающие ни в синонимические, ни в родовидовые отношения с исходным.

По результатам анализа были рассчитаны традиционные для задачи лексического упрощения метрики:

1. Точность (Precision) - доля правильных упрощений из всех упрощений, сделанных системой;

2. Полнота (Recall) - доля произведённых упрощений из всех случаев, когда у трудных слов имелись упрощающие кандидаты;

3. F-мера (F-score) - среднее гармоническое между Точностью и Полнотой

4. Упрощено (Changed) - доля произведённых упрощений из всех выделенных трудных слов в тексте.

Произведённые вычисления отражены в Таблицах №4 и №5.

Лексический ресурс

Трудных слов

Трудных, имеющих упрощающие кандидаты

Произведённых упрощений

Верных упрощений

ASIS

110

42

32

15

YARN

31

21

12

MODEL

54

41

18

Лексический ресурс

Упрощено,%

Точность,%

Полнота,%

F-мера

ASIS

29

47

76

58

YARN

19

62

68

65

MODEL

37

44

75

55

Значение Полноты коррелирует со значением Потенциала (см. параграф 2.1, Таблица№2): она выше для тех лексических ресурсов, для которых выше вероятность найти замены, включённые в лексический минимум.

Разница в значении Точности отражает разницу лексического состава разных ресурсов. Так как в состав синсетов YARN входят преимущественно синонимы, синонимическое упрощение представляется наилучшим решением задачи лексического упрощения.

Высокий процент упрощённых слов и, как следствие, высокое значение Полноты для лексических ресурсов ASIS и MODEL объясняется тем, что их составляют слова, вступающие в частотные синтагматические и парадигматические связи. Вследствие этого количество предлагаемых упрощающих кандидатов у них выше. Также большее число произведённых упрощений обосновывается тем, что среди семантически близких слов встречаются словообразовательные дериваты слов (например, низко - низкий), которые включены в список лексического минимума.

Таким образом, лучшие результаты упрощающая система показывает при использовании тезауруса YARN. Примеры текстов, упрощённых с опорой на данную лексическую базу, представлены в Приложении №6.

Заключение

Целью настоящего исследования было изучение методов автоматической адаптации текстов и написание программного кода, реализующего эти методы на лексическом уровне языка.

В ходе теоретической части работы была обоснована значимость сферы применения адаптации текстов при выборе методов и подходов к её реализации. В настоящей работе такой сферой явилась упрощение текстов для изучающих русский язык как иностранный. Также были охарактеризованы типы упрощающих систем с точки зрения степени изменения текстов. Для практической составляющей настоящего исследования было выбрано реализовать систему, упрощающую текст посредством генерации лексических подсказок - более простых эквивалентов для трудных слов в тексте.

Задача упрощения текстов тесно связана с задачей определения их удобочитаемости. Вследствие этого в теоретической части настоящего исследования был произведён обзор способов измерения удобочитаемости текстов. В практической части данной работы в ходе отбора текстов для упрощения, были выбраны новостные тексты с веб-агрегатора новостей Яндекс.Новости (news.yandex.ru), так как они были охарактеризованы как сложные по традиционным, словарным и синтаксическим признакам. Кроме того на отбор материала повлияла доступность новостных текстов, а также их стилистические характеристики, приведённые и проанализированные в ходе исследования. Методами автоматического сбора данных был составлен репрезентативный корпус текстов для дальнейшего упрощения.

На основе обзора исследований по лексической адаптации, проведённого в ходе теоретической части исследования, были отобраны методы лексической адаптации и метрики для ранжирования упрощающих кандидатов. В основу отбора был положен принцип реализуемости с использованием доступных для русского языка ресурсов: списков частотности, лексического минимума по русскому как иностранному, предобученных дистрибутивных семантических моделей, тезауруса и словаря. Отобранные метрики были проанализированы в терминах фундаментальной и прикладной лингвистики для выявления моделируемых с их помощью аспектов языка. Таким образом, реализация лексического упрощения в данном исследовании основана на моделировании регулярных синтагматических и парадигматических связей в языке. Код, реализующий разработанный алгоритм, приводится в Приложении №8 и в репозитории по ссылке https://github.com/aabeloborodova/diploma.

Описанные в теоретической части исследования критерии традиционного экспертного упрощения текстов были использованы для оценивания результатов практической части. Вывод о типе семантических отношений упрощающего и упрощаемого слов, а также о сохранении содержания текста на уровне пропозиций основывался на методе компонентного анализа. С его помощью была произведена классификация сгенерированных упрощающих кандидатов как подходящих и неподходящих для упрощения.

Для оценки разработанной упрощающей системы были применены традиционные метрики, обобщённые в теоретической главе работы. Было произведено сравнение трёх различных лексических ресурсов с точки зрения правильности упрощения и количества произведённых упрощений при их использовании в качестве ресурса для поиска упрощающих кандидатов. В результате наибольшая Точность - доля правильных упрощений, - была отмечена при использовании синсетов из тезауруса YARN, она составила 62%, что позволяет сделать вывод о том, что синонимическое упрощение является наиболее продуктивным. Лексический состав данного ресурса отличается равномерностью. Наибольший процент упрощённых слов - 37%, - достигнут при использовании дистрибутивно-семантической модели (MODEL). Чтобы в сгенерированных алгоритмом текстов было минимизировано количество ошибок и максимизировано число трудных слов, упрощённых кандидатами, входящими в лексический минимум, для генерации текстов использовался лексический ресурс с наибольшим показателем F-меры - тезаурус YARN.

Таким образом, разработанный в ходе практической части исследования алгоритм предлагает пользователю наиболее предпочтительный вариант лексической адаптации. Практическая значимость работы состоит в том, что сформированные в результате применения разработанного алгоритма тексты могут использоваться экспертами для облегчения ручной адаптации (в качестве промежуточного этапа упрощения), а также учащимися, изучающими РКИ для помощи в усвоении новой лексики.

Таким образом, цель исследования можно считать достигнутой.

Библиографический список

автоматический адаптация алгоритм удобочитаемость

1. Beautiful Soup Documentation // Beautiful Soup 4.4.0 documentation. - URL: https://www.crummy.com/software/BeautifulSoup/bs4/doc/ (дата обращения: 22.04.2019).

2. Bott S. и Saggion H. An unsupervised alignment algorithm for text simplification corpus construction // Proceedings of the Workshop on Monolingual Text-To-Text Generation. - Association for Computational Linguistics, 2011. - стр. 20-26.

3. Braslavski P. [и др.] YARN: Spinning-in-Progress // Proceedings of the Eight Global Wordnet Conference. - GWC2016, 2016. - стр. 58-65.

4. Burstein J. [и др.] The automated text adaptation tool // Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations. -: ACL, 2007. - стр. 3-4.

5. Carroll J. [и др.] Practical Simplification of English Newspaper Text to Assist Aphasic Readers // Proceedings of the AAAI-98 Workshop on Integrating Artificial Intelligence and Assistive Technology. -: AAAI, 1998. - стр. 7-10.

6. Feng L., Elhadad N. и Huenerfauth M. Cognitively motivated features for readability assessment // Proc. of the 12th Conference of the European Chapter of the Association for Computational Linguistics. - ACL, 2009. - стр. 229-237.

7. Flesch R. The art of readable writing.. - NY: Harper & Row, 1949.

8. GitHub - ghpaetzold/LEXenstein: A framework for Lexical Simplification. // GitHub. - URL: https://github.com/ghpaetzold/LEXenstein (дата обращения: 03.05.2019).

9. Glavaљ G. и Љtajner S. Simplifying lexical simplification: Do we need simplified corpora? // Proc. of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing. - ACL, 2015. - стр. 63-68.

10. Harris Z. Distributional structure. - Word. 10(23), 1954. - стр. 146-162.

11. Karpov N., Baranova J. и Vitugin F. Single-sentence Readability Prediction in Russian // Proceedings of Analysis of images, social networks, and texts. - Yekaterinburg: AIST, 2014.

12. Kincaid J. [и др.] Derivation of new readability formulas (Automated Readability Index, Fog Count and Flesch Reading Ease Formula) for Navy enlisted personnel / Institute for Simulation and Training. - 1975. - URL: https://stars.library.ucf.edu/istlibrary/56 (дата обращения: 12.03.2019).

13. Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts. - AIST, 2015. - стр. 320-332.

14. Kutuzov A., Kuzmenko, E. WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models. // Ignatov D. et al. (eds) Analysis of Images, Social Networks and Texts. - AIST, 2016.

15. Life.ru -- информационный портал. - URL: https://life.ru/ (дата обращения: 19.02.2019).

16. Mikolov T., Yih Wen-tau и Zweig G. Linguistic regularities in continuous space word representations // Proc. of the Conference of the North American Chapter of the Association of Computational Linguistics. - NAACL, 2013. - стр. 746-751.

17. Paetzold G. и Specia L. LEXenstein: A framework for lexical simplification // Proc. of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, Proceedings of System Demonstrations. - ACL-IJCNLP, 2015. - стр. 85-90.

18. Paetzold G. и Specia L. SemEval 2016 Task 11: Complex word identification // Proc. of the 10th International Workshop on Semantic Evaluation, SEMEVAL. - ACL, 2016. - стр. 560-569.

19. Petersen S.E. и Ostendorf M. Text simplification for language learners: A corpus analysis // Proc. of the Workshop on Speech and Language Technology in Education. - SLaTE, 2007. - стр. 69-72.

20. pymystem3 package // Python MyStem 3 0.1.1 documentation. - Denis Sukhonin, 2013 г.. - URL: https://pythonhosted.org/pymystem3/pymystem3.html (дата обращения: 08.12.2018).

21. Rello L. [и др.] Frequent words improve readability and short words improve understandability for people with dyslexia // Proc. of the International Conference on Human-Computer Interaction (Part IV). - INTERACT, 2013. - стр. 203-219.

22. RusVectфrзs: семантические модели для русского языка. - 2015 г.. - URL: https://rusvectores.org/ru (дата обращения: 08.12.2018).

23. Saggion H. и Hirst G. Automatic Text Simplification Synthesis Lectures on Human Language Technologies / ред. Hirst G.. - Morgan & Claypool Publishers, 2017. - стр. 137.

24. Selenium with Python // Selenium Python Bindings 2 documentation. - Muthukadan, B., 2011 г.. - URL: https://selenium-python.readthedocs.io (дата обращения: 23.04.2019).

25. Shardlow M. A comparison of techniques to automatically identify complex words // Proceedings of the 51st Association for Computational Linguistics Student Research Workshop. - 2013. - стр. 103-109.

26. Shardlow M. Out in the open: Finding and categorising errors in the lexical simplification pipeline // Proc. of the 9th International Conference on Language Resources and Evaluation, LREC. - European Language Resources Association (ELRA), 2014. - стр. 1583-1590.

27. Si L. и Callan J. A statistical model for scientific readability // Proc. of the 10th International Conference on Information and Knowledge Management. - CIKM, 2001. - стр. 574-576.

28. Yaneva V., Temnikova I. и Mitkov R. A corpus of text data and gaze fixations from autistic and non-autistic adults // Proc. of the 10th Language Resources and Evaluation Conference. - LREC, 2016. - стр. 480-487.

29. Yet Another RussNet. - 2012 г.. - URL: https://russianword.net (дата обращения: 08.12.2018).

30. Андреевский И.Е., Арсеньев К.К. и Петрушевский Ф.Ф. Энциклопедический словарь Брокгауза и Ефрона. - СПб: АО «Ф.А. Брокгауз -- И.А. Ефрон», 1890--1907 г.. - Т. в 86 т. (82 т. и 4 доп.). - URL: https://ru.wikisource.org/wiki/Энциклопедический_словарь_Брокгауза_и_Ефрона (дата обращения: 12.03.2019).

31. Андрюшина Н.П. и Козлова Т.В. Лексический минимум по русскому языку как иностранному. Первый сертификационный уровень. Общее владение. - СПб: ЦМО МГУ, Златоуст, 2015 г.. - №5.

32. Бим-Бад Б.М. Педагогический энциклопедический словарь. - М.: БРЭ, 2002. - URL: http://niv.ru/doc/dictionary/pedagogic/index.htm (дата обращения: 08.12.2018)

33. Документация - Морфологический анализатор pymorphy2 // Морфологический анализатор pymorphy2. - Mikhail Korobov, 2015 г.. - URL: https://pymorphy2.readthedocs.io/en/latest/ (дата обращения: 08.12.2018).

34. Оборнева И.В. Автоматизация оценки качества восприятия текста // ВЕСТНИК Московского городского педагогического университета. - 2015 г.. - №2(5). - стр. С. 221-233.

35. Первухина С.В. Адаптированный художественный текст: способы повышения понятности // Вестник Челябинского государственного университета. - 2011 г.. - № 25.

36. Расстройства аутистического спектра (РАС) // Всемирная организация здравоохранения. - URL: https://www.who.int/ru/news-room/fact-sheets/detail/autism-spectrum-disorders (дата обращения: 08.12.2018).

37. Сибирцева В.Г. и Карпов Н.В. Автоматическая адаптация текстов для электронных учебников. Проблемы и перспективы (на примере русского языка) // Novб rusistika. - 2014 г.. - №1: Т.Т. VII. - стр. 19-33.

38. Словарь // ОКП - оценка крупных предприятий. - Тришин В.Н., 2016 г.. - URL: http://www.trishin.ru/left/dictionary/ (дата обращения: 08.12.2018).

39. Частоты словоформ и словосочетаний // Национальный корпус русского языка. - 2003 г.. - URL: http://www.ruscorpora.ru (дата обращения: 08.12.2018).

40. Яндекс.Новости: Главные новости сегодня, самые свежие и последние новости России онлайн - URL: https://news.yandex.ru (дата обращения: 22.04.2019)

41. Ярцева В.Н. Лингвистический энциклопедический словарь / Ин-т языкознания АН СССР;. - М.: Советская энциклопедия, 1990. - URL: http://tapemark.narod.ru/les/index.html (дата обращения: 10.03.2019).

Приложение

Приложение 1

Сопоставляемые в исследовании дистрибутивно-семантические модели:

Приложение 2

Пример текста для сравнения моделей:

В Астраханской области ветерану ВОВ вернули похищенные медали

В Астраханской области ветерану Великой Отечественной войны вернули украденные у него наградные медали. Об этом сообщает портал "Утро.ру" со ссылкой на пресс-службу регионального МВД.

-- Оперативники задержали подозреваемую в совершении преступления. Ею оказалась 61-летняя женщина, которая помогала ветерану по дому, -- сообщили правоохранители.

Женщина объяснила свои действия тем, что между ней и ветераном возник конфликт, после чего она забрала сковородку и награды, которые впоследствии выбросила в урну.

Полиция обследовала территорию городской свалки и нашла часть похищенных наград среди твёрдых бытовых отходов. В отношении задержанной возбуждено уголовное дело.

Напомним, ранее Лайф сообщал, что у 93-летнего Василия Легонького украли из квартиры 10 наградных медалей "За отвагу", "За взятие Берлина" и "За взятие Кёнигсберга".

Слова, не вошедшие в лексический минимум

Результаты применения моделей, обученных на…

новостных текстах

корпусе Araneum:

текстов из Википедии и НКРЯ за 2018 год

Приложение 3

Русскоязычные новости

Araneum Russicum Maximum

НКРЯ и Википедия

Текст 1

Э1

7 С, 9 Н

5 С, 10 Н

4 С, 9 Н

Э2

6 С, 10 Н

6 С, 9 Н

4 С, 9 Н

Итог

6 СС, 1 НС, 9 НН

5 СС, 1 НС, 9 НН

4 СС, 9 НН

Текст 2

Э2

10 С, 5 Н

9 С, 5 Н

5 С, 8 Н

Э3

7 С, 8 Н

8 С, 6 Н

5 С, 8 Н

Итог

7 СС, 3 НС, 5 НН

8 СС, 1 НС, 5 НН

4 СС, 2 НС, 8 НН

Текст 3

Э3

8 С, 6 Н

9 С, 3 Н

5 С, 4 Н

Э4

7 С, 7 Н

9 С, 3 Н

4 С, 6 Н

Итог

7 СС, 1 НС, 6 НН

8 СС, 2 НС, 3 НН

4 СС, 1 НС, 4 НН

Текст 4

Э4

7 С, 12 Н

4 С, 10 Н

5 С, 11 Н

Э5

8 С, 11 Н

5 С, 9 Н

5 С, 11 Н

Итог

7 СС, 1 НС, 11 НН

4 СС, 1 НС, 9 НН

5 СС, 11 НН

Текст 5

Э5

7 С, 10 Н

6 С, 11 Н

5 С, 5 Н

Э1

9 С, 8 Н

8 С, 9 Н

6 С, 4 Н

Итог

7 СС, 2 НС, 8 НН

6 СС, 2 НС, 9 НН

5 СС, 1 НС, 4 НН

Приложение 4

Трудных слов

СС+НС+НН

Русскоязычные новости

Araneum Russicum Maximum

НКРЯ и Википедия

Текст 1

46

16

15

13

Текст 2

36

15

14

14

Текст 3

34

14

15

16

Текст 4

37

19

14

16

Текст 5

37

17

17

10

Итого

190

81

75

69

Приложение 5

Таблица, сформированная по результатам применения алгоритма с использованием словаря ASIS:

Таблица, сформированная по результатам применения алгоритма с использованием тезауруса YARN:

Таблица, сформированная по результатам применения алгоритма с использованием дистрибутивно-семантической модели (MODEL):

Приложение 6

Результат применения упрощающего алгоритма к текстам:

Приложение 7

Компонентный анализ трудных слов и упрощающих кандидатов

Приложение 8

· Код, производящий морфологический анализ текста и формирующий список объектов класса Токен:

#анализ текста

def text_structuring(text, param, threshold, use_min):

# анализирует текст

analysis = m.analyze(text)

tokens = []

for i, w in enumerate(analysis): # состаляем список объектов Tokens

token = Token(w)

token.num = i # добавляем токену в атрибуты его номер в тексте

token.complexity_params(param) # переопределяем сложность на основе выбранного параметра

token.convert_universal() # превращаем POS в universal формат

#print(token.num, token.text, token.lexem, token.pos, token.complexity, token.is_complex(threshold, use_min))

tokens.append(token)

return tokens

class Token():

def __init__(self, w):

self.num = None # номер в тексте

self.complexity = None # сложность слова

self.av_similarity = None

# три варианта инициализации:

## из анализа текста,

## из уже имеющегося объекта (для дочернего класса ComplexWord)

## из строки

if isinstance(w, dict): # если получили результат работы mystem

self.text = w['text'] # сам токен

self.len = len(w['text']) # его длина

# определяет, сделан ли анализ и, соответственно, рассматривать ли как слово, требующее упрощения

gram = w.get('analysis')

if gram:

self.lexem = gram[0]['lex'] # лемма

if not self.named_entity(gram[0]): # именованная сущность или нет

self.pos = self.pos_tag(gram[0]['gr']) # часть речи

else:

self.pos = 'PROPN' # universal tag for named entity - у майстема таких нет

elif any(p in w['text'] for p in punctuation+'-«»'): # если это знак пунктуации (может быть с пробелом!)

self.lexem = '_PUNKTUATION_'

self.pos = None

elif not re.findall('\S',w['text']): # если это только пробельные символы

self.lexem = '_SPACE_'

self.pos = None

# остальное - неизвестная и ненужная ерунда?

else:

self.lexem = '_UNK_'

self.pos = 'X' # universal tag for unknown

elif isinstance(w, Token): # для определения объектов дочернего класса ComplexWord

self.text = w.text

self.num = w.num

self.lexem = w.lexem

self.len = w.len

self.pos = w.pos

self.complexity = w.complexity

elif isinstance(w, str): # если хотим как класс токен определить строку, полученную из словаря или модели

self.text = w

self.pos = None

self.lexem = w

self.len = len(w)

self.num = None

self.complexity = None

# вытаскивает часть речи из разбора майстем

def pos_tag(self,gram):

if ',' in gram:

gram = gram.split(',')[0]

if '=' in gram:

gram = gram.split('=')[0]

return gram

# определяет по тегам, является ли именованной сущностью

def named_entity(self,gram):

markers = {'сокр': ' - сокращение', 'фам': ' - фамилия', 'имя': ' - имя собственное', 'гео': ' - название места', }

if any(m in gram['gr'] for m in markers.keys()):

return True

else:

return False

def complexity_params(self, param = 'freq'):

# если по частотности

if param == 'freq':

self.complexity = unigrams.get(self.lexem, 0)

# если по коэффициенту информативности. Отрицательное значение. Чем он меньше, тем сложнее

elif param == 'inf':

self.complexity = math.log((unigrams.get(self.lexem, 0)+1)/(sum(f for f in unigrams.values())+1))

return self

def is_complex(self, threshold = global_threshold, use_min = False):

exceptions = ['_PUNKTUATION_', '_SPACE_', '_UNK_']

# проверка, что это слово и что его нужно рассматривать как сложное (не нарицательное)

if not any(exception in self.lexem for exception in exceptions) and self.pos not in ['PROPN']:

# если показатель сложности - вхождение в минимум

if use_min:

if self.lexem not in minimum:

return True

else:

return False

# если показатель сложности - пороговое значение сложности

else:

if self.complexity < threshold:

return True

else:

return False

else:

return False

def convert_universal(self):

if self.pos in mystem_tags:

self.pos = mystem_tags[self.pos]

else:

self.pos = 'X' # Х - universal тег для неизвестных слов

return self

# нужна в двух случаях: для Замен, полученных из словарей, чтобы приписывать им соответствующий параметр,

# и для подсчета адекватности слова контексту

def cos_sim(self, context):


Подобные документы

  • Характеристика и классификация рекламных текстов, теоретические аспекты перевода. Лингво-переводческий анализ воспроизведения гендерных особенностей в англо-русском переводе, сопоставительная оценка переводов текстов, выявление адекватности их специфики.

    курсовая работа [76,4 K], добавлен 21.06.2011

  • Категория побудительности в языковедении. Анализ особенностей предписывающих немецких текстов на примере рекламы. Изучение текстов директивно-регулятивного типа, их места в системе речевой коммуникации. Немецко-русский перевод предписывающих текстов.

    курсовая работа [33,0 K], добавлен 10.04.2013

  • Характеристика и классификация рекламных текстов, их лексические и синтаксические особенности. Сравнительный анализ англоязычных и русскоязычных рекламных текстов. Разработка урока в рамках темы "Mass Media" на основе проанализированных рекламных текстов.

    дипломная работа [4,4 M], добавлен 14.02.2013

  • Лексико-грамматические особенности перевода научно-технических текстов. Понятие "стиль" и требования, предъявляемые к научно–техническому стилю русского языка в англо–русском переводе. Эквивалентность и адекватность перевода научно–технических текстов.

    дипломная работа [189,2 K], добавлен 26.02.2011

  • Понятия "содержание" и "форма" при переводе музыкально-поэтических текстов. Сопоставительный анализ текстов оригинала (подлинника) и перевода. Лексические и грамматические трансформации при переводе музыкально-поэтических текстов песен Джона Леннона.

    дипломная работа [174,2 K], добавлен 09.07.2015

  • Факторы речевой организации текста. Характеристика текста как особой речевой единицы. Основные типы текстов. Построение текстов различных стилей. Особенности построения текстов в научном, публицистическом, официально-деловом и художественном стилях.

    курсовая работа [46,9 K], добавлен 22.05.2015

  • Становление теории вторичных текстов (ВТ), их классификация. Понятие ВТ как построенного на основе текста-источника с другими прагматическими целями и в другой коммуникативной ситуации. Сохранение в ВТ элементов когнитивно-семантической структуры текста.

    статья [37,4 K], добавлен 23.07.2013

  • Теоретическое исследование вопроса перевода многозначных слов на примере газетных текстов. Многозначные слова в русском и английском языках. Особенности газетно-информационных текстов. Изучение закономерных соответствий между конкретными парами языков.

    дипломная работа [142,1 K], добавлен 06.06.2015

  • Структурно-содержательные особенности медийных текстов. Характеристика современного медиадискурса. Анализ синтагматических и лингвостилистических особенностей корпуса текстов группы передовых редакторских статей в качественной и популярной прессе.

    дипломная работа [76,6 K], добавлен 29.03.2016

  • "Метаязык" как понятие в лингвистике и переводоведении. Особенности научного стиля и обзор классификаций текстов. Жанр телепередач и прагматический аспект перевода научных текстов. Особенности перевода французских текстов научно-популярного подстиля.

    курсовая работа [44,2 K], добавлен 06.03.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.