Создание и анализ специальных корпусов текстов на основе расширенной платформы TXM

История возникновения и развития компьютерной лингвистики. Инструменты анализа корпусов текстов. Системы и средства корпусного анализа. Факторный анализ соответствий корпуса противоправных текстов. Анализ специфичности корпуса противоправных текстов.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 10.12.2019
Размер файла 537,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ НАЦИОНАЛЬНЫИ? ИССЛЕДОВАТЕЛЬСКИИ? УНИВЕРСИТЕТ «ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»

Факультет бизнеса и менеджмента

Выпускная квалификационная работа

СОЗДАНИЕ И АНАЛИЗ СПЕЦИАЛЬНЫХ КОРПУСОВ ТЕКСТОВ НА ОСНОВЕ РАСШИРЕННОЙ ПЛАТФОРМЫ TXM

Фокина Алина Игоревна

Научный руководитель

д.т.н., проф. А.М. Чеповский

Москва 2019

Оглавление

Введение

1. Компьютерная лингвистика

1.1 Понятие компьютерной лингвистики

1.2 История возникновения и развития компьютерной лингвистики

1.3 Теоретические аспекты корпусной лингвистики

1.3.1 Морфология словарная

1.3.2 Псевдоосновы

1.3.3 Именные группы

1.4 Обзор литературы в области анализа текстов противоправного содержания

2. Инструменты анализа корпусов текстов

2.1 Системы и средства корпусного анализа

2.2 Платформа TXM

2.2.1 TXM

2.2.2 TreeTagger

2.2.3 Интеграция c TXM

2.3 Инструменты количественной оценки

2.3.1 Показатель специфичности

2.3.2 Анализ соответствий

3. Анализ корпусов противоправных и нейтральных текстов

3.1 Описание корпуса текстов

3.2 Факторный анализ соответствий корпуса противоправных текстов

3.3 Анализ специфичности корпуса противоправных текстов

3.4 Выводы по результатам анализа

Заключение

Список использованной литературы

Введение

противоправный текст компьютерный лингвистика

Автоматизированный анализ текстов, который позволяет упростить работу с данным видом информации, становится все более востребованным с ростом объемов текстов в открытом доступе. Системы и средства анализа текстов используются и в экспериментальной, и в практической среде. Яркими примерами являются поиск информации, связь и общение посредством текстовых сообщений, автоматизированные процессы работы с документами в электронной форме, анализ данных, разделение текстов на группы, исследование языка.

Сложные прикладные задачи в области исследования языка включают в себя аналитическую работу над большими объемами текстовой информации. Необходимость подобного анализа породила корпусную лингвистику - самостоятельный раздел прикладной лингвистики. Так, корпуса, обладающие ключевым отличием от текстов - аннотацией, собираются и обрабатываются исходя из целей исследования, а единицы текста (слова, предложения, словосочетания) наделяются лингвистической информацией.

Аннотирование текстов грамматическими, морфологическими, синтаксическими и иными свойствами является не шаблонной задачей. Причина этому кроется в приспособленности автоматических средств аннотации к сравнительно простым задачам и для небольшого числа языков. Таким образом, возникает необходимость в программном обеспечении, обладающем широким набором функций, такими как автоматический поиск, сравнение языковых конструкций, вычисление количественных и статистических данных, выделение частей корпуса по определенным параметрам и др.

Аналитическая часть данной работы проведена на основе платформы TXM [1], предоставляющей большой набор функций для корпусного анализа. Важным преимуществом данного программного комплекса является возможность внедрения расширений. Так, в ходе анализа были также применены расширения, предоставляющие функции автоматического морфологического анализа словоформ и приведения их к начальной форме, выделения псевдооснов (подобие корня слова), выделения именных групп совмещения полученных результатов данных расширений. Подход выделения псевдооснов слов с использованием метода структурных схем предоставляет возможность анализа текстовых конструкций, основанного не просто на точных словоформах, но и на более сложных запросах к корпусу с сочетанием псевдооснов и грамматических характеристик слов. Кроме того, метод структурных схем хорошо масштабируется и в перспективе можно говорить о расширении данного средства корпусного анализа на другие языки.

Применение встроенных средств анализа платформы TXM в совокупности с добавленными расширениями позволяет выделять дифференцирующие признаки подкорпусов, решает задачу классификации текстов по тематикам, позволяет создавать обучающие выборки для задачи распознавания неструктурированных данных.

В практической части работы была исследована выборка текстов (корпусов) противоправного содержания. С помощью упомянутых функций было наглядно продемонстрировано различие подкорпусов экстремистских текстов и подкорпуса нейтрального содержания. Учитывая распространенность текстов противоправной направленности в открытом доступе в последние годы, выделение дифференцирующих признаков для противоправных текстов является актуальной темой с точки зрения задачи распознавания.

Резюмируя вышесказанное, целью работы является создание и анализ корпусов текстов нейтральной и противоправной тематики на основе платформы TXM и интегрированных расширений. В основе исследования лежит гипотеза о возможности использования средств корпусного анализа для решения задачи распознавания текстов противоправного содержания.

В рамках достижения данной цели были определены следующие задачи:

· Изучить состояние развития компьютерной лингвистики стране и мире и, в частности, в области анализа противоправных текстов;

· Проанализировать существующие системы и средства анализа корпусов;

· Описать существующие аналитические инструменты TXM и внедренные функции;

· Проанализировать корпуса противоправных и нейтральных текстов, выявить возможность использования платформы для создания обучающих корпусов текстов противоправного содержания и их применения для решения задачи распознавания.

· Разработать методику выделения с использованием платформы TXM дифференцирующих признаков текстов на естественном языке.

Исходя из поставленных задач, первая глава посвящена исследованию современного состояния компьютерной лингвистики и обзору отечественных и зарубежных статей в области исследования противоправных текстов. Во второй главе проанализированы широко используемые на сегодняшний день системы и средства анализа текстовых корпусов. Заключительная глава работы содержит анализ корпусов экстремистских и нейтральных по смысловой тематике текстов на основе платформы TXM и ее расширений.

В качестве основных источников информации была использована литература по теории компьютерной лингвистики и многочисленные статьи в области исследования задачи распознавания текстов противоправной тематики. Кроме того, применялись данные с официальных интернет-страниц и инструкции исследуемых программных обеспечений.

1. Компьютерная лингвистика

1.1 Понятие компьютерной лингвистики

Компьютерная лингвистика - научная дисциплина, исследующая тему автоматического машинного перевода и смыслового восприятия электронным оборудованием текста на естественном языке.

Что касается термина «прикладная лингвистика», то в отечественной и западной науках он носит разные по смыслу значения. Запад относит данное понятие к преподаванию иностранных языков, в том числе методику преподавания и описание грамматики для учебных целей. Русскоязычная литература нередко ставит в один ряд и заменяет термин «прикладная лингвистика» на «компьютерная лингвистика», «вычислительная лингвистика», «автоматическая лингвистика» и даже «инженерная лингвистика». Тем не менее, эти понятия являются скорее не синонимичными и взаимозаменяемыми, а отдельными дисциплинами со своими предметами и методами исследования в рамках прикладной лингвистики [2].

Главные научные проблемы и в то же время задачи компьютерной лингвистики - это моделирование процесса понимания смысла и синтеза речи, то есть перехода от текста на естественном языке к формализованному представлению его смысла и наоборот. Широко распространены эти проблемы в задачах автоматического обнаружения и коррекции ошибок при вводе текста с устройств, анализа и синтеза устной речи, автоматического перевода, задания команд для ЭВМ на естественном языке, классификации и индексирования, поиска документов в базах данных.

Частями лингвистических средств, которые создаются и применяются в компьютерной лингвистике, являются:

· декларативная часть - словари единиц языка и речи (морфем, словосочетаний, фраз), тексты, грамматические таблицы;

· процедурная часть - средства манипулирования единицами языка и речи, текстами и грамматическими таблицами.

На успешность решения прикладных задач компьютерной лингвистики влияет полнота и точность декларативных средств в памяти электронного устройства и качество процедурных средств. Также важным фактором является правильная оценка требуемого соотношение этих двух компонент [3].

1.2 История возникновения и развития компьютерной лингвистики

1954 год можно по праву считать годом рождения компьютерной лингвистики. Именно тогда в стенах Джорджтаунского университета (США) на английской машине IBM-701 впервые в мире состоялся публичный эксперимент по машинному переводу. Система включала в себя словарь из 250 слов и 6 правил, которые давали возможность перевода предложений с простыми структурами.

В тот же период в Москве было положено начало активным работам по машинному переводу под руководством математика и кибернетика Алексея Ляпунова. Созданная им группа включала, в частности, на тот момент студентов и аспирантов, а в будущем «родителей» отечественной компьютерной лингвистики Игоря Мельчука и Ольгу Кулагину.

Но стоит отметить, что фундамент для успехов закладывался еще в 1920-х годах при проведении в России активных исследований в области семиотики текста, то есть исследовании знаков и знаковых систем. При этом, в мире подобное изучение было развернуто лишь к началу 1960-х годов, и оно имело тесную связь с работами Романа Якобсона - основателя структурной лингвистики, который эмигрировал из России в 1920 году.

Стремительное развитие семиотики поспособствовало сближению лингвистики и математики в 1950-60-е годы на основе популярного в то время структурализма, а успешность формального подхода в описании языка показала трансформацию чисто гуманитарной дисциплины в строгую науку. Эти идеи влекли за собой объединение лучших в своих областях ученых, таких как математик Владимир Успенский и лингвист Вячеслав Иванов. Успенский именовал двадцатилетие 1956-1976 «серебряным веком» структурной, прикладной, математической лингвистики в СССР, аналогично «серебряному веку» русской поэзии.

1956 год ознаменован началом функционирования первой отечественной системы машинного перевода с французского на русский в Институте прикладной математики им. М. В. Келдыша. Примечателен тот факт, что с точки зрения математиков, алгоритмы машинного перевода рассматривались в качестве частных случаев алгоритмов перекодирования.

Невозможно переоценить значимость разработанного Алексеем Ляпуновым и Ольгой Кулагиной теоретико-множественного представления грамматических категорий языка. Огромное значение имели труды Игоря Мельчука в области автоматического грамматического анализа. Главная проблема состояла в том, что аппарат теории формальных языков хорошо подходил для искусственных языков, таких как языки программирования, но при этом не был результативно применим при анализе естественных языков и построении системы машинного перевода. Все дело в том, что в основе естественного языка лежит буквальная семантика, в которую заложено человеческое восприятие смысла текста, а для автоматического перевода необходимо как раз описание смысла, а не просто формальная запись фразы.

Теория «Смысл-Текст», разработанная Игорем Мельчуком и Александром Жолковским, стала большим прорывом в формировании строгой концептуальной системы, применяемой в анализе естественного языка. В 90-х годах на Западе вышла пятитомная фундаментальная монография эмигрировавшего Мельчука «Курс общей морфологии». В основе его теории лежит возможность построения формального семантического языка, описывающего смысл текста, что значительно расширяет горизонты анализа текстов и машинного перевода. Решением этих задач, путем разработки системы машинного перевода ЭТАП, занимался коллектив, возглавляемый академиком Юрием Апресяном. На сегодняшний день лаборатория Института проблем передачи информации РАН ведет важные работы по этой тематике. Эти и другие исторические события на пути формирования компьютерной лингвистики подробно описаны в [4].

Одним из современных коммерческим отечественных продуктов в области машинного перевода является интернет-переводчик PROMT Internet Translation Server компании ПРОМТ, которая была образована в 1991 году. Инструмент реализует мгновенный перевод веб-страниц, запросов к поисковым системам и базам данных в интернете.

1.3 Теоретические аспекты корпусной лингвистики

1.3.1 Морфология словарная

Во время анализа содержания текста зачастую рациональным и удобным подходом является рассмотрение различных словоформ одной лексемы в качестве различных употреблений одного и того же с лексической точки зрения слова. Подход автоматического морфологического анализа словоформ с дальнейшим приведением к канонической форме (лемме) предложен в [4].

Представление словоформы в качестве начальной формы предоставляет возможность анализа элементов словоизменительной парадигмы в качестве одной и той структурной единицы текста. Благодаря этом повышается точность статистического анализа текстовой информации, как то, при рассмотрении частот лексем в сравнении с частотами отдельных словоформ.

Автоматический анализ словарной морфологии, применяемый в работе, основывается на словаре Зализняка (1977) [5]. Его особенностью является отражение словоформ и их грамматических помет. Применяемая там морфологическая модель определяет каждое слово к одной из 24-х морфологических категорий, которые близки к традиционным частям речи и характеризуемым грамматическими свойствами (род, число, падеж, наклонение и др.):

0. Неизменяемое слово

1. Существительное

2. Прилагательное

3. Глагол несовершенного вида

4. Предлог

5. Глагол совершенного вида

6. Количественное числительное

7. Порядковое числительное

8. Местоимение

9. Местоименное прилагательное

10. Собирательное числительное

11. Сокращение

12. Латинское слово

13. Аббревиатура

14. Фамилия

15. Имя

16. Отчество

17. Причастие

18. Союз

19. Наречие

20. Частица

21. Междометие

22. Топоним

23. Субстантивированное прилагательное

Словарная морфология русского языка в программной реализации основана на представлении словаря в особой структуре «бор». Это дает возможность поиска словоформ за время, линейное числу букв в словоформе. Таким образом, у каждой словоформы отражены грамматические характеристики, информация о ее канонической форме и основе словоформы.

1.3.2 Псевдоосновы

Словарная морфология не дает возможность анализировать неологизмы и жаргонизмы, которые широко распространены в комментариях и сообщениях сети интернет. Исходя из этого, при анализе коротких текстов из интернета, целесообразно применять метод выделения псевдооснов, которые являются формальным аналогом корня слова.

В основе этого способа выделения псевдооснов лежит метод структурных схем, подробно описанный в [6,7]. Этот метод характеризуется способом получения псевдоосновы способом выделения и отбрасывания словоизменительных аффиксов. При этом словообразовательные аффиксы являются корневой частью и остаются в составе псевдоосновы. Для каждого слова можно определить его последовательность аффиксов, называющихся структурами некорневой части слова, этим и обусловлено название данного метода. Аффиксы здесь традиционно делятся на префиксы и суффиксы исходя из их расположения по отношению к корню слова. Соответственно, псевдоосновой считается часть слова без префиксов и суффиксов. Она не всегда является точной копией традиционной основы слова, так как при автоматическом выделении не исключены случаи неточного распознавания аффиксов, либо отнесения к аффиксам части корня слова. Метод автоматического определения псевдооснов заключен в сравнении данной для анализа словоформы с множеством возможных структур некорневой части слова в рассматриваемом языке.

Русский язык характеризуется словоизменительной функцией префикса, исходя из этого практическая реализация метода заключается в отбрасывании суффиксов. Также стоит отметить, что исключение из слова элементов схожих с аффиксом влечет за собой неточные результаты с позиции лингвистического анализа. Тем не менее, это не сказывается на корректности статистических показателей анализа.

1.3.3 Именные группы

Анализ именных групп помогает извлечь больше информации о специфическом содержании текста. Данное понятие подразумевает под собой группу слов, где славное слово является существительным, остальные находятся с ним в подчинительных синтаксических связях. Анализ частотных именных групп и их сочетаний наряду с исследованием одиночных словоупотреблений более обширно демонстрирует семантические и стилистические свойства текстовой информации, относящейся к ее содержанию.

Основная трудность в выделении именных групп - не единственный вариант морфологического разбора при омонимии (совпадение языковых единиц слов в звучании и написании при различающихся значениях). Данный метод подразумевает исследование всего набора возможных морфологических разборов слова.

Алгоритм выделения именных групп опирается на [8] и детально рассмотрен в [4]. При том, что текст разбит на предложения, метод функционирует в три этапа:

1. Установление подчинительных синтаксических связей в предложении.

2. Установление синтаксических связей в конструкциях с однородными членами.

3. Выделение именных групп.

1.4 Обзор литературы в области анализа текстов противоправного содержания

Российская наука характеризуется явным преобладанием исследований экстремизма с теоретической точки зрения. Тем не менее, авторы констатируют необходимость в программном обеспечении для экспертов [9,10].

Исследование [11] описывает тему противодействия экстремизму и терроризму в интернете. В ходе работы рассмотрено российское законодательство в этом вопросе, судебные дела и прокурорский надзор за исполнением законов о противодействии киберэкстремизму и кибертерроризму. Также выдвинуты рекомендации для оптимизации вопроса прокуроского надзора в анализируемом контексте.

Исследование [12] демонстрирует набор возможных методов для автоматизации поиска информации противоправного содержания в интернете. Также здесь изложен способ выявления пользователей, склонных к противоправным действиям, основанный на количественном анализе их текстов.

Работа [13] содержит описание методов выявления в сети сообщений, документов, ресурсов, отражающих противоправное содержание и обнаружения пользователей и сообществ социальных сетей, которые занимаются распространением этой информации. Предложенные коллективом методы можно отнести к семантическому поиску схожих документов. Из документа-образца выделяются ключевые слова, исходя из них производятся поисковые запросы для социальной сети, найденные документы проверяются путем расчета оценки релевантности образцу. Продуктом данного исследования является программный прототип с реализацией предложенных подходов, а также эксперимент анализа реальных данных из сети.

Исследование [14] посвящено автоматизированной системе кластеризации, выданных по запросам, интернет-документов по тематикам наркоторговли, терроризма и экстремизма, отсеивая не подходящие ни под одну из групп. Далее отобранная системой информация проверяется экспертом.

Исследование авторов из Казахстана [15] посвящено автоматическому поиску текстов противоправного содержания на казахском языке. Авторы создали тестовый корпус из 150 текстов, включая 80 противоправных. На основе этого собраны словари ключевых для экстремистской тематики слов, а также создан инструмент автоматического поиска этих слов в документе.

Работа [16] посвящена системе машинного обучения, осуществляющей поиск людей, занимающихся пропагандой противоправных действий в сети, и строят прогноз относительно реакции других пользователей на данную информацию (вероятность репостов противоправного контента и начало экстремистской деятельности в сети), основываясь на их личных характеристиках. В исследовании применялась уникальная выборка их миллионов твитов, авторами которых являются 25 тысяч замеченных в экстремистских кампаниях и заблокированных ввиду этого. А также миллионы твитов, входящих в случайную выборку из 25 тысяч пользователей, которые получали информацию противоправного содержания и применяли ее в своих профилях.

Авторы работы [17] проанализировали огромное количество теоретических социально-психологических и лингвистических исследований в области противоправной деятельности. Детально изучены вопросы мотивов людей к «радикализации» (нищета, дискриминация, неудачная интеграция); уровни распространения экстремизма (индивидуальный, групповой, глобальный); этапы процесса (предварительная радикализация, самоидентификация, индоктринация, джихадизация); варианты проявления уровней и этапов радиакализации отдельно взятого субъекта в сети. Все эти вопросы заложены в основу методов автоматического обнаружения экстремизма и предсказания его влияния на пользователей.

Труды [18] посвящены вероятностной оценке радикализации отдельно взятого пользователя исходя из данных о присутствии в его текстах черт фрустрации, дискриминации, замкнутости, оценок западного общества, ислама и джихадизма. Для этого был создан набор признаков для оценки радикализации в сети. Тестировались 3 выборки: набор данных из открытого доступа; собранная волонтерами выборка во врем проведения акции #OpISIS (движение борьбы с ИГИЛ); а также набор данных, самостоятельно отобранный авторами в Твиттере.

Из проведенного обзора текущих исследований по данной тематике стоит отметить тот факт, что в исследованиях наблюдается некоторая ограниченность, связанная с созданием текстовых выборок противоправной тематики для обучения программ с целью решения задачи распознавания и выделения дифференцирующих признаков.

В приведенных публикациях нет полноценных, комплексных решений для выявления (классификации) текстов по сложным для анализа, трудноразличимым тематикам. Отсюда возникает потребность разработки методик выявления, в частности, противоправных текстов. Так, для решения задач классификации текстов по сложным и трудноразличимым тематикам нужно понимать какие дифференцирующие признаки необходимо использовать.

Таким образом, в данной главе была рассмотрена суть понятия «компьютерная лингвистика»; важнейшие этапы в становлении и развитии этой научной дисциплины; объекты корпусной лингвистики, применяющиеся в практической части работы; последние исследования отечественных и зарубежных ученых в области анализа экстремистских текстов; а также сделаны выводы о векторах развития в решении задачи классификации текстов.

2. Инструменты анализа корпусов текстов

2.1 Системы и средства корпусного анализа

UIMA

UIMA (Unstructured Information Management Architecture) [19-22] - система анализа корпусов, важной чертой которой, помимо широкого набора средств анализа корпусов, является наличие продуманной системы взаимосвязанных интерфейсов, определяющих различные виды компонент, отвечающих за обработку, аннотирование и анализ неструктурированных текстовых данных. UIMA предоставляет собственную реализацию интерфейсов, но также допускает и расширение за счет реализации интерфейсов сторонними разработчиками, что обеспечивает существенную гибкость и расширяемость системы в целом. Наличие такой системы интерфейсов - отличительная черта системы UIMA в ряду рассматриваемых в настоящем обзоре программных решений.

Встроенные реализации интерфейсов UIMA поддерживают импорт корпусов как из текстовых данных, так и путем обхода веб-страниц. Также реализованы разложение предложение на слова, числа, знаки препинания, выделение корня слова, морфологический разбор с определением нормальной формы слова, определение частей речи, различных сущностей, таких как e-mail адреса, URL, телефонные номера и т.п., определение именованных сущностей, идентификация языка, выделение ключевых слов.

UIMA использует модульный подход анализа текста, порядок анализа может быть следующим:

· идентификация языка;

· определение границ предложений, слов;

· определение частей речи;

· обнаружение именованных сущностей (имени человека, названия места и т.д.);

· определение дат;

· определение логических связей: дата - субъект - действие - объект - характеристика.

Для обнаружения и извлечения метаданных и структурированного текстового контента из различных документов используется библиотека Apache Tika. Канал pipeline состоит из компонентов-аннотаторов, каждый из которых производит определенную операцию над текстом. Пользователь также может писать свои собственные аннотаторы.

Имеются реализации на C++ и Java. Также в UIMA входит интегрированная среда разработки и средства для развертывания в клиент-серверном или кластерном варианте.

Аннотатор Apache UIMA AlchemyAPI [23] может быть использован для определения языка текста, HTML, или веб-содержимого. AlchemyAPI поддерживает более 95 языков, в том числе русский. Наличие других функций для языков зависит от наличия соответствующего аннотатора. Так, для русского также реализована функция выделения основ с помощью Snowball Annotator.

C UIMA интегрирован корпус CRAFT (the Colorado Richly Annotated Full Text Corpus) [24], состоящий из 67 биомедицинских текстовых статей, суммарно более 560 000 слов, чисел и знаков, более 21 000 предложений.

Также UIMA обладает всеми инструментами для обработки файлов аннотаций корпуса OANC (the Open American National Corpus) [25] - обширной коллекции американского английского, включающей тексты всех жанров и стенограмм, выпущенных с 1990 года.

Корпус включает 15 млн слов современного американского английского с автоматически создаваемыми аннотациями различных языковых явлений (OANC), а также 500 000 слов разделенных на 19 жанров американского английского (MASC).

GATE

Система GATE (General Architecture for Text Engineering) [26,27] по предоставляемым возможностям анализа корпусов не уступает UIMA, однако, не предлагает, как UIMA, системы интерфейсов, реализована на Java. Есть возможность взаимодействия между GATE и UIMA, а также включения компонент систем в приложения друг друга.

Корпус в GATE - конфигурация Java, состоящая из документов. Данная система анализа корпусов описывает текстовые документы, корпусы и аннотации к документам на основе пар атрибут/значение. Именами атрибутов выступают строки, значениями могут быть любые объекты Java.

Аннотации строятся для описания иерархического разложения текста. Простой пример - разложение предложения на числа, знаки препинания, слова, более сложный - полный синтаксический анализ, в котором предложение разбивается на словосочетания и фразовые глаголы, фразовые глаголы - на глагол и его дополнение, и так далее вплоть до уровня отдельных слов и знаков.

Слово здесь определяется как любое множество смежных букв верхнего или нижнего регистра, включая дефис (но не другие виды пунктуации).

Tagger является модифицированной версией Tagger Brill, который создает метку части речи, как аннотацию к каждому слову или символу. Он использует стандартную лексику и набор правил, является результатом обучения на большом корпусе, взятом из Wall Street Journal.

Особенностями GATE является наличие встроенного облачного решения, возможность визуализировать и редактировать онтологии, возможность расширения за счет написания сценариев на языке Groovy или путем написания и подключения плагинов, интеграция с различными пакетами машинного обучения (Weka, Light SVM, …).

GATE сопровождается полнофункциональной системой поиска информации. Благодаря этому документы могут быть извлечены из корпусов не только на основе текстового контента, но также опираясь на их свойства или аннотации.

GATE может читать сообщения электронной почты, собранные в один документ (формат почтового ящика UNIX). Он обнаруживает множество сообщений внутри таких документов, для каждого сообщения создает аннотации для всех полей, таких как адрес электронной почты, дата, отправитель, получатель, тема и т.д.

Система использует библиотеку Apache Tika, что обеспечивает поддержку документов PDF и ряда других форматов документов, таких как Microsoft Office и OpenOffice. Это происходит путем преобразования структуры документа в HTML, которая затем используется для создания документа GATE.

Помимо английского, в GATE доступны плагины для обработки французского, немецкого, итальянского, датского, китайского, арабского, румынского, хинди, русского, валлийского и себуанского языка. Некоторые из приложений данных языков довольно простые и содержат лишь часть инструментов обработки текстов. Так, в плагин русского входят пользовательские компоненты для определения тегов части речи, морфологический анализ и определение имен сущностей в тексте на основе заданных списков (например, список названий городов, организаций, дней недели и т.д.).

Упомянутый ранее проект по созданию корпуса текстов американского английского [25] получил техническую поддержку от разработчиков GATE. Система использовалась для подготовки всех данных и аннотаций корпуса, поэтому GATE является спутником для многих задач обработки, предусмотрено несколько плагинов, которые позволяют системе обрабатывать документы корпуса, загружать и сохранять аннотации.

IBM LanguageWare Resource Workbench

Система анализа корпусов [28], которая также реализована на Java, предлагающая основанную на Eclipse интегрированную среду разработки и в целом имеющую схожую с GATE функциональность. Также обладает возможностью буквально в несколько кликов создавать и применять аннотаторы UIMA, которые могут осуществить операции от простого поиска до куда более сложного синтаксического и семантического анализа текстов.

Отличительными чертами являются возможность автоматической расстановки переносов, извлечения отношений, нечеткого поиска по корпусу (Troussov, Sogrin, Judge, Botvich, 2008).

Для арабского, китайского упрощенного, китайского традиционного, датского, голландского, английского, французского, немецкого, итальянского, японского, португальского и испанского языка доступен полный набор функций IBM LanguageWare Resource Workbench. По запросу могут быть предоставлены лексические словари африкаанс, каталанского, греческого, норвежского (букмол), норвежского (нюнорск), русского и шведского языка. Эти словари предоставляются как есть, без обслуживания и корректировки).

IntelliText

Данный проект направлен на содействие использованию текстовых корпусов учеными в различных областях гуманитарных наук.

В IntelliText разработан удобный интерфейс корпуса. Набор функций в целом повторяет функциональность рассмотренных ранее систем. Также реализован возможность поиска по аффиксам и средство для многофакторного анализа корпусов.

Существенным отличием от многих систем анализа корпусов является доступность системы в онлайн режиме. Там же реализован и доступ к корпусам, для которых есть возможность анализа на данной платформе. Представлены корпуса на арабском, китайском, английском, французском, немецком, итальянском, японском, каннадском, литовском, португальском, испанском, украинском и русском, есть несколько примеров параллельных (переведенных) корпусов, реализованных на двух языках сразу [31]. Также через систему реализуется доступ к British National Corpus [32].

Unitex/GramLab

Технология Unitex/GramLab Natural Language Processing [33,34] позволяет обрабатывать электронные ресурсы, такие как электронные словари и грамматики, и применять их к тексту для быстрой обработки и анализа.

Отличительной чертой системы является представление синтаксических свойств элементов языка с помощью лексико-грамматических таблиц [35] и параметризованных графов, в которых переменные ссылаются на столбцы (свойства) из таблиц [36]. Поддерживает поиск по корпусу с помощью регулярных выражений с учетом морфологических, грамматических и семантических характеристик слов.

Визуальная интегрированная среда разработки Unitex/GramLab позволяет пользователям легко проектировать и применять языковые ресурсы к текстовым файлам. Более того, проектно-ориентированная перспектива позволяет запускать проекты одним щелчком.

Unitex/GramLab Core NLP Engine реализован на C++, а Visual IDE на Java. Это позволяет разрабатывать приложения на базе Unitex в любой системе, поддерживающей Java 1.7, компилировать их с помощью любого стандартного C++ -совместимого компилятора и запускать на Windows, Linux, MacOS.

Система работает с электронными словарями, созданными международной сетью лабораторий RELEX, специализирующихся на компьютерной лингвистике.

К сожалению, система не предлагает средств для статистического / количественного / качественного анализа корпусов.

В настоящее время доступен анализ и обработка для более чем 22 языков, в том числе русского. Реализована мультиязычность, Unitex/GramLab соответствует стандарту Unicode 3.0, который позволяет обрабатывать практически все символы всех языков, включая азиатские.

IMS Corpus Workbench

IMS Corpus Workbench [37] является развитым семейством систем анализа корпусов являются системы, поддерживающие язык запросов к корпусу CQL.

Пожалуй, наиболее примитивным, но достаточно распространенным решением является IMS Corpus Workbench [38] - мощная и гибкая система индексации и поиска в корпусных данных. Она состоит из поискового механизма CQP, реализующего возможность производить запросы к корпусу на языке CQL, средств для построения индекса для CQP, в качестве интерфейса для запросов доступен веб-сервер или интерфейс командной строки.

IMS Corpus Workbench состоит из набора инструментов для индексации, управления запросами. CQP (Corpus Query Processor) - основной элемент системы анализа корпусов, реализует двухуровневый поиск, позволяющий указывать сложные шаблоны запросов как на уровне отдельного слова или аннотации, так и на уровне полностью или частично указанного слова, числа либо знака [39].

Поддерживает большие корпуса объемом до 2 млрд слов, обработку русскоязычных корпусов, аналогично упомянутым ранее системам также есть несколько видов аннотации на уровне слов - метки части речи, выделение основной словоформы, семантические метки.

British National Corpus [32] был переписан как приложение CWB с целью увеличения скорости запросов и удобства интерфейса. Ярким примером русскоязычных корпусов, реализованных в системе, является проект Serge Sharoff's corpus collection [40], в котором есть корпуса таких сайтов как Livejournal, VKontakte, Wikipedia и других. Многие корпуса, доступные в обработке в онлайн режиме реализованы на IMS Corpus Workbench.

Manatee/Bonito

Существенно более продвинутой системой, опирающейся на CQL, является Manatee [41]. Особенностями Manatee являются поддержка большого числа форматов и кодировок импорта корпусов, аннотирование корпуса неоднозначными значениями атрибутов. Также реализовано объединение по автору, теме, жанру, источнику информации, определение элементарной единицы текста (обычно слово), получение текстовых фрагментов по запросу (конкорданс), количественные и частотные характеристики.

Система разработана модульным подходом, есть библиотека для сжатия, построения и извлечения индексов, модуль оценки запросов, анализатор запросов, который преобразует их в абстрактные синтаксические деревья. Графический интерфейс для Manatee представляет из себя отдельный продукт - Bonito [41].

Sketch Engine

Коммерческим развитием Manatee и Bonito является проект Sketch Engine [42,43]. Он предоставляет дополнительно такие возможности как отображение в интерфейсе (в том числе двуязычных) карточек слов (word sketches) интегрирующих их характеристик, сравнение карточек слов, тезаурус, извлечение терминологии (в том числе в двуязычном режиме), работа с n-граммами, нахождение трендов/неологизмов в корпусе, поддержка в языке запросов CQL тезауруса, карточек слов и терминов.

Sketch Engine поддерживает более 90 языков и около 20 систем письменности. Содержит 500 готовых к использованию корпусов, в том числе русскоязычные, каждый из которых имеет размер до 30 миллиардов слов.

У Sketch Engine имеется некоммерческая версия, предоставляющая только функциональность Manatee + Bonito и являющаяся продолжением развития этих двух проектов [43].

KonText

KonText [44] является альтернативным и довольно проработанным интерфейсом для Manatee. В отличие от предыдущего интерфейса NoSketchEngine, KonText имеет горизонтальное меню, отсортированное по двум уровням. Основные функции можно найти на иерархически более высоком уровне, который доступен при возможности применения функций, нижний уровень содержит более детальные и специальные параметры.

В основе KonText - серверные библиотеки системы NoSketch Engine. Система поддерживает разговорные корпуса, предлагает полностью редактируемую цепочка запросов, возможность проиграть конкордансы как аудио, возможность отправить постоянную ссылку на большой запрос другому пользователю, улучшенное средство создания подкорпусов (с помощью фильтрации по значениям атрибутов текстов или даже по распределению значений атрибутов), интерактивное средство частеречной разметки, экспорт таблиц конкордансов / частот / совместного появления в Excel.

KonText реализован на Python, поддерживает английский и чешский язык.

Основным проектом, реализованным в системе, является Чешский Национальный Корпус [45]. Объем корпуса - более 9 млрд словоупотреблений. В его состав входит корпус письменных (2,7 млрд словоупотреблений) и устных (4 млн) текстов, диахронический корпус (1,95 млн), корпус иностранных языков (6,25 млрд), параллельный корпус (92 млн). Основная масса текстов получены в электронной форме от издательских домов и частных владельцев, газет и словарей.

CLaRK

CLaRK [46] - основанная на XML и реализованная на Java программная система для создания корпусов текстов. Авторы проекта ставят основной целью создание средства для минимизации человеческого вмешательства в процесс создания языковых ресурсов.

Для управления документами, их хранения и выполнения запросов используется XML-технология, что вызвано ее распространенностью и простотой понимания. Ядро CLaRK - это Unicode XML Editor, являющийся основным интерфейсом системы. Помимо самого языка XML внедрен язык XPath для навигации по документам и язык XSLT для преобразования документов.

Для мультиязычных задач обработки данное средство разработки корпусов основано на Unicode-кодировке информации внутри системы. Также есть механизм создания иерархии токенизаторов.

Основной механизм CLaRK для лингвистической обработки текстовых корпусов - каскадный процессор регулярной грамматики. Главный вопрос для рассматриваемых грамматик заключается в том, как применять их в XML-кодировке лингвистической информации. Данная система предлагает решение с использованием языка XPath для построения входного слова и XML-кодирования категорий распознанных слов.

В данном средстве разработки реализованы следующие ограничения: ограничения регулярного выражения (дополнительные ограничения на содержимое на основе контекста); ограничения по количеству содержимого документа; ограничения возможных содержимых значений. Ограничения функционируют в двух режимах: проверка соответствия документа относительно ограничений, техническая поддержка для лингвиста во время формирования корпуса.

Система подразумевает следующие варианты использования:

· Разметка корпуса с помощью инструментов XML, требующая больших усилий пользователя во время разметки и проверки после;

· Сборник словарей для пользователя. Система поддерживает создание фактических лексических записей. XML-инструменты также используются для исследования корпуса, что дает соответствующие примеры использования слова в доступных корпусах.

· Работа с корпусом. Данное средство анализа предоставляет большой набор инструментов для поиска и разметке в корпусах, в том числе каскадные грамматики и язык XPath, комбинация которых применяется для извлечения элементов из корпуса.

Инструмент доступен на болгарском и английском.

С помощью данного средства реализованы следующие ресурсы на болгарском языке:

· Список частот из 100 000 элементов на кириллице.

· Список стоп-слов.

· Морфологический анализатор - Словник. Это система для морфологического анализа и генерации, основанная на (Popov, Simov, Vidinska, 1998) и разработанная в OntoText Lab. Система распознает словоформы более 110 000 болгарских лексем и присваивает соответствующие им морфологические характеристики.

· Нейронная сеть MorphoSyntactic на сегодняшний день включает около 2600 предложений, извлеченных из газет, рассказов, учебников, которые демонстрируют некоторые из наиболее частых двусмысленностей на морфосинтаксическом уровне. Нейронная сеть обучена на 1500 предложений, приведенных в разном порядке с разным количеством неоднозначных слов. В результате сеть предсказала правильную часть речи для 95,25% слов в предложениях корпуса.

· Болгарский национальный корпус - это множество болгарских текстов, включающее более 400 000 000 элементов, преимущественно из сети, которые в дальнейшем планируется пометить морфологическими данными.

UAM

UAMCorpusTool [47] - современная среда для аннотирования текстовых корпусов.

Предоставляет следующие технические возможности:

· Аннотация множества текстов с использованием одних и тех же схем разметки;

· Аннотация текста на нескольких уровнях (словосочетание, предложение, весь текст);

· Поиск отдельных экземпляров по уровням;

· Сравнительная статистика по подмножествам;

· Все аннотации хранятся в XML-файлах что означает возможность легкого использования в других приложениях;

· «Автономный» XML, что означает, что файлы аннотаций не содержат текст, только указатели на текст, что позволяет проводить многократный анализ одного и того же текста.

Удобным инструментом является создание схемы аннотации с помощью графического редактора схем, который допускает перекрестную классификацию, а также суб-спецификацию. Любое изменение в схеме (например, удаление и переименование функции) автоматически обновляет все файлы аннотации в проекте.

Данное средство для разметки корпусов реализовано для Windows и Mac OS.

OpenNLP

Apache OpenNLP [48] - основанный на машинном обучении и реализованный на Java инструментарий для обработки текста на естественном языке. Пакет предоставляет API и интерфейс для работы из командной строки. Возможна интеграция с системой анализа текстов UIMA.

Пакет предоставляет следующие функции: определение языка, выделение предложений, деление документов на категории, частеречная разметка, сегментация, разбор текста, выделение кореферентных высказываний, также допустимы ссылки.

2.2 Платформа TXM

2.2.1 TXM

Платформа TXM, начало разработки которой было положено в 2007 году, является программным обеспечением с открытым кодом. Главными функциями TXM является подготовка, обработка, анализ и публикация корпусов среднего объема (до 10 000 000 словоупотреблений). Сегодня платформа разрабатывается в лаборатории «Institut d'Histoire des Reprйsentations et des Idйes dans les Modernitйs» Высшей нормальной школы Лиона и Национального центра научных исследований Франции и лаборатории «Edition, Littйratures, Langages, Informatique, Arts, Didactique, Discours» (ELLIAD) университета Франш-Комте.

Аналитическая платформа распространяется свободно на основе Стандартной общественной лицензии GNU (GPL). Доступна на Linux, Windows и Mac OS, а также в форме приложения в сети. Исходный код доступен на портале sourceforge.net.

В состав TXM входит поисковой механизм CQP, платформа R [49] для статистического анализа и пакет автоматической морфологической разметки и лемматизации TreeTagger [50]. Реализована поддержка широкого спектра форматов входных корпусов - от текста до TEI XML. Важным качеством является гармоничное сочетание качественного и количественного анализа. Здесь реализована возможность перехода от инструментов статистики, как то, факторный анализ и специфичность, к конкордансам важных в рамках анализа словоупотреблений и к более широкому контексту с сохранением при этом деталей текстового оформления (шрифт, иллюстрации, расположение на странице) и сохранением доступа к факсимильному изображению исходного документа.

2.2.2 TreeTagger

В работе также применен программный пакет TreeTagger, который дает возможность проведения совместного морфологического анализа слов предложения исходя из модели статистики. Суть применяемой технологии заключается в сопоставлении словоупотреблений, наделенных метками, которые, в свою очередь, содержат закодированные морфологические характеристики. Данный программный пакет также реализует лемматизацию - определение канонических форм слов.

К преимуществам TreeTagger можно отнести однозначность морфологического анализа, что обусловлена учетом всех слов предложения в совокупности при данном анализе. Тем не менее, при подобном подходе есть вероятность ошибок, возрастающая при наполненности текста большим количеством неологизмов, сленга и нестандартных написаний слов.

2.2.3 Интеграция c TXM

Для анализа применялись описанные средства, объединенные в набор утилит. Это предоставляет возможность вычисления корпусных характеристик обширного множества языковых единиц, такие как:

1. Словоформы исходного корпуса;

2. Канонические формы слов согласно словарной морфологии;

3. Морфологические данные слов согласно словарной морфологии;

4. Канонические формы слов, полученные с помощью TreeTagger;

5. Морфологические данные, полученные с помощью TreeTagger;

6. Псевдоосновы слов;

7. Именные группы, сформированные из словоформ (1), вместо отдельных словоупотреблений;

8. Именные группы, сформированные из канонических форм (2), вместо отдельных словоупотреблений;

9. Именные группы, сформированные из морфологических данных (3) вместо отдельных словоупотреблений;

10. Именные группы, сформированные из канонических форм, полученных с помощью TreeTagger (4) вместо отдельных словоупотреблений;

11. Именные группы, сформированные из морфологических данных (5), вместо отдельных словоупотреблений;

12. Именные группы, сформированные из псевдооснов (6) вместо отдельных словоупотреблений.

Далее корпуса с данными характеристиками преобразуются в формат для импорта пакетом TXM.

2.3 Инструменты количественной оценки

2.3.1 Показатель специфичности

Показатель специфичности [51] - удобный аналитический инструмент количественной оценки «необычности» отдельно взятого подкорпуса по отношению к корпусу в целом.

Что касается лингвостатистической сути специфичности, она может быть описана следующим образом. Дан корпус T, поделенный на m корпусов. Специфичность слова w в подкорпусе по отношению ко всему корпусу равна вероятному значению того, что в случайно взятом из корпуса T подкорпусе (размер которого известен) слово w встретится ровно столько же раз, сколько оно встречалось в исследуемом подкорпусе. Таким образом, можно сказать, что это вероятность случайно взять аналогичный всему курпусу подкорпус с известным числом вхождений слова w, которое равно количеству его вхождений в исследуемый подкорпус.

Следовательно, максимального значения эта величина достигает при совпадении относительной частоты слова во взятом подкорпусе с относительной частотой того же слова в целом корпусе.

Итак, маленькое значение специфичности текстовой единицы является свидетельством того, что взятый подкорпус является «необычным» по отношению ко всему корпусу. Большое значение, напротив, демонстрирует «обычность» подкорпуса по сравнению с анализируемым корпусом. Субспецифичность (малое число появлений слова или другой текстовой единицы) отличается от сверхспецифичности (избыточность появления) знаком минус («-») перед индексом.

Индекс специфичности - порядковая величина вероятности. В TXM он представлен целой частью логарифма по основанию 10 (). То есть, индекс специфичности равен 2 в случае, если вероятность составляет 1 из 100, а индекс 100 соответствует вероятности 1/. Это значение отрицательно, если исследуемая текстовая единица встречается в подкорпусе реже, чем в среднем по корпусу. Если индекс специфичности находится в границах от -2 до 2, и его не следует выделять как характеристический признак подкорпуса.

Анализ специфичности является хорошим методом при составлении «профиля» подкорпуса, например, автор, жанр, тематика текста способом выделения наиболее «необычных» и «обычных» для него текстовых единиц (словоформы, лексемы, псевдоосновы, именные группы и т. п.).

2.3.2 Анализ соответствий

Еще одним подходом к анализу подкорпусов текстового корпуса, который, как и анализ специфичности, имеет удобное для наглядной демонстрации графическое представление в TXM, является анализ соответствий. Механизм функционирования этого инструмента заключается в следующем: дано две категориальные переменные X и Y. Необходимо определить, являются ли эти переменные независимыми. Пусть переменная принимает значений , а - значений . В ходе факторного анализа соответствий рассматривается исходная матрица . В основе методики лежит эффективное понижение размерности данной матрицы, при этом итоговая матрица должна сохранять как можно больше информации о матрице .

Метод заключается в исследовании частот совместного появления значений категориальных переменных X и Y относительно равномерного распределения путем поиска самого информативного представления таблицы частот совместного появления переменных в форме множества точек на плоскости, отвечающих либо значениям переменной X, либо значениям переменной Y.

Подход анализа соответствий, реализованный в TXM, был предложен Ж.-П. Бензекри [52] и исполнена в пакете FactoMinerR для аналитической платформы R [53].

Таким образом, в главе были рассмотрены главные инструменты создания, аннотирования и анализа корпусов текстов. Дана характеристика платформы, применяемой в аналитической части работы, инструменты и методы, на основе применения которых происходила проверка гипотезы о возможности использования средств корпусного анализа для решения задачи распознавания.

3. Анализ корпусов противоправных и нейтральных текстов

3.1 Описание корпуса текстов

Для тестирования возможности распознавания, классификации текстов, выявления их семантических и иных характеристик был использован корпус из текстов противоправной тематики и сходных с ними по тематики, но все же стилистически нейтральных текстов, к которым можно отнести сообщения с оппозиционных и проправительственных политических блогов, разрешенные тексты религиозной тематики, новостные статьи. Выбор конкретно этой тематики обусловлен также злободневностью проблемы распространения идей экстремизма в сети в последние годы.

В состав корпуса входит коллекция из 709 текстов (3 243 703 словоупотребления), 450 из них относятся к экстремистским материалам. Отбор текстов происходил вручную экспертами, которые, исходя из неоднородности понятия экстремизма, поделили его на 7 категорий, соответствующих подкорпусам текстов.


Подобные документы

  • Корпус текстов школьников в контексте корпусной лингвистики, его содержание и пополнение. Пунктуационная разметка текстов, классификация ошибок. Использование языка разметки TEI для кодировки пунктуации. Обработка корпуса с помощью программы Интерробанг.

    дипломная работа [1,9 M], добавлен 08.11.2015

  • Появление искусственных систем, способных воспринимать и понимать человеческую речь. Автоматическая обработка естественного языка. Анализ, синтез текстов. Системы автоматического синтеза. Проблема понимания, оживление текстов. Модели коммуникации.

    реферат [19,0 K], добавлен 02.11.2008

  • Разработка программного продукта для психолингвистического анализа текстов. Предметная область, основные требования. Анализ рабочих процессов отдела рекламно-выставочной и издательской деятельности. Оценка эффективности проекта и стоимости владения.

    дипломная работа [3,1 M], добавлен 12.10.2015

  • Морфологические анализаторы (морфологизаторы) на различных языках программирования. Анализ методов и технологий автоматической обработки ЕЯ-текстов. Разработка модуля графематического анализа и создания таблицы лексем. Программная реализация классов.

    дипломная работа [3,0 M], добавлен 06.03.2012

  • Понятие семантики; обзор и анализ существующих средств семантического разбора естественно-языковых текстов. Разработка алгоритма работы системы на основе семантического анализа, его реализация на языке программирования; проектирование интерфейса системы.

    дипломная работа [1,7 M], добавлен 18.03.2012

  • Инструменты анализа академического стиля английского языка. Проектирование архитектуры портала для анализа и оценки стиля научных публикаций на основе методов корпусной лингвистики. Моделирование жизненного цикла системы и взаимодействия её компонентов.

    дипломная работа [2,4 M], добавлен 27.08.2017

  • Описание ДСМ-метода автоматического порождения гипотез. Исследование результатов влияния компонентов ДСМ-метода на качество определения тональности текстов. Алгоритм поиска пересечений. N-кратный скользящий контроль. Программная реализация ДСМ-метода.

    курсовая работа [727,0 K], добавлен 12.01.2014

  • Что такое компьютерный корпус. Компьютерный корпус служит для монтажа компонентов компьютерной системы. Какие моменты следует учесть при покупке корпуса. Компоненты. Стандарты корпусов BTX: подробности о новом форм-факторе. Ценовые категории.

    курсовая работа [5,1 M], добавлен 04.04.2006

  • Компьютерная программа как последовательность инструкций, предназначенная для исполнения устройством управления вычислительной машины. Анализ стандартов перевода текстов компьютерных игр. Рассмотрение особенностей ИТ-перевода, примеры грубейших ошибок.

    реферат [65,5 K], добавлен 29.01.2013

  • Проект экспериментального программного комплекса индексирования и поиска неструктурированной текстовой информации в многоязычной среде, состоящего из математических моделей, алгоритмов и программных средств. Исследование характеристик его эффективности.

    автореферат [296,5 K], добавлен 31.01.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.