Главная Коллекция "Otherreferats" Программирование, компьютеры и кибернетика Создание и анализ специальных корпусов текстов на основе расширенной платформы TXM

Создание и анализ специальных корпусов текстов на основе расширенной платформы TXM

История возникновения и развития компьютерной лингвистики. Инструменты анализа корпусов текстов. Системы и средства корпусного анализа. Факторный анализ соответствий корпуса противоправных текстов. Анализ специфичности корпуса противоправных текстов.

Рубрика	Программирование, компьютеры и кибернетика
Вид	дипломная работа
Язык	русский
Дата добавления	10.12.2019
Размер файла	537,4 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

1. Терроризм (12 063 словоупотребления): тексты с сайтов, запрещенных в РФ организаций (ИГИЛ и др.), в которых ведется пропаганда идеологии, приводятся обращения авторитетных лиц, комментарии действий власти в отношении преследования участников организации.

2. Идеология (47 664 словоупотребления): тексты, утверждающие превосходство религии над другими, приводятся ложные толкования священных писаний, призывы к принятию другой религии или сектантства.

3. Религиозная ненависть (35 155 словоупотреблений): призывы к активным жестоким действиям по отношению к представителям иных религий, создающий отрицательный облик других религий, относящие отрицательные намерения к представителям другого вероисповедания.

4. Сепаратизм (30 359 словоупотреблений): тексты, содержащие идею отделения каких-либо субъектов от РФ, несущие в себе оскорбления и угрозы в отношении представителей иных этнических групп, призывы к отделению от РФ.

5. Национализм (85 051 словоупотреблений): тексты, трактующие враждебную настроенность определенной этнической группы, агитирующие за физическое уничтожение ее членов, призывающий к вытеснению из различных сфер деятельности лиц определенной национальной принадлежности, ограничений их прав и свобод на территории РФ.

6. Агрессия и призывы к беспорядкам (35 562 словоупотребления): призывы к участию в несанкционированных митингах, беспорядках, насильственному свержению власти, тексты с оскорблением представителей власти и угрозами физического уничтожения.

7. Фашизм (36 552 словоупотребления): тексты, содержащие идею неофашизма и геноцида, отчеты распространителей направления и символики, обсуждения запрещенных книг.

Также в состав корпуса входит подкорпус нейтральных текстов, насчитывающий 2 961 297 словоупотреблений. Это в разы больше объемов других подкорпусов, что объясняется приближенностью к общему объему реальных данных.

3.2 Факторный анализ соответствий корпуса противоправных текстов

Факторный анализ соответствий показывает пространственное расположение текстовых подкорпусов исходя из анализа частот совместного появления значений переменных. После понижения размерности матрицы, состоявшей изначально из 7 столбцов (количество групп текстов противоправной тематики), которое проводилось в рамках анализа соответствий, появляется возможность оценить расположение подкорпусов в пространстве. Это также может быть интерпретировано в качестве показателя сходства/различия размеченных подкорпусов экстремистских текстов как по отношению друг к другу, так и относительно нейтрального подкорпуса. Оси здесь характеризуются степенью отклонения в пользу противоправной направленности. Исходные 7 категорий (терроризм, идеология, религиозная ненависть, сепаратизм, национализм, агрессия и призывы к беспорядкам, фашизм) были объединены в условные 3 противоправных путем понижения размерности, лежащем в основе анализа соответствий на платформе TXM. Эти 3 категории (оси) сохраняют максимально возможное количество информации о первоначальных 7-и. Таким образом, появляется возможность оценить пространственное расположение подкорпусов. Нахождение близко к точке пересечения осей координат говорит о нейтральности подкорпуса по отношению к корпусу в общем. Удаленность от этой точки свидетельствует об отклонении от нейтрального текста в идеологическом и политическом понимании, в пользу одной из тематик, определенных экспертами в качестве противоправных. Факторный анализ соответствий был приведен для лемм и псевдооснов в отношении именных групп и отдельных слов в каждом из трех измерений. Наиболее показательные и информативные случаи представлены далее.

Распределение точек соответствует частоте появления значений переменных в измерении, соответствующем оси координат. На рисунке 1 и рисунке 2 представлено пространственное расположение подкорпусов на основе лемм для именных групп по осям 1-2 и 2-3 соответственно.

Распределение точек соответствует частоте появления значений переменных в измерении, соответствующем оси координат. Так как в обоих графиках задействована ось 2, можно отметить взаимосвязь расположения подкорпусов в рассматриваемых измерениях. При проекции точек графика 2 на ось 2, наблюдается аналогичный порядок их расположения с графиком 1 по оси 2 (сепаратизм, агрессия, национализм, фашизм, нейтральный, терроризм, идеология, религия). Масштаб и отдаленность точек друг от друга зависят от осей и степеней их вариации.

Наиболее важным и показательным является первое измерение (ось 1 на графике), отвечающее за 34% вариации в корпусе. По данному измерению наблюдаются достаточно близкие координаты у всех противоправных подкорпусов. «Нейтральный» же подкорпус отдален от остальных и близок к точке пересечения осей, что действительно показывает нейтральность текстов в данной тематике.

Во втором случае (рисунок 2) на отдалении по оси 3 (14% вариации в корпусе) находятся подкорпуса «сепаратизм» и «агрессия», что объясняется высокой частотностью именных групп, характерных для соответствующих тематик. «Нейтральный» подкорпус в данном измерении (оси 2-3) находится четко в точке пересечения осей координат, что действительно свидетельствует о его нейтральности по отношению к противоправным подкорпусам.

Рисунок 1 Факторный анализ по леммам для именных групп (оси 1-2)

Рисунок 2 Факторный анализ по леммам для именных групп (оси 2-3)

Ситуацию, где «нейтральный» подкорпус находится в отдалении от каждого из экстремистских по первой оси, можно наблюдать и на рисунке 3 в «Факторном анализе по псевдоосновам для отдельных слов». На данном графике отражено пространственное расположение подкорпусов на основе псевдооснов.

Распределение точек соответствует частоте появления значений переменных в измерении, соответствующем осям координат, значения вариации которых равны 46% для оси 1 и 13% для оси 2. «Идеология», «религия», «терроризм», «национализм», «агрессия» и «сепаратизм» близки по своим показателям и образуют «облако» в первой четверти координатной плоскости.

Подкорпус «фашизм», находящийся в четвертой четверти, близок ко всем экстремистским по наиболее показательной 1-й оси (46% вариации), хоть и занимает граничное положение, обозначенное пунктирной линией на графике. В то же время, «фашизм» противостоит остальным подкорпусам по 2-й оси. Это свидетельствует о высокой частотности псевдоовнов для слов во втором измерении, которые соответствуют фашистской тематике.

«Нейтральный» подкорпус немного смещен влево по оси 1, тем не менее он совершенно нейтрален по оси 2 и близок к точке пересечения координатных прямых. Это указывает на его несоответствие экстремистским направленностям.

Рисунок 3 Факторный анализ по псевдоосновам для отдельных слов

Исходя из рисунка 4, отражающем расположение в «Факторном анализе по леммам для отдельных слов», опять же стоит отметить близость подкорпуса «нейтральный» к точке начала отсчета. Большинство подкорпусов противоправной направленности находятся в удалении от него, и в то же время близко друг к другу, формируя «облако» подкорпусов.

Наиболее явно это заметно в первом, самом информативном, измерении, соответствующем оси 1 графика и отвечающем за 50% вариации в корпусе. При изменении таких параметров текста, как объем нейтрального корпуса, удаление пунктуации из объектов анализа, противопоставление нейтральных текстов и текстов экстремистского содержания сохраняется.

Что касается второго измерения, которому соответствует 13% вариации корпуса (ось 2), итоги анализа тесно связаны с конфигурацией корпуса и требуют дополнительной трактовки. Категория «фашизм» противостоит остальным, в том числе и «нейтральному» подкорпусу, что вызвано высокой частотностью лексем «раса», «наследственность», «отбор», входящих в фашистский дискурс.

Рисунок 4 Факторный анализ по леммам для отдельных слов

Таким образом, результаты факторного анализа по леммам и псевдоосновам как для отдельных слов, так и для именных групп наглядно демонстрируют противопоставление нейтрального подкорпуса противоправным. Эти характеристики могут применяться для разделения текстов по тематикам.

3.3 Анализ специфичности корпуса противоправных текстов

По сравнению с факторным анализом соответствий, анализ специфичности демонстрирует показатели свойств конкретных структурных единиц текста. Так, можно обнаружить слова либо именные группы, находящиеся в избытке или недостатке в определенном подкорпусе по сравнению с корпусом в целом, отобрать наиболее специфичные, провести сравнение индексов специфичности между одними и теми же показателями в разных подкорпусах.

Графическим представлением является группа баров для каждого подкорпуса. Бары выбранного для анализа подкорпуса будут располагаться по убыванию над горизонтальной осью, что соответствует наиболее специфичным (распространенным в сравнении с родительским корпусом) значениям. Штрихи одних и тех же единиц в разных подкорпусах отмечены одним цветом, что особенно удобно при сравнении. Справа приведены конкретные значения, соответствующие каждому из показателей и, соответственно, являющиеся наиболее специфичными в анализируемом подкорпусе. Красные горизонтальные линии, соответствующие значениям 2.0 и -2.0 отделяют «область банальности», не выходящие за ее пределы показатели считаются «банальными» - неспецифичными для подкорпуса.

На рисунке 5 представлены показатели специфичности по убыванию для подкорпуса «терроризм». Естественно, что все значения нейтрального подкорпуса расположены ниже горизонтальной оси, что свидетельствует о небольшом наличии или полном отсутствии именных групп (словосочетаний) террористической тематики в нейтральных текстах.

Чего нельзя сказать про индексы специфичности всех подкорпусов противоправной тематики, показатели которых либо не выходят за пределы области банальности, либо имеют положительные значения. Так, именные группы «в ход», «в результат» также специфичны для подкорпусов «агрессия», «фашизм», «национализм», «религия», плюс именные группы «орган правоохранительный» и «в село» распространены в подкорпусах «национализм» и «религия».

Таким образом, все специфичные показатели террористического подкорпуса текстов имеют положительные значения для всех противоправных подкорпусов и отрицательные для нейтрального.

Рисунок 5 Специфичность по именным группам на основе подкорпуса «терроризм»

На рисунке 6, демонстрирующем «Специфичность по псевдоосновам на основе подкорпуса «идеология», специфичности практически всех псевдооснов раздела «идеология» также специфичности для раздела «религия». Также, у них обоих есть по два схожих положительных показателя специфичности с подкорпусами «агрессия» и «национализм» и несколько - с «терроризмом».

В то же время все показатели индекса специфичности для тех же псевдооснов «нейтрального» подкорпуса расположены в области отрицательных значений, что говорит о низкой специфике (редкости появления) специфичных для подкорпуса «идеология» псевдооснов в рамках нейтральных текстов.

Рисунок 6 Специфичность по псевдоосновам на основе подкорпуса «идеология»

3.4 Выводы по результатам анализа

Сравнивая результаты анализа соответствий и показателей специфичности, были сделаны следующие общие выводы:

· Результаты анализа лемм, псевдооснов и именных групп схожи;

· «Нейтральный» подкорпус противостоит экстремистским;

· Сильно схожи подкорпуса «религия» и «идеология», что выражено как их близким расположением на координатной плоскости в факторном анализе, так и большое количество общих «специфичных» значений в анализе специфичности;

· Исходя из обнаружения противопоставленности и противоположных значений у нейтрального подкорпуса по сравнению с корпусами противоправного содержания, применяемый в ходе анализа корпус может применяться в машинном обучении для решения задачи классификации относительно выявления противоправного содержания с дальнейшим экспертным анализом обнаруженных текстов.

Таким образом, в данной главе был детально описан корпус противоправных и нейтральных текстов, применяемый в анализе. На основе исследования с помощью методов факторного анализа соответствий и анализа специфичности были сделаны выводы о явных различиях между нейтральными и экстремистскими текстами, об их дифференцирующих признаках и, как следствие, о возможности применения выборки в машинном обучении.

Заключение

В результате проведенного в рамках настоящей работы исследования были выполнены следующие задачи:

1. Проведен детальный обзор существующих на сегодняшний день систем и средств анализа корпусов, их технические возможности, а также приведены примеры самых крупных корпусов с использованием данных инструментов. Описана платформа TXM, ее методы и расширения, которые были применены в ходе анализа корпуса противоправных и нейтральных текстов.

2. Проведен анализ корпуса текстов нейтральной и противоправной тематики с помощью методов анализа соответствий и специфичности. Сделаны выводы о возможности применения корпуса в машинном обучении в задачах классификации текстов на предмет выявления потенциально противоправного содержания.

3. Показана возможность выделения дифференцирующих признаков для противоправных текстов различных тематик для задачи последующего автоматического определения такого рода текстов.

Таким образом, можно утверждать о возможности использования средств корпусного анализа для решения задачи распознавания текстов противоправного содержания. В рамках дальнейших исследований возможно расширение методов качественного и количественного анализа корпуса текстов с целью создания более надежной модели определения противоправной составляющей в текстах.

Результаты проведенных в рамках дипломной работы исследований были опубликованы в работах [54, 55].

Список использованной литературы

1. Heiden S. The TXM Platform: Building Open-Source Textual Analysis Software Compatible with the TEI Encoding Scheme // 24th Pacifc Asia Conference on Language, Information and Computation - PACLIC24 / Ed. R. Otoguro, K. Ishikawa, H. Umemoto, K. Yoshimoto and Y. Harada. Institute for Digital Enhancement of Cognitive Development, Waseda University, Sendai, Japan. 2010 P. 389--398.

2. Баранов А. Н. Введение в прикладную лингвистику. М.: Издательство ЛКИ, 2007. 360 с.

3. Белоногов Г. Г. Компьютерная лингвистика и перспективные информационные технологии. М.: Русский мир, 2004. 248 с.

4. Чеповский А. М. Информационные модели в задачах обработки текстов на естественных языках. Второе издание, переработанное. М.: Национальный открытый университет «ИНТУИТ», 2015. 276 с.

5. Зализняк А. А. Грамматический словарь русского языка. М.: Русские словари, 2003. 800 с.

6. Болховитянов А. В., Чеповский А. М. Методы автоматического анализа словоформ // Информационные технологии. 2011. № 4 (176). С. 24-29.

7. Ананьева М. И., Кобозева М. В., Соловьев Ф. Н., Поляков И. В., Чеповский А. М. О проблеме выявления экстремистской направленности в текстах // Вестник НГУ. Серия: Информационные технологии. 2016. Т. 14, № 4. С. 5-13.

8. Белоногов Г. Г., Богатырев В. И. Автоматизированные информационные системы. М.: Советское радио, 1973. 328 с.

9. Рясов А.В., Лапунова Ю.А. Способы противодействия вовлечению лиц в совершение преступлений террористического характера в информационно-телекоммуникационных сетях // Вестник СевКавГТИ. 2016. №. 2.

10. Latov Y. et al. Mechanisms of Countering the Dissemination of Extremist Materials on the Internet // Big Data-driven World: Legislation Issues and Control Technologies. Springer, Cham, 2019. С. 145-161.

11. Борисов С.В., Васнецова А.С., Жафяров А.Г. К вопросу о противодействии кибертерроризму и киберэкстремизму // Вестник Академии Генеральной прокуратуры Российской Федерации. 2015. Т. 45. №. 1. С. 49-55.

12. Литвинова Т.А., Загоровская О.В. Лингвистические методы выявления в Сети экстремистского контента и лиц, склонных к экстремизму // Современное право. 2016. №. 3. С. 107-113.

13. Красняков Е.И., Машечкин И.В., Петровский М.И., Царев Д.В. Методы машинного обучения для обнаружения активности экстремистского характера в сети интернет // Тезисы докладов научной конференции «Ломоносовские чтения». 2017. С. 110-111.

14. Вартан А.Ю. Классификация ресурсов из сети Интернет по направлениям наркоторговля, терроризм, экстремизм // Вестник Югорского государственного университета. 2015. № S2 (37). С. 31.

15. Bolatbek M. A., Mussiraliyeva S. Z., Tukeyev U. A. Creating the dataset of keywords for detecting an extremist orientation in web-resources in the Kazakh language // KazNU Bulletin. Mathematics, Mechanics, Computer Science Series. 2018. Т. 97. №. 1. P. 134-142.

16. Ferrara E. et al. Predicting online extremism, content adopters, and interaction reciprocity // International conference on social informatics. Springer, Cham, 2016. P. 22-39.

17. Fernandez M., Asif M., Alani H. Understanding the Roots of Radicalisation on Twitter // WebSci'18 Proceedings of the 10^th ACM Conference on Web Science. 2018. P. 1-10.

18. Lara-Cabrera R., Gonzalez-Pardo A., Camacho D. Statistical analysis of risk assessment factors and metrics to evaluate radicalisation in Twitter // Future Generation Computer Systems. 2017. P. 1-8.

19. Ferrucci, D. et al. (2009) Unstructured Information Management Architecture (UIMA) Version 1.0. OASIS Standard, March 2009.

20. Ferrucci, D. and Lally, A. (2004) UIMA: An Architectural Approach to Unstructured Information Processing in the Corporate Research Environment // Natural Language Engineering. Volume 10 (3-4). September 2004. P.307-326.

21. Bank M. and Schierle M. A Survey of Text Mining Architectures and the UIMA Standard // Conference: Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC). January 2012. P. 3479-3486.

22. Apache UIMA [Электронный ресурс]. URL: https://uima.apache.org. (Дата обращения: 18.02.2019).

23. Apache UIMA AlchemyAPI Annotator Documentation [Электронный ресурс]. URL: https://uima.apache.org/d/uima-addons-current/AlchemyAPIAnnotator/AlchemyAPIAnnotatorUserGuide.html. (Дата обращения: 18.02.2019).

24. CRAFT [Электронный ресурс]. URL: https://github.com/UCDenver-ccp/CRAFT. (Дата обращения: 18.02.2019).

25. anc [Электронный ресурс]. URL: http://www.anc.org. (Дата обращения: 18.02.2019).

26. Cunningham H., Tablan V., Roberts A., Bontcheva K. Getting More Out of Biomedical Documents with GATE's Full Lifecycle Open Source Text Analytics // PLoS Comput Biol 9(2). 2013.

27. GATE [Электронный ресурс]. URL: https://gate.ac.uk. (Дата обращения: 20.02.2019).

28. IBM Community [Электронный ресурс]. URL: https://www.ibm.com/developerworks/community/groups/service/html/communityview?communityUuid=6adead21-9991-44f6-bdbb-baf0d2e8a673. (Дата обращения: 15.02.2019).

29. Troussov A, Sogrin M, Judge J, Botvich D. Mining socio-semantic networks using spreading activation technique // InProceedings of I-KNOW. 2008. Vol. 8. P. 3-5.

30. IntelliText [Электронный ресурс]. URL: http://corpus.leeds.ac.uk/itpubweb/html/index.xml. (Дата обращения: 15.02.2019).

31. Centre for Translation S'IntelliText 2.6. University of Leeds [Электронный ресурс]. URL: http://corpus.leeds.ac.uk/itweb/htdocs/Query.html. (Дата обращения: 15.02.2019).

32. British National Corpus [Электронный ресурс]. URL: http://www.natcorp.ox.ac.uk. (Дата обращения: 15.02.2019).

33. Kyriacopoulou T., Martineau C., Martinez C. Unitex/GramLab: plateforme libre basйe sur des lexiques et des grammaires pour le traitement des corpus textuels // In EGC 2018. vol. RNTI-E-34. P. 467-470.

34. Unitex/GramLab [Электронный ресурс]. URL: https://unitexgramlab.org. (Дата обращения: 18.02.2019).

35. Linguistique pour le traitment des langues [Электронный ресурс]. URL: http://infolingu.univ-mlv.fr. (Дата обращения: 18.02.2019).

36. Unitex 3.1 User Manual [Электронный ресурс]. URL: https://unitexgramlab.org/releases/3.1/man/Unitex-GramLab-3.1-usermanual-en.pdf. (Дата обращения: 18.02.2019).

37. The IMS Open Corpus Workbench [Электронный ресурс]. URL: http://cwb.sourceforge.net. (Дата обращения: 21.02.2019).

38. Christ, O. A Modular and Flexible Architecture for an Integrated Corpus Query System // Proceedings of COMPLEX'94 (3rd Conf. on Computational Lexicography and Text Research). 1994. P. 23-32.

39. Evert S. and Hardie A. Twenty-first century Corpus Workbench: Updating a query architecture for the new millennium (2011) // Proceedings of the Corpus Linguistics 2011 conference. 2011.

40. Serge Sharoff's corpus collection [Электронный ресурс]. URL: http://corpus.leeds.ac.uk/ruscorpora.html. (Дата обращения: 30.01.2019).

41. Rychlэ P. Manatee/bonito-a modular corpus manager // In1st Workshop on Recent Advances in Slavonic Natural Language Processing 2007 Dec 14. 2007. P. 65-70.

42. SKETCH ENGINE [Электронный ресурс]. URL: https://www.sketchengine.eu. (Дата обращения: 30.01.2019).

43. Kilgarriff A., Rychlэ P., Smrћ P., Tugwell D. Itri-04-08 the sketch engine // Information Technology. 2004. P. 105, 116.

44. KonText [Электронный ресурс]. URL: https://kontext.korpus.cz/first_form?corpname=syn2015. (Дата обращения: 22.02.2019).

45. Czech National Corpus [Электронный ресурс]. URL: https://wiki.korpus.cz/doku.php/en:cnk:uvod. (Дата обращения: 22.02.2019).

46. CLaRK System [Электронный ресурс]. URL: http://bultreebank.org/bg/clark/. (Дата обращения: 19.03.2019).

47. UAM CorpusTool [Электронный ресурс]. URL: http://www.corpustool.com. (Дата обращения: 19.03.2019).

48. Apache OpenNLP [Электронный ресурс]. URL: https://opennlp.apache.org. (Дата обращения: 19.03.2019).

49. The R Project for Statistical Computing [Электронный ресурс]. URL: https://www.r-project.org. (Дата обращения: 24.11.2018).

50. Schmid H. Probabilistic Part-of-Speech Tagging Using Decision Trees // Proceedings of International Conference on New Methods in Language Processing. Manchester, UK. 1994. P. 1051-1060.

51. Lafon P. Sur la variabilitй de la frйquence des formes dans un corpus // Mots. 1980. № 1. P. 127-165.

52. Benzйcri J.-P. L'analyse des donnйes: l'analyse des Correspondances. 2^nd ed. Vol. 2. Paris: Dunod. 1979.

53. Lк S., Josse J., & Husson F. FactoMineR: an R package for multivariate analysis // Journal of statistical software.2008. № 25 (1). P. 1-18.

54. Лаврентьев А. М., Соловьев Ф. Н., Суворова М. И., Фокина А. И., Чеповский А. М. Новый комплекс инструментов автоматической обработки текста для платформыTXM и его апробация на корпусе для анализа экстремистских текстов // Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация. 2018. Т. 16. № 3. С. 19-31.

55. Лаврентьев А. М., Смирнов И. В., Соловьев Ф. Н., Суворова М. И., Фокина А. И., Чеповский А. М. Создание специальных корпусов текстов на основе расширенной платформы TXM // Системы высокой доступности. 2018. Т. 14. № 3. С. 76-81.

Размещено на Allbest.ru

Страница:

дипломная работа "Создание и анализ специальных корпусов текстов на основе расширенной платформы TXM" скачать

Подобные документы

Изучение пунктуации на примерах корпуса школьных текстов
Корпус текстов школьников в контексте корпусной лингвистики, его содержание и пополнение. Пунктуационная разметка текстов, классификация ошибок. Использование языка разметки TEI для кодировки пунктуации. Обработка корпуса с помощью программы Интерробанг.

дипломная работа [1,9 M], добавлен 08.11.2015
Направления компьютерной лингвистики
Появление искусственных систем, способных воспринимать и понимать человеческую речь. Автоматическая обработка естественного языка. Анализ, синтез текстов. Системы автоматического синтеза. Проблема понимания, оживление текстов. Модели коммуникации.

реферат [19,0 K], добавлен 02.11.2008
Система психолингвистического анализа текстов
Разработка программного продукта для психолингвистического анализа текстов. Предметная область, основные требования. Анализ рабочих процессов отдела рекламно-выставочной и издательской деятельности. Оценка эффективности проекта и стоимости владения.

дипломная работа [3,1 M], добавлен 12.10.2015
Система контент-анализа естественно-языковых текстов
Морфологические анализаторы (морфологизаторы) на различных языках программирования. Анализ методов и технологий автоматической обработки ЕЯ-текстов. Разработка модуля графематического анализа и создания таблицы лексем. Программная реализация классов.

дипломная работа [3,0 M], добавлен 06.03.2012
Система семантического разбора для естественно-языковых текстов
Понятие семантики; обзор и анализ существующих средств семантического разбора естественно-языковых текстов. Разработка алгоритма работы системы на основе семантического анализа, его реализация на языке программирования; проектирование интерфейса системы.

дипломная работа [1,7 M], добавлен 18.03.2012
Проектирование портала для анализа и оценки стиля научных текстов
Инструменты анализа академического стиля английского языка. Проектирование архитектуры портала для анализа и оценки стиля научных публикаций на основе методов корпусной лингвистики. Моделирование жизненного цикла системы и взаимодействия её компонентов.

дипломная работа [2,4 M], добавлен 27.08.2017
Анализ тональности текстов на основе ДСМ-метода
Описание ДСМ-метода автоматического порождения гипотез. Исследование результатов влияния компонентов ДСМ-метода на качество определения тональности текстов. Алгоритм поиска пересечений. N-кратный скользящий контроль. Программная реализация ДСМ-метода.

курсовая работа [727,0 K], добавлен 12.01.2014
Конструкция корпусов ПК
Что такое компьютерный корпус. Компьютерный корпус служит для монтажа компонентов компьютерной системы. Какие моменты следует учесть при покупке корпуса. Компоненты. Стандарты корпусов BTX: подробности о новом форм-факторе. Ценовые категории.

курсовая работа [5,1 M], добавлен 04.04.2006
Перевод текстов компьютерных игр
Компьютерная программа как последовательность инструкций, предназначенная для исполнения устройством управления вычислительной машины. Анализ стандартов перевода текстов компьютерных игр. Рассмотрение особенностей ИТ-перевода, примеры грубейших ошибок.

реферат [65,5 K], добавлен 29.01.2013
Модели и алгоритмы информационного поиска в многоязычной среде на основе тематических и динамических корпусов текстов
Проект экспериментального программного комплекса индексирования и поиска неструктурированной текстовой информации в многоязычной среде, состоящего из математических моделей, алгоритмов и программных средств. Исследование характеристик его эффективности.

автореферат [296,5 K], добавлен 31.01.2012

Другие документы, подобные "Создание и анализ специальных корпусов текстов на основе расширенной платформы TXM"

весь список подобных работ

скачать работу можно здесь

сколько стоит заказать работу?

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.