Автоматическая классификация контента персональных страниц пользователей социальной сети "ВКонтакте" как маркеров профессиональных интересов абитуриента
Разработка системы прогнозирования профессиональных интересов абитуриентов на основе данных социальных сетей. Сравнение информативности контента и личных сообщений, размещенных на страницах пользователей сети "ВКонтакте". Методы классификации текстов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 06.04.2021 |
Размер файла | 389,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://allbest.ru
Национальный исследовательский Томский государственный университет
Автоматическая классификация контента персональных страниц пользователей социальной сети «ВКонтакте» как маркеров профессиональных интересов абитуриента
А.А. Степаненко, З.И. Резанова, В.Л. Гойко
Аннотация
В статье представлены результаты решения задач автоматической атрибуции профессиональных интересов абитуриентов (в соответствии со сложившейся системой противопоставления направлений подготовки студентов - гуманитарный, естественно-научный и математический профиль) на основе данных социальных сетей. Проведено сравнение информативности анализа данных всего контента и личных сообщений, размещенных на страницах пользователей. Проведенный анализ по единой методике показал, что анализ данных всего контента является более результативным, нежели анализ личных сообщений.
Ключевые слова: обработка естественного языка, компьютерная лингвистика, классификация текстов, профориентация, социальная сеть.
Abstract
Automatic classification of the social network “VKontakte” personal pages content as markers of the professional applicant's interests
A.A. Stepanenko, Z.I. Rezanova, V.L. Goyko. National Research Tomsk State University
The article presents the results of automatic attribution of professional applicants interests. Attribution was made in three areas of student training - a humanitarian, natural science and mathematical profile based on social networking data. Comparison of the informativeness of all content and personal messages posted on users' pages made.
Keywords: natural language processing, computational linguistics, text classification, vocational training, social network.
Введение
Данная статья продолжает серию публикаций, представляющих результаты решения задачи в рамках междисциплинарного проекта, целью которого является разработка системы прогнозирования профессиональных интересов абитуриентов на основе данных социальных сетей [1-3].
Авторами проекта была выдвинута гипотеза, согласно которой возможно выявление профессиональных интересов пользователей сети на основе применения автоматических методов классификации текстов контента персональной страницы социальной сети «ВКонтакте».
В данной статье представлены результаты второго этапа выполнения лингвистической части проекта, цель которого - сравнение результативности привлечения для анализа двух типов текстового контента личных страниц пользователей социальной сети «ВКонтакте» и принципов отбора исходного текстового материала.
Материал: источники, принципы отбора, первичная обработка
Своеобразие источников первого этапа Описание первого этапа, процедуры анализа и его результатов представлено в [4]. заключалось, во-первых, в том, что для анализа привлекались тексты разных жанровых форм, тексты как постов, которые создаются автором страницы, так и репостов, представляющие собой копии чужих постов. Мы исходили из оценки функциональной направленности репостов, распространяемых автором страницы вследствие совпадения интересов и точки зрения автора текста и транслятора репоста. Во-вторых, в качестве первичного источника информации были привлечены данные стен сообществ, организованных на основании совпадения интересов пользователей.
Далее тексты были сгруппированы по отнесенности к тематическим группам: физико-математическое направление - тексты 22 стен (группы «Роботы и робототехника», «МЕХатроника и BIOS», «Информационные технологии и системы» и др.); естественно-научное направление - тексты 14 стен (группы «Клуб National Geographic Россия», «Добрая Экология» и др.); гуманитарное направление - тексты 48 стен (группы «Латынь - это интересно!», «Лучшие стихи великих поэтов» и др.), а также «весь текстовый контент открытых стен пользователей социальной сети "ВКонтакте”, являющихся студентами первого курса Томского государственного университета» [4. C. 133].
К анализу были привлечены текстовые фрагменты, объем которых составил 114 592 246 слов, в том числе стен физико-математического направления - 16 752 913, естественно-научного-28 533 920 и гуманитарного - 69 305 413 слов [Там же. C. 134].
Во втором этапе, как отмечалось, к анализу были привлечены тексты, написанные пользователями, т. е. только авторские тексты абитуриентов не только Томского государственного университета, но и других вузов Российской Федерации.
Выгрузка данных проводилась при помощи программного интерфейса приложения (Application Programming Interface, API) социальной сети «ВКонтакте». Методы API позволили получить текстовое содержимое стен пользователей, отдельно выделялись авторский текстовый контент и содержимое репостов.
Всего было проанализировано 1 570 текстов (~200 млн лексических единиц), к анализу привлекались только фрагменты текстов, в которых совокупный объем реплик составил больше 40 тыс. слов.
Обработка материалов вариативных источников проводилась по единой схеме, с использованием одного и того же инструментария математического анализа.
Кратко охарактеризуем этапы работы:
а) первичная обработка текстового материала и извлечение лексических маркеров;
б) последовательное применение процедур математического анализа.
Первый этап - первичная обработка текстового материала и извлечение лексических маркеров.
Тексты были приведены к единому формату, лемматизированы (т.е. все словоформы были приведены к начальной форме) с использованием «Му81еш 3.0» [5], из состава текста были выведены служебные части речи (предлоги, союзы, частицы, так называемые стоп-слова), знаки препинания, не несущие смысловой нагрузки, что позволило исключить влияние на относительную частоту маркеров неинформативных признаков и повторяющихся лексем.
Далее в нормализованных текстах слова были выбраны вручную по принципу: «один список - несколько сообществ по одной теме». На начальном этапе работы со словарем единицы отбирались на основе формулы (ТТ-Ш), которая позволила выявить уникальные слова в анализируемых документах (формула определяет вес некоторого слова пропорционально количеству употребления этого слова в группе текстов и обратно пропорциональному частоте употребления слова в других текстах).
Из состава этих слов были выбраны те лексические единицы, которые относятся к той или иной предметной области. При включении слова в тезаурус частотность слов находилась в интервале от 0,001 до 0,01% от общего объема текста.
При увеличении частотности единицы в выборку попадает большое количество общеупотребительных слов, не связанных с конкретной предметной областью. При низких значениях частотности из выборки могут выпасть слова, относящиеся к тематическим группам, важным для идентификации научной ориентации абитуриента.
Далее слова отбирались в тезаурус на основе функциональносемантического критерия:
а) терминологический характер, соотнесенность с одной из предметных областей, например биохимия, биополе, биоорганика - биология, бас, баритон, хормейстер, бурлеск - искусствоведение,
б) принадлежность к классу имен собственных, связанных с данной областью знания и производных от них имен: Бродский, Бронте, Бунин, бунинский - филология, Бухарин, Сталин - история и социология).
При отнесении слов к терминологической сфере использовались терминологические и энциклопедические словари различных областей знания, а также тезаурус WordNet (привлекался иностранный эквивалент). В том случае, если термин являлся общенаучным (синтез, корреляция, концепция и под.), он исключался из анализа. Получившиеся в результате словари содержали терминологическую лексику с низким уровнем полисемии и омонимии, что способствовало снижению количества ложных срабатываний алгоритма.
Затем все лексические единицы были сгруппированы в тезаурус по гуманитарным наукам, объединивший списки лексических единиц по
философии, социологии, филологии и лингвистике, журналистике, юридическим наукам, истории (432 лексические единицы); естественнонаучный тезаурус наук, объединивший списки по физике, химии, биологии, химии, медицине (120 единиц); физико математический - по математике, физике, информатике (126).
Примеры выявленных лексических маркеров, относящихся к числу наиболее и наименее частотных, приведены в табл. 1 [4. С. 135].
Т а б л и ц а 1
Примеры лексических единиц словарей ключевых слов по направлениям в выборке первого этапа
Направление |
|||
физико-математическое |
естественно-научное |
гуманитарное |
|
Высота, 0,00168 |
Состав, 0,00165 |
Граница, 0,0214 |
|
Множество, 0,00150 |
Реактив, 0,00163 |
Древний, 0,0744 |
|
График, 0,00146 |
Химик, 0,00143 |
Империя, 0,0721 |
|
Луч, 0,00016 |
Химический, 0,00130 |
Дворянство, 0,0048 |
|
Квантовый, 0,00016 |
Бензол, 0,00029 |
Анализ, 0,0048 |
Для наглядного распределения тематических слов по вышеуказанным классам приведем диаграмму размаха лексических единиц (маркеров) в тезаурусах в сравнении с использованием относительно каждого направления (рис. 1) [4. С. 136].
На втором этапе в качестве материала для сравнения жанровых особенностей текстов мы ограничились анализом личных текстов стен пользователей «ВКонтакте», по которым был составлен словарь ключевых слов, включающий 450 лексических единицы по гуманитарным направлениям, 340 - по естественным и 247 единиц - математическим направлениям.
Принцип составления словаря был идентичным с вышеуказанным алгоритмом математического и лингвистического поиска уникальных тематических слов. Примеры выявленных лексических маркеров, относящихся к числу наиболее и наименее частотных, приведены в табл. 2.
Для наглядного распределения тематических слов по вышеуказанным классам приведем график разброса лексических единиц (маркеров) в тезаурусах в сравнении с использованием относительно каждого направления (рис. 2).
Рис. 1. Диаграмма размаха частотного распределения тематических тезаурусов в стенах пользователей «ВКонтакте» относительно научного направления в выборке первого этапа
Т аб л и ц а 2
Примеры лексических единиц словарей ключевых слов по направлениям в выборке второго этапа
Направление |
|||
физико-математическое |
естественно-научное |
гуманитарное |
|
многопользовательский, 0,0004 |
кровеостанавливающий, 0,004 |
апокриф, 0,009 |
|
микрон, 0,008 |
тахикардия, 0,0009 |
благозвучие, 0,008 |
|
механика, 0,003 |
гайморов, 0,001 |
балетмейстер, 0,006 |
|
космогония, 0,003 |
биоток, 0,003 |
архитектура, 0,001 |
|
инфразвук, 0,006 |
брюшинный, 0,004 |
архетипический, 0,003 |
|
акустика, 0,007 |
асфиксия, 0,005 |
археологический, 0,03 |
|
квазарный, 0,014 |
аписторх, 0,014 |
арфа, 0,05 |
|
параболоид, 0,05 |
кровеобмен, 0,014 |
абстракционизм, 0,04 |
|
поддиректория, 0,01 |
молекулярный, 0,04 |
антропология, 0,01 |
|
тарировочный, 0,01 |
моноцитарный, 0,01 |
агонический, 0,01 |
Рис. 2. Диаграмма размаха частотного распределения тематических тезаурусов в стенах пользователей «ВКонтакте» относительно научного направления на основе авторского текста в выборке второго этапа
Анализ и обсуждение результатов
Для классификации текстов нами использовались следующие виды классификаторов: линейный дискриминантный анализ (LDA), метод опорных векторов (SVM), логистическая регрессия (LR), деревья решений (Trees), случайный лес (RF). классификация сеть контент абитуриент
Данные виды классификаторов были выбраны, так как эффективность их использования была установлена при решении задачи классификации текстов по лексическим маркерам в ряде предшествующих работ (см., например: [6, 7]).
В табл. 3 представлены результаты классификации текстов в выборке первого этапа.
Т а б л и ц а 3
Оценка точности классификации текстов на основе группы классификаторов (выборка текстов первого этапа)
Классификатор |
TrAacc |
Te'-acc |
|
LDA |
62,67 |
60,71 |
|
LR |
65,33 |
64,29 |
|
SVM |
64 |
60,71 |
|
Trees |
49,33 |
50 |
|
RF |
65,33 |
57,14 |
Примечание. Тгасс обозначает точность работы классификатора обучающей выборки; Теасс - точность работы классификатора тестовой выборки.
Как видно из табл. 3, наиболее успешный классификатор - ЬЯ (Логистическая регрессия), показывающий стабильный результат распределения стен пользователей.
Для сравнения приведем точность работы классификатора, опирающегося на маркеры, которые были выявлены на авторских текстах пользователей «ВКонтакте» (второй этап). Приведем результаты классификации текстов на основе алгоритмов машинного обучения (табл. 4).
Т а б л и ц а 4
Оценка точности классификации текстов на основе группы классификаторов (выборка текстов второго этапа)
Классификатор |
Тг ААасс |
Те 1 '-'асс |
|
ЬБЛ |
53,48 |
47,94 |
|
ЬЯ |
54,10 |
47,94 |
|
БУМ |
54,489 |
47,94 |
|
Тгее8 |
52,47 |
50,88 |
|
ЯГ |
37,04 |
64,41 |
Исходя из результатов работы классификаторов, представленных в табл. 4, можно сделать вывод о том, что подобранные маркеры классифицируют тексты значительно хуже, чем в предыдущем анализе (см. табл. 2). На наш взгляд, ухудшение работы классификатора вызвано тем, что пользователи социальной сети «ВКонакте» в авторских текстах используют меньше профессиональных лексических единиц. Полагаем, что маркеры в личных сообщениях используются реже за счет интенции коммуниканта, ограниченного в рамках общения. Тем самым можно сделать вывод о том, что при установлении области научных интересов пользователей необходимо учитывать репосты сообществ на их стенах.
Проведенный анализ свидетельствует, во-первых, о результативности автоматической классификации текстов тематически свободного общения в социальной сети «ВКонтакте» с использованием в качестве атрибутов выделенных на первом этапе ключевых слов текстов групп профессионально ориентированного общения; во-вторых, о меньшей степени релевантности в рассматриваемом аспекте данных гуманитарного блока профессионализации. В последнем случае необходимо работать в направлении как уточнения состава маркеров, так и поиска более точных систем автоматической обработки текста.
Литература
1. Можаева Г.В., Слободская А.В., Фещенко А.В. Информационный потенциал социальных сетей для выявления образовательных потребностей школьников // Открытое и дистанционное образование. 2017. № 3 (67). C. 25-30. DOI: 10.17223/16095944/67/4
2. Feshchenko A., Goiko V., Stepanenko A. Recruiting university entrants via social networks // EDULEARN17 Proceedings 9th International Conference on Education and New Learning Technologies. 2017. P. 6077-6082. DOI: 10.21125/edulearn.2017.2375
3. Feshchenko A., Goiko V., Mozhaeva G., Shilyaev K., Stepanenko A. Analysis of user profiles in social networks to search for promising entrants // INTED2017 Proceedings, 11th International Technology, Education and Development Conference. March 6th-8th, 2017. P. 5188-5194. DOI: 10.21125/inted.2017.1203
4. Степаненко А.А., Шиляев К.С., Резанова З.И. Атрибуция проф. интересов пользователей социальной сети «ВКонтакте» на основе текстов тематических групп и персональных страниц // Вестник Томского гос. университета. Филология. 2018. № 52. C. 130-144. DOI: 10.17223/19986645/52/8
5. MyStem // Яндекс. 2014-2017. URL: https://tech.yandex.ru/mystem/ (дата обращения: 1.11.2018).
6. Sheshasaayee A., Thailambal G. Comparison of Classification Algorithms in Text // International Journal of Pure and Applied Mathematics. 2017. Vol. 116, № 22. P. 425-433.
7. Singhal A., Gopalakrishnan K., Khaitan S.K. Predicting Budget from Transportation Research Grant Description: An Exploratory Analysis of Text Mining and Machine Learning Techniques // Journal of Soft Computing in Civil Engineering. 2017. № 1-2. P. 89-102.
Размещено на Allbest.ru
Подобные документы
Необходимость ввода гибкой классификации пользователей на основе их поведения при работе с тематическими ресурсами. Параметризация классов пользователей, интеллектуальный алгоритм фильтрации контента. Параметры для принятия экспертной системой решения.
статья [16,7 K], добавлен 15.11.2013Характерные особенности социальной сети. Описание социальных сетей "Facebook", "Вконтакте", "Одноклассники". Разработка собственного подобного сайта, с регистрацией профилей, загрузкой изображений, отправкой сообщений, поиском, разграничением приватности.
курсовая работа [1,9 M], добавлен 30.01.2014Внедрение информационных технологий. Использование социальных сетей в образовании. Создание группы "Помощь в педпрактике" в "ВКонтакте". Использование группы в образовательном процессе. Основные отличия специализированных социальных сетей от обычных.
курсовая работа [905,1 K], добавлен 10.01.2014Разработка системы мониторинга пользовательских запросов в крупной социальной сети - ООО "В Контакте". Анализ маркетингового положения компании в сфере социальных сетей. Характеристика потребительского сегмента. Техническая поддержка социальных сетей.
дипломная работа [3,0 M], добавлен 25.10.2015Характеристика предпосылок возникновения и развития Интернет-технологий. Исследование влияния социальной сети Вконтакте на общественные коммуникации, основных достоинств и недостатков общения через сеть. Анализ статистики пользователей и структуры сайта.
курсовая работа [43,5 K], добавлен 19.12.2011История развития и классификация социальных сетей. Характеристика наиболее популярных социальных сетей. Сети Рунета: ВКонтакте, Одноклассники, Мой круг, Мой мир (на www.mail.ru), RuSpace. Социальная сеть Facebook как лидер среди социальных сетей.
реферат [4,0 M], добавлен 23.06.2012Характерные особенности работы современных социальных сетей. Набор предлагаемых ими стандартных сервисов. История их развития. Проблемы информационной безопасности для пользователей сети. Вредоносные программы для кражи паролей и персональных данных.
презентация [732,7 K], добавлен 03.11.2014Функции выполнения отраслевых порталов и ключевые соображения планирования структуры и контента сайтов. Отраслевые порталы в Интернет-маркетинге. Создание документов на сайте SharePoint Online. Организация поиска контента и доступа пользователей к нему.
курсовая работа [44,0 K], добавлен 23.02.2015Анализ методов и средств выявления мнений пользователей социальных сетей. Обзор средств мониторинга и анализа, подбор необходимого программного обеспечения и технических средств. Разработка архитектуры базы данных, реализация программных модулей.
дипломная работа [3,7 M], добавлен 19.01.2017Понятие и содержание коммуникативной компетентности. Информационные технологии, информационное общество, интернет. Социальные сети: определение, классификации, функции. Различия активных и неактивных пользователей по основным коммуникативным умениям.
дипломная работа [466,1 K], добавлен 11.08.2014