Разработка подхода к прогнозированию заработной платы по ключевым навыкам на основе вакансий на примере сайта hh.ru
Определение собственной ценности для организации, выраженной в заработной плате как одна из проблем для соискателей. Python - высокоуровневый язык программирования с высоким уровнем интерпретируемости кода. Алгоритм парсинга вакансий с сайта hh.ru.
| Рубрика | Программирование, компьютеры и кибернетика |
| Вид | дипломная работа |
| Язык | русский |
| Дата добавления | 04.12.2019 |
| Размер файла | 990,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Как видно из рисунка 34, модель нашла очень сильную взаимосвязь между опытом и заработной платой.
Отрасль «Логистика»
Сравнение результатов моделирования
В таблице 10 отражено сравнение качества моделей.
Таблица 10. Сравнение качества моделей
|
Модель |
Accuracy |
|
|
SVM |
0.542 |
|
|
Решающее дерево |
0.521 |
|
|
Случайный лес |
0.599 |
|
|
XGBoost |
0.602 |
Из данной таблицы видно, что самое высокое качество даёт модель градиентного бустинга.
Значимость предикторов лучшей модели
10 наиболее значимых предикторов модели отражены на рисунке 35.
Рис. 35. Топ-10 предикторов
Отрасль «Производство»
Сравнение результатов моделирования
В таблице 10 отражено сравнение качества моделей.
Таблица 11. Сравнение качества моделей
|
Модель |
Accuracy |
|
|
SVM |
0.589 |
|
|
Решающее дерево |
0.602 |
|
|
Случайный лес |
0.592 |
|
|
XGBoost |
0.605 |
Из данной таблицы видно, что самое высокое качество даёт модель градиентного бустинга.
Значимость предикторов лучшей модели
10 наиболее значимых предикторов модели отражены на рисунке 36.
Рис. 36. Топ-10 предикторов
Оценка точности моделирования
В таблице 12 производится сравнение предиктивных моделей разных отраслей.
Таблица 12. Сводная таблица
|
Отрасль |
Лучшая модель |
Точность |
|
|
IT |
XGBoost |
0.72 |
|
|
Продажи |
XGBoost |
0.63 |
|
|
Банки |
XGBoost |
0.71 |
|
|
Бизнес |
XGBoost |
0.575 |
|
|
Дизайн |
Случайный лес |
0.854 |
|
|
Образование |
XGBoost |
0.522 |
|
|
Фармакология |
XGBoost |
0.657 |
|
|
Госслужба |
XGBoost |
0.66 |
|
|
Юриспруденция |
SVM |
0.692 |
|
|
Логистика |
XGBoost |
0.602 |
|
|
Производство |
XGBoost |
0.605 |
Как видно из таблицы, чаще всего модель градиентного бустинга точнее других.
Стоит отметить, что наибольшая точность достигнута на следующих отраслях:
· Дизайн;
· IT;
· Банки;
· Юриспруденция.
В данной главе описана разработка подхода к прогнозированию заработной платы по ключевым компетенциям на основе вакансий hh.ru.
В рамках данной главы были выполнены следующие этапы:
1. Парсинг данных о вакансиях с сайта hh.ru;
2. Предварительный анализ данных;
3. Кластерный анализ;
4. Интеллектуальный анализ текста;
5. Построение предиктивных моделей и оценка качества.
Стоит отметить, что полученная точность редко превышала 0.7. Это может быть связано с малым объёмом выборки, сложной зависимостью между зарплатой и текстовым описанием вакансии, а также со сложностью анализа русскоязычных текстов.
Для 3 лучших моделей отражены наиболее значимые признаки на таблице 13.
Таблица 13. Значимость признаков
|
№ |
IT |
Банки |
Дизайн |
|
|
1 |
Опыт работы |
Опыт работы |
Опыт работы |
|
|
2 |
Локация: Москва |
График: полный рабочий день |
Adobe Afterefects |
|
|
3 |
GIT |
MS Excel |
Adobe |
|
|
4 |
SQL |
Локация: Москва |
Adobe Illustrator |
|
|
5 |
График: полный рабочий день |
CRM |
Удалённая работа |
|
|
6 |
Локация: Санкт-Петербург |
MS Word |
Adobe Photoshop |
|
|
7 |
WEB |
MS Office |
Autocad |
|
|
8 |
CSS |
Локация: Санкт-Петербург |
График: полный рабочий день |
|
|
9 |
JS |
График: сменный |
Archicad |
|
|
10 |
PHP |
ERP |
График: сменный |
Как видно из таблицы опыт работы является важнейшим признаком для любой отрасли. Также стоит отметить, что расположение работодателя в Москве и Санкт-Петербурге, график работы: полный рабочий день, сильно влияют на уровень заработной платы практически во всех отраслях. В IT отрасли большая часть признаков относится к языкам программирования, в банковской отрасли к работе в MS Office, а в отрасли «Дизайн» - к работе в системах Adobe и Cad-подобных системах.
Стоит отметить, что в ходе работы получилось выявить значимые признаки для прогнозирования уровня заработной платы. Также данные исследования показывают, что на этапе оценки вакансии не влияют так называемые “softskills”. Это не значит, что данные навыки не ценятся и не влияют на заработную плату. Данные навыки описаны практически в каждой вакансии. Именно поэтому на оценку самой вакансии они не влияют. Однако, на собеседованиях эти навыки проверяются в первую очередь.
Заключение
В ходе данной работы было выполнено:
1. Парсинг данных о вакансиях с сайта www.hh.ru;
2. Анализ текстовой информации, указанной в объявлениях;
3. Применение различных алгоритмов для прогнозирования заработной платы по ключевым компетенциям на основе объявлений hh.ru;
4. Анализ качества работы моделей.
В ходе данной работы была выполнена цель работы - разработка подхода к прогнозированию заработной платы по ключевым компетенциям на основе объявлений hh.ru.
Стоит отметить, что гипотеза о зависимости зарплаты от текстового описания подтвердилась не полностью. На разных подвыборках (отраслях) получились разные результаты. Результаты отражены на таблице 12.
Для большинства отраслей полученные результаты говорят о сильной зависимости между текстовым описанием вакансии и указанной заработной платой.
Для отраслей Образование и Бизнес были получены результаты с точностью ниже 0.6. Это может быть связано с ограниченностью выборки. Пропорция размеченных данных и не размеченных примерно 1:9. Кроме того, в некоторых отраслях существует распространённая практика разделения заработных плат на оклад и бонусную часть, что усложняет прогнозирования.
Таким образом, разработанный подход может стать основой для системы прогнозирования заработной платы для части отраслей.
Список литературы
1. Итоги года и планы: соискатели. [Электронный ресурс] / hh.ru URL: https://hhcdn.ru/file/16708262.pdf. (дата обращения: 20.04.2019)
2. Исследование: 81% работодателей отмечают завышенные зарплатные ожидания соискателей/. [Электронный ресурс] / vestifinance.ru URL: https://www.vestifinance.ru/articles/111136. (дата обращения: 20.04.2019)
3. Как сравнить свою заработную плату с рыночной. [Электронный ресурс] / hh.ru URL: https://hh.ru/article/30154. (дата обращения: 10.01.2019)
4. Коваленко Е. Цена вопроса: как узнать свою стоимость на рынке труда /Forbes - Американский финансово-экономический журнал [Электронный ресурс] / forbes.ru URL: http://www.forbes.ru/karera-i-svoy-biznes/349257-cena-voprosa-kak-uznat-svoyu-stoimost-na-rynke-truda. (дата обращения: 10.01.2019)
5. Как искусственный интеллект изменит HR? [Электронный ресурс] / hh.ru URL: https://hhcdn.ru/file/16676170.pdf. (дата обращения: 21.04.2019)
6. How Much Am I Worth? - 5 Ways to Figure It Out. [Электронный ресурс] / salary.com URL: https://www.salary.com/articles/5-ways-what-youre-worth/. (дата обращения: 11.01.2019)
7. Payscale. [Электронный ресурс] / payscale.com URL: https://www.payscale.com/ (дата обращения: 15.01.2019)
8. Glassdor. [Электронный ресурс] / glassdoor.com URL: https://www.glassdoor.com/Salaries/know-your-worth.html. (дата обращения: 15.01.2019)
9. Two Step Cluster Analisys. [Электронный ресурс] / ibm.com URL: https://www.ibm.com/support/knowledgecenter/en/SSLVMB_24.0.0/spss/base/idh_twostep_main.html. (дата обращения: 18.01.2019)
10. Классификация данных методом опорных векторов. [Электронный ресурс] / habr.com URL: https://habr.com/ru/post/105220/. (дата обращения: 18.01.2019)
11. Соколов Е. А. Решающие деревья. Лекция 3. ФКН НИУ ВШЭ. 2018.
12. Открытый курс машинного обучения. Тема 3. Классификация, деревья решений и метод ближайших соседей. / Хабр - информационный ресурс для IT-специалистов. [Электронный ресурс] / habr.com URL: https://habr.com/ru/company/ods/blog/322534/. (дата обращения 18.01.2019)
13. Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес. / Хабр - информационный ресурс для IT-специалистов. [Электронный ресурс] / habr.com URL: https://habr.com/company/ods/blog/324402/#1-begging. (дата обращения 20.01.2019)
14. Открытый курс машинного обучения. Тема 10. Градиентный бустинг. / Хабр - информационный ресурс для IT-специалистов. [Электронный ресурс] / habr.com URL: https://habr.com/company/ods/blog/327250/#1-vvedenie-i-istoriya-poyavleniya-bustinga. (дата обращения 26.01.2019).
15. Извлечение объектов и фактов из текста в Яндексе. [Электронный ресурс] / habr.com URL: https://habr.com/ru/company/yandex/blog/205198/. (дата обращения: 01.02.2019)
16. Машинное обучение. [Электронный ресурс] / machinelearning.ru URL: http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение. (дата обращения: 22.04.2019)
17. sklearn.Metrics. [Электронный ресурс] / scikit-learn.org URL:
https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics. (дата обращения: 22.04.2019)
18. Precision and recall. [Электронный ресурс] / wikipedia.org URL: https://en.wikipedia.org/wiki/Precision_and_recall. (дата обращения: 22.04.2019)
19. F1 score. [Электронный ресурс] / wikipedia.org URL: https://en.wikipedia.org/wiki/F1_score. (дата обращения: 23.04.2019)
20. Наиболее востребованные языки программирования - 2018 [Электронный ресурс] / habr.com URL: https://habr.com/ru/company/hh/blog/418079/ (дата обращения 26.04.2019)
21. Сравнение топ-4 популярных BI платформ. Какую выбрать? [Электронный ресурс] / habr.com URL: https://habr.com/ru/company/newprolab/blog/349186/ (дата обращения 26.04.2019)
22. TОП-5 инструментов для Text Mining [Электронный ресурс] / datareview.info URL: http://datareview.info/article/top-5-instrumentov-dlya-text-mining/ (дата обращения 14.03.2019)
23. Python. [Электронный ресурс] / wikipedia.org URL: https://ru.wikipedia.org/wiki/Python. (дата обращения 14.01.2019)
24. pandas: powerful Python data analysis toolkit. [Электронный ресурс] / pydata.org URL: https://pandas.pydata.org/pandas-docs/stable/. (дата обращения: 15.02.2019)
25. An introduction to machine learning with scikit-learn. Scikit learn. Machine learning in python. [Электронный ресурс] / scikit-learn.org URL: http://scikit-learn.org/stable/tutorial/basic/tutorial.html. (дата обращения 10.05.2019).
26. sklearn.tree.DecisionTreeClassifier. [Электронный ресурс] / scikit-learn.org URL: https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html. (дата обращения: 10.02.2019)
27. sklearn.ensemble.RandomForestClassifier. [Электронный ресурс] / scikit-learn.org URL: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html. (дата обращения: 15.02.2019)
28. Support Vector Machines. [Электронный ресурс] / scikit-learn.org URL: https://scikit-learn.org/stable/modules/svm.html. (дата обращения: 16.02.2019)
29. sklearn.model_selection. [Электронный ресурс] / scikit-learn.org URL: https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection. (дата обращения: 23.02.2019)
30. Python 3 для начинающих. NumPy, часть 1: начало работы. [Электронный ресурс] / pythonworld.ru URL: https://pythonworld.ru/numpy/1.html. (дата обращения: 15.02.2019).
31. IBM SPSS Modeler 18.2 User's Guide. IBM. 2019.
32. HeadHunter API. [Электронный ресурс] / dev.hh.ru URL: https://dev.hh.ru/. (дата обращения: 16.01.2019)
Размещено на Allbest.ru
Подобные документы
Организационно-производственная структура университета. Обоснование проектных решений по созданию сайта. Проектирование сайта и базы данных "Центр содействия трудоустройству выпускников". Методика эксплуатации сайта, добавление и изменение вакансий.
курсовая работа [1,9 M], добавлен 24.02.2013Этапы развития, особенности и возможности языка программирования Java; происхождение названия. Приложения Sun Microsystems: идеи, примитивные типы. Python - высокоуровневый язык программирования общего назначения: структуры данных, синтаксис и семантика.
реферат [79,0 K], добавлен 23.06.2012Понятие web-сайта и их типы. Программы для создания web-сайта. Описание структуры проекта. Алгоритм создания сайта. Описание конструктора Jimdo. Языки программирования серверного выполнения. Создание полнофункционального веб-сайта для ОАО "КУЛЗ".
курсовая работа [3,5 M], добавлен 05.06.2015Анализ процесса взаимодействия студентов и работодателей при поиске вакансий. Преимущества трудоустройства студентов во время учебы в ВУЗе, методы поиска работы. Проектирование базы данных и разработка веб-сайта для поиска предложений работы студентам.
курсовая работа [3,3 M], добавлен 03.07.2017Практическая значимость создания сайта. Язык программирования JavaScript. Основные области использования языка JavaScript при создании интерактивных HTML-страниц. Язык программирования PHP. Программная основа сайта. Создание оформления дизайна сайта.
дипломная работа [1,1 M], добавлен 05.03.2013Отличительные особенности языка программирования Python: низкий порог вхождения, минималистичный язык, краткий код, поддержка математических вычислений, большое количество развитых web-фреймворков. Традиционная модель выполнения программ на языке Python.
реферат [51,9 K], добавлен 18.01.2015Разработка информативного, удобного и гибкого в управлении web-сайта, удовлетворяющего потребности посетителей и организации. Цепочка ценности индустрии компьютерных игр. Анализ и обоснование выбора среды проектирования и программирования сайта.
дипломная работа [4,0 M], добавлен 20.05.2013Основы моделирования и разработки Web-сайтов. Обзор и сравнительный анализ языков программирования. Фреймворки, используемые при создании сайта. Разработка графического дизайна, моделирование и создание Web-сайта, руководство по администрированию.
курсовая работа [1,7 M], добавлен 07.11.2013Характеристика отдела ЗАГСа Еловского района, его деятельности и структуры. Разработка сайта управления записью актов гражданского состояния. Обоснование выбора языков программирования и средств разработки сайта. Затраты на разработку и внедрение сайта.
дипломная работа [4,7 M], добавлен 30.05.2014Компоненты приложения Vue.js, использование шаблона MVVM. Характеристика Webpack и фреймворка NuxtJs. Python как язык программирования, модель MVC, компоненты и инструментарий фреймворка Django. Технология программирования Object Relational Mapping.
контрольная работа [296,4 K], добавлен 22.03.2017


