Выявление паттернов переходов футболистов между клубами

Исследование метода анализа формальных понятий для поиска закономерностей. Характеристика способов отбора интересных паттернов. Выявление и проверка случайностей на устойчивость. Поиск закономерностей как множества переходов между клубами и лигами.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 21.09.2018
Размер файла 230,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Для решения данной проблемы и сокращения объема данных было принято решение не учитывать редкие признаки. Так как целью исследования является выявление частых закономерностей, логично предположить, что переходы из клуба в клуб, которые встречаются 1 или 2 раза среди сотен тысяч трансферов, вряд ли будут интересны для анализа. В результате были отсеяны сочетания, которые встречались реже трех раз, и получено новое множество признаков, состоящее из 37 626 элементов типа «Padova Monza». Набор формальных понятий для многих футболистов также сократился, множество признаков для отдельных объектов стало пустым. Такая трансформация повлияет на дельта-меру, однако информация о наиболее частых последовательностях сохранится.

Как и предполагалось после анализа множества одиночных клубов, в результате анализа переходов футболистов между клубами были получены устойчивые паттерны длиной в 1 признак. Другими словами, есть распространенные трансферы между 2 клубами, однако варианты сочетания таких пар крайне разнообразны.

Рисунок 3.2. Решетка формального понятия с двумя признаками

Тем не менее среди данного набора признаков было выявлено несколько устойчивых паттернов из 2 переходов. На Рис.3.2. представлена часть решетки одного из таких понятий. Она показывает, что признак "Akademia Zenit St. Petersburg Zenit St. Petersburg II" свойственен 112 объектам из всего объема, 37 из которых, помимо первого признака, обладают также и признаком "Zenit St. Petersburg II Zenit S-Pb". Как видно из рисунка, данная часть решетки имеет абсолютно плоскую структуру, однако признаки имеют хорошие показатели дельта-меры, что говорит о том, что при добавлении признаков в данную закономерность будут потеряны практически все объекты. Стоит также отметить, что закономерность "Akademia Zenit St. Petersburg Zenit St. Petersburg II, Zenit St. Petersburg II Zenit S-Pb" является логичной и общеизвестной, так как в Академии-Зенит готовят юных спортсменов для будущей игры в составе футбольного клуба "Зенит", однако прежде, чем попасть в основной состав, многие игроки попадают в фарм-клуб "Зенит"-2 для получения опыта игровой практики.

Поиск закономерностей как множества переходов между лигами

Следующий набор данных содержит информацию о переходах между лигами и включает в себя 26 368 признаков, обработка такого объем требует значительных временных затрат, однако завершается успешно. Результаты получились интересными для анализа, так как большое число игроков переходили по одинаковой траектории. Несмотря на то, что многие трансферы совершались внутри одной страны, встречаются нетипичные, например "Serie A Italy Ekstraklasa Poland". 50 самых массовых и устойчивых паттернов переходов из одной лиги в другую представлены в Приложении C

Анализируя переходы между лигами, можно наблюдать относительно большое количество последовательностей, состоящих из двух и более переходов. Например, 985 футболистам свойственна последовательность "1.Division Russia Premier Liga Russia, United States United States ISPS Handa Premiership New Zealand", что равно 1% от общего числа футболистов, дельта-мера у данной последовательности равна 575, что относительно неплохо, и данный паттерн может быть значим. А паттерн "Senegal Senegal Ekstraklasa Poland, Ligue 2 Ligue 1, The Gambia MLS United States" был обнаружен среди 378 игроков, при этом дельта-мера для данной последовательности равна 302, что значит, что для 3 из 4 футболистов этот путь является основным.

Как видно из примеров, паттерны не являются полными, сквозными, то есть 2 перехода могут быть не последовательными, между ними может присутствовать 1 или более дополнительных переходов, но в ходе тестирования данные переходы были отсеяны. Причина этого может быть в том, что существует множество различных вариантов преодоления данного пропуска между лигами, и нет ни одного наиболее популярного.

При анализе переходов между странами получилось, что почти все обнаруженные паттерны состоят из одного элемента. Единственной последовательностью, состоящей из 2 переходов, был паттерн "Italy NA","NA Gibraltar", однако и здесь футболист фактически не играл в 3 странах, а временно был свободным агентом.

Таким образом, исследование переходов является более информативным, чем анализ простых множеств. Как и ожидалось, наиболее интересные паттерны были получены на уровне лиг, но достигнутые на данные момент результаты по лигам и странам требуют интерпретации и объяснения с футбольной точки зрения для того, чтобы понять их оригинальность и реалистичность.

Поиск закономерностей как множества переходов между уровнями

Ранее уже было выдвинуто предположение о том, что закономерности трансферов могут наблюдаться не только внутри одного уровня, но и между ними, поэтому были подготовлены множества признаков, которые представлены в Табл. 3.4.

Таблица 3.4. Множества признаков

Множество признаков

Количество признаков

1.

Клуб Лига

113 680

2.

Лига Клуб

108 066

3.

Клуб Страна

76 031

4.

Страна Клуб

72 373

Попытки запустить файлы с этими наборами признаков в приложении FCAPS закончились так же неудачно, как и в случае с множеством переходов из клуба в клуб. В связи с этим был введен минимальный уровень поддержки для всех признаков, который равен 2, то есть если признак встречается реже, чем у трех объектах из всего объема, то данный признак отсеивается. Таким образом были сформированы новые множества признаков, куда не вошли редко встречающиеся переходы.

Однако практически все результатам экспериментов с данными множествами представлена в виде паттернов из 1 признака, причина этому аналогична как в случае с переходами из клуба в клуб: слишком большое разнообразие клубов ведет за собой появление слишком большого количества признаков.

3.3 Интерпретация результатов для достижения целей футболистов

Как уже говорилось выше, в область футбольных трансферов наиболее сильно вовлечены 4 стороны: клуб-продавец, клуб-покупатель, футболист и агент, однако цели у каждого из них разные, поэтому невозможно создать единые рекомендации для всех сторон. Остановимся на примере использования полученных результатов для достижения такой цели футболиста, как смена места жительства.

Предположим, футболист на данный момент играет за клуб "Fluminense" лиги "Seria A" в Бразилии и хочет переехать в другую страну, например, в Европу. Можно начать рассмотрение с того, в какие страны переходят игроки из его текущей страны. Например, игроки из футбольных клубов Бразилии часто переходят в футбольные клубы Испании. Углубляясь дальше, возможно рассмотреть в какую лигу Испании наиболее часто переходят бразильские спортсмены из лиги футболиста ("Serie A"). В таком случае будет найден паттерн "Serie A Brazil 2 B - Grupo II Spain". Далее можно сузить поиск до связи команд лиги Испании с текущей командой игрока, и после этого попытаться найти нужного агента или селекционера, который мог бы рассмотреть и способствовать совершению такого перехода.

Таким образом, был показан пример использования найденных закономерностей для достижения поставленной цели заинтересованной стороны трансфера.

Заключение

Обзор работ в области футбольных трансферов показал, что анализ переходов футболистов между клубами прежде не рассматривался как задача поиска закономерностей, однако в ходе исследования было доказано, что применение методов поиска закономерностей для выявления типичных трансферов возможно.

В данной работе описано несколько наиболее популярных и распространенных методов работы с закономерностями и приведены примеры решения практических задач. В результате сравнения из-за особенностей решаемой задачи в качестве основного алгоритма поиска закономерностей был выбран аппарат узорных структур, который является расширением анализа формальных понятий.

Подготовка и тестирование данных на наличие частых последовательностей с достаточным уровнем устойчивости частично на разных множествах и уровнях показали различные результаты. Так, из-за большого числа клубов и свободы футболистов в выборе команды, закономерности между клубами отследить сложно, а переходы футболистов между странами совершаются довольно редко, так как наиболее часто трансфер происходит внутри страны, поэтому переходы между странами также малоинтересны. В то время как переходы между лигами представляют наибольший интерес с точки зрения повторяющихся комбинаций.

Все получившиеся частые последовательности можно условно разделить на две группы. Первые - общеизвестные, популярные и логичные в области футбола переходы, которые подтверждают релевантность исследования. К таким, например, относятся переход "Ligue 2 Ligue 1" или "England England League One England". Вторые - новые, редко обсуждаемые паттерны, обнаруженные в этой работе. Яркий пример - это "The Gambia MLS United States". С практической точки зрения, получившиеся результаты могут быть использованы футболистами для построения траектории развития карьеры, или же последовательности могут лечь в основу стратегии футбольных клубов по поиску новых игроков.

Результаты работы показывают, что гипотеза о существовании закономерностей в области футбольных трансферов верна и требует дальнейшего анализа. В дополнение к уже выполненному анализу, в дальнейшем планируется рассмотреть те случаи, когда игрок совершал более одного перехода и играл более, чем в 2 клубах. В этой ситуации имеет смысл рассмотреть в качестве признаков не только соседние по хронологическому порядку переходы, но и попарное сочетание всех клубов, в которых играл футболист. Таким образом, созданное на предыдущем этапе множество признаков расширяется за счет добавления новых сочетаний переходов с пропусками, например, "клуб №1 - клуб №3" в наборе клубов для определенного игрока. Предположительно это может стать источников для еще некоторого количества интересных закономерностей.

Библиографический список

1.Регламент по статусу и переходам футболистов ФИФА. 28 с.

2.Frick B., Simmons R. 13 . The footballers ' labour market after the Bosman ruling. 2013. P. 203-226.

3.Vasilakis C. Does talent migration increase inequality? A quantitative assessment in football labour market // J. Econ. Dyn. Control. Elsevier B.V., 2017. Vol. 85. P. 150-166.

4.Berg E. van den. The Valuation of Human Capital in the Football Player Transfer Market // Erasmus. 2011. № July.

5.Chadwick S., Burton N. From Beckham to Ronaldo -- Assessing the nature of football player brands // J. Spons. 2008. Vol. 1, № 4. P. 307-317.

6.Sжbш O.D., Hvattum L.M. Evaluating the efficiency of the association football transfer market using regression based player ratings // Norsk Informatikkonferanse (NIK). 2015. P. 12.

7.Dobson S., Gerrard B., Howe S. The determination of transfer fees in English nonleague football // Appl. Econ. 2000. Vol. 32, № 9. P. 1145-1152.

8.Ruijg J., van Ophem H. Determinants of football transfers // Appl. Econ. Lett. 2015. Vol. 22, № 1. P. 12-19.

9.Алескеров Ф.Т. и др. Анализ паттернов в статике и динамике,. 2013. Vol. 3, № 25. С. 3-18.

10.Lee V.E., Jin R., Agrawal G. Frequent Pattern Mining // Frequent Pattern Mining. 2014. 199 p.

11.Wu X. et al. Top 10 algorithms in data mining // Knowledge and Information Systems. 2008. Vol. 14, № 1. 1-37 p.

12.Bernhard Ganter, Wille R. Formal Concept Analysis: Mathematical Foundations // Springer. 1999.

13.Taylor P., Poelmans J. International Journal of General Semi-automated knowledge discovery?: identifying and profiling human trafficking. 2012. Vol. 41, № May 2013. P. 37-41.

14.Poelmans J. et al. Text mining scientific papers: A survey on FCA-based information retrieval research // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2012. Vol. 7377 LNAI, № Wille 1982. P. 273-287.

15.Бузмаков А.В. Узорные структуры для анализа сложных последовательностей // Научно-техническая информация. Сер. 2, Информационные процессы и системы. 2013. №. 10. С. 27-39.

16.Heikinheimo H. et al. Low-Entropy Set Selection // Proceedings of the 2009 SIAM International Conference on Data Mining. Philadelphia, PA: Society for Industrial and Applied Mathematics, 2009. P. 569-580.

17.Webb G.I. Self-sufficient itemsets // ACM Trans. Knowl. Discov. Data. 2010. Vol. 4, № 1. P. 1-20.

Приложение

Пример файла данных

[{

"ObjNames":[

"38564",

"33096",

"72280",

"19495",

"50692",

"53653",

"96332",

"28682"

],

"Params":{

"AttrNames":[

"Ligue I Pro -> NA",

"United States -> MLS",

"MLS -> MLS",

"England -> League One",

"League One -> England",

"England -> Oman",

"Malaysia -> Premier Liga",

"Monaco -> Football League",

"ISPS Handa Premiership -> New Zealand",

"Finland -> Ykkonen"

]

}

},{

"Count": 96384,

"Data": [

{"Inds":[708,4165,1134,1435,1447,1447]},

{"Inds":[2092,2888]},{"Inds":[1134]},

{"Inds":[1407,1435,1447]},

{"Inds":[1366,1366,1366,17372,17373,1366,1134,461]}

{"Inds":[926,403,1274,926,926,926,926]},

{"Inds":[926,926,926,403,2125]},

{"Inds":[926]},

{"Inds":[698,281,283,283,281,281]}

]

}]

Код функции "buildAttributesSet" на языке R

Функция "buildAttributesSet" #формирование множества признаков

buildAttributesSet <- function()

{

tempTypes <- NULL

fromToTypes <- NULL #создание вектора признаков

for (i in 1:nrow(players)) # цикл для прохода по базе данных

{

tempTypes <- paste(players$FromType[i]," -> ", players$ToType[i]) #признак из 2х значений

if (tempTypes %in% fromToTypes == FALSE)

fromToTypes[length(fromToTypes)+1] <- tempTypes

}

write_json(fromToTypes, path = "fromToTypes.json")

}

Код функции "buildConcepts" на языке R

Функция "buildConcepts"

buildConcepts2 <- function()

{

clubs_pairs <- list()

clubs_pairs[1] <-

which(paste(players$FromClub[1], " -> ", players$ToClub[1]) == fromToClubs)

for (i in 2:nrow(players))

{

if (players$Player_ID[i] != players$Player_ID[i - 1])

clubs_pairs[[length(clubs_pairs) + 1]] <-

which(paste(players$FromClub[i], " -> ", players$ToClub[i]) == fromToClubs)

else

clubs_pairs[[length(clubs_pairs)]] <-

c(clubs_pairs[[length(clubs_pairs)]], which(

paste(players$FromClub[i], " -> ", players$ToClub[i]) == fromToClubs

))

}

for(i in 1:length(clubs_pairs))

{

clubs_pairs[[i]] <- list(Inds = clubs_pairs[[i]])

}

write_json(clubs_pairs, path = "clubs_pairs.json")

}

Наиболее распространенные переходы между лигами

Таблица D.1. 20 самых распространенных переходов

Признак

Количество объектов

Дельта-мера

1.

Ligue 2 France Ligue 1 France

3963

3220

2.

Spain Spain 2 GB - Grupo III Spain

2168

1723

3.

United States United States ISPS Handa Premiership New Zealand

2593

1608

4.

Germany Germany A-Junioren Bundesliga Sud Germany

1773

1583

5.

England England League One England

1718

1374

6.

Argentina Argentina Serie A Segunda Etapa Ecuador

1676

1344

7.

France France Ligue 1 France

1574

1180

8.

Turkey Turkey Super Lig Turkey

1490

1130

9.

Brazil Brazil NA NA

2014

1035

10.

1 Liga Poland 1 Liga Poland

1216

787

11.

Primavera 1 Italy Serie C - B Italy

1025

772

12.

Serie B Italy Serie C - A Italy

1069

721

13.

Primavera C Italy Italy Italy

975

706

14.

Monaco Monaco -> Monaco Monaco

1248

700

15.

Premier Liga Kazakhstan Virsliga Latvia

811

609

16.

Ligue 1 France Premier League England

985

603

17.

The Gambia The Gambia MLS United States

898

564

18.

Croatia Croatia Bosnia-Herzegovina Bosnia-Herzegovina

907

561

19.

Hungary Hungary NB I. Hungary

833

556

20.

Egypt Egypt Egypt Egypt

928

538

21.

France France 1.Division Russia

829

534

22.

Ligue 1 France Parva Liga Bulgaria

1368

513

23.

Premier League England League One England

725

508

24.

Serie A Brazil 2 GB - Grupo II Spain

770

499

25.

Serie A Italy Ekstraklasa Poland

725

488

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.