Удосконалений метод х2-кластеризації та його застосування до аналізу аварійності на автомобільному транспорті

Опис методу кластеризації незалежних наборів багатовимірних даних за допомогою критерію узгодженості. Кластерний аналіз регіонів за структурою дорожньо-транспортної пригоди з постраждалими на автомобільному транспорті за причинами, видами та винуватцями.

Рубрика Транспорт
Вид статья
Язык украинский
Дата добавления 23.10.2020
Размер файла 482,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Удосконалений метод х2-кластеризащї та його застосування доаналізу аварійності на автомобільному транспорті

Ханін О.Г. к.ф.-м.н., Східноєвропейський національний університет ім. Лесі Українки; Лотиш В.В., к.т.н, Гуменюк П.О., к.т.н, Гуменюк Л.О. к.т.н. Луцький національний технічний університет

Анотація

Існує чимало методів кластеризації даних, але вони мають ряд недоліків, зокрема, з одного боку, це - неоднозначність розбиття масиву даних на групи, а з іншого - неможливість оцінити ступінь однорідності об'єктів, що належать одному і тому ж кластеру. Мета цієї роботи - розробити метод кластерного аналізу багатовимірних даних різної природи, який забезпечить однозначність розбиття набору незалежних вибірок на кластери, що не перетинаються, так, щоб ймовірність помилкової кластеризації не перевищувала певного наперед заданого рівня. Метод кластеризації ґрунтується на використанні критерію узгодженості X.

З іншої сторони, проблема аварійності на автомобільному транспорті є достатньо гострою у вітчизняних реаліях, оскільки рівень ДТП з потерпілими значно перевищує середній європейський. В той же час, кластеризація регіонів України за видами дорожньо-транспортних пригод з постраждалими, їх причинами та винуватцями дозволить зрозуміти спільні регіональні фактори, що впливають на рівень аварійності, визначити та впровадити кращі практики її запобігання. Саме тому представляється актуальним застосування запропонованого методу до аналізу аварійності на автомобільному транспорті в Україні. Розроблений метод реалізований програмно та застосований до порівняльного аналізу рівня аварійності на автомобільному транспорті по регіонах України.

Ключові слова: кластерний аналіз, біноміальний розподіл, довірчий інтервал, критерій узгодженості у2, перевірка статистичних гіпотез, похибка кластеризації, дорожньо-транспортні пригоди з постраждалими.

Аннотация

Существует немало методов кластеризации данных, но они страдают, с одной стороны, неоднозначностью разбиения массива данных на группы, а с другой, не дают возможности оценить степень однородности объектов, принадлежащих одному и тому же кластеру. Цель этой работы - разработать метод кластерного анализа многомерных данных различной природы, который обеспечит однозначность разбиения набора независимых выборок на непересекающиеся кластеры, так, чтобы вероятность ложной кластеризации не превышала определенного заранее заданного уровня. Метод кластеризации основывается на использовании критерия согласия х2.

С другой стороны, проблема аварийности на автомобильном транспорте является достаточно острой в отечественных реалиях, поскольку уровень ДТП с пострадавшими значительно превышает средний европейский. В то же время, кластеризация регионов Украины по видам дорожно-транспортных происшествий с пострадавшими, их причинами и виновниками позволит понять общие региональные факторы, влияющие на уровень аварийности, определить и внедрить лучшие практики ее предотвращения. Именно поэтому представляется актуальным применение предложенного метода к анализу аварийности на автомобильном транспорте в Украине. Разработанный метод реализован программно и применен к сравнительному анализу уровня аварийности на автомобильном транспорте по регионам Украины.

Ключевые слова: кластерный анализ, биномиальное распределение, доверительный интервал, критерий согласия х2, проверка статистических гипотез, погрешность кластеризации, дорожно-транспортные происшествия с пострадавшими.

Abstract

There is a large variety of methods for data clustering, but all of them have numerous defects. On the one hand, it is the ambiguity of splitting the data array into groups, and on the other the impossibility to assess the degree of homogeneity of objects belonging to the same cluster. The purpose of thH work is to develop the method for cluster analysis of multidimensional data of a different nature, which will ensure unambiguity of splitting a set of independent samples into clusters that do not intersect, so that the probability of false clustering does not exceed a certain predetermined level. The clustering method is based on the use of the X consistency criterion.

Besides, the problem of accidents on road transport is quite acute in the domestic realities, since the level of accidents with victims significantly exceeds the average European. At that, the clustering of the regions of Ukraine according to the types of road accidents with the victims, their causes and culprits will help to understand the general regional factors affecting the accident rate, to identify and implement the best practices for its prevention. That is why the application of the proposed method to the analysis of accidents on road transport in Ukraine is quite relevant. The developed method is implemented programmatically and applied to a comparative analysis of the accident rate in road transport in the regions of Ukraine.

Keywords: cluster analysis, binomial distribution, confidence interval, x2 consistency criterion, verification of statistical hypotheses, clustering error, road traffic accidents with victims.

кластеризація автомобільний транспорт пригода

Постановка проблеми. Кластеризація, тобто розбиття даних на однорідні, в певному розумінні, групи, представляє собою поширений метод аналізу даних шляхом зменшення розмірності їх масиву, допомагає виявити спільні та відмінні риси об'єктів дослідження [1]. Цей метод знайшов застосування при розгляді багатовимірних систем в техніці, економіці, фінансах, маркетингу, соціології, психології, медицині, тощо. Однак, головними його недоліками є, як правило, неоднозначність розбиття залежно від вибору першого (базового) об'єкту, з якого починається процес кластеризації, та відсутність міри якості кластеризації даних. Тому, головним чином, цей метод використовується як метод попереднього, розвідувального аналізу, який дозволяє на якісному рівні побачити певні закономірності і сформулювати гіпотези, що потребують подальшого дослідження. Задачею авторів була побудова такого методу кластерного аналізу, який би, по можливості, був позбавлений цих недоліків, тобто відрізнявся однозначністю кластеризації та забезпечував певну наперед задану ймовірність її похибки. З іншого боку, оскільки проблема аварійності на автомобільному транспорті в Україні в останні роки є надзвичайно гострою [2 - 4] та її рівень суттєво перевищує середньоєвропейський [4], представляє інтерес застосування запропонованого алгоритму до регіонального аналізу причин, видів та винуватців ДТП з постраждалими на автотранспорті в Україні.

Метою роботи було, ґрунтуючись на методології порівняння емпіричних розподілів за критерієм узгодженості %2 [5], запропонувати та обґрунтувати удосконалений метод кластерного аналізу, який би забезпечив однозначність розбиття набору незалежних вибірок на кластери, що не перетинаються, так, щоб ймовірності помилкового віднесення вибірок до різних кластерів не перевищувала певного наперед заданого рівня; за допомогою розглянутого методу провести кластерний аналіз регіонів України за структурою ДТП з постраждалими на автомобільному транспорті за причинами, видами та винуватцями.

Запропонований метод кластерного аналізу ґрунтується на критерії узгодженості %2 [5], а ідея його застосування до задач кластерного аналізу в галузі маркетингу була представлена у роботі [6]. Однак, як і решта методів кластерного аналізу, цей метод мав неоднозначність результуючого розбиття, а також відсутність конкретної оцінки ймовірності помилкового віднесення до різних кластерів однорідних об'єктів. В даній роботі представлено удосконалений метод кластеризації багатовимірних даних, який дає однозначні результати, а також відповідні оцінки похибки кластеризації. На основі цього алгоритму в середовищі Delphi створена програма, яка застосована до аналізу значного масиву даних, пов'язаних з рівнем аварійності на автомобільному транспорті по регіонах України.

Аналіз досліджень. Як відомо, кластеризація - це процес розбиття заданої вибірки об'єктів на підмножини, що не перетинаються, які називаються кластерами, так, щоб кожен кластер складався зі схожих об'єктів, а об'єкти різних кластерів суттєво відрізнялися [7]. Термін «кластерний аналіз» уперше ввів Трайон (Tryon) [8] у 1939 році. Відтоді розроблено чимало методів кластерного аналізу, певну класифікацію яких наведено у багатьох роботах, зокрема [2,9 -11]. Згідно цієї класифікації, запропонований нами метод відноситься до ієрархічних методів дівізівної кластеризації (Divisive Methods) із чітким багатоетапним алгоритмом. Заздалегідь невідомо, на скільки кластерів буде розбита сукупність багатовимірних даних. Вхідні дані для застосування запропонованого методу кластеризації повинні бути представлені у вигляді таблиці «Ознака - Кількість її спостережень».

Такий авторитет у галузі аналізу даних, як Тьюкі (Tukey) [12] поділяє статистичний аналіз на два етапи: розвідувальний та підтверджуючий. Перший етап включає перетворення даних спостережень і способи їх наочного представлення, що дозволяє виявити внутрішні законом ірності, які проявляються в даних, тобто, фактично, сформулювати певні гіпотези. На другому етапі застосовуються традиційні статистичні методи оцінки параметрів і перевірки гіпотез. Загальноприйняті методи кластеризації є потужними засобами саме розвідувального аналізу [13]. Запропонований нами метод відрізняється тим, що забезпечує певну однозначність процесу кластеризації, і поєднує у собі обидва етапи. Він, завдяки розбиттю даних на підмножини, які складаються з багатовимірних даних, із ймовірнісними розподілами, схожими між собою за критерієм узгодженості Пірсона, надає інформацію для подальшого формулювання гіпотез щодо змістовних причин схожості чи відмінності даних, та одночасно дає можливість оцінити ймовірність помилкового віднесення «схожих» об'єктів до різних кластерів, тобто зробити певні статистичні висновки.

Однією з цілей кластеризації є стиснення великих обсягів даних: замість дослідження всього їх неосяжного масиву можна розглядати та порівнювати між собою по одному типовому представнику від кожного кластеру [7]. Безумовно, це дає можливість виявити глибинні причини, що розділяють представників різних кластерів. Оскільки нас цікавили саме такі причини регіональних відмінностей рівня аварійності на автомобільному транспорті в Україні, ми вирішили застосувати запропонований нами метод кластерного аналізу до цієї актуальної задачі.

Методологія досліджень. Припустимо, що спостерігаються m незалежних вибірок об'ємів n1, n2, ..., nm, відповідно, з генеральних сукупностей, елементи яких приймають одне з r можливих значень. В якості таких значень можуть виступати певні якісні ознаки (групи факторів), наприклад, групи причин скоєння ДТП, або належність до певного інтервалу для кількісних ознак (в останньому випадку значення кількісних ознак повинні бути розбиті на r інтервалів, що не перетинаються). Нехай для кожної спостереженої вибірки побудовано емпіричний розподіл частот по групах.

Наприклад, в таблиці 1 наведені розподіли частот по п'ятьох групах факторів, отримані за чотирма вибірками.

В один кластер хотілося б об'єднати ті вибірки, в яких співпадають теоретичні розподіли, тобто розподіли генеральних сукупностей, яким вони належать. Однак, на практиці теоретичні розподіли невідомі. Методологія попарного порівняння емпіричних розподілів за допомогою критерію х2 була розглянута нами в [5], але вона призводить до неоднозначного результату кластерного аналізу залежно від вибору еталонного розподілу на кожному кроці кластеризації.

Таблиця 1. Розподіл вибіркових частот по групах

Групи факторів або інтервали значень

Група 1

Група 2

Група 3

Група 4

Група 5

Разом

Вибірка 1

Кількість спостережень, що належать даній групі

4

103

24

90

32

283

Вибірка 2

Кількість спостережень, що належать даній групі

190

174

73

126

118

681

Вибірка 3

Кількість спостережень, що належать даній групі

211

82

79

77

122

561

Вибірка 4

Кількість спостережень, що належать даній групі

225

73

42

25

110

475

Модифікуємо запропонований у роботі [6] алгоритм кластеризації так, щоб на кожному новому кроці кластеризації в якості еталонної вибірки обиралася вибірка, найбільша за об'ємом. Розподіл цієї вибірки будемо називати еталонним вибірковим розподілом. Відповідно, генеральну сукупність, з якої узята ця вибірка будемо також називати еталонною, а її розподіл - еталонним теоретичним розподілом. Так, в нашому прикладі на першому кроці в якості еталонної оберемо вибірку 2. Об'єм еталонної вибірки за таблицею 1 становить п=681. Будемо по черзі розглядати попадання спостереження з еталонної вибірки в певну групу як «успіх», а в решту - як «невдачу». Тоді ми матимемо справу з біноміальними розподілами, для теоретичних ймовірностей яких легко побудувати двосторонній асимптотичний довірчий інтервал будь-якої наперед заданої надійності [14].

Наприклад, попадання значення еталонної вибірки в групу 1 будемо вважати «успіхом», а в одну з решти груп - «невдачею». Вибіркова оцінка невідомого стандартного відхилення ймовірності «успіху» для еталонної генеральної сукупності з п=681

Тоді права межа довірчого інтервалу надійності 99% становить

межа

для двостороннього розподілу Стьюдента з п-1=680 ступенями вільності (в ЕхсеІ-2010 його можна знайти за допомогою функції «СТЬЮДЕНТ.ОБР.2Х(0,01;680)»).

Тобто, з надійністю 99% теоретична ймовірність того, що довільно обраний елемент еталонної генеральної сукупності належить групі 1, знаходиться в інтервалі (0,23; 0,32).

Так само побудуємо довірчі інтервали надійності 99% для теоретичних ймовірностей, що відповідають іншим групам (таблиця 2).

Таблиця 2. Межі довірчих інтервалів надійності 99% для невідомих теоретичних ймовірностей еталонної генеральної сукупності

Групи

Ліва межа довірчого інтервалу

Права межа довірчого інтервалу

Група 1

0,23

0,32

Група 2

0,21

0,30

Група 3

0,08

0,14

Група 4

0,15

0,22

Група 5

0,14

0,21

X - відстань між емпіричним та теоретичним розподілом знаходять за формулою [15]

Якщо спостережена вибірка належить саме тій генеральній сукупності, теоретичні ймовірності якої розглядаються, то величина (1) має асимптотичний х2 - розподіл з г-1 ступенями вільності. Залишається порівняти отриману відстань (1) з критичним значенням, що відповідає певному рівню істотності а. Якщо відстань не перевищує критичного значення (в Excel 2010 його можна знайти за допомогою функції ХИ2.ОБР.ПХ(а;г-1)) приймають рішення про справедливість нульової гіпотези, що вибірковий розподіл співпадає з теоретичним, у протилежному випадку - приймають альтернативну гіпотезу.

Однак, в нашому випадку ймовірності р- невідомі, проте відомі довірчі інтервали для них (див. табл. 2), побудовані за еталонною вибіркою. Замінимо pi на такі значення з довірчих відрізків А- (тобто з довірчих інтервалів, разом із їх кінцями), які зроблять значення виразу (1) найменшим з можливих. Тим самим при перевірці гіпотези про узгодженість розподілів ми мінімізуємо помилку 1 - то роду. Таким чином, замість відстані (1) будемо розглядати відстань

Будемо вважати, що вибірки належать одному кластеру, якщо побудована для них відстань (2) до еталонного теоретичного розподілу не більша за критичне значення ХЈр=ХИ2.0БР.ПХ(а;г-1).

Зауважимо, що довірчі відрізки не повинні містити нульові значення. Якщо це трапилося, тобто значення відносних частот для деяких категорій дуже малі, варто об'єднати ці категорії з іншими.

Якщо формування першого кластеру закінчено, то в якості еталонної обирається вибірка найбільшого об'єму з числа тих, що не попали у першій кластер, та процес кластеризації продовжується, і т.д.

Визначення вибірки найбільшого об'єму в якості еталонної призводить до звуження довірчого інтервалу, тобто збільшення точності оцінювання. Крім того, якщо на кожному кроці створення нового кластеру існує лише одна вибірка з найбільшим об'ємом, то результат кластеризації стає однозначним.

В нашому прикладі на першому кроці вибірки 1, 3, 4 почергово за формулою (2) порівнюються з критичним значенням Хкр=ХИ2.ОБР.ПХ(0,01 ;2)~9,21, де значення беруться з таблиці 1, а довірчі відрізки А - , побудовані за еталонною вибіркою (в нашому випадку - вибіркою 2) з таблиці 2. Знаходження мінімального значення виразу (2) можна здійснити за допомогою інструменту Excel «Пошук розв'язків». Процес знаходження мінімуму виразу (2) спроститься, якщо зауважити, що

Оцінимо тепер ймовірність помилкової кластеризації, точніше ймовірність того, що при правильності нульової гіпотези про однорідність усіх теоретичних розподілів, з яких узяті спостережені вибірки, знайдеться принаймні пара вибірок, які попадуть у різні кластери.

Нехай всі довірчі інтервали, які ми будували для невідомих ймовірностей еталонного теоретичного розподілу (див., наприклад, табл. 2), мають однакову надійність, рівну у. Точні значення ймовірностей еталонного теоретичного розподілу нам принципово невідомі. Розглянемо подію А, що усі г ймовірностей еталонного теоретичного розподілу попадуть у відповідні довірчі інтервали. Оскільки відповідні довірчі інтервали будуються незалежно, то ймовірність Р(А)= уг . Нехай подія В означає, що за критерієм X помилково прийняте рішення, що не всі генеральні сукупності мають однакові розподіли, хоча в дійсності всі вони однорідні. Ймовірність цієї події - це рівень істотності а, на якому перевіряється гіпотеза про однорідність генеральних розподілів, з яких узяті спостережені вибірки. Для визначеності будемо обирати а=1-у. Помилка кластеризації відбувається, коли наступає подія А або одночасно наступають події А та В. Оскільки ці події несумісні, то ймовірність помилки кластеризації не більша за

Якщо прийняти а=1-у, то ймовірність помилки кластеризації не перевищуватиме величини 1-yr+l.

Якщо ми хочемо задати певний рівень похибки кластеризації р, то відповідне значення надійності довірчих інтервалів у, а отже і значення рівня істотності а=1-у, що забезпечують похибку кластеризації не вищу за р, можна знайти з рівняння

звідки

Скажімо, в нашому прикладі (таблиця 1) для рівня похибки кластеризації р=0,05 необхідно будувати довірчі інтервали надійності у=0,95(1/б)«0,99, в цьому випадку рівень істотності при перевірці за критерієм х2 гіпотези про однорідність генеральних розподілів буде вважатися рівним а =1-у ~ 0,01.

Результати. Реалізація запропонованого методу здійснена в інтегрованому середовищі розробки програмного забезпечення для Microsoft Windows, Mac OS, iOS і Android на мові Delphi (RAD - Rapid Application Development) Delphi XE6. Бібліотека наявних компонент дозволила реалізувати введення даних, проведення кластеризації та виведення отриманого результату в одному додатку (рис. 1).

Рис 1. Додаток в режимі введення даних

Початкове введення даних для кластеризації запропонованим методом здійснюється в самому додатку. Також передбачено експорт підготовлених даних з таблиці Microsoft Excel.

Для налаштування додатку необхідно задати масштаб (коефіцієнт множення), номер еталонної категорії та рівень значущості в інтерактивному режимі.

Результат, отриманий внаслідок кластеризації, представляється у вигляді схеми (рис. 2), де представлено номери отриманих кластерів та номери категорій (рядків), які входять до даного кластера.

Запропоноване представлення результатів дозволяє наочно спостерігати розподіл даних по кластерах.

Вихідні дані та результати кластеризації зберігаються в таблиці Microsoft Excel. Також надається можливість збереження результатів кластеризації в графічному форматі.

Рис 2. Представлення результатів кластеризації

Для комфортного використання передбачено зміну мови інтерфейсу додатку (англійська та українська).

За офіційними даними аварійності [16] на основі розглянутого вище алгоритму за допомогою розробленої нами в середовищі Delphi програми був проведений кластерний аналіз регіонів України за розподілом дорожньо-транспортних пригод з постраждалими у 2016 році по видах, винуватцях та основних причинах скоєння. Ймовірність похибки кластеризації була обрана рівною 5%. Результати аналізу зведемо у таблиці 3, 4, 5.

Таблиця 3. Кластеризація регіонів за розподілом ДТП з постраждалими у 2016 році по винуватцях

Область або місто

Кластер

Причини ДТП з постраждалими

з вини водіїв,

з вини дорослих пішоходів,

з вини дітей,

к-сть

к-сть

к-сть

Вінницька

1

563

61

22

Волинська

1

480

61

24

Дніпропетровська

1

1926

320

71

Донецька

1

593

68

21

Житомирська

2

345

24

10

Закарпатська

2

201

8

9

Запорізька

1

740

84

18

Івано-Франківська

1

440

89

22

Київська

2

369

17

7

Київ

2

734

44

5

Кіровоградська

2

250

16

10

Луганська

2

232

11

13

Львівська

2

702

46

19

Миколаївська

1

303

32

6

Одеська

2

1073

83

33

Полтавська

1

752

76

19

Рівненська

1

310

40

13

Сумська

1

341

38

8

Тернопільська

1

272

26

12

Харківська

2

443

28

7

Херсонська

1

357

32

16

Хмельницька

2

260

12

9

Черкаська

2

713

52

22

Чернігівська

2

494

56

16

Чернівецька

1

164

4

4

Таблиця 4. Кластеризація регіонів за розподілом ДТП з постраждалими у 2016 році по їх видах

Область або місто

Кластер

Види ДТП

Зіткнення

Перекидання

Наїзд на ТЗ, що стоїть,

Наїзд на перешкоду

Наїзд на пішохода

Наїзд на велосипедиста

к-сть

к-сть

к-сть

к-сть

к-сть

к-сть

Вінницька

1

375

72

12

95

382

86

Волинська

4

285

91

17

92

307

97

Дніпропетровська

1

947

136

81

276

880

126

Донецька

1

348

41

25

138

328

58

Житомирська

1

353

67

24

118

323

84

Закарпатська

5

197

29

11

108

176

53

Запорізька

1

454

89

15

126

399

73

Івано-Франківська

5

216

32

4

67

259

60

Київська

2

574

63

32

174

399

91

Київ

1

1027

24

48

191

1077

75

Кіровоградська

1

217

50

13

50

146

32

Луганська

4

131

40

13

53

67

34

Львівська

1

836

125

22

228

717

105

Миколаївська

1

405

66

20

80

324

37

Одеська

1

911

147

68

241

682

88

Полтавська

4

399

97

42

104

315

104

Рівненська

1

298

81

24

87

281

68

Сумська

1

205

58

18

57

203

50

Тернопільська

1

223

34

14

46

190

28

Харківська

3

720

86

42

113

558

58

Херсонська

1

285

63

32

82

234

24

Хмельницька

1

312

47

17

82

272

43

Черкаська

1

359

67

29

125

238

66

Чернігівська

1

253

62

17

82

216

105

Чернівецька

4

115

21

7

45

130

16

Таблиця 5. Кластеризація регіонів за розподілом ДТП з постраждалими у 2016 році по причинах скоєння

Область або місто

Кластер

Керування у нетверезому стані

Перевищення безпечної швидкості

Порушення правил маневрування

Порушення правил проїзду пішохідних

Порушення правил обгону

Виїзд на смугу зустрічного руху

Порушення правил проїзду перехресть

Недодержання дистанції

к-сть

к-сть

к-сть

к-сть

к-сть

к-сть

к-сть

к-сть

к-сть

Вінницька

3

103

194

151

42

13

47

34

39

Волинська

3

113

177

90

58

14

28

54

23

Дніпропетровська

1

124

616

319

227

26

104

241

267

Донецька

2

78

219

118

35

6

27

132

60

Житомирська

6

93

99

42

31

7

30

38

30

Закарпатська

4

29

97

42

5

4

11

7

20

Запорізька

3

115

186

222

70

9

39

92

86

Івано-Франківська

1

60

210

89

52

14

40

48

43

Київська

3

116

116

77

15

6

15

37

33

Київ

6

78

172

220

111

2

18

148

142

Кіровоградська

1

22

98

53

8

9

17

43

26

Луганська

2

64

100

52

6

2

14

44

15

Львівська

4

98

420

130

25

17

46

46

53

Миколаївська

2

53

114

55

17

11

7

57

21

Одеська

2

134

359

198

65

15

65

170

139

Полтавська

2

107

273

179

61

12

60

110

82

Рівненська

4

45

179

41

13

9

21

23

9

Сумська

1

43

114

64

44

8

21

38

44

Тернопільська

3

48

64

48

37

11

26

37

20

Харківська

4

88

215

95

1

5

17

32

31

Херсонська

2

51

155

58

14

12

20

54

30

Хмельницька

2

54

71

60

15

3

24

15

31

Черкаська

5

116

328

140

42

12

37

106

38

Чернігівська

3

109

279

83

15

10

57

55

58

Чернівецька

4

18

73

69

9

9

21

10

11

Запропонований алгоритм кластерного аналізу даних по кількох факторах (вимірах) забезпечує, на відміну від інших поширених методів, однозначність розбиття на кластери з одночасною оцінкою ймовірності похибки 1-го роду, тобто ймовірності, що однорідні дані будуть віднесені до різних кластерів. Таким чином, його перевагою є той факт, що він дозволяє проводити не тільки розвідувальний аналіз даних, але й робити математично обґрунтовані висновки. Необхідною умовою для його застосування є наявність інформації про кількість спостережень кожного фактору для кожного об'єкту, що кластеризується.

Так, застосування цього методу до аналізу регіонів України щодо аварійності на автомобільному транспорті з постраждалими дозволило з ймовірністю похибки, що не перевищує 5%, згрупувати ці регіони по видах ДТП, винуватцях та причинах скоєння.

Запропонований метод кластеризації незалежних наборів багатовимірних даних за допомогою критерію узгодженості %2 відрізняється обчислювальною простотою, однозначністю розбиття даних на кластери, що не перетинаються, а також можливістю контролю похибки кластеризації. Цей метод був створений з метою порівняння структурних відмінностей багатовимірних систем різної природи. Кластеризація регіонів України розглянутим методом за розподілом кількості ДТП з постраждалими залежно від різних факторів дозволяє в якості наступного кроку провести аналіз спектру організаційних, технічних, кадрових та інших причин, які призвели до об'єднання регіонів в один та різні кластери, для поширення кращих практик запобігання аварійності на автомобільному транспорті в Україні та напрацювання заходів щодо зниження її загального рівня.

Список бібліографічних посилань

1. Олдендерфер М.С., Блэшфилд Р.К. Кластерный анализ // Факторный, дискриминантный и кластерный анализ: пер. с англ. / под. ред. И.С. Енюкова. -- М.: Финансы и статистика, 1989. -- 215 с.

2. Гройсман В. Безпека руху на українських дорогах має бути відчутна кожному водію / В. Гройсман. - Департамент інформації та комунікацій з громадськістю Секретаріату Кабінету Міністрів України, опубліковано 10 квітня 2018 року.

3. Семь основных причин ДТП

4. В Украине за 1,5 года на дорогах погибло больше людей, чем в АТО

5. Ханін О.Г. Методологічні особливості застосування критерію узгодженості х2 в практичних задачах економіки, соціології та маркетингу / О.Г. Ханін // Економічний аналіз: зб. наук. праць / Тернопільський національний економічний університет. - 2015. - Том 22. - № 1. - С. 67-70.

6. Ханін О.Г. Метод х2-кластеризації в задачах маркетингу / О. Г. Ханін // Економічний аналіз: зб. наук. праць / Тернопільський національний економічний університет. - 2016. - Том 26. - № 1. - С. 38-42.

7. Черезов Д.С., Тюкачев Н.А. Обзор основных методов классификации и кластеризации данных // Вестник Воронежского государственного университета, - Серия: Системный анализ и информационные технологи, - №2, 2009, с.25-29

8. Tryon, R.C. (1939) Cluster Analysis: Correlation Profile and Orthometric (Factor) Analysis for the Isolation of Unities in Mind and Personality. Edwards Brothers, Ann Arbor. - 122 p.

9. Trebuna P., Halcinova J. Mathematical Tools of Cluster Analysis // Applied Mathematics, 2013, 4, 814-816.

10. Нейский И.М. Классификация и сравнение методов кластеризации

11. Jain A., Murty M., Flynn P. Data Clustering: A Review. // ACM Computing Surveys. 1999. Vol. 31, no. 3,- 69 p.

12. Тьюки Дж. Анализ результатов наблюдения. Разведочный анализ. М.: Мир,- 1981, - 696 с.

13. Кластерный анализ

14. Сигел Э. Практическая бизнес-статистика / Э. Сигел - М. : Вильямс, 2002. - 1056 с.

15. Крамер Г. Математические методы статистики / Г. Крамер - М. : Мир, 1976. - 648 с.

16. Статистика аварійності в Україні за 12 місяців 2016 року

Размещено на Allbest.ru


Подобные документы

  • Схеми вантажопотоків від постачальника до споживача, основні задачі промислових систем. Комплексна механізація та автоматизація навантажувально-розвантажувальних робіт при взаємодії з рухомим складом на залізничному та на автомобільному транспорті.

    курсовая работа [636,9 K], добавлен 21.04.2015

  • Поняття, види, суб’єкти автотранспортних перевезень. Ліцензування господарської діяльності з надання послуг з перевезення пасажирів і вантажів автомобільним транспортом. Правила і типовий технологічний процес обслуговування на автостанціях і автовокзалах.

    контрольная работа [27,4 K], добавлен 07.04.2011

  • Відкриття ефекту Пельтьє. Пояснення принципу когенерації. Головні особливості експлуатації термоелектричних перетворювачів. Когенерація, комбіноване виробництво теплової та електричної енергії. Застосування термоелектрогенератора на транспорті.

    дипломная работа [3,1 M], добавлен 20.05.2015

  • Визначення технічних і експлуатаційних показників вагонів. Характеристика вантажу, що перевозиться на залізничному транспорті. Порядок визначення плати за перевезення вантажів. Заповнення перевізних документів вантажовідправником, на станції призначення.

    курсовая работа [81,6 K], добавлен 22.12.2014

  • Огляд нормативно-правової бази з питань обліку, аналізу і контролю витрат. Аналіз фінансово-господарської діяльності. Облік і контроль основної діяльності підприємства. Особливості ведення бухгалтерського обліку витрат на залізничному транспорті.

    дипломная работа [193,4 K], добавлен 19.10.2006

  • Опис стоянок на вулично-дорожній мережі міста та стан систем паркування автомобілів. Вибір критерію ефективності функціонування транспортної мережі центральної частини Харкова та алгоритм її оптимізації. Модель складу і швидкості транспортного потоку.

    курсовая работа [350,6 K], добавлен 27.02.2011

  • Призначення, будова приладів освітлення і сигналізації, контрольно-вимірювальних приладів, специфіка та сфери їх застосування. Особливості, вимоги безпеки при технічному обслуговуванні систем освітлення, контрольно-вимірювальних приладів на транспорті.

    контрольная работа [3,1 M], добавлен 15.09.2010

  • Список небезпечних для здоров'я водія факторів. Зростання кількості аварій. Причини дорожньо-транспортних пригод з постраждалими. Вживання алкоголю, наркотиків, заспокійливих та стимулюючих препаратів як причина аварій на дорогах з тяжкими наслідками.

    реферат [654,2 K], добавлен 21.02.2013

  • Визначення перспективного плану роботи пасажирської транспортної системи міста за допомогою моделювання транспортної мережі міста. Складання топологічної схеми міста. Визначення ємності транспортних районів. Розрахунок пасажиропотоків на мережі.

    курсовая работа [300,0 K], добавлен 19.07.2012

  • Опис транспортного підприємства, характеристика системи та її властивості. Структура транспортного підприємства та його підсистем, їх аналіз. Особливості зовнішнього середовища. Основні показники діяльності підприємства, визначення його головних цілей.

    курсовая работа [891,0 K], добавлен 03.11.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.