Математическое моделирование для кластеризации данных на основе обучающей выборки
Решение задачи по разбиению наблюдений на основе анализа метрик качества, предоставляемой провайдером услуги на основе метода k-means. Выявление класса элементов, соответствующего обучающей выборке. Параметры, по которым проводится разбиение на классы.
Рубрика | Математика |
Вид | статья |
Язык | русский |
Дата добавления | 06.05.2018 |
Размер файла | 114,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ДЛЯ КЛАСТЕРИЗАЦИИ ДАННЫХ НА ОСНОВЕ ОБУЧАЮЩЕЙ ВЫБОРКИ
Кротов Л.Н.,
Кротова Е.Л.,
Рукшин С.А.
Актуальность исследования заключается в том, что решение задачи кластеризации может быть использовано для устранения внутренних проблем на производстве и вычленения слабых звеньев производственного процесса. Так же методы кластерного анализа могут применяться в других отраслях (распознавание образов без учителя, стратификация, таксономия, автоматическая классификация и т.п.) [1].
Метод k-means (метод k-средних) - наиболее популярный метод кластеризации (именно поэтому он был выбран для решения поставленной задачи). Суть метода сводится к тому, что он стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров. При этом он разбивает множество элементов векторного пространства на заранее известное число кластеров k. Основная идея заключается в том, что на каждой итерации пересчитывается центр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кластеры вновь в соответствии с тем, какой из новых центров оказался ближе по выбранной метрике. Алгоритм завершается, когда на какой-то итерации не происходит изменения центра масс кластеров. Это происходит за конечное число итераций, так как количество возможных разбиений конечного множества конечно, а на каждом шаге суммарное квадратичное отклонение не увеличивается, поэтому зацикливание невозможно [2].
Цель работы состоит в том, чтобы из общего множества наблюдений вычленить класс наиболее близкий к обучающей выборке. Для решения данной задачи был использован следующий подход:
- С сервера взята выборка данных, включающая в себя данные по 17528 наблюдениям, по каждому из которых зафиксированы 14 метрик.
- Определены ранги параметров, которые влияют на качество услуги а именно 2 главных параметра, имеющих наибольшую корреляцию с обучающей выборкой: среднее время установления соединения и среднее количество пакетов данных = р1, переданных без повторной передачи = р2.
По этим двум главным параметрам и проводим разбиение методом к-средних первоначально на два максимально противоположных класса.
Для этого строим матрицу вышеупомянутой выборки- в ней получается 17528 строк (количество наблюдений) и 14 столбцов (количество метрик), соответствующих метрик, после чего формируем матрицу состоящую все из тех же 17528 строк, но двух столбцов для получения матрицы параметров. При этом в полученной после деления матрицы первый соответствует параметру р1 - с наивысшим рангом, а второй соответствует параметру р2 со вторым рангом [3, 4].
В результате получаем матрицу параметров Х = [p1; p2], которая имеет 17528 строк по количеству наблюдений, и 2 столбца со значениями вычисленных параметров. Представление этой матрицы графически является координатной плоскостью, где каждый i-ый абонент будет представлен в виде точки с координатами p1(i); p2(i), значения p1 и p2 откладываются вдоль осей р1 по горизонтали, р2 - по вертикали, таким образом получаем распределение абонентов, характеризуемых параметрами р1 и р2. При этом не нужно путать с графиком функции в координатах, здесь горизонтальная и вертикальная оси - никак не связаны между собой и значение по вертикали не зависит от горизонтальных значений, величины - независимы.
Далее используем функцию, которая встроена в Matlab и которая позволяет разбить объекты в множестве таким образом, чтобы объекты разных классов как можно больше отличались друг от друга, а наблюдения внутри класса были максимально схожими между собой. Функция kmeans.
[IDX, C, sumd, D] = kmeans(X, 2, `distance', `cityblock', `start', `sample');
Здесь ее характеризуют следующие параметры, они указаны в скобках после самой функции:
- сама случайная величина, в данном случае наша матрица Х = [p1; p2];
- ее размерность 2 в нашем случае, поскольку мы классифицируем объекты по двум параметрам р1 и р2;
- `distance' это мера расстояний между объектами, которая используется для нахождения внутригрупповых средних расстояний;
- `start' - это координаты задания центроидов;
Для нашего исследования были выбраны Манхэттенское расстояние - `cityblock' и метод задания начальных координат центроидов классов `sample' поскольку при них была получена наиболее адекватная визуальная картина разбиения на классы.
Применив данную функцию, в Matlab автоматически рассчитывается разбиение элементов нашей матрицы Х = [p1; p2] на два класса.
После этого мы делаем 2 выборки наблюдений из полученных при разбиении классов: то есть выбираем все элементы в первом классе и выбираем отдельно все элементы во втором классе. В нашем исследовании выборка у нас состоит из 17528 в обоих классах, при разбиении функцией kmeans получилось 2 класса, включающих в себя 373 и 17155 элементов. Результаты разбиения на классы можно увидеть на рисунке ниже.
Рис.1 Результат разбиения элементов на классы с применением k-means в пакете MatLab.
метрика качество провайдер класс
Проведя процедуру сравнения элементов каждого из классов по отдельности файлом обучающей выборки находим совпадения элементов и делим результат количества совпадений на общее количество элементов в данном классе и получаем результат отношения элементов в классе к общему числу элементов в этом классе. Далее для получения процентного соотношения можно результат отношения умножить на 100%.
Таким образом, у нас получилось в классе из 373 элементов, 363 совпали с обучающей выборкой, что дает результат 363/373=0, 9732*100%=97, 32%.
Во втором классе аналогично из 17155 элементов, 2636 совпали с обучающей выборкой, что дает результат 2636/17155=0, 1537*100%=15, 37%.
Теперь становится понятно, что в классе из 373 элементов находятся 363 по которым произошло совпадение с обучающей выборкой концентрацией совпавших элементов более 97%! А класс, содержащий 17155 элементов содержит в себе всего чуть более 15% совпадений с обучающей выборкой, включает в себя около 85% элементов, не совпавших с обучающей выборкой. Однако, стоит заметить, что хоть в процентном соотношении в классе с 17155 элементами 15% совпадений, но в абсолютном количестве 2636 - это много, следовательно, предлагаем класс с 373 элементами оставить таким, какой он получился, а класс в 17155 элементами разбить дальше еще на 2 класса, затем (при потребности) еще один из вновь полученных классов разбить еще на 2 класса, повторить эту процедуру оптимальное число раз. При этом, при каждом разделении на 2 класса у нас будут выявляться вновь классы с большим или меньшим числом совпадений элементов с обучающей выборкой. В итоге взяв объединение всех классов с высокой концентрацией совпадений мы вычленим элементы, совпадающие с обучающей выборкой из всего массива наблюдений.
Таким образом, предложенная методика кластеризации показала удовлетворительные результаты и ее продолжение при постоянном сравнении с новыми данными обучающих выборок позволит решить поставленную задачу. В дальнейшем полученные результаты можно использовать так же при исследовании влияния параметров трафика на качество обслуживания [5].
Литература
1. Мандель И.Д. -- М.: Финансы и статистика, 1988. -- 176 c.
2. https://ru.wikipedia.org/wiki/K-means.
3. M. Mirkes, K-means and K-medoids applet. University of Leicester, 2011.
4. Е. Л. Бородулина, Е. Л. Кротова, “Метод расщепления строго устойчивых смесей нормального закона для показателей устойчивости б=1б=1 и б=2б=2”, Матем. моделирование, 20:7 (2008), 3-12.
5. Меркулова Ирина Александровна. Исследование и разработка методов анализа трафика Интернет-провайдера: дис. … канд. техн. наук: 05.12.13 Самара, 2007 144 с. РГБ ОД, 61:07-5/2070.
Размещено на Allbest.ru
Подобные документы
Классификация методов кластеризации и их характеристика. Метод горной кластеризации в Matlab. Возможная область применения кластеризации в различных предметных областях. Математическое описание метода. Пример использования метода на реальных данных.
реферат [187,0 K], добавлен 28.10.2010Определение математического ожидания и среднеквадратического отклонения с целью подбора закона распределения к выборке статистических данных об отказах элементов автомобиля. Нахождения числа событий в заданном интервале; расчет значения критерия Пирсона.
контрольная работа [336,3 K], добавлен 01.04.2014Математическое моделирование и особенности задачи распределения. Обоснование и выбор метода решения. Ручное решение задачи (венгерский метод), а также с использованием компьютера. Формулировка полученного результата в сопоставлении с условием задачи.
курсовая работа [383,9 K], добавлен 26.05.2010Решение систем уравнений по правилу Крамера, матричным способом, с использованием метода Гаусса. Графическое решение задачи линейного программирования. Составление математической модели закрытой транспортной задачи, решение задачи средствами Excel.
контрольная работа [551,9 K], добавлен 27.08.2009Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.
курсовая работа [304,0 K], добавлен 02.03.2017Описание метода потенциалов Математическая постановка задачи об оптимальных перевозках. Метод решения задачи об оптимальных перевозках средствами Ms Excel. Постановка параметрической транспортной задачи, ее математическое и компьютерное моделирование.
курсовая работа [802,5 K], добавлен 21.10.2014Понятие и характерные свойства обобщенных функций и обобщенных производных, их отличительные признаки и направления анализа. Решение и определение данных величин на основе специальных теорем. Сущность и структура, элементы пространства Соболева.
презентация [179,4 K], добавлен 30.10.2013Операторы преобразования переменных, классы, способы построения и особенности структурных моделей систем управления. Линейные и нелинейные модели и характеристики систем управления, модели вход-выход, построение их временных и частотных характеристик.
учебное пособие [509,3 K], добавлен 23.12.2009Разработка на основе метода поиска экстремума с запоминанием экстремума системы экстремального регулирования с требуемым качеством переходных процессов для класса нелинейных стационарных и нестационарных объектов (с невыделяемой характеристикой).
дипломная работа [6,4 M], добавлен 19.12.2014Изучение основных принципов функционирования системы оптимального слежения. Моделирование привода антенны на основе экспериментальных данных, полученных при проведении исследований динамических характеристик и параметров привода РЛС в НПО "Горизонт".
дипломная работа [1,5 M], добавлен 24.11.2010