Обучения распределённых линейно-регрессионных классификаторов в режиме реального времени
Анализ значения построения каскадированных распределённых систем. Изучение независимой настройки классификаторов в каждом домене в соответствии с требованием минимизации ошибки. Определение необходимости создания классифицирующих информационных моделей.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 27.11.2018 |
Размер файла | 31,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Калужский филиал Московского государственного технического университета им. Н.Э. Баумана
Обучения распределённых линейно-регрессионных классификаторов в режиме реального времени
В.Е. Вершинин, e-mail: goliathonline@mail.ru
М.Б. Логинова loginovamb@yandex.ru
Калуга
При работе в режиме реального времени стремительный рост объёмов данных, на основе которых строятся классифицирующие информационные модели, представляет собой трудноразрешимую проблему для многих современных средств интеллектуального анализа информации.
С одной стороны, причиной затруднений является необходимость обеспечения заданного уровня ошибки функционирования, что вынуждает применять сложные нелинейные подходы. С другой стороны, требования высокого быстродействия системы, в частности, организации быстрого обучения на новых данных, вынуждает прибегать к сэмплированию, понижению размерности и другим механизмам предобработки данных [1], вплоть до существенного упрощения модели, что негативно сказывается на точности работы системы.
Особенностью многих эффективных методов классификации (в частности, нейросетевых) является сохранение ими обучающей выборки для проведения дообучения на новых данных [2]. В случаях, когда объёмы обрабатываемых данных исчисляются десятками и сотнями тысяч записей, такие методы становятся малопригодными не только по причине длительного переобучения, но и из-за необходимости постоянной обработки (сохранения, извлечения, пересмотра) больших дополнительных объёмов информации. каскадированный информационный домен
Решением ряда отмеченных проблем является построение каскадированных распределённых систем [3]. Настоящая работа описывает распределённый метод обучения в режиме реального времени (РМОРВ) на основе линейно-регрессионных классификаторов применительно к системам, оперирующим высокоразмерными категорными данными.
Распределённый метод обучения в режиме реального времени функционирует в два этапа: первичное обучение и основной режим «работа-дообучение». Функционально первичное обучение состоит из следующих шагов:
1.Получение и предварительная обработка категорной базы данных размерности , где - совокупность бинарных атрибутов размерности , на основе значений которых строится общая классифицирующая модель, а - целевых категорных значений для обучения модели (классы).
2.Формирование первичного обучающего множества посредством случайной исключающей выборки репрезентативных записей из с выделением основного обучающего множества : .
3. Проведение для всех -теста [4] зависимости от целевого атрибута .
4. Выбор определяющих атрибутов, отвечающих максимальным значениям -теста.
5. Разделение первичного обучающего множества на доменов по значениям в определяющих атрибутах.
6. Сохранение в векторе размеров доменов .
7. Независимая настройка классификаторов в каждом домене в соответствие с требованием минимизации ошибки:
, (1)
где - вектор-столбец коэффициентов линейной регрессии [5], рассчитанный для -й модели на домене , - -ый обучающий пример из домена , a - -ый элемент вектора , отвечающий целевому значению вектора .
Предварительная обработка данных в п.1 включает в себя бинаризацию категорных атрибутов, а так же удаление пропусков данных.
Обучение в режиме реального времени, являющееся основной фазой работы системы («дообучение» или «полное обучение»), происходит на записях основного обучающего множества и состоит из следующих шагов:
1.Инициализация пакетов - пустых множеств для временного хранения наборов обучающих пар.
2.Выбор -ой обучающей пары из основного обучающего множества .
3.Соотнесение -ой обучающей пары -му домену () в соответствие со значениями определяющих атрибутов её входной компоненты .
4.Проверка соответствия отклика построенной на -ом домене регрессионной модели
, (2)
для -ой обучающей пары, её целевому значению .
5.Если , т.е. категоризированный отклик для -ой обучающей пары соответствует её целевому значению, перейти к п. 8.
6.Добавить в -ый пакет -ю обучающую пару:
. (3)
7.Если , добавить весь пакет в -ый домен, очистить его
, (4)
,(5)
и пересчитать модель для -го домена (коэффициенты ) согласно (1).
8.Если не выбраны все пары из основного обучающего множества (), увеличить значение счётчика () и перейти к п.2.
9.Если остались непустые пакеты, добавить их к соответствующим доменам
, (6)
после чего пересчитать модели согласно (1).
10.По окончании обучения удалить из памяти все структуры, кроме определяющих атрибутов, доменов (для возможного дообучения в дальнейшей работе) и рассчитанных для них коэффициентов регрессионных моделей.
В качестве полигона для экспериментального исследования РМОРВ была выбрана БД игры с нулевой суммой для двух сторон «Четыре в ряд» на прямоугольном поле 7x6 клеток. Каждая клетка поля могла находиться в 3 состояниях («Х», «О» и «пусто»). БД включала 67556 записей (состояний игры), описывающих поле и целевой атрибут, объявляющий победителя («Х», «О» или «ничья») при использовании в дальнейшем оптимальной стратегии. В результате предобработки данных, БД содержала 67556 записей со 123 бинарными атрибутами и целевым категорным атрибутом.
Результаты сравнительного анализа РМОРВ (при =2) с традиционными подходами продемонстрировали высокую эффективность распределённого подхода и позволили выявить существенные недостатки традиционных регрессионных методов обусловленные применением более сложных методов классификации для конкурирующих подходов.
Список литературы
1. Айвазян С.А., Бухштабер В.М., Енюков Е.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. Москва, Финансы и статистика, 2002, 608 с.
2. Хайкин С. Нейронные сети: полный курс. Москва, Вильямс, 2006, 1104 с.
3. Rachkovskij D. Linear classifiers based on binary distributed representations. Inform. Theor. Appl, 2007, vol. 14 (1), pp. 270-274.
Размещено на Allbest.ru
Подобные документы
Классификация информации как неотъемлемая часть информационного обеспечения управления, без которой невозможно эффективно и оперативно осуществлять управленческую деятельность. Категории классификаторов ТЭСИ и их статус (международные, общероссийские).
курсовая работа [57,2 K], добавлен 14.12.2010История создания компьютерных информационных систем. Развитие системы управления базой данных. Принципы и правила построения и функционирования распределённых баз данных (РБД). Проблемы и особенности РБД. Использование Internet/Intranet технологий.
курсовая работа [1,1 M], добавлен 06.02.2011Изучение общероссийского классификатора объектов административно-территориального деления и основных видов экономической деятельности. Характеристика особенностей обеспечения совместимости государственных информационных систем и информационных ресурсов.
реферат [43,3 K], добавлен 06.12.2012Методы защиты автоматизированных систем и технологии построения виртуальных частных сетей. Использование технологий VРN во взаимодействии распределённых территориальных офисов, сдаче отчетности в контролирующие органы, клиент-банковские технологии.
курсовая работа [823,3 K], добавлен 02.07.2011Определение необходимости применения средств промышленной автоматизации, контроллеров, промышленных сетей и компьютеров, операционных систем реального времени для повышения производительности предприятия. Концепция построения "интеллектуальных" зданий.
контрольная работа [689,6 K], добавлен 13.10.2010Информационное обеспечение предприятия. Защита от несанкционированного доступа к информации. Характеристика классификаторов и систем кодирования. Схема пакета дерева вызова процедур и программ. Взаимосвязь программных модулей и информационных файлов.
дипломная работа [258,8 K], добавлен 20.05.2013Рассмотрение основных принципов и методов проектирования систем реального времени. Описание конструктивных и функциональных особенностей объекта управления, построение диаграммы задач. Выбор аппаратной архитектуры, модели процессов-потоков, интерфейса.
курсовая работа [1,2 M], добавлен 19.01.2015Классификация систем реального времени. Ядра и операционные системы реального времени. Задачи, процессы, потоки. Преимущества и недостатки потоков. Свойства, планирование, синхронизация задач. Связанные задачи. Синхронизация с внешними событиями.
реферат [391,5 K], добавлен 28.12.2007Характеристики, основы применения, архитектура жестких и операционных систем реального времени. Последовательное программирование задач реального времени. Структура и языки параллельного программирования, мультипрограммирования и многозадачности.
курсовая работа [195,9 K], добавлен 17.12.2015Основные характеристики систем реального времени, типы архитектур. Система приоритетов процессов (задач) и алгоритмы диспетчеризации. Понятие отказоустойчивости, причины сбоев. Отказоустойчивость в существующих системах реального времени (QNX Neutrino).
контрольная работа [428,8 K], добавлен 09.03.2013