Рандомизация неопределенности исходных данных при анализе угрозообразующего поведения
Характеристика процедуры рандомизации неопределенности ответа, позволяющей обработать особенности естественно-языковых формулировок ответов о последних эпизодах угрозообразующего поведения. Вычислительные эксперименты с разными значениями параметров.
Рубрика | Математика |
Вид | статья |
Язык | русский |
Дата добавления | 15.01.2019 |
Размер файла | 372,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Рандомизация неопределенности исходных данных при анализе угрозообразующего поведения Доклад содержит материалы исследований, частично поддержанных грантами РФФИ 09-01-00861-а, 10-01-00640-а, 12-01-00945-а,
Пащенко А.Е.
Аннотация
В докладе представлена процедура рандомизации неопределенности ответа, позволяющая обработать особенности естественно-языковых формулировок ответов о последних эпизодах угрозообразующего поведения.
Разработан программный комплекс, реализующий данную процедуру и позволяющий проводить вычислительные эксперименты с разными значениями параметров. рандомизация естественный языковый угроза
Введение
В связи с задачами своевременного обнаружения изменений в поведении отдельных индивидов и групп, науки социогуманитарного цикла испытывают потребность в математических моделях и алгоритмах, которые бы позволили получать оценки интенсивности угрозообразующего (то есть приводящего к возникновению угрозы) поведения. В качестве примера можно привести угрозообразующее поведение пользователя информационной системы, которое может привести к раскрытию критичной информации [1]. При этом существующие методы прямого измерения интенсивности (круглосуточный мониторинг, дневниковый метод, длительное сопровождение когорты индивидов и пр.) часто не применимы из-за их дороговизны, а также из-за ряда проблем этического характера.
Отметим, что наиболее доступными исходными данными для анализа поведения выступают самоотчеты респондентов об их поведении, то есть ответы в анкете на блок вопросов или результаты проведения интервью. На данный момент разработаны и применяются в опросах два подхода к оцениванию интенсивности поведения: прямые вопросы и Лайкерт-шкалы -- каждый из которых имеет недостатки [2]. Одной из возможных альтернатив представляется опрос респондента о нескольких последних эпизодах его поведения (рисунок 1). Однако ограниченное число и неточность, фактически, нечеткость естественно-языковых формулировок ответов (например, «на прошлой неделе») требуют новых методов для обработки таких данных и получения количественной оценки интенсивности угрозообразующего поведения.
Рисунок 1: Последние эпизоды поведения.
В результате все более актуальной становится междисциплинарная фундаментальная научная проблема -- развитие методологии поиска, представления, агрегирования и обработки данных и знаний (полученных из самоотчетов респондентов) в условиях информационного дефицита для последующего формирования и расчета косвенных оценок интенсивности социально-значимого поведения. Эта проблема требует развития моделей и алгоритмов в рамках специфических математических и компьютерных дисциплин: теории принятия решений, искусственного интеллекта, мягких вычислений, теории вероятностей и математической статистики.
Цель данного доклада -- описать подход в обработке особенностей естественно-языковых формулировок ответов о последних эпизодах угрозообразующего поведения.
Рандомизация ответов
Ответы на вопросы об эпизодах поведения поступают на естественном языке, т.е. являются в значительной степени нечеткими и неполными. Отметим, что респонденты используют в своих высказываниях разные единицы измерения: часы, дни, недели, месяцы, полугода, года. Причем использованная единица измерения несет в себе информацию о точности измерения. Поясним это на примере двух, на первый взгляд равнозначных, высказываний: «семь дней назад» и «неделю назад». Когда респондент использует формулировку «семь дней назад», это свидетельствует о его уверенности в том, что событие произошло именно семь дней назад. В то время как «неделю назад» -- это может быть и пять, и восемь дней назад.
Для учета указанной неточности каждый ответ рассматривается не как точка на временной оси, а как интервал, длина которого зависит от единицы измерения (рисунок 2). Значение каждого ответа рассматривается, таким образом, не как константа, а как случайная величина с заранее заданным распределением [2]. Введенная случайная величина за счет рандомизации [3] неопределенности ответа, обусловленной нечеткостью его формулировки, позволяет рассмотреть интенсивность как случайную величину и вычислить характеристики последней.
Рисунок 1: Рандомизация ответа о последнем эпизоде
Поясним более подробно. Применяя идею метода анализа и синтеза показателей при информационном дефиците Н. В. Хованова [3], получим следующую процедуру обработки естественно-языковых ответов. Пусть известны данные о последних эпизодах поведения , , ,…, а общий временной промежуток, за который произошли эпизоды. Тогда интенсивность поведения оценивается по формуле: [4_6].
Для каждого эпизода со значением , ( число рассматриваемых эпизодов поведения) через характеристику разброса определяется интервал (возможных значений) в днях: , где -- коэффициент перевода рассматриваемой единицы измерения в дни [35]. Заметим, что любая точка из интервала возможна в качестве значения оценки ; что, однако, не означает, что точки из этого интервала равновероятны в качестве такого. Сведения о такого рода отношениях между допустимыми значениями можно задать с помощью их распределения вероятностей [7]. В зависимости от предположений о характере ответов респондента для задания случайной величины оценки используется равномерное, биномиальное или какое-либо другое вероятностное распределение.
Введенная случайная величина за счет рандомизации [3] неопределенности ответа позволяет рассмотреть интенсивность как случайную величину и вычислить характеристики последней.
Расчет среднего значения для случая трех последних эпизодов производится по следующей формуле:
,
где -- вес -ой точки из первого интервала, -- вес -ой точки из первого интервала, -- вес -ой точки из первого интервала, -- оценка интенсивности для соответствующего сочетания точек, т.е. , где -- соответствующая точкам , , оценка величины рассматриваемого интервала.
Среднее квадратичное отклонение для рассчитываемого среднего значения:
.
Программный комплекс
Процедуры расчета средних оценок были реализованы в программном комплексе [7], позволяющем задавать значении необходимых параметров рандомизации полученного ответа о последнем эпизоде угрозообразующего поведения. К таким параметрам относятся:
* характеристика разброса, определяющая оценку неопределенности ответа;
* число точек разбиения интервала, используемое при расчетах средней оценки интенсивности;
* вероятностное распределение, характеризующее рандомизацию -- равномерное, треугольное, трапециевидное, биномиальное, бета-распределение, синусоидальное, полиномиальное, семиэллиптическое. Также имеется возможность указать параметр смещения для этих распределений;
Кроме того, можно указать алгоритм обработки неопределенности, применяющийся при расчете средней оценки интенсивности -- либо на основе весов, либо на основе квантилей.
Заключение
Предложенная процедура рандомизации неопределенности ответа позволяет обработать особенности естественно-языковых формулировок ответов о последних эпизодах угрозообразующего поведения, связанные с тем, что ответ выражается в терминах «бытовой» речи, предполагающей определенную неточность ответа.
Литература
1. Тулупьева Т.В., Тулупьев А.Л., Азаров А.А., Пащенко А.Е. Психологическая защита как фактор уязвимости пользователя в контексте социоинженерных атак // Труды СПИИРАН. 2011. Вып. 18. С. 74-92.
2. Суворова А.В., Тулупьев А.Л., Пащенко А.Е., Тулупьева Т.В., Крас-носельских Т.В. Анализ гранулярных данных и знаний в задачах исследования социально значимых видов поведения // Компьютерные инструменты в образовании. №4. 2010. С. 30-38.
3. Хованов Н.В. Анализ и синтез показателей при информационном дефиците. СПб.: Изд-во СПбГУ, 1996. 196 с.
4. Тулупьева Т.В., Пащенко А.Е., Тулупьев А.Л., Красносельских Т.В., Казакова О.С. Модели ВИЧ-рискованного поведения в контексте психологической защиты и других адаптивных стилей. СПб.: Наука, 2008. 140 с.
5. Пащенко А. Е., Тулупьев А. Л., Николенко С. И. Моделирование заражения ВИЧ-инфекцией на основе данных о последних эпизодах рискованного поведения. // Известия высших учебных заведений: Приборостроение. 2006. №8. 33-34 с.
6. Тулупьева Т.В., Тулупьев А.Л., Пащенко А.Е. Оценка интенсивности поведения респондента в условиях информационного дефицита // Труды СПИИРАН. Вып. 7. СПб.: Наука, 2008. С. 239-254.
7. Пащенко А.Е., Суворова А.В. Программный комплекс для экспертного оценивания интенсивности поведения респондента в условиях дефицита информации // Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте. Научно-практическая конференция студентов, аспирантов, молодых ученых и специалистов. Научные доклады. В 2-х т. Т. 2. М.: Физматлит, 2009. С. 220-241.
Размещено на Allbest.ru
Подобные документы
Вычисление пределов и устранение неопределенности. Поиск производных функций. Вычисление приближенного значения 8.051/3. Определение полного дифференциала функции z=3sin(2x+3y). Формула интегрирования по частям. Решение линейного однородного уравнения.
контрольная работа [439,6 K], добавлен 25.03.2014Понятие и содержание теории графов. Правила построения сетевых графиков и требования к ним. Сетевое планирование в условиях неопределенности. Теория принятия решений, используемые алгоритмы и основные принципы. Пример применения алгоритма Дейкстры.
курсовая работа [1,0 M], добавлен 26.09.2013Применение второго замечательного предела для раскрытия неопределенности. Точки разрыва непрерывной функции 1-го и 2-го рода. Условия ее непрерывности в точке, интервале и на отрезке. Теоремы Вейерштрасса и Больцано-Коши. Обращение функции в ноль.
презентация [222,8 K], добавлен 20.03.2014Нахождение произведения для заданных множеств. Вычисление предела функции с использованием основных теорем. Раскрытие неопределенности с использованием правила Лопиталя. Нахождение производной и вычисление неопределенного интеграла методом подстановки.
контрольная работа [260,0 K], добавлен 02.02.2011Расчет производной функции. Раскрытие неопределенности и поиск пределов. Проведение полного исследования функции и построение ее графика. Поиск интервалов возрастания, убывания и экстремумов. Решение дифференциальных уравнений. Расчет вероятности события.
контрольная работа [117,5 K], добавлен 27.08.2013Исследование методами математического анализа поведения функций при заданных значениях аргумента. Этапы решения уравнения функции и определения значения аргумента и параметра. Построение графиков. Сочетание тригонометрических, гиперболических функций.
контрольная работа [272,3 K], добавлен 20.08.2010Постановка задач принятия решений в условиях неопределенности, генерация и оценки альтернативных вариантов их решения для хорошо и слабо структурированных проблем. Аналитическая иерархическая процедура Саати, метод порогов несравнимости "Электра".
курсовая работа [38,3 K], добавлен 10.04.2011Medsmooth и supsmooth, линейное сглаживание данных по трем, пяти и семи точкам. Численное дифференцирование исходных и сглаженных данных с помощью второй формулы Гаусса и Бесселя, первая и вторая производная. Вычисление коэффициентов обусловленности.
лабораторная работа [205,8 K], добавлен 16.06.2014Нахождение спектральных составляющих дискретного комплексного сигнала. Быстрое преобразование Фурье с прореживанием по времени. Методы сокращения числа комплексных умножений. Вычислительные процедуры, уменьшающие количество умножений и сложений.
презентация [133,3 K], добавлен 19.08.2013Простейшие способы обработки опытных данных. Подбор параметров способом средних. Подбор параметров способом наименьших квадратов. Применение простейших способов обработки опытных данных к конкретным процессам.
дипломная работа [63,9 K], добавлен 08.08.2007