Рандомизация неопределенности исходных данных при анализе угрозообразующего поведения

Характеристика процедуры рандомизации неопределенности ответа, позволяющей обработать особенности естественно-языковых формулировок ответов о последних эпизодах угрозообразующего поведения. Вычислительные эксперименты с разными значениями параметров.

Рубрика Математика
Вид статья
Язык русский
Дата добавления 15.01.2019
Размер файла 372,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Рандомизация неопределенности исходных данных при анализе угрозообразующего поведения Доклад содержит материалы исследований, частично поддержанных грантами РФФИ 09-01-00861-а, 10-01-00640-а, 12-01-00945-а,

Пащенко А.Е.

Аннотация

В докладе представлена процедура рандомизации неопределенности ответа, позволяющая обработать особенности естественно-языковых формулировок ответов о последних эпизодах угрозообразующего поведения.
Разработан программный комплекс, реализующий данную процедуру и позволяющий проводить вычислительные эксперименты с разными значениями параметров. рандомизация естественный языковый угроза

Введение

В связи с задачами своевременного обнаружения изменений в поведении отдельных индивидов и групп, науки социогуманитарного цикла испытывают потребность в математических моделях и алгоритмах, которые бы позволили получать оценки интенсивности угрозообразующего (то есть приводящего к возникновению угрозы) поведения. В качестве примера можно привести угрозообразующее поведение пользователя информационной системы, которое может привести к раскрытию критичной информации [1]. При этом существующие методы прямого измерения интенсивности (круглосуточный мониторинг, дневниковый метод, длительное сопровождение когорты индивидов и пр.) часто не применимы из-за их дороговизны, а также из-за ряда проблем этического характера.

Отметим, что наиболее доступными исходными данными для анализа поведения выступают самоотчеты респондентов об их поведении, то есть ответы в анкете на блок вопросов или результаты проведения интервью. На данный момент разработаны и применяются в опросах два подхода к оцениванию интенсивности поведения: прямые вопросы и Лайкерт-шкалы -- каждый из которых имеет недостатки [2]. Одной из возможных альтернатив представляется опрос респондента о нескольких последних эпизодах его поведения (рисунок 1). Однако ограниченное число и неточность, фактически, нечеткость естественно-языковых формулировок ответов (например, «на прошлой неделе») требуют новых методов для обработки таких данных и получения количественной оценки интенсивности угрозообразующего поведения.

Рисунок 1: Последние эпизоды поведения.

В результате все более актуальной становится междисциплинарная фундаментальная научная проблема -- развитие методологии поиска, представления, агрегирования и обработки данных и знаний (полученных из самоотчетов респондентов) в условиях информационного дефицита для последующего формирования и расчета косвенных оценок интенсивности социально-значимого поведения. Эта проблема требует развития моделей и алгоритмов в рамках специфических математических и компьютерных дисциплин: теории принятия решений, искусственного интеллекта, мягких вычислений, теории вероятностей и математической статистики.

Цель данного доклада -- описать подход в обработке особенностей естественно-языковых формулировок ответов о последних эпизодах угрозообразующего поведения.

Рандомизация ответов

Ответы на вопросы об эпизодах поведения поступают на естественном языке, т.е. являются в значительной степени нечеткими и неполными. Отметим, что респонденты используют в своих высказываниях разные единицы измерения: часы, дни, недели, месяцы, полугода, года. Причем использованная единица измерения несет в себе информацию о точности измерения. Поясним это на примере двух, на первый взгляд равнозначных, высказываний: «семь дней назад» и «неделю назад». Когда респондент использует формулировку «семь дней назад», это свидетельствует о его уверенности в том, что событие произошло именно семь дней назад. В то время как «неделю назад» -- это может быть и пять, и восемь дней назад.

Для учета указанной неточности каждый ответ рассматривается не как точка на временной оси, а как интервал, длина которого зависит от единицы измерения (рисунок 2). Значение каждого ответа рассматривается, таким образом, не как константа, а как случайная величина с заранее заданным распределением [2]. Введенная случайная величина за счет рандомизации [3] неопределенности ответа, обусловленной нечеткостью его формулировки, позволяет рассмотреть интенсивность как случайную величину и вычислить характеристики последней.

Рисунок 1: Рандомизация ответа о последнем эпизоде

Поясним более подробно. Применяя идею метода анализа и синтеза показателей при информационном дефиците Н. В. Хованова [3], получим следующую процедуру обработки естественно-языковых ответов. Пусть известны данные о последних эпизодах поведения , , ,…, а общий временной промежуток, за который произошли эпизоды. Тогда интенсивность поведения оценивается по формуле: [4_6].

Для каждого эпизода со значением , ( число рассматриваемых эпизодов поведения) через характеристику разброса определяется интервал (возможных значений) в днях: , где -- коэффициент перевода рассматриваемой единицы измерения в дни [35]. Заметим, что любая точка из интервала возможна в качестве значения оценки ; что, однако, не означает, что точки из этого интервала равновероятны в качестве такого. Сведения о такого рода отношениях между допустимыми значениями можно задать с помощью их распределения вероятностей [7]. В зависимости от предположений о характере ответов респондента для задания случайной величины оценки используется равномерное, биномиальное или какое-либо другое вероятностное распределение.

Введенная случайная величина за счет рандомизации [3] неопределенности ответа позволяет рассмотреть интенсивность как случайную величину и вычислить характеристики последней.

Расчет среднего значения для случая трех последних эпизодов производится по следующей формуле:

,

где -- вес -ой точки из первого интервала, -- вес -ой точки из первого интервала, -- вес -ой точки из первого интервала, -- оценка интенсивности для соответствующего сочетания точек, т.е. , где -- соответствующая точкам , , оценка величины рассматриваемого интервала.

Среднее квадратичное отклонение для рассчитываемого среднего значения:

.

Программный комплекс

Процедуры расчета средних оценок были реализованы в программном комплексе [7], позволяющем задавать значении необходимых параметров рандомизации полученного ответа о последнем эпизоде угрозообразующего поведения. К таким параметрам относятся:

* характеристика разброса, определяющая оценку неопределенности ответа;

* число точек разбиения интервала, используемое при расчетах средней оценки интенсивности;

* вероятностное распределение, характеризующее рандомизацию -- равномерное, треугольное, трапециевидное, биномиальное, бета-распределение, синусоидальное, полиномиальное, семиэллиптическое. Также имеется возможность указать параметр смещения для этих распределений;

Кроме того, можно указать алгоритм обработки неопределенности, применяющийся при расчете средней оценки интенсивности -- либо на основе весов, либо на основе квантилей.

Заключение

Предложенная процедура рандомизации неопределенности ответа позволяет обработать особенности естественно-языковых формулировок ответов о последних эпизодах угрозообразующего поведения, связанные с тем, что ответ выражается в терминах «бытовой» речи, предполагающей определенную неточность ответа.

Литература

1. Тулупьева Т.В., Тулупьев А.Л., Азаров А.А., Пащенко А.Е. Психологическая защита как фактор уязвимости пользователя в контексте социоинженерных атак // Труды СПИИРАН. 2011. Вып. 18. С. 74-92.

2. Суворова А.В., Тулупьев А.Л., Пащенко А.Е., Тулупьева Т.В., Крас-носельских Т.В. Анализ гранулярных данных и знаний в задачах исследования социально значимых видов поведения // Компьютерные инструменты в образовании. №4. 2010. С. 30-38.

3. Хованов Н.В. Анализ и синтез показателей при информационном дефиците. СПб.: Изд-во СПбГУ, 1996. 196 с.

4. Тулупьева Т.В., Пащенко А.Е., Тулупьев А.Л., Красносельских Т.В., Казакова О.С. Модели ВИЧ-рискованного поведения в контексте психологической защиты и других адаптивных стилей. СПб.: Наука, 2008. 140 с.

5. Пащенко А. Е., Тулупьев А. Л., Николенко С. И. Моделирование заражения ВИЧ-инфекцией на основе данных о последних эпизодах рискованного поведения. // Известия высших учебных заведений: Приборостроение. 2006. №8. 33-34 с.

6. Тулупьева Т.В., Тулупьев А.Л., Пащенко А.Е. Оценка интенсивности поведения респондента в условиях информационного дефицита // Труды СПИИРАН. Вып. 7. СПб.: Наука, 2008. С. 239-254.

7. Пащенко А.Е., Суворова А.В. Программный комплекс для экспертного оценивания интенсивности поведения респондента в условиях дефицита информации // Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте. Научно-практическая конференция студентов, аспирантов, молодых ученых и специалистов. Научные доклады. В 2-х т. Т. 2. М.: Физматлит, 2009. С. 220-241.

Размещено на Allbest.ru


Подобные документы

  • Вычисление пределов и устранение неопределенности. Поиск производных функций. Вычисление приближенного значения 8.051/3. Определение полного дифференциала функции z=3sin(2x+3y). Формула интегрирования по частям. Решение линейного однородного уравнения.

    контрольная работа [439,6 K], добавлен 25.03.2014

  • Понятие и содержание теории графов. Правила построения сетевых графиков и требования к ним. Сетевое планирование в условиях неопределенности. Теория принятия решений, используемые алгоритмы и основные принципы. Пример применения алгоритма Дейкстры.

    курсовая работа [1,0 M], добавлен 26.09.2013

  • Применение второго замечательного предела для раскрытия неопределенности. Точки разрыва непрерывной функции 1-го и 2-го рода. Условия ее непрерывности в точке, интервале и на отрезке. Теоремы Вейерштрасса и Больцано-Коши. Обращение функции в ноль.

    презентация [222,8 K], добавлен 20.03.2014

  • Нахождение произведения для заданных множеств. Вычисление предела функции с использованием основных теорем. Раскрытие неопределенности с использованием правила Лопиталя. Нахождение производной и вычисление неопределенного интеграла методом подстановки.

    контрольная работа [260,0 K], добавлен 02.02.2011

  • Расчет производной функции. Раскрытие неопределенности и поиск пределов. Проведение полного исследования функции и построение ее графика. Поиск интервалов возрастания, убывания и экстремумов. Решение дифференциальных уравнений. Расчет вероятности события.

    контрольная работа [117,5 K], добавлен 27.08.2013

  • Исследование методами математического анализа поведения функций при заданных значениях аргумента. Этапы решения уравнения функции и определения значения аргумента и параметра. Построение графиков. Сочетание тригонометрических, гиперболических функций.

    контрольная работа [272,3 K], добавлен 20.08.2010

  • Постановка задач принятия решений в условиях неопределенности, генерация и оценки альтернативных вариантов их решения для хорошо и слабо структурированных проблем. Аналитическая иерархическая процедура Саати, метод порогов несравнимости "Электра".

    курсовая работа [38,3 K], добавлен 10.04.2011

  • Medsmooth и supsmooth, линейное сглаживание данных по трем, пяти и семи точкам. Численное дифференцирование исходных и сглаженных данных с помощью второй формулы Гаусса и Бесселя, первая и вторая производная. Вычисление коэффициентов обусловленности.

    лабораторная работа [205,8 K], добавлен 16.06.2014

  • Нахождение спектральных составляющих дискретного комплексного сигнала. Быстрое преобразование Фурье с прореживанием по времени. Методы сокращения числа комплексных умножений. Вычислительные процедуры, уменьшающие количество умножений и сложений.

    презентация [133,3 K], добавлен 19.08.2013

  • Простейшие способы обработки опытных данных. Подбор параметров способом средних. Подбор параметров способом наименьших квадратов. Применение простейших способов обработки опытных данных к конкретным процессам.

    дипломная работа [63,9 K], добавлен 08.08.2007

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.