Решетки формальных понятий для анализа данных социологических опросов
Проведение опросов и анализ их результатов как одна из наиболее часто используемых форм социологических исследований. Основные определения формального анализа понятий. Анализ примера многозначного контекста, характерного для социологических опросов.
Рубрика | Социология и обществознание |
Вид | статья |
Язык | русский |
Дата добавления | 19.01.2018 |
Размер файла | 438,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
10
Размещено на http://www.allbest.ru/
Государственный Университет Высшая Школа Экономики
Решетки формальных понятий для анализа данных социологических опросов
Игнатов Д.И.
Кононыхина О.Н.
Проведение опросов и анализ их результатов - одна из наиболее часто используемых форм социологических исследований. В настоящее время в арсенале социологов для решения этих задач существует богатый инструментарий методов, в основном это математико-статистические методы (описательные статистики и тестирование гипотез) и родственные им кластерный и факторный анализ. Основной недостаток методов использующих тестирование гипотез заключается в необходимости их предварительной формулировки, что бывает довольно сложно сделать на ранних этапах исследования. Еще одним ограничением традиционно используемых средств социологического анализа данных является сложность передачи результатов в доступном для понимания виде неспециалистам в области математической статистики (например, заказчикам исследований). Ключевой вопрос, которым мы задаемся в этой статье: "Что может предложить дискретная математика для преодоления указанных недостатков и ограничений?" Предлагаемый нами подход основан на формальном анализе понятий (ФАП), алгебраической дисциплине, представляющей собой прикладную ветвь теории решеток и нашедшей широкое применение в анализе объектно-признаковых данных [1]. Эта работа не является пионерской в применении ФАП для социологических исследований, например, серия статей [2, 3] посвящена анализу социальных сетей с помощью решеток понятий. Работа [4] описывает выявление эпистемических сообществ и построение их таксономии. Проводились исследования групп посетителей Интернет-ресурсов [5, 6]. Потому основная цель этой работы - показать на примере реальных социологических исследований пользу применения методов ФАП для анализа результатов опросов. Суть применения ФАП состоит в том, что в полученных результатах опросов респонденты могут быть рассмотрены как объекты, а ответы на вопросы опросных листов как признаки, которыми они обладают. По этим данным выявляется множество групп объектов, обладающих общими признаками. Далее на множестве таких пар вида (объекты, признаки), называемых формальными понятиями, задается частичный порядок по отношению вложения первой компоненты. Это отношение является частичным порядком и определяет т. н. решетку понятий. Граф покрытия этого отношения удобно использовать для визуализации выявленных групп, что дает возможность эксперту (социологу) сделать выводы об их размерах, пересечениях, общих признаках и наличии некоторых других закономерностей. Помимо выделения групп респондентов и их визуализации, ФАП предоставляет возможность поиска признаковых зависимостей в виде импликаций, что позволяет делать выводы о взаимосвязи исследуемых социальных явлений. После извлечения с помощью решеток понятий из результатов опросов знаний, исследователь может сформулировать гипотезы на их основе и воспользоваться инструментами статистического анализа для дальнейшей проверки. Немаловажным аспектом социологического исследования является представление данных опросов в виде пригодном для последующего анализа, поэтому часть работы посвящена технике шкалирования применяемой в ФАП. Зачастую размер решетки понятий (число формальных понятий) оказывается слишком большим для того, чтобы ее диаграмму можно было отобразить в удобном для аналитика виде, поэтому мы также обсудим способы отбора релевантных формальных понятий. В качестве данных для проведения экспериментов мы воспользовались результатами опроса проведенного в рамках проекта.
Дадим основные определения ФАП и поясним их на примерах.
Определение 1. Формальный контекст K= (G, M, I) состоит из двух множеств G и M, и отношения I инцидентности между ними. Элементы G называются (формальными) объектами, а элементы M (формальными) признаками.
Пример 1. Формальный контекст удобно представлять в виде объектно-признаковой таблицы. При этом запись glm читается как "объект g обладает признаком m".
Определение 2. Операторами Галуа называется пара отображений вида и , таких что для отображение определяет множество всех признаков общих для всех объектов из и для отображение определяет множество всех объектов общих для всех признаков из .
Пример 2. Для контекста из примера 1 , а.
Определение 3. Формальным понятием контекста K= (G, M, I) называется пара вида (A,B), где AB, BM, A=B и B=A. Множество A называется объемом понятия, а множество B его содержанием. Запись B (G, M, I) означает все множество формальных понятий контекста K: = (G, M, I).
Пример 3. Для контекста из примера 1 пара ({g1,g2},{m2,m4}) является формальным понятием, а пара ({m2,m3}{g2} нет.
Определение 4. Для двух формальных понятий и некоторого контекста, называется подпонятием если (эквивалентно ). В этом случае является надпонятием , и это обозначают как . Множество всех понятий контекста , упорядоченных по вложению объемов, обозначается и называется решеткой понятий.
В привычном смысле слово "признак" означает не только свойство, которое может присутствовать или отсутствовать у объекта. Под признаками понимают, например, цвет, вес, пол, возраст и др. Такие признаки мы будем называть многозначными, в отличие от однозначных признаков, рассмотренных ранее.
Определение 5. Многозначный контекст (G, M, W, I) состоит из множеств G, M и W, и тернарного отношения IGMW для которого выполняется (g,m,w) I и (g,m,v) I влечет w=v. Элементы множеств G, M и W называются объектами, (многозначными) признаками и значениями признаков соответственно.
Пример 4. Рассмотрим пример многозначного контекста, характерного для социологических опросов.
Пол |
Возраст |
Автомобиль |
||
Антон |
м |
18 |
0 |
|
Иван |
м |
50 |
1 |
|
Борис |
м |
32 |
0 |
|
Мария |
ж |
25 |
1 |
Возникает естественный вопрос, как можно построить формальные понятия по такому многозначному контексту? Как правило, это осуществляется приведением многозначного контекста к однозначному.
Процесс приведения многозначного контекста к однозначному называется (понятийным) шкалированием и оставляет место интерпретации. Поэтому множество понятий одного и того же многозначного контекста зависит от типа шкалирования выбранного для того или иного признака.
Определение 6. Шкалой признака m многозначного контекста называется (однозначный) контекст Sm= (Gm, Mm, Im), для которого m (g) Gm (здесь m (g) обозначает значение признака m для объекта g). Объекты такого контекста называются значениями шкалы, а признаки - признаками шкалы.
Определение 7. Для многозначного контекста (G, M, W, I) и шкал Sm, mM приведенным контекстом называется контекст , где и определено отношение и .
социологический опрос формальный анализ понятие
Опишем на примерах основные типы шкал, которые мы использовали в работе. Одной из распространенных шкал является номинальная. В следующих примерах объекты будем обозначать натуральными числами. Рассмотрим понятие номинального шкалирования на примере контекста для ответов на вопрос "Тип населенного пункта, где живет респондент".
Введем краткие обозначения для ответов на этот вопрос: Москва - М; Санкт - Петербург - СПб; обл. центр, столица республики свыше 1 млн. жителей - оц1; обл. центр, столица республики менее 1 млн. жителей - оц2; районный центр, малый город, поселок городского типа - рц; село - с.
= |
М |
СПб |
оц1 |
оц2 |
рц |
с |
|
М |
X |
||||||
СПб |
X |
||||||
оц1 |
X |
||||||
оц2 |
X |
||||||
рц |
X |
||||||
с |
X |
Если на значениях многозначного признака наблюдается порядок, который желательно учесть, то можно использовать порядковую шкалу. Рассмотрим в качестве примера порядковую шкалу для ответа на вопрос "Какое из перечисленных на карточке описаний точнее всего соответствует материальному положению Вашей семьи?" Варианты ответов (значения шкалы) обозначим числами натурального ряда начиная с 1от самого тяжелого материального положения до наиболее благополучного.
1. денег не хватает даже на питание |
|
2. на питание денег хватает, но не хватает на покупку одежды и обуви |
|
3. на покупку одежды и обуви денег хватает, но не хватает на покупку бытовой техники |
|
4. денег вполне хватает на покупку крупной бытовой техники, но мы не можем купить новую машину |
|
5. денег хватает на все, кроме таких дорогих приобретений, как квартира, дом |
|
6. материальных затруднений не испытываем, при необходимости могли бы приобрести квартиру, дом |
Для краткости записи мы ввели 6 признаков мп1,., мп6. Благодаря такой шкале респонденты могут быть упорядочены по уровню материального положения.
? |
мп1 |
мп2 |
мп3 |
мп4 |
мп5 |
мп6 |
|
1 |
X |
||||||
2 |
X |
X |
|||||
3 |
X |
X |
X |
||||
4 |
X |
X |
X |
X |
|||
5 |
X |
X |
X |
X |
X |
||
6 |
X |
X |
X |
X |
X |
X |
Иногда исследователям необходимо разделять взаимоисключающие пары значений даже при наличии порядка на них. Например, школьная оценка "5" предполагает, что результаты "4" и "3" уже достигнуты, потому как высокая успеваемость означает и наличие удовлетворительной. Но в этом случае, очевидно, что уровни успеваемости для оценок "2" и "1" не наблюдаются, т.к. отличная успеваемость не подразумевает плохой. Рассмотрим пример двупорядковой шкалы для вопроса анкеты "Скажите, пожалуйста, в последнее время Вы чувствуете или не чувствуете себя в безопасности?".
б++ |
б+ |
б- |
б-- |
||
1 |
X |
X |
|||
2 |
X |
||||
3 |
X |
||||
4 |
X |
X |
Ответы:
1. безусловно да;
2. скорее да 3. скорее нет 4. безусловно нет. Мы считаем, что ответ под цифрой 1 явное положительное проявление признака, а ответ под цифрой 2 - менее слабое, но тоже положительное проявление. Аналогично ответ 4 - строго отрицательное проявление признака, а ответ 3 менее слабое. Но, например, ответы 1 и 4 взаимоисключающие по характеру ощущения безопасности у респондента, а потому несравнимые. Еще один часто встречающийся тип шкал - дихотомические. Он используется в случае вопросов, в которых опрашиваемый отвечает "да" или "нет". Такой тип шкалы является частным случаем номинальной.
Опишем способы отбора релевантных формальных понятий с помощью решеток-айсбергов и индекса устойчивости.
Определение 8. [7] Поддержкой множества признаков BM для данного контекста K называется величина . Пусть задано число minsupp [0,1], тогда B называется частым множеством признаков, если supp (B) minsupp. Понятие называется частым, если его содержание частое множество признаков. Множество всех частых понятий называется айсбергом решетки понятий контекста .
При добавлении к этому множеству нижнего элемента оно становится решеткой. Помимо наиболее крупных групп опрошенных социолога интересуют и более мелкие, но устойчивые к изменению состава респондентов. Мы учитываем это с помощью индекса устойчивости.
Определение 9. ([6, 8]) Для формального контекста K= (G, M, I) индексом устойчивости формального понятия (A,B) называется , где . Понятие (A,B) называется устойчивым, если (A,B) min.
Множество всех устойчивых понятий не всегда образует верхнюю полурешетку.
В наших экспериментах мы использовали данные опроса по технологии "Георейтинг", проведенного Фондом "Общественное мнение" (анкета была разработана И.В. Мерсияновой и Л.И. Якобсоном при участии Е.С. Петренко) Подробнее о методике проведения социологических опросов по технологии Георейтинга см.: Ослон А.А. Мегаопросы населения России (Проект «Георейтинг»)// Полис. - 2006. - № 6.. Опросы были проведены в 68 субъектах РФ среди населения в возрасте от 18 лет и старше. Размер выборки в каждом субъекте РФ составил 500 респондентов, по России - 34 тыс. респондентов. Во всех 68 субъектах РФ применялись общие принципы построении выборки. Использовалась территориальная трехступенчатая стратифицированная выборка домохозяйств. Отбор домохозяйств проходил в три этапа. На первом этапе отбирались административные районы, на втором - населенные пункты, на третьем - домохозяйства. Статистическая погрешность по каждому субъекту РФ не превышает 5,5%. Для суммарных результатов по всем 68 субъектам РФ статистическая погрешность не превышает 1%. Вопрос личной безопасности является важным для понимания развития общества. В пирамиде Маслоу обеспечение безопасности находится на втором уровне потребностей, вслед за различными физиологическими потребностями. Развитие гражданского общества многие также связывают с вопросами безопасности - население способно аккумулировать свои усилия для защиты своих прав и свобод. В настоящем исследовании мы предприняли попытку проанализировать вопросы, связанные с уровнем ощущения личной безопасности у жителей Москвы (около 500 респондентов). Для анализа использовались вопросы об ощущении личной безопасности, о характере его изменения, о том, кто должен обеспечивать безопасность. Также принимались во внимание социально-демографические характеристики респондентов: пол, возраст, субъективная оценка материального положения. Признак 32 был шкалирован в двупорядковой шкале, признаки 33, 34, 67 и 68 - в номинальной, а признак 97 - в порядковой. После выбора шкал, мы провели сведение исходного многозначного контекста к однозначному. Далее мы использовали программное средство Concept Explorer [9] для построения решеток понятий и адаптированную для вычисления устойчивых понятий и решеток айсбергов реализацию алгоритма AddIntent [10]. Из порожденных 9001 понятий мы отобрали 20 самых устойчивых и 20 самых крупных понятий и проанализировали их диаграммы порядка. Аналогичные действия мы провели с ответами на вопрос 34, представленный в приведенном контексте 12 формальными признаками. На основании полученных данных можно говорить о том, что большинство респондентов не чувствуют себя в безопасности (65% опрошенных). При этом 42% респондентов не видят изменений в ситуации, связанной с обеспечением уровня безопасности, 44% респондентов полагают, что в настоящее время обстановка стала менее безопасной, чем раньше. Взяв 20 наибольших понятий в решетке, можно увидеть, что основной определяющей характеристикой, из-за которой изменяется уровень ощущения личной безопасности, является субъективная оценка материального положения. Знание пола или возрастной группы респондента в данном случае не дают нам дополнительных возможностей для анализа и построения гипотез. Более половины респондентов с низким доходом (переменная 972) не чувствуют себя в безопасности (переменная 32-), при этом 178 человек из 259, относящихся к этой группе, также считает, что ситуация с безопасностью ухудшилась за последнее время. C ростом доходов снижается доля людей, чувствующих себя не в безопасности.
Рис.1. Диаграммы порядка 20 самых устойчивых понятий а) и айсберга решетки понятий исходного контекста б)
Для анализа ответов на вопрос о том, кто должен обеспечивать безопасность людей, был построен айсберг решетки понятий, содержащий 10 наибольших понятий. Были получены три практически равные по наполненности группы - 13% респондентов полагают, что безопасность индивида находится в руках лично их или близких им людей (3312 - я сам, 339 - родственники, 333 - соседи). Оказалось, что 17% респондентов полагают, что обеспечением безопасности должны заниматься правоохранительные органы в лице участковых милиционеров и 13% респондентов полагаются на домашних животных. Интересным представляется тот факт, что решетка, построенная по наиболее устойчивым понятиям, практически не изменилась. В числе наиболее устойчивых понятий можно выделить уже только 2 группы: группа людей, полагающихся на правоохранительные органы - 17%, и группа людей, ориентирующихся на ближайшее окружение (ответы "я сам", "родственники", "бдительные соседи") - 13%. По айсбергу решетки из 20 наиболее крупных понятий можно сделать следующие выводы: уровень ощущения личной безопасности зависит от уровня дохода - с ростом доходов (971, 972, 973, 974) снижается число тех, кто неудовлетворен собственной безопасностью - с 64% до 44%. Респонденты с низкими доходами также составляют большинство среди тех, кто полагает, что личную безопасность нужно обеспечивать за счет личных связей. Так полагает каждый второй респондент с низкими доходами и 40% респондентов с доходами ниже среднего.
На основании проведенного анализа можно говорить о формировании и подтверждении исследовательских предпочтений о существовании обратной зависимости - с ростом доходов снижается ощущение небезопасности. Также можно говорить об установлении зависимости между уровнем материального благополучия и ролью личного окружения в формировании безопасной обстановки. С ростом доходов уменьшается число людей, которые полагаются на себя, родственников или бдительных соседей в деле обеспечения личной безопасности. Помимо этого мы исследовали признаковые импликации.
Определение 10. Для контекста K= (G, M, I) признаковая зависимость AB называется (признаковой) импликацией тогда и только тогда, когда AB (т.е. все объекты, обладающие всеми признаками из , обладают всеми признаки из ).
Приведем пример выявленной импликации: {33+, 672, 971, 972, 973, 974} {349}. Интерпретация такова: если женщина положительно оценивает изменения в ощущении личной безопасности и доход ее семьи позволяет покупку крупной бытовой техники, то она будет полагать, что обеспечить ее безопасность может семья и родственники.
Ввиду ограниченного объема статьи мы описали только часть результатов, значительная доля которых является интерпретацией полученных диаграмм порядка.
Отметим, что техника шкалирования, подразумевающая акт интерпретации значений исходных данных и выбора шкалы, хорошо описывается в терминах нечеткой логики и формализована с помощью нечетких решеток понятий в работах чешских исследователей (см., например, [11]). Например, с помощью нечетких признаков можно учесть небольшое отличие в возрасте респондентов, находящихся на границе между интервалами [18,34] и [35,50]. Несмотря на ряд проблем, заключающихся в интерпретации нечетких объектов как респондентов и большем количестве понятий, валидация подхода на основе нечетких решеток понятий к анализу данных социологических опросов является направлением дальнейших исследований. Еще одним полезным для социолога средством может оказаться применение вложенных диаграмм решеток понятий, особенно при выявлении взаимосвязи различных вопросов [4].
Литература
1. Ganter B., Wille R. Formal Concept Analysis // Mathematical Foundations. - Berlin: Springer, 1999.
2. Freeman L. Cliques, Galois Lattices and the Structure of Human Social Groups // Social Networks. - 1996. - №18. - С.173-187.
3. White D. R., Duquenne V. Social Network and Discrete Structure Analysis // Introduction to a Special Issue. Social Networks. - 1996. - №18. - P.169-172.
4. Roth C., Obiedkov S., Kourie D. G. Towards Concise Representation for Taxonomies of Epistemic Communities // Proceedings of the 4th International Conference on Concept Lattices and their Applications (CLA). - 2006.
5. Кедров С.А., Кузнецов С.О. Исследование групп пользователей Интернет-ресурсами методами анализа формальных понятий и разработки данных (Data Mining) // Бизнес-информатика. - 2007. - №1. - С.45-51.
6. Kuznetsov S. O., Ignatov D.I. Concept Stability for Constructing Taxonomies of Web-site Users // Proceedings Satellite Workshop "Social Network Analysis and Conceptual Structures: Exploring Opportunities" at the 5th International Conference Formal Concept Analysis (ICFCA'07, Clermont-Ferrand, France). - 2007. - P. 19-24.
7. Stumme G., Taouil R., Bastide Y., Pasqier N., Lakhal L.computing Iceberg Concept Lattices with Titanic // Journal on Knowledge and Data Engineering (KDE). - 2002. - Vol.42, №2. - P.189-222.
8. Кузнецов С.О. Устойчивость как оценка обоснованности гипотез, получаемых на основе операционального сходства // НТИ. Сер.2. - 1990. - №12. - С.21-29.
9. Евтушенко С.А., Система анализа данных "Concept Explorer" // Труды 7-й Национальной конференции по искусственному интеллекту. - 2000. - С.127-134.
10. Van der Merwe F. J., Obiedkov S., Kouri D. G. AddIntent: A New Incremental Lattice Construction Algorithm, Concept Lattices // Proceedings of the 2nd International Conference on Formal Concept Analysis, Sydney, Australia, Lecture Notes in Artificial Intelligence. - 2004. - Vol.2961. - P.372-385.
11. Belohlavek R., Konecny J. Scaling, Granulation, and Fuzzy Attributes in Formal Concept Analysis // The IEEE International Conference on Fuzzy Systems (London, UK, July 23-26, 2007). - P.918-923.
12. Kuznetsov S. O. On Stability of a Formal Concept // In SanJuan, E., ed.: JIM, Metz, France. - 2003.
Размещено на Allbest.ru
Подобные документы
Теоретическое обоснование проблемы интерпретации результатов социологических исследований. Определение и виды социологических исследований, процедура анализа их результатов. Практическое применение интерпретации данных социологических исследований.
курсовая работа [52,3 K], добавлен 10.01.2011Современные методы прикладных социальных исследований. Социологическая информация и ее виды. Данные, содержащиеся в официальных документах. Информация, собираемая с помощью массовых опросов. Данные, полученные с помощью опросов экспертов, а также СМИ.
курсовая работа [36,6 K], добавлен 09.11.2008Понятие и сущность анкетных опросов, требования к их проведению и классификация вопросов. Анализ проблемы достоверности получаемой информации. Виды, принципы и правила проведения интервью. Основные методы анализа и классификации документов в социологии.
реферат [38,8 K], добавлен 01.02.2010Понятие и типы социологических исследований, этапы их проведения, подготовительные и основные. Методы эмпирических социологических исследований, анализ и оценка, интерпретация полученных результатов, существующие проблемы и их решение, управление.
контрольная работа [22,8 K], добавлен 14.06.2015Сбор социологических данных. Диалектика общего, особенного и единичного. Качественные и количественные методы социологических исследований. Обработка полученных данных. Анализ социальной действительности. Механизм адаптации людей к социальным изменениям.
реферат [26,8 K], добавлен 27.01.2013Определение возрастного контингента и гендерной составляющей интернет-аудитории. Рассмотрение её социально-демографического портрета. Анализ интересов интернет-пользователей по данным опросов в социальных сетях. Оценка доли интернет-зависимых россиян.
реферат [437,3 K], добавлен 24.04.2019Методологические основы сбора информации о социальных явлениях и процессах. Анализ социологических методов научного исследования, используемых в практике экономических, социальных, политических и психологических исследований; отличительные черты опросов.
курсовая работа [33,4 K], добавлен 12.09.2013Понятие метода и методики социологических исследований. Метод опроса в социологическом исследовании. Методы механической, серийной, гнездовой и квотной выборки. Создание широких сетей интервьюеров. Качественные методы анализа социологических данных.
курсовая работа [32,4 K], добавлен 27.05.2015Классификация мотивов учебной деятельности студентов, мотивы получения диплома и межличностного общения, профессионально-познавательный мотив. Характеристика современного студента и наиболее типичные черты его социального портрета по данным опросов.
реферат [18,5 K], добавлен 18.11.2010Социологические исследования, понятие, разновидности и характеристика. Анкетирование его сущность и методы проведения. Виды вопросов, их особенности. Методика проведения опросов, выборочное исследование и его проведение. Интервью и наблюдение, их суть.
реферат [22,1 K], добавлен 29.01.2009