Эксперимент в социальных науках

Основные социологические экспериментальные планы с контрольной группой и рандомизацией. Суть полевого эксперимента, проводимого в естественных условиях и в большинстве случаев имеющего своей целью оценку эффективности программ или методов воздействия.

Рубрика Социология и обществознание
Вид курсовая работа
Язык русский
Дата добавления 15.02.2011
Размер файла 48,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Содержание

Введение

1. Определение и виды эксперимента. Основные принципы экспериментирования в социальных науках

2. Основные экспериментальные планы с контрольной группой и рандомизацией

3. Многомерные и факторные эксперименты: общий обзор

Библиографический список
Введение
Эксперимент -- это опытное исследование воздействия отдельного фактора (или нескольких факторов) на интересующую исследователя переменную. Экспериментальное исследование строится в соответствии с правилами индуктивного вывода о наличии причинно-следственной связи между событиями, во-первых, демонстрируя регулярный характер появления события-«отклика» после предшествующего по времени события-воздействия и, во-вторых, исключая посредством особых приемов экспериментальной изоляции и контроля альтернативные объяснения появления «отклика» с помощью посторонних влияний и конкурирующих каузальных гипотез. Соответственно данные экспериментального исследования представляют собой наилучшее приближение к модели статистического вывода о наличии причинной взаимосвязи между воздействием и «откликом» или, в более привычных терминах, между независимой и зависимой переменными.
В литературах, посвященных массовым опросам и статистическому анализу результатов социологического исследования, обсуждаются возможности и ограничения неэкспериментальных, сугубо статистических методов анализа связи между переменными. В частности, речь идет о случаях ложной корреляции между переменными, а также о том, что в неэкспериментальных исследованиях часто невозможно однозначно упорядочить изучаемые переменные во времени и, следовательно, задать направление причинной связи. Основанная на эксперименте модель статистического вывода в значительной степени лишена этих недостатков, хотя ее использование в социальных науках во многих случаях также сталкивается с существенными техническими, этическими и прочими ограничениями.
1. Определение и виды эксперимента. Основные принципы экспериментирования в социальных науках
Экспериментальный метод пришел в социальные науки из естественных наук, где он примерно с XVII века стал основным способом опытной проверки научных теорий. Самым популярным видом эксперимента в точных науках был и остается лабораторный эксперимент, получивший распространение также в науках о человеческом поведении.
Лабораторный, или истинный, эксперимент нацелен на проверку теоретической гипотезы и осуществляется в условиях максимального контроля над уровнем воздействия независимой переменной и очищения (изоляции) этого воздействия от посторонних влияний, оказываемых внешними, т. е. иррелевантными с точки зрения проверяемой гипотезы, переменными. Экспериментальный контроль и изоляция позволяют отвергнуть иные возможные объяснения наблюдаемого эффекта -- конкурентные гипотезы. Немаловажным условием обоснованности, валидности результатов, получаемых в лабораторном эксперименте, является возможность достаточно надежного измерения зависимой переменной. В этом случае при бесконечном количестве испытаний результаты неизбежных случайных возмущений в зависимой переменной «погасят» друг друга и исследователь получит точную оценку интересующего его воздействия.
На практике описанные требования к истинному эксперименту могут быть полностью воплощены лишь в бесконечном идеальном эксперименте, при проведении которого внешние, так называемые экзогенные переменные остаются неизменными, и изменяется лишь независимая переменная, что обеспечивает полную валидность выводов о изучаемом соотношении между независимой и зависимой переменными. Идеальный эксперимент -- это эталон, относительно которого могут оцениваться и сопоставляться эксперименты реальные, однако буквальное выполнение всех его требований обычно невозможно или даже бессмысленно с точки зрения конкретной научной задачи, стоящей перед исследователем.
Дональд Кэмпбелл приводит в качестве примера эксперимент Николсона и Карлслайла, которые продемонстрировали явление гидролиза, всего лишь «взяв в мае 1880 г. образец воды в районе Сохо (образец очень частный, характерный для местных условий и данного периода) и опустив в него весьма специфичный кусок медной проволоки, по которой пропускался электрический ток...» Влиянием посторонних факторов (прежде всего примесей) на протекание гидролиза в данном эксперименте можно было пренебречь, так как целью было подтверждение теоретически предсказанной закономерности, а не измерение скорости гидролиза или изучение особенностей его протекания в различных средах.
В социальных науках от лабораторного эксперимента принято отличать полевой эксперимент, проводимый в естественных условиях и в большинстве случаев имеющий своей целью не столько проверку научной гипотезы о причинной связи между переменными, сколько оценку эффективности различных программ или методов воздействия.
Для многих прикладных социологических исследований, ориентированных на разработку и оценку социальных программ, социальное экспериментирование столь же типично, сколь типичны лабораторные эксперименты для социальной психологии или социологии малых групп. Социальное экспериментирование позволяет ответить на самые разнообразные вопросы, относящиеся преимущественно к сфере практической политики и администрирования -- например, как влияет отмена смертной казни на показатели преступности, растет ли посещаемость музеев при снижении цен на входные билеты, во всех ли случаях повышение размера вознаграждения ведет к росту производительности труда и т. п.
Например, в исследовании воздействия детского сериала «Улица Сезам» на культурное и интеллектуальное развитие американских дошкольников полевой эксперимент охватил детей и родителей, проживавших в городах (Бостон, Дарэм, Феникс), а также в сельских районах Калифорнии и Филадельфии. В ходе эксперимента детей и их родителей побуждали к просмотру сериала (независимая переменная), фиксируя изменения в когнитивном развитии дошкольников с помощью тестов достижений и тестов общего развития (зависимые переменные). Двухлетний полевой эксперимент позволил продемонстрировать заметный обучающий эффект, связанный с просмотром сериала, особенно очевидный в группе детей из неблагополучных семей.
Полевой эксперимент -- ведущий метод ориентированных на практику оценочных исследований (evaluative research). Однако далеко не всегда оценка эффективности новой, компьютеризованной системы обучения или, скажем, нового танкового прицела происходит в реальных полевых условиях. Иногда исследователи проводят эксперимент в условиях, имитирующих реальность или даже представляющих некоторые особенности реальной ситуации -- обучения, вождения танка и т. п. -- в преувеличенном, «очищенном» виде. Р. Готтсданкер предложил различать два типа полевых экспериментов -- эксперименты, дублирующие реальный мир (т. е. уже описанные «натурные» эксперименты), и эксперименты, улучшающие реальный мир. Эксперименты, улучшающие реальный мир, прежде всего позволяют повысить валидность и надежность данных. Так, данные «натурного» эксперимента по эффективности нового метода обучения вождению автомобиля будут подвержены влиянию множества трудноконтролируемых различий в условиях видимости, ландшафте, состоянии дорог и используемых автомобилей, тогда как данные тренажерных испытаний будут меньше подвержены такого рода смещениям. Кроме того, надежность эксперимента в «улучшенных» условиях также повысится за счет возможности контролировать частоту «встречного движения» на экране тренажера, соблюдать четкий временной режим, исключающий утомление оператора, и т. д.
Для того чтобы понять, чем руководствуются социологи, осуществляя выбор одного из перечисленных видов эксперимента и конкретного плана построения экспериментального исследования, нам следует сначала рассмотреть ключевые понятия и принципы, лежащие в основе современного подхода к социальному экспериментированию.
Суммируя вышеизложенное, можно сказать, что в лабораторном эксперименте обоснованность выводов экспериментального исследования, т.е. их валидность и надежность, обеспечиваются благодаря трем принципам планирования эксперимента: 1) контролю над уровнем независимой переменной, 2) изоляции основного эффекта (т. е. собственно воздействия независимой переменной на зависимую переменную) от влияния посторонних, смешивающих факторов, а также 3) многократному воспроизведению полученных результатов, которое позволяет нивелировать случайные изменения результата отдельных испытаний, связанные с несистематическими колебаниями фона, случайными ошибками, усталостью и т. п. При этом первые два принципа планирования лабораторного эксперимента позволяют обеспечить валидность как соответствие эксперимента его цели, измерение именно того эффекта, который предполагалось измерить. Идеальный, т. е. совершенно валидный эксперимент, фиксирует лишь то отношение между переменными, которое и планирует изучить экспериментатор, и «отсекает» любые другие источники систематической вариации результатов. Валидность эксперимента, следовательно, определяет достоверность выводов о наличии либо отсутствии предполагаемой причинной связи и о подтверждении либо неподтверждении проверяемой в эксперименте теоретической гипотезы. Третий принцип обеспечивает надежность результатов -- защиту от случайной ошибки, являющуюся необходимым условием валидности.
Однако большая часть экспериментов в социальных науках (как, впрочем, и в ряде инженерных дисциплин или агробиологии) происходит в условиях, когда перечисленные принципы не могут быть реализованы полностью. Возникающие здесь ограничения имеют технический, а иногда -- скорее принципиальный характер. Если, например, в социологическом эксперименте независимыми переменными служат раса или социальное происхождение, то мы даже технически -- не говоря уже о соображениях морали -- не можем осуществлять полный контроль над этими переменными, т. е. совершенно произвольно определять их значение для каждого отдельного случая (субъекта). И даже если бы эту трудность можно было бы каким-то образом преодолеть на время проведения испытаний, нам было бы трудно изолировать интересующий нас основной эффект от влияния сопутствующих, «закоррелированных» с независимой переменной факторов, -- связанного с расой или происхождением специфического социального опыта, соответствующих социальных навыков и т. п. (Со схожими трудностями сталкивается и агробиолог, оценивающий урожайность нового сорта пшеницы и пытающийся отделить главный фактор от прочих, также влияющих на урожайность: различий в освещенности опытных участков, в составе почвы и т. п.).
Знаменитый английский статистик Р. Фишер первым обосновал возможность применения несколько иного подхода к планированию полевых экспериментов, лабораторных экспериментов с неполным контролем, а также квазиэкспериментов (о последних речь пойдет позднее). Этот подход основан на целенаправленном использовании законов случая и теории вероятности. Он требует введения в планирование эксперимента принципа рандомизации.
Рандомизация -- это стратегия случайного распределения субъектов по различным условиям (режимам) эксперимента и экспериментальным группам.
Воспользуемся в качестве иллюстрации тем же простым примером психофизического опыта, которым пользуется сам Фишер при обсуждении роли принципа рандомизации в планировании эксперимента.
Представим себе, что некая леди взялась угадать, в какие четыре из восьми чашек чая с молоком сначала налили молоко, а в какие -- чай. Экспериментальная гипотеза состоит, таким образом, в том, что испытуемая обладает описанной способностью различения. Если воспользоваться простейшей формулой из комбинаторики, то общее число способов выбрать четыре чашки из восьми равно числу размещений А:
Иными словами, если бы испытуемая не обладала способностью отличать «молочно-чайные» чашки от «чайно-молочных» и прибегла к случайному угадыванию, то вероятность правильно определить 4 чашки составила бы 1/70 (из 70 существующих различных способов выбрать 4 чашки из 8 лишь один является правильным). Говоря точнее, при достаточно длинной серии испытаний частота правильных ответов приближалась бы к 1/70. Если же частота правильных ответов существенно, с точки зрения избранного статистического критерия, превышает частоту случайного угадывания, то мы вправе сделать вывод о том, что интересующая нас специальная способность действительно существует.
Однако описанная схема испытания явно не соответствует тем требованиям, которые предъявляются к уровню контроля над переменными и изоляции основного эффекта в лабораторном эксперименте. Возможные угрозы валидности наших статистических выводов носят довольно очевидный характер. Во-первых, мы не обладаем никакими средствами прямого измерения зависимой переменной -- способности вкусового различения. Правильные угадывания -- это лишь косвенные индикаторы такой способности и могут отражать влияние «посторонних» переменных, даже превосходящее основной эффект. Если, например, во все чашки, в которые сначала было налито молоко, был добавлен сахар, ясно, что все они будут безошибочно опознаны. Статистические выводы о значимости окажутся, таким образом, невалидными, т. е. не имеющими отношения к нашей экспериментальной гипотезе (хотя и подтверждающими конкурентную гипотезу о способности распознавать сладкий вкус). Систематическое постороннее влияние, составляющее угрозу валидности статистического вывода, может носить и другой характер: «молочные» и «чайные» чашки могут отличаться друг от друга толщиной, температурой, цветом. Чтобы устранить перечисленные угрозы валидности и нивелировать возникающие систематические смещения, экспериментатор должен использовать принцип рандомизации, т. е. обеспечить случайный порядок предъявления стимулов-чашек и их оценки, определяемый, например, с помощью таблицы случайных чисел или жребия. В идеале и отбор испытуемых для каждой серии опытов, и распределение уровней независимой переменной между чашками («молоко-чай» или «чай-молоко») должны основываться на законах случая.
При планировании конкретного экспериментального исследования описанные принципы находят воплощение при разработке плана, или схемы, эксперимента, определяющего порядок предъявления испытуемым (или их группам) различных уровней (условий) независимой переменной для адекватной проверки экспериментальной гипотезы.

2. Основные экспериментальные планы с контрольной группой и рандомизацией

В социологии, психологии и других поведенческих науках особую роль играет использование принципа рандомизации при распределении испытуемых по группам. В эксперименте с неполным контролем или в полевом эксперименте, происходящем в естественных условиях (т. е. в условиях школьного класса, промышленной организации, городского района и т. д.) часто нужно доказать не только наличие ожидаемого эффекта в результате некоторого воздействия Х, но и отсутствие того же эффекта в тех случаях, когда воздействия не было. Например, исследователь, изучающий воздействие просмотра антивоенных фильмов на изменения установок студентов, случайным образом отбирает из некоторой совокупности студентов экспериментальную группу, которой будет показан антивоенный фильм, а также контрольную группу, которой он продемонстрирует нейтральный фильм, никак не связанный с изучаемыми установками. Использование контрольной группы позволяет устранить некоторые важнейшие угрозы валидности эксперимента. Во-первых, если бы исследователь отказался от использования контрольной группы и ограничился тестированием, т. е. измерением установок «до-после» просмотра, то обнаруженные изменения в уровне установок можно было бы приписать влиянию на испытуемых самого по себе факта участия в эксперименте. Испытуемые, возможно, осознавали, что они отобраны для важного исследования и стремились некоторым образом соответствовать своей роли и оправдать некие гипотетические «ожидания» экспериментатора. Описанная угроза валидности широко известна и для нее существует несколько обозначений. В психологическом тестировании и экспериментальной психологии это называют «эффектом морской свинки» или «мотивом экспертизы». Иногда применяют термин, возникший в медицине, где при клинических испытаниях новых фармакологических средств и методов лечения часто наблюдают «эффект плацебо», т. е. заметное улучшение статуса у многих участников контрольной группы, в которой вместо реального воздействия использовались индифферентные средства и нейтральные врачебные манипуляции. В социологии самое популярное обозначение систематического смещения, возникающего из-за реакции испытуемых на ситуацию эксперимента -- это «хоуторнский эффект».

В так называемых хоуторнских экспериментах (по названию промышленного предприятия в Чикаго) исследовались организационные и социально-психологические факторы, влияющие на производительность труда. Исследователи обнаружили, что эффект роста производительности труда в бригадах сохранялся даже при отсутствии собственно экспериментального воздействия. Предположительной причиной этого явления был рост группового самосознания у участников эксперимента.

«Хоуторнский эффект» -- это угроза валидности, связанная с особенностями экспериментальной группы.

Еще одна угроза валидности выводов, которую позволяет преодолеть описываемый план эксперимента, также связана с особенностями групп, а именно -- с процессом отбора для участия в эксперименте. Если бы мы отказались от предварительного тестирования и случайного распределения испытуемых по экспериментальной и контрольной группам, мы совершили бы методическую ошибку, весьма характерную для любых экспериментов с добровольцами. Очень часто исследователи отбирают испытуемых для участия в специальной программе обучения или в новаторском организационном проекте, основываясь на изъявленном ими желании, а затем сравнивают результаты, показанные участниками оцениваемой программы, с результатами какой-либо другой доступной группы (или даже случайной выборки из соответствующей генеральной совокупности), не участвовавшей в такого рода программе. Однако такое сравнение некорректно: само по себе желание участвовать в эксперименте часто свидетельствует о изначально более высокой мотивации, осведомленности или интеллекте. Эти факторы сами по себе, или взаимодействуя с главной независимой переменной Х, могут объяснить значимые различия в результатах, показанных экспериментальной группой. В только что описанном примере сравнение группы добровольцев, пожелавших посмотреть антивоенный фильм, с прочими студентами, может вести к завышенной оценке воздействия просмотра, если добровольцы изначально проявляют больший интерес к политическим проблемам. Лишь случайное распределение добровольцев по контрольной и экспериментальной группам при соблюдении «непрозрачности» такого распределения для всех испытуемых (участники обеих групп должны считать, что они подвергаются некоторому экспериментальному воздействию) позволяет судить о роли независимой переменной X в возникновении межгрупповых различий.

Вышеописанные угрозы валидности связаны преимущественно с особенностями групп, проявляющимися на стадии отбора или в ходе эксперимента. Однако рандомизация позволяет справиться и с некоторыми угрозами валидности, исходящими от переменных внешнего окружения, фона. К фоновым относятся, в частности, «возможные влияния времени года или событий, возникающих на институциональном уровне», а также факторы естественного развития -- «все те биологические или психологические процессы, которые независимо от конкретных внешних событий систематически изменяются с течением времени». Испытуемые взрослеют, обучаются, устают, улучшают свои результаты при повторных тестированиях и т. п., что может сказываться на их результатах. Однако если такие посторонние влияния не оказывают избирательного воздействия только на членов экспериментальной группы, они будут вносить вклад лишь в случайную ошибку, а не в систематическое смещение. Иными словами, они будут с равной вероятностью распределены между случайным образом отобранными участниками контрольной и экспериментальной групп. План типа RT1-2C позволяет обеспечить случайный и равновероятный характер внешних, фоновых воздействий на контрольную и экспериментальную группу. Более того, он позволяет «вычесть» величину фонового влияния и оценить чистый основной эффект: если внешнее влияние все же имело место, оно в равной степени подействовало на показатели и экспериментальной, и контрольной групп; следовательно, разность между средними значениями первого и второго замеров уровня зависимой переменной в контрольной группе, при этом предварительное и послеэкспериментальное тестирование в экспериментальной и контрольной группах должны проводиться практически одновременно.

Систематическая угроза валидности, связанная с фоновыми факторами, может все же возникнуть и при использовании рандомизации и контрольной группы. Это происходит тогда, когда фоновые факторы взаимодействуют с независимой переменной (или некоторыми ее уровнями). Природу такого взаимодействия легко понять на примере исследования, в котором изучается влияние тревожности, возникающей в ситуации неопределенности, на успешность решения сложных задач. В такого рода экспериментах для создания ситуации неопределенности и повышения реактивной тревожности (независимые переменные) часто используют неясные инструкции, косвенные негативные оценки действий испытуемого, высказываемые лицами, проводящими эксперимент (типа «Ну-ну, посмотрим, как Вы сможете это использовать»), а также предварительные серии, где испытуемому приходится решать заведомо неразрешимые задачи. Разумеется, всем этим воздействиям (X) подвергаются лишь члены экспериментальной группы. Если испытуемые -- это студенты, которым в силу случайного стечения обстоятельств через неделю предстоит сдавать экзамены, или сотрудники подразделения фирмы, ожидающие скорой переаттестации, то эти факторы «фона» будут взаимодействовать с независимыми переменными, не только суммируясь с ними, но и усиливая их эффект. Негативные подкрепления, получаемые в ходе эксперимента, будут восприниматься значительно острее накануне экзаменационной сессии или переаттестации, а связанная с этими событиями фоновая тревожность и неопределенность будет взаимодействовать с тревожностью и неопределенностью, создаваемыми преднамеренно.

Оценить чистый эффект взаимодействия с помощью сравнения с результатами контрольной группы вышеописанным способом в данном случае невозможно, так как взаимодействие фоновых смещений с основным эффектом происходит лишь там, где имеет место экспериментальное воздействие X. В контрольной группе приближающееся неприятное событие также может повлиять на результаты итогового замера или даже обоих замеров, но оно не будет взаимодействовать, «перемножаться» с воздействием независимой переменной (такое взаимодействие можно описать в более точных терминах, однако это требует введения некоторых статистических понятий). Для оценки величины взаимодействия фоновых смешивающих переменных с основным эффектом нужны более сложные экспериментальные планы. Некоторые из них будут обсуждаться ниже.

Иногда имеет смысл воспользоваться упрощенным вариантом описанного плана с рандомизацией и контрольной группой, а именно планом с рандомизацией без предварительного тестирования (RTC).

Привлекательность этого плана заключается, прежде всего, в его экономичности. Если при распределении испытуемых между группами и уровнями воздействия использовалась истинная вероятностная процедура, то проведение предварительного тестирования лишь увеличивает стоимость эксперимента, не оказывая существенного влияния на качество получаемых данных. По сути, правильно осуществленная рандомизация -- это наилучшая гарантия отсутствия изначального смещения между группами. Кроме того, в широкомасштабных социологических исследованиях, а также в прикладных исследованиях в области педагогики и социальной работы, проведение и предварительных, и повторных измерений зависимой переменной (политических установок, криминального поведения и т. п.) часто неосуществимо либо ведет к возникновению реакции на саму процедуру тестирования. Если, к примеру, мы изучаем влияние участия в предвыборной групповой дискуссии на последующую поддержку политических партий, то предварительное измерение политических установок может повлиять на активность опрошенных в ходе самой дискуссии и их последующие установки.

Можно заключить, что план RTC предпочтителен всегда, когда нежелательно повторное предъявление весьма специфичных по содержанию и схожих по форме тестов, вопросов, измерительных процедур. Иными словами, этот план заслуживает широкого применения в социологических и оценочных исследованиях. Кроме того, он является самым приемлемым средством проведения так называемых методических экспериментов, в которых оценивается эффективность различных видов опроса, способов заполнения и форматов анкет и т. п. План RTC использовался, в частности, в одном из практически ориентированных социальных экспериментов по совершенствованию системы правоохранительных и пенитенциарных учреждений, проводившихся в США в 196070-е гг.

В 1961 г. Федеральное бюро пенитенциарных учреждений США начало трехлетний эксперимент, целью которого было изучить воздействие поддерживающего консультирования и специальных реабилитационных программ на поведение мальчиков-подростков, находящихся в исправительных учреждениях. Местом проведения эксперимента стала специальная школа-колония для несовершеннолетних правонарушителей.

При проведении рандомизации мальчиков случайным образом распределяли между отрядами, где проводился эксперимент, и отрядами, служившими контрольными (каждый отряд жил в отдельно расположенном корпусе). В экспериментальных отрядах было увеличено количество воспитателей, проводились специальные индивидуальные и групповые консультации, использовалась система вознаграждений за хорошее поведение. В контрольных группах применялись обычные методы воспитания и обучения, а также традиционные наказания за нарушение внутреннего распорядка. Результаты эксперимента показали, что мальчики из экспериментальных групп раньше покидали спецшколу, лучше успевали в учебе, вели себя адаптивнее. Не было обнаружено значимых различий в показателях рецидивной преступности для подростков из экспериментальных и контрольных групп, освобожденных из школы-колонии, однако ребята из экспериментальных групп значительно отличались от ребят из контрольных групп по показателю тяжести вновь совершенных преступлений (первые, в случае рецидива, совершали менее тяжкие преступления). По результатам эксперимента было принято решение о внедрении экспериментальной коррекционной программы во всех подразделениях школы.

Еще один популярный план с рандомизацией и контрольной группой -- это план Соломона. План Соломона -- это план, позволяющий проконтролировать и оценить эффекты естественного развития и фона, а также определить взаимодействие эффекта тестирования с основным воздействием X. Здесь наряду с экспериментальной и контрольной группами с предварительным тестированием используются экспериментальная и контрольная группы без предварительного тестирования (как в плане RTC).

Очевидно, что в каждом конкретном эксперименте величина главного эффекта, т. е. наблюдаемого различия результатов экспериментальной и контрольной группы, будет варьировать не только под воздействием независимой переменной, но и просто в результате действия различных случайных возмущений. Конечно, если бы наш эксперимент был идеален и абсолютно надежен, то при каком угодно числе повторений мы бы всегда получали одну и ту же истинную оценку величины воздействия (при отсутствии или контроле смешивающего влияния дополнительных переменных). Однако реальные эксперименты -- особенно, как уже говорилось, эксперименты в социальных науках -- не бывают и не могут быть идеальными и безупречно надежными. Следовательно, перед исследователем всегда стоит задача статистической оценки значимости полученных результатов.

Вероятностным «воплощением» содержательной экспериментальной гипотезы является статистическая гипотеза. Принятие или непринятие статистической гипотезы -- необходимое, но недостаточное условие принятия или отвержения содержательной гипотезы, проверяемой в эксперименте. Проверяемая в конкретном эксперименте статистическая гипотеза всегда формулируется как гипотеза о том, что при бесконечном количестве повторений этого эксперимента среднее различие между экспериментальной и контрольной группами (или между воздействием разных уровней независимой переменной) равнялось бы нулю. Такую статистическую гипотезу, фактически сводящуюся к утверждению о случайном характере наблюдаемых в реальном эксперименте различий, называют нулевой гипотезой, или нуль-гипотезой (Н0). Отвержение или неотвержение нуль-гипотезы позволяет говорить о том, что в данном эксперименте содержательная гипотеза подтвердилась, либо подтвердилась противоположная ей альтернативная гипотеза, либо не было получено подтверждения ни одной из них.

Вообще, критерии значимости и статистические методы, используемые при проверке статистической гипотезы для конкретного плана эксперимента, называют статистическими моделями. Для планов с контрольной группой основная статистическая модель -- это использование t-критерия, о чем подробнее говорится чуть ниже. Для более сложных планов многомерных или факторных экспериментов, общий обзор которых дается в следующем разделе главы, ведущие статистические модели -- это дисперсионный анализ и использование F-критерия Фишера.

Итак, для того чтобы оценить статистическую значимость в элементарных рандомизированных планах нам необходимо проверить статистическую гипотезу о разности средних значений зависимой переменной в контрольной и экспериментальной группах. Конкретное значение разности средних значений зависимой переменной в экспериментальной и контрольной группе, обнаруженное в отдельном эксперименте (скажем, 4 балла по некоторой «шкале пацифизма»), нужно соотнести с определенным интервалом, в который это значение «укладывается» с заданной (доверительной) вероятностью. Иными словами, нужно решить задачу интервального оценивания, подобную задаче оценки отдельного параметра совокупности в выборочном обследовании (эта задача описана в гл. 8). Разница в том, что проводя эксперимент, мы интересуемся не вероятными пределами, в которых лежит некая характеристика выборки из реально существующей совокупности, а пределами, в которых лежит полученный нами в эксперименте результат относительно результата воображаемой бесконечной совокупности идентичных экспериментов. Нулевая гипотеза утверждает, что истинное значение различия средних равно нулю, варьируя в каких-то пределах от эксперимента к эксперименту (т. е. . Если удается показать, что полученное в эксперименте значение разности групповых средних не позволяет принять нулевую гипотезу, то делается вывод о подтверждении гипотезы, противоположной нулевой (т.е. -- о статистической значимости различий между группами -- и, значит, о подтверждении экспериментальной гипотезы (или о подтверждении гипотезы, противоположной экспериментальной, -- если различие между экспериментальной и контрольной группой оказалось с обратным знаком). Заметьте, что нулевая гипотеза всегда формулируется как гипотеза о том, что истинное значение разности средних (или, скажем, величины взаимосвязи между двумя переменными) равно нулю, а полученные в эксперименте величины отличаются от нуля исключительно из-за случайной ошибки выборки. Чем дальше от нуля -- в ту или другую сторону -- расположено наблюдаемое значение, тем больше его статистическая значимость и меньше вероятность того, что оно явилось результатом ошибки выборки.

Для того чтобы сравнить полученное в эксперименте с контрольной и экспериментальной группами значение разности между средними с гипотетическим выборочным распределением этой величины для бесконечного числа испытаний (такие распределения имеются не только для разности средних, но и для средних величин, стандартных отклонений и т. д.), нужно высчитать стандартную ошибку разности между средними. Формула для стандартной ошибки разности между средними -- SМэ-Мk --немного отличается от формулы стандартной ошибки средней SM20. Тем не менее она весьма проста:

где Sэ и SK -- величины стандартного отклонения, рассчитанные для экспериментальной и контрольной групп, nэ и пk -- число наблюдений (испытуемых) в экспериментальной и контрольной группах.

После этого нужно определить, на сколько единиц стандартной ошибки отстоит полученная разность средних от нуля, представляю щего собой -- в согласии с нуль-гипотезой -- среднее гипотетического распределения разностей средних, t-распределения. Для этого полученную в эксперименте разность групповых средних нужно перевести в t-единицы (т. е. единицы стандартного отклонения для t-распределения). Для данной разности средних величину t можно высчитать по формуле:

Полученное значение t нужно сравнить с соответствующим значением из таблицы t-распределения для избранного уровня значимости (р = 0,05 или 0,01) и числа степеней свободы, соответствующего количеству наблюдений в каждой группе (или подвыборке). Число степеней свободы -- довольно сложное статистическое понятие, анализ которого выходит за пределы этого учебника (в самом общем виде оно обсуждается в гл. 7). На практике число степеней свободы можно рассматривать как величину, равную числу наблюдений (испытуемых, опрошенных, баллов и т. п.) минус число оцениваемых параметров. Для разности средних двух групп это составит число наблюдений в экспериментальной группе минус один (nэ 1) плюс число наблюдений в контрольной группе минус один (пk 1):

Nст.своб. = (nэ 1) + (пk 1)

Таблицы t-распределения можно найти в любом учебнике или справочнике по статистике. Здесь мы приводим лишь фрагмент такой таблицы.

Таблица 1 Сокращенная таблица t-распределения Стьюдента (W. Gosset, 1908)

Число степеней свободы

Р = 0,05

Р = 0,01

1

t = 12,706

t = 63,657

2

t = 4,303

t = 9,925

5

t = 2,571

t = 4,032

8

t = 2,306

t = 3,355

10

t = 2,228

t = 3,169

14

t = 2,145

t = 2,977

16

t = 2,120

t = 2,921

20

t = 2,086

t = 2,845

30

t = 2,042

t = 2,750

60

t = 2,000

t = 2,660

120

t = 1,980

t = 2,617

t = 1,960

t = 2,576

Рассмотрим пример вычисления t для описанного выше эксперимента, в котором изучалось воздействие антивоенного фильма на изменение установок студентов. Пусть для контрольной и экспериментальной групп при итоговом тестировании по шкале пацифистских установок были получены следующие результаты:

Контрольная группа

Экспериментальная группа

nk = 28 чел.

Nэ = 34 чел.

Sk = 5,6

Sэ= 3,4

Наша статистическая задача заключается в том, чтобы определить, отличаются ли средние двух групп настолько, чтобы можно было отвергнуть нулевую гипотезу о том, что эти средние взяты из одной генеральной совокупности. Воспользуемся приведенной выше формулой для вычисления значения t:

Число степеней свободы в приведенном примере: (28 1) + (34 1) = 60.

Полученное значение t = 3,4760 заведомо превосходит табличные значения и для p < 0,05, и для р < 0,01 (на 5%-м уровне значение t для 60 степеней свободы составит 2,00, а на 1%-м -- 2,660). Следовательно, мы можем отклонить нулевую гипотезу и сделать вывод, что существует статистически значимая разница между средними уровнями пацифизма в группе студентов, посмотревших антивоенный фильм, и в контрольной группе.

Важно, однако, всегда помнить о том, что статистическая значимость результатов совершенно отлична от их содержательной значимости! Даже высокая статистическая значимость результатов эксперимента не гарантирует, что эти результаты будут иметь сколько-нибудь интересную интерпретацию и повлияют на состояние современного социологического знания. Содержательная значимость зависит прежде всего от нашей способности увязать экспериментальную гипотезу с существующими социологическими теориями.

3. Многомерные и факторные эксперименты: общий обзор

социологический эксперимент полевой

В описанных выше экспериментах с контрольной группой каждый раз используются лишь два типа условий -- «есть воздействие» либо «нет воздействия». Эти два типа условий по сути можно рассматривать как два уровня независимой переменной, которым можно присвоить условные числовые значения -- например, «1» и «0». Иными словами, с точки зрения уровня измерения независимая переменная является номинальной, качественной. В контрольной группе ее значение равно нулю, в экспериментальной -- единице. Однако исследователь часто располагает значительно большей информацией о независимой переменной и способен измерить и проконтролировать ее по крайней мере на трех-четырех уровнях значений. Соответственно экспериментальная гипотеза может быть сформулирована в терминах более или менее интенсивного воздействия либо наличия-отсутствия «отклика» зависимой переменной при конкретных уровнях независимой переменной.

В психологии хорошо известен закон «оптимума мотивации», так называемый закон Йеркса-Додсона.

В начале нашего века Р. Йеркс изучал, как влияет негативное подкрепление в форме удара электрическим током на выработку элементарных навыков у животных. В частности, в опытах с «танцующими мышами» (разновидность домашней мыши, имеющая генетический дефект, который заставляет ее двигаться по кругу или по восьмерке) он использовал три уровня силы тока -- «сильный» (500 усл. ед.), «средний» (300 усл. ед.) и «слабый» (125 усл. ед.). Мышь должна была научиться выбирать один из двух туннелей. В конце туннеля ее в любом случае ожидало «вознаграждение» -- мышь противоположного пола. При ошибочном выборе (белый туннель) мышь испытывала удар током, при правильном выборе (черный туннель) негативное подкрепление отсутствовало. Местоположение туннелей (слева-справа) менялось случайным образом от пробы к пробе. Выяснилось, что быстрее всего обучение происходит при «средней» величине стимуляции. Обнаруженный в этом эксперименте нелинейный характер связи между величиной стимула к решению определенной задачи и успешностью решения был затем неоднократно подтвержден и во многих других экспериментах, в том числе с испытуемыми-людьми и с позитивной стимуляцией. Чрезмерная мотивация и чрезмерная величина подкрепления, как и слабая мотивация, всякий раз оказывали меньшее воздействие на успешность выполнения различных задач.

Эксперименты, в которых используется несколько (более двух) уровней независимой переменной, называются многоуровневыми. Схема вышеописанного эксперимента с рандомизацией и тремя уровнями независимой переменной (Х1 Х2, Х3 ) такова:

R

X1

O1

R

X2

O2

R

X3

O3

Экспериментальная гипотеза в этом случае формулируется как гипотеза об отношениях значений О1, О2 и О3 (в рассмотренном примере О1 < О2 и O2 > O3). Независимая переменная в многомерном эксперименте может иметь и более трех уровней. Иначе говоря, она может быть «нормальной» количественной переменной, измеренной на интервальном или абсолютном уровне. Соответственно гипотеза многомерного эксперимента может формулироваться в более точных терминах -- как гипотеза об «относительно-абсолютных» или даже «абсолютно-абсолютных» отношениях переменных. Например, в эксперименте может изучаться влияние привлекательности лектора на частоту посещения занятий студентами, воздействие количества доступных источников информации о продукте на формирование потребительских предпочтений либо характер взаимосвязи между размером денежного вознаграждения испытуемых и успешностью решения ими однотипных задач. Таким образом, многомерные эксперименты позволяют проверять более тонкие и точные содержательные гипотезы о механизмах индивидуального и группового поведения.

Статистические гипотезы, проверяемые в многомерных экспериментах, -- это гипотезы о различиях между значениями зависимой переменной для разных уровней независимой переменной. Нулевая гипотеза формулируется как гипотеза о том, что разброс индивидуальных значений внутри одного уровня независимой переменной (внутри соответствующей экспериментальной группы) идентичен разбросу индивидуальных значений между различными уровнями (группами), т. е. отношение дисперсии межгрупповых оценок к дисперсии внутригрупповых оценок равно 1. Последнее отношение обозначается как F-критерий. Для того чтобы определить, не превышает ли полученная в конкретном 8 эксперименте величина F пороговое значение статистического F-распределения для заданного уровня значимости, используют статистическую технику однофакторного дисперсионного анализа. Термин «однофакторный» в данном случае означает, что в эксперименте использовалась лишь одна независимая переменная (фактор воздействия). Рассмотрение техники дисперсионного анализа и статистического оценивания получаемой в результате величины F выходит за пределы данного обзора.

В тех областях социологии и социальной психологии, которые имеют сравнительно развитую традицию экспериментальных исследований (межличностное и межгрупповое восприятие, исследования динамики установок, социальные процессы в малых группах, оценивание эффективности образовательных программ и т. д.) часто используют более сложные схемы экспериментирования, объединяемые термином «факторные эксперименты».

Факторный экспериментальный план включает в себя две и более, независимые переменные (именуемые также «факторами»), каждая из которых имеет несколько уровней воздействия. Так как при увеличении числа независимых переменных очень быстро возрастает число групп, в каждой из которых применяется одна из возможных комбинаций этих переменных и их уровней (в полном факторном плане число групп равно произведению числа уровней, задаваемых для каждой независимой переменной), в целях экономии ресурсов и рационального распределения исследовательских усилий были разработаны многочисленные планы, где каждый из «уровней» переменных реализуется один раз, а обобщение и статистический анализ взаимодействия различных факторов и их изолированного и совместного влияния на зависимую переменную проводится на групповом уровне.

Всякий факторный эксперимент -- это, в сущности, несколько экспериментов, объединенных в одном плане. Обобщенные данные факторного эксперимента позволяют ответить на два типа вопросов: 1) имеется ли эффект воздействия для каждой отдельно взятой независимой переменной; 2) зависит ли величина этого эффекта воздействия от величины значений других независимых переменных? Изолированный эффект воздействия одной независимой переменной называют главным эффектом, а изменение величины этого эффекта под влиянием другой независимой переменной называют взаимодействием.

В таблице 4.2 представлен план простейшего факторного эксперимента «два на два» («2 X 2»), в котором изучалось влияние новизны и типа изображения на интерес, проявляемый к этому изображению 4-месячными младенцами. В качестве индикатора интереса использовалась длительность разглядывания. Каждая из независимых переменных была представлена только двумя уровнями: для новизны -- новое или старое, предъявлявшееся в предыдущих сериях изображение; для типа изображения -- геометрический контур либо схематическое изображение человеческого лица (схематические рисунки использовались для уравнивания изображений по визуальной сложности, так как время фиксации взора обычно зависит от сложности и количества деталей). Как видно из приведенных в таблице 4.2 данных, налицо оба главных эффекта. Влияние новизны на интерес становится очевидным при сравнении средних по строкам -- средняя длительность разглядывания изображений (и геометрических, и «физиономий») заметно выше в случае предъявления новых рисунков (55 сек против 20). Сравнение по столбцам показывает, что при усреднении данных по двум группам (новые и старые рисунки) изображения человеческого лица вызывают значительно больший интерес, проявляющийся в более длительном разглядывании (45 сек). Налицо также взаимодействие между типом изображения и новизной. Результаты предъявления разных типов изображений различны для «старой» и «новой» группы. Различаются и значения разностей по столбцам для каждой строки (60 50 = 10 сравнительно с 30 10 = 20), и соответствующие показатели по строкам (60 30 = 30 сравнительно с 50 10 = 40). Иными словами, большая привлекательность человеческих лиц сильнее проявляется при предъявлении старых рисунков (различие в 10 сек при предъявлении новых картинок увеличивается до 20 для старых изображений), а различие между предъявлением старых и новых рисунков при использовании геометрических контуров возрастало до 40 сек.

При обработке результатов многофакторных экспериментов основной статистической моделью является многофакторный дисперсионный анализ.

Многофакторные эксперименты в социологии -- это очень часто полевые эксперименты, моделирующие сложные взаимосвязи реального мира. Преимущество полевых многофакторных экспериментов -- в их «жизнеподобии», т. е. внешней, лицевой валидности. Но здесь же кроется и главный недостаток таких экспериментов -- более низкие надежность и внутренняя валидность. Критики полевых многофакторных экспериментов часто отмечают, что приближение эксперимента к реальному миру здесь нередко достигается за счет замены экспериментального контроля чисто статистическим. В последнем случае возрастают угрозы валидности, связанные с неправильной спецификацией модели измерения, с «закоррелированностью» отдельных уровней независимых переменных с неконтролируемыми внешними переменными (см. гл. 5, 6). Кроме того, в многофакторных экспериментах острее, чем в индивидуальных и межгрупповых, стоит проблема агрегирования данных -- практически всегда существует вероятность того, что отношения, выявленные при анализе сводных групповых данных, в точности не соблюдаются ни для одного отдельно взятого испытуемого (так же, как среднее некоторой выборки может не относиться ни к одному конкретному выборочному наблюдению), К неоспоримым достоинствам факторных экспериментов следует отнести значительно большие возможности статистического анализа, в том числе анализа различных эффектов взаимодействия переменных-«факторов».

В социальных науках часто употребляют также понятие квазиэксперимента, или квазиэкспериментального исследовательского плана. Речь идет о панельных, трендовых и т. п. планах выборочных обследований . Выборочные обследования, особенно продолжающиеся или проводимые как сравнительные «срезовые» исследования для подвыборок, испытавших либо не испытавших определенное, локализованное во времени воздействие (например, социальную революцию, реформу образования или крах фондового рынка), действительно позволяют делать выводы о взаимоотношениях между интересующими исследователя независимыми и зависимыми переменными, а значит -- проверять гипотезы о предполагаемых причинно-следственных связях, однако экспериментальную рандомизацию и контроль в выборочных исследованиях здесь заменяет использование случайных выборок и специальных методов статистического анализа данных.

Библиографический список
1. Вознесенский В. А. Статистические методы планирования эксперимента в технико-экономических исследованиях. 2-е изд., перераб. и доп. М.: Финансы и статистика, 2008. Гл. 2, 3.
2. Гласc Дж., Стэнли Дж. Статистические методы в педагогике и психологии: Пер. с англ. / Общ. ред. Ю. П. Адлера. М.: Прогресс, 2009. Гл. 15--19.
3. Готтсданкер Р. Основы психологического эксперимента: Пер. с англ. М.: Изд-во МГУ, 2010.
4. Дружинин Н. К. Выборочное наблюдение и эксперимент. М.: Статистика, 2009.
5. Кэмпбелл Д. Модели экспериментов в социальной психологии и прикладных исследованиях: Пер. с англ. / Сост. и общ. ред. М. И. Бобневой. М.: Прогресс, 2010.
6. Ядов В. А. Социологическое исследование: методология, программа, методы. М.: Наука, 2008.
Размещено на Allbest.ru

Подобные документы

  • Методы проверки гипотез. Проверка теоретической гипотезы в условиях максимального контроля над уровнем воздействия независимой переменной и очищения от посторонних влияний, оказываемых внешними переменными. Полевой эксперимент в социальных науках.

    презентация [530,3 K], добавлен 06.04.2015

  • Содержание социального, экономического и финансового эффектов оценки социальных программ. Стратегическое планирование как процесс выбора целей и технологий решений социальных проблем. Показатели оценки эффективности и социальной результативности программ.

    реферат [21,6 K], добавлен 11.01.2011

  • Исследование понятия эксперимента, метода, обеспечивающего эмпирические данные для проверки гипотез о наличии причинной связи между явлениями. Анализ экспериментов по определению зависимости между физическими условиями работы и производительностью труда.

    курсовая работа [45,8 K], добавлен 01.10.2011

  • Функции и этапы проведения социологического эксперимента. Организационная работа по проведению социологического исследования. Основные позиции, которые должны отображаться в протоколе эксперимента. Основные недостатки экспериментального метода.

    реферат [24,9 K], добавлен 25.04.2011

  • Конфликт как объект конкретных эмпирических исследований. Достоинства наблюдений, суть применения теорий и методов социологии, экономики, психологии и политологии. Роль эксперимента, использование опросов и анкет. Применение Шкалы тактики, ее недостаток.

    реферат [21,5 K], добавлен 09.03.2010

  • Определение и виды эксперимента, его использование в науке. Особенности использования метода эксперимента в политических, социологических исследованиях. Применение метода эксперимента при проведении опросов о политических ориентациях жителей г. Астрахани.

    курсовая работа [49,2 K], добавлен 22.06.2015

  • Понятие, основные признаки, структура, классификация и типы социального эксперимента. Логика его построения и осуществления, программа и инструментарий. Методы отбора экспериментальных групп. Пример его проведения в области физической культуры и спорта.

    курсовая работа [86,0 K], добавлен 14.03.2015

  • Структура социологии: общесоциологическая теория, специальные социологические теории и исследования. Опрос, анализ документов, наблюдение и эксперимент как основные методы сбора социологических данных. Социологические методы, применяемые в маркетинге.

    реферат [38,0 K], добавлен 01.12.2010

  • Механизм воздействия психологических методов на человека. Технологии трансактного анализа как инструмент социальных изменений и его использование на практике. Нейролингвистическое программирование как психосоциологический метод социальных технологий.

    контрольная работа [91,4 K], добавлен 14.03.2016

  • Социальные проекты, принципы, приоритеты и классификация социальных программ. Предпроектный анализ, планирование, разработка, принятие и утверждение социального проекта, его выполнение и внесение корректив, подведение итогов выполнения проекта.

    реферат [25,3 K], добавлен 11.01.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.