Экспериментальная психология
Классификация и характеристика эмпирических методов психологического исследования. Процесс и организация эксперимента, способы контроля переменных, валидность, тестовые нормы. Социально-психологические аспекты взаимодействия испытуемого и исследователя.
Рубрика | Психология |
Вид | учебное пособие |
Язык | русский |
Дата добавления | 03.11.2011 |
Размер файла | 2,1 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
При субъективном шкалировании испытуемый выполняет функции измерительного прибора, а экспериментатор мало интересуется особенностями «измеряемых» испытуемым объектов и исследует сам «измерительный прибор».
Парадигма субъективного шкалирования перешла в другие области психологии из психофизики, где классификация задач испытуемого в эксперименте очень хорошо разработана. Этого нельзя сказать об остальных областях психологии.
Но по укоренившейся традиции методики и модели субъективного шкалирования рассматриваются в одном разделе с техниками и моделями измерения поведения. Традиция эта связана с тем, что и при «шкалировании объектов», и при «шкалировании индивидов» в процессе обработки и интерпретации данных используется сходный математический аппарат.
Процедуре одномерного и многомерного субъективного шкалирования посвящена обширная научная и учебная литература (см. Библиографию).
Остановимся на моделях совместного шкалирования объектов и испытуемых. Модели делятся на два вида детерминистические и вероятностные. Суть этих моделей в том, что и объекты, и индивиды, которые высказывают суждения об объектах, «отображаются» на одну шкалу на основании обработки данных поведенческого измерения либо субъективного шкалирования.
Основными детерминистическими моделями являются метод развертывания К. Кумбса [Coombs С.Н., 1964] и шкалограммный анализ Л. Гутмана [Guttman L., 1944]. К вероятностным моделям относится латентно-структурный анализ IRT(item response theory) (см. разд. 6.5). Здесь же мы кратко остановимся на детерминистических моделях.
Метод развертывания Кумбса исходит из предположения, что объекты и индивиды могут быть размещены на шкале одномерного признака. Индивид может предпочитать один объект другому. Существует «идеальная точка» индивида -- субъективный эталон. Индивид предпочитает тот стимул, который «ближе» к субъективному эталону.
Процедура измерения состоит в следующем. Испытуемому предъявляются пары стимулов, которые он сравнивает. Формируется матрица частоты предпочтений стимулов размером т х п (т -- стимулы, п -- индивиды). В клеточках матрицы -- относительные частоты предпочтений.
Шкалограммный анализ Гутмана используется для построения опросников. Наиболее часто он применяется при дихотомической оценке ответа испытуемого («да» -- «нет», «решил» --«не решил»).
Предполагается следующее: принятие индивидом пункта (решение задачи, ответ «да» и т.д.) означает то, что его шкальное значение не меньше величины пункта. Если индивид решает данную задачу, то он решает любую другую (более легкую) задачу. Принятие индивидом пункта опросника или правильное решение задачи обозначается как «1», непринятие пункта или неверное решение -- «0».
В ходе обработки строки и столбцы исходной матрицы данных переставляются так, чтобы она соответствовала «совершенной» шкалограмме: матрица выше диагонали, т.е. верхняя правая часть матрицы, должна состоять из единиц, а нижняя левая -- включать только нули. Порядок индивидов по строкам должен соответствовать порядку заданий по столбцам по величине выраженности свойства.
Практически никогда идеальная шкалограмма не получается. Оценка одномерности признака предложена Гутманом и называется коэффициентом воспроизводимости.
R = 1 - e/nk,
где е -- число «ошибок» в откликах испытуемых, п -- количество испытуемых, k -- число заданий.
Существует также модификация модели Гутмана, описывающая процедуру с несколькими вариантами ответов.
6.3 Тестирование и теория измерений
Тестирование (в частности, психологическое) является разновидностью процедуры измерения свойств объекта. Свойство -- философская категория, выражающая такую сторону предмета, которая обусловливает его различия и общность с другими предметами и обнаруживается в его отношении к ним.
В логике под свойством понимается одноместный предикат вида Р(х): например, x-город -- в отличие от отношения, которое также является одноместным предикатом Свойство может быть многоместным предикатом, а отношение -- одноместным, например: «Петр любит самого себя». Свойство ограничивает область объектов, которым оно приписывается. В результате операции приписывания свойства объектов становится меньше, чем было до этого Отношение же всегда образует новые объекты, например, Р(х, у, z), где х -- мужчины, у -- женщины, z -- дети;
если Р-- генетическое отношение, то связанные этим отношением х, у и z дают новый объект -- человечество.
Отсюда ясно, что вводя понятие «свойство», мы выделяем класс психических сущностей, которые этим свойством обладают.
Свойства классифицируются по наличию интенсивности и ее изменениям. При этом различают три основных типа свойств:
а) точечные;
б) линейные;
в) многомерные.
Рассмотрим первый тип: точечные свойства. Человек может быть: либо мертвым, либо живым; или мужчиной, или женщиной; или холериком, или сангвиником.
Ни одна женщина не может быть чуть-чуть беременной. Существуют свойства, которые не имеют интенсивности и могут рассматриваться как точечные, или «свойства нулевого измерения». Такие свойства обладают определенностью, качественной, но не количественной.
Второй тип свойств образуют линейные свойства (одномерные свойства). Последний термин, с нашей точки зрения, более удачен. Другие линейные свойства, присущие предмету, всегда имеют определенную интенсивность, причем могут изменяться лишь в направлении уменьшения или увеличения этой интенсивности. Таковы масса, упругость, вязкость, мощность, температура, физическая сила человека, его рост и т.д. Отметим, что большинство психических свойств относится традиционно к этому типу. В частности, факторная теория интеллекта вводит понятия: «общий интеллект», «креативность», «дивергентное мышление», основываясь на том, что эти свойства являются одномерными (линейными).
Одномерные (линейные) свойства помимо качественной определенности обладают также количественной. Обычно вводится понятие интервала интенсивности, под которым понимается вся совокупность интенсивностей данного свойства (диапазон интенсивности). Физические свойства такого рода называются скалярами.
Примером двухмерных свойств являются векторные величины. Двухмерные свойства можно представить как комбинацию одномерных (разложение вектора на плоскости -- комбинация скалярных величин: величины угла и длины отрезка). Их обобщением являются многомерные свойства, которые можно определить как свойства, способные изменяться в n-отношениях: пространственные векторы в математике, тензоры в физике и т.д.
Между точечными, линейными и многомерными свойствами существует простое отношение сводимости: многомерное свойство может быть представлено как совокупность линейных свойств, а линейное -- как множество точечных свойств. Соответственно набор точечных свойств можно представить в качестве псевдолинейного свойства, а набор линейных -- как псевдомногомерное свойство.
Можно теоретически предусмотреть 4-й случай, когда свойство качественно не определено. Это парадоксально только на первый взгляд. Возможен вариант: есть некое число, но неясно, представляет ли оно какое-либо свойство.
Таким образом, можно ввести следующую типологию свойств:
1) свойство не определено;
2) точечное свойство;
3) линейное свойство;
4) многомерное свойство.
Рассмотрим на качественном уровне общую структуру психологического тестирования -- применение теста, призванного измерить определенное свойство.
Психологический тест включает в себя некоторую совокупность заданий, инструкции: испытуемому -- правило работы с тестом, экспериментатору -- правило организации работы испытуемого с тестом и правило работы с данными, а также теоретическое описание с указанием свойств, измеряемых тестом, шкал (топологии свойства) и метода введения шкальной оценки. Указываются также психометрические параметры теста.
С теоретической точки зрения, для измерения свойства и интерпретации тестового балла следует описать типичную структуру и процедуры тестирования с позиций взаимодействия испытуемого и экспериментатора.
Испытуемый, обладающий свойством (Рi), должен выполнить (F1) задания теста (), дать ряд ответов (). Экспериментатор должен этот ряд ответов () отобразить (F2) на «модели совокупности испытуемых», т.е. совокупности измеряемых свойств (), чтобы получить некоторый результат тестирования.
Тем самым существуют два типа процедур: собственно тестирование -- взаимодействие испытуемого с тестом, и интерпретация -- «взаимодействие» данных испытуемого с «моделью совокупности испытуемых». Получаем два отображения -- F: Р --> J и F: J --> Р. Идеальная обобщенная модель теста, возникающая из процедуры тестирования, тем самым должна включать в себя:
1) описание вида отображения F1 и F2 (они должны быть тождественными);
2) описание топологии свойства;
3) характеристику индикаторов (ответов испытуемого) и задач .
Индикаторы являются поведенческими признаками и так же, как свойства, могут быть: 1) не определены; 2) дискретны; 3) линейны; 4) многомерны. В обычном случае мы имеем дискретные индикаторы: отдельные поведенческие акты. Искусственным методом (суммируя индикаторы) мы образуем при интерпретации псевдолинейное свойство, получая «сырой» балл. Возникает проблема: в каких случаях можно это делать? Кроме того, существуют некоторые отношения на множествах испытуемых и индикаторов.
Если свойство не определено, то единственное отношение, которое можно установить на множестве испытуемых, -- это отношение сходства.
Если свойство является точечным, то на множестве испытуемых можно ввести отношения эквивалентности (обладает свойством), неэквивалентности (не обладает свойством) и применить дихотомическую классификацию.
Наконец, если свойство линейное или многомерное, то испытуемых можно шкалировать по их положению на линейном континууме или в пространстве.
Поступаем так и в отношении индикаторов. Они могут быть эквивалентны или не эквивалентны, определены или не определены, шкалированы или не шкалированы.
Следовательно, в зависимости от вида отношений, которые мы вводим на множестве испытуемых (определяется природой свойства) или индикаторов (определяется описанием поведения и заданий), получаем разные модели теста. Кроме того, необходимо учесть вид отображений -- F1 и F2 , которые представляют собой решающие правила соотнесения индикаторов со свойством. Они зависят от интерпретации процедуры тестирования. Ниже мы рассмотрим некоторые возможные модели.
Итак, возможны следующие модели теста, основанные на различной топологии измеряемого свойства.
1. Если свойство не определено, то необходимо рассматривать отношение различия на множестве людей. Это отношение порождает новый класс объектов. Отсюда -- тест выявляет меру сходства каждого человека с «человеком-эталоном».
2. Если свойство качественно определено, то оно рассматривается как точечное, что позволяет ограничить класс объектов -- выделить людей, обладающих свойством, и людей, им не обладающих.
Тест позволяет в этом случае произвести дихотомическую классификацию.
3. Если свойство линейное или многомерное, то можно выявить величину свойства, характеризующую каждого человека.
Тест позволяет измерить свойство количественно.
Существует множество конкретных тестовых методик, которые можно классифицировать по самым разным основаниям. В настоящее время психологический тест рассматривается как набор заданий, т.е. измерительный инструмент, обнаруживающий свойство. Общее название для заданий -- пункты теста. Испытуемому предлагаются варианты ответа по отношению к каждой задаче. Ответ регистрируется и считается индикатором (признаком), обнаруживающим свойство. Варианты ответа могут быть разными, но чаще используются такие: «да» -- «нет», «решил» -- «не решил» и др. Каждый индикатор, сочетание пунктов -- ответ, соотносится с ключом, который приписывает индикатор определенному свойству.
В основе подобной процедуры лежит модель, предложенная еще К. Левиным [Lewin К., 1936], -- поведение есть функция личности и ситуации: В= f (Р, S). Решается иная задача: восстановить свойство личности по поведению в ситуации: ситуацией является пункт теста, а поведением -- ответ испытуемого: Р = f (В, S). Таким образом, каждый индикатор свойства есть соединение поведения и ситуации: = В & S. Тем самым личность есть производное от совокупности индикаторов: P = f().
Многомерный тест измеряет не одно, а несколько свойств личности, поэтому в общем случае имеется матрица вида J х Р, где каждый индикатор соотносится со свойством.
Процедура обнаружения свойств, к которой сводится тестовое измерение, завершается выводом суммарного балла. Такое отношение между индикаторами и тестом называется кумулятивно-аддитивной моделью. «Сырой» балл считается оценкой, характеризующей испытуемого.
Наиболее часто эту оценку считают оценкой «интенсивности» свойства. Тем самым явно или неявно принимается гипотеза о том, что относительная частота обнаружения свойства прямо пропорциональна «интенсивности» свойства: у = k (т/ п) + С, где т/п -- отношение числа обнаруженных признаков к общему числу испытаний, у -- «интенсивность» свойства, а k и С -- некоторые константы. Очевидно, что неявным образом для измерения психологических особенностей индивидов применяется интервальная шкала.
Гипотезу о наличии подобной связи называют также гипотезой эквивалентности интенсивности и экстенсивности проявления свойства.
Кумулятивную гипотезу проверяют путем корреляции результатов применения различных методик. В частности, при измерении мотивации в качестве базовой методики используется предложенный Г. Мюрреем. Тест тематической апперцепции (ТАТ). Он состоит из нескольких картинок с изображением людей в определенных ситуациях. Испытуемому предлагается составить рассказ по поводу каждой ситуации. Его высказывания анализируются. По известным ключевым признакам выявляется связь высказываний с определенной мотивацией. Число высказываний, относящихся к тому или иному мотиву, характеризует величину его интенсивности. Кумулятивная гипотеза является в этом случае переводом на математический язык известной поговорки: «У кого что болит, тот о том и говорит». Считается, что количество «речевых продуктов» пропорционально силе мотива. Число признаков психологического свойства при этом не фиксировано, а может быть только соотнесено со средним значением по выборке. Опросники, разработанные для диагностики мотивации, сопоставляются с методикой ТАТ. При наличии высокого положительного коэффициента линейной корреляции результатов кумулятивно-аддитивная модель принимается и для обработки данных личного опросника.
Критическую оценку применения кумулятивно-аддитивной модели дал Р. Мейли [Мейли Р., 1975]. Он полагал, что и методика типа ТАТ, и опросники (особенно -- на самооценку) измеряют только вероятность наличия у испытуемого того или иного психологического свойства, а не его интенсивность.
Критика, с которой выступает Мейли, носит только качественный характер и не имеет математического или эмпирического обоснования.
Процедура суммирования баллов сама по себе не плоха и не хороша: важно выявить природу итоговой оценки. Суммарный балл может характеризовать близость испытуемого к некоторому типу, а с помощью оценки определяется его место на шкале порядка или интервалов. Вид интерпретации тестового балла зависит от принятой разработчиком модели.
Традиционные обобщенные измерительные модели теста являются математическими, описывающими взаимодействие измерительного инструмента (теста) и объекта измерения (человека). Основная особенность этих моделей: они применялись для обоснования метода обработки данных тестирования в целях выявления латентного свойства.
В отношении психологического свойства можно сделать следующие теоретические предположения. Первое, наиболее простое, заключается в том, что нам неизвестно, есть свойство или нет. Утверждение кажется парадоксальным, однако дело в том, что психическое свойство -- некоторое теоретическое допущение, и если у нас нет достаточных оснований пользоваться этим понятием для объяснения поведения, лучше к нему не прибегать. Второй вариант допущения состоит в том, что свойство есть, но нам неизвестна его топология: неясно, является ли это свойство точечным, линейным, многомерным и т.д. Третье возможное утверждение: нам известна топология свойства. Свойство -- одномерный континуум (непрерывный) и может быть измерено некоторой порядковой или метрической шкалой (шкала наименований не является шкалой в строгом смысле этого слова).
По отношению к взаимодействию испытуемого и теста возможны два допущения:
1) появление признака строго детерминировано и соответственно детерминирован тип ответа;
2) взаимодействие испытуемого и задания определяет вероятность получения того или иного ответа.
Чаще применяется вероятностная модель (рис. 6.4).
Множество свойств имеет определенную структуру. Традиционно полагается, что тестируемые свойства должны быть линейно независимы, хотя в общем случае это условие необязательно.
Каждое свойство имеет определенную топологию: она может быть не определена, а свойство -- точечно, линейно, многомерно.
1. Тест измеряет свойства некоторых объектов, принадлежащих определенному множеству -совокупности потенциальных испытуемых. В руководстве к тесту оговариваются характеристики множества испытуемых, для которых он предназначен. Тем самым определено некоторое множество с отношениями между его элементами. Эти отношения связаны с топологией свойства. Если топология свойства не определена, то на множестве испытуемых можно вводить только отношения сходства, не соответствующего правилу транзитивности отношений. Если свойство является точечным, то, согласно его определению, оно позволяет отделить испытуемых, обладающих свойством, от испытуемых, им не обладающих. То есть на множестве испытуемых можно ввести отношения эквивалентности--неэквивалентности, свидетельствующие о степени обладания свойством. Наконец, если свойство линейное, то испытуемых можно расположить на линейном континууме и ввести метрику.
2. Тест включает в себя множество заданий () и вариантов ответов испытуемого (), которые оговорены в предлагаемой ему инструкции (решил -- не решил, да -- нет, хорошо -- средне -- плохо и т. д.). Декартово произведение x = дает нам множество индикаторов (признаков) измеряемого свойства. Индикаторы могут быть относительно свойства разнородны, однородны (т. е. на них могут быть введены отношения эквивалентности), шкалированы (область разной «силы»).
Отношения на множестве индикаторов независимы от отношений на множестве испытуемых, т. е. от топологии свойства. Это правило соответствует принципу объективности метода измерения: свойства прибора (в нашем случае -- тестовых заданий) не зависят от свойств объекта.
3. Между множествами испытуемых (), индикаторов () и свойств ( существуют определенные отношения, которые можно разбить на отношения измерения и интерпретации. Измерение -- это творческий подход испытуемого (испытуемых) к работе с тестом, «порождение» ответов на задания (признаков).
Интерпретация заключается в том, что на основе этих признаков экспериментатор при работе с «ключом» теста выявляет свойства испытуемого и относит его к определенной категории (подмножеству множества испытуемых).
Отношения измерения:
1. Отображение множества свойств на множество испытуемых вида F1: дает представление об отношении измеряемых свойств к испытуемым. Например: испытуемые могут обладать или не обладать той или иной интенсивностью свойства и т.д.
Каждое свойство характеризуется вектором вида <>, где Oij -- величина, показывающая на принадлежность свойства Рi испытуемому Oi.
Обычно Pij характеризует распределение испытуемых, на которых апробировали тест, по отношению к пространству свойств.
2. Отображение F2: определяет процесс измерения. Каждое свойство характеризуется вектором <>, где -- величина, определяющая, в какой мере свойство Рj детерминирует индикатор Jk. Если описание теста сопровождается данными факторного или латентно-структурного анализа, то эта величина отражает «нагрузку» фактора на пункт теста.
3. Отображение F3: позволяет оценить результат измерения и определить, какие признаки проявил испытуемый при выполнении теста. Каждый испытуемый характеризуется вектором <>, где -- величина, показывающая, в какой мере испытуемый О1, проявил признак Jk. Обычно признаки проявляются дихотомически: решил -- не решил, да -- нет; иногда привлекаются непрерывные величины:
время решения задания, шкальная оценка и т.д.
Этот вектор характеризует ответы испытуемого на тест и подвергается процедуре интерпретации.
Отношения интерпретации:
1. Отображение множества на множество вида F3: дает представление о первичной структуре данных. Каждый индикатор характеризуется вектором <>. При тестировании способностей этот вектор позволяет определить, какие испытуемые решили те или иные задачи.
2. Отображение множества на множество вида F2: указывает на процесс интерпретации тестового балла, точнее -- вектора обнаруженных признаков. Каждый индикатор характеризуется вектором <>, где Рij -- величина, определяющая «вес» индикатора по отношению к свойству. В инструкции к тесту «вес» индикатора используется для подсчета накопленного балла. Он соответствует «нагрузке» фактора на пункт теста. По отображению F2 можно говорить о процедуре подсчета «сырого» балла.
3. Отображение множества на множества вида P1: характеризует интерпретацию -- приписывание свойства или определенного уровня его интенсивности конкретному испытуемому (группе испытуемых). Каждый испытуемый характеризуется вектором <>, где Pij -- величина, определяющая, в какой мере свойство Рi, выражено у испытуемого Оi. Эта величина является итогом процесса интерпретации -- «психологическим портретом» испытуемого. С позиции обобщенной модели основное требование к тесту заключается в том, чтобы процедуры интерпретации и измерения были тождественными. Иными словами, тождественными должны быть обратные отображения F1 и F1' , F2 и F2', F3 и F3'. В противном случае результаты интерпретации будут расходиться с результатами измерения (тестирования).
Описания множеств и видов отображения F1' ,F2' и F3' определяются в ходе разработки теста и включаются в теоретическое описание теста и в инструкцию экспериментатора.
Поскольку тест направлен на измерение психического свойства (в частности, способности), то вид конкретной модели, описывающей тест, определяется топологией свойства.
Рассмотрим варианты нормативной обобщенной модели теста для одномерного случая, когда измеряется только одно свойство.
1. Свойство не определено
Если топология свойства не определена, то это означает, что множество испытуемых нельзя (в соответствии с определением понятия «свойство») разбить на подмножества, обладающие или не обладающие свойством. Иначе: на множестве испытуемых нельзя ввести отношения эквивалентности--неэквивалентности. Однако на множестве испытуемых можно ввести отношения толерантности (сходства). Это отношение рефлексивно, симметрично, но не транзитивно. Множество индикаторов нельзя характеризовать по отнесенности к свойству, так как -- множество свойств, качественно не определенных. Следовательно, каждый испытуемый характеризуется лишь структурой своих ответов.
Единственно возможный способ интерпретации таких результатов -- выделение из множества испытуемых «эталонного испытуемого» (например, решившего все задачи теста). После этого производится подсчет коэффициентов сходства всех испытуемых с «эталоном».
Назовем этот вариант модели «моделью сходств». В психологических исследованиях она применяется редко. Очевидно, свою роль играет стремление исследователей максимально повысить мощность интерпретации данных.
2. Свойство качественно определено
Топология свойства определена: оно является точечным. На множества испытуемых можно ввести отношение эквивалентности--неэквивалентности (рефлексивное, симметричное, транзитивное), указывающее на наличие или отсутствие у них свойства. Следовательно, отображение F1: является отображением множества на точку. Вектор значений Рij характеризует индивидуальную меру выраженности свойства (в вероятностной интерпретации -- вероятность его наличия) у испытуемого. Соответственно определены все отображения F1' ,F2' и F3' (и обратные им). Если испытуемые обладают / не обладают свойством, то их можно разбить на основании результата тестирования на классы, имеющие и не имеющие свойства. При интерпретации данных используется следующий алгоритм: фиксируются индикаторы, проявленные испытуемым, подсчитывается индивидуальный показатель наличия или отсутствия у него свойства и принимается решение о его принадлежности к одному из дихотомических классов -- А и А (обладающих и не обладающих свойством).
Назовем эту модель моделью дихотомической классификации. Она использована в опросниках Личко, опросниках УНП и ряде других.
3. Свойство качественно и количественно определено. Свойство является линейным континуумом, следователь, на нем определена метрика. Отображение F1': указывает на меру принадлежности испытуемых к той или иной градации свойства (точке линейного континуума).
В этом случае для подсчета величины, характеризующей принадлежность испытуемого к определенной интенсивности свойства, применяют кумулятивно-аддитивную модель: число признаков, проявленных при выполнении заданий теста (с учетом «весов»), прямо пропорционально интенсивности свойства, которым обладает испытуемый. Эта модель есть отображение F2': . Тем самым применяется следующая интерпретация: фиксируются ответы испытуемого; вычисляется «сырой» балл; испытуемый обладает определенной интенсивностью свойства на основе отображения «сырого» балла на шкалу, характеризующую свойство. Эта модель -- модель латентного континуума -- является наиболее распространенной при тестировании психических свойств.
Индикаторы свойства также могут быть однородными и разнородными. В последнем случае они шкалируются или не шкалируются. Если индикаторы однородны, то они выявляют свойство или уровень его интенсивности с равной вероятностью. Если индикаторы разнородны, то они выявляют свойство или уровень его интенсивности с разной вероятностью. На множестве индикаторов может быть введена некоторая мера -- «сила» признака: чем сильнее признак, тем с большей вероятностью он выявляет свойство или определенный уровень его интенсивности. В этом случае для описания теста мы получаем так называемую модель Раша.
6.4 Классическая эмпирико-статистическая теория теста
Классическая теория теста лежит в основе современной дифференциальной психометрики.
Описание оснований этой теории содержится во многих учебниках, пособиях, практических руководствах, научных монографиях. Количество изданных учебников, излагающих эмпирико-статистическую теорию теста, особенно выросло за последние 5-7 лет. Вместе с тем в учебнике, посвященном методам психологического исследования, нельзя хотя бы вкратце не упомянуть основные положения теории психологического тестирования.
Конструирование тестов для изменения психологических свойств и состояний основано на шкале интервалов. Измеряемое психическое свойство считается линейным и одномерным. Предполагается также, что распределение совокупности людей, обладающих данным свойством, описывается кривой нормального распределения.
В основе тестирования лежит классическая теория погрешности измерений; она полностью заимствована из физики. Считается, что тест -- такой же измерительный прибор, как вольтметр, термометр или барометр, и результаты, которые он показывает, зависят от величины свойства у испытуемого, а также от самой процедуры измерения («качества» прибора, действий экспериментатора, внешних помех и т.д.). Любое свойство личности имеет «истинный» показатель, а показания по тесту отклоняются от истинного на величину случайной погрешности. На показания теста влияет и «систематическая» погрешность, но она сводится к прибавлению (вычитанию) константы к «истинной» величине параметра, что для интервальной шкалы значения не имеет.
Если тест проводить много раз, то среднее будет характеристикой «истинной» величины параметра. Отсюда выводится понятие ретестовой надежности: чем теснее коррелируют результаты начального и повторного проведения теста, тем он надежнее. Стандартная погрешность измерения:
Предполагается, что существует множество заданий, которые могут репрезентировать измеряемое свойство Тест есть лишь выборка заданий из их генеральной совокупности. В идеале можно создать сколько угодно эквивалентных форм теста. Отсюда -- определение надежности теста методами параллельных форм и расщепление его на эквивалентные равные части.
Задания теста должны измерять «истинное» значение свойства. Все задания одинаково скоррелированы друг с другом. Корреляция задания с истинным показателем:
Поскольку в реальном монометрическом тесте число заданий ограничено (не более 100), то оценка надежности теста всегда приблизительна.
Так, определяемая надежность теста связана с однородностью, которая выражается в корреляциях между заданиями. Надежность возрастает с увеличением одномерности теста и числа его заданий, причем довольно быстро. Стандартная надежность 0,02 соответствует тесту длиной в 10 заданий, а при 30 заданиях она равна 0,007.
Оценка стандартной надежности:
Для оценок надежности используется ряд показателей. Наиболее известна формула Кронбаха:
Для определения надежности методом расщепления используется формула Спирмена--Брауна.
В принципе классическая теория теста касается лишь проблемы надежности. Вся она базируется на том, что результаты выполнения разных заданий можно суммировать с учетом весовых коэффициентов.
Так получается «сырой» балл
Y=axi+c,
где xi -- результат выполнения i-го задания, а -- весовой коэффициент ответа, с -- произвольная константа.
По поводу того, откуда возникают «ответы», в классической теории не говорится ни слова.
Несмотря на то, что проблеме валидности в классической теории теста уделяется много внимания, теоретически она никак не решается. Приоритет отдан надежности, что и выражено в правиле: валидность теста не может быть больше его надежности.
Валидность означает пригодность теста измерять то свойство, для измерения которого он предназначен. Следовательно, чем больше на результат выполнения теста или отдельного задания влияет измеряемое свойство и чем меньше -- другие переменные (в том числе внешние), тем тест валидней и, добавим, надежнее, поскольку влияние помех на деятельность испытуемого, измеряемую валидным тестом, минимально.
Но это противоречит классической теории теста, которая основана не на дея-тельностном подходе к измерению психических свойств, а на бихевиористской парадигме: стимул--ответ. Если же рассматривать тестирование как активное порождение испытуемым ответов на задания, то надежность теста будет функцией, производной от валидности.
Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свойство.
Тест невалиден (и ненадежен), если результаты тестирования определяются влиянием нерелевантных переменных.
Каким же образом определяется валидность? Все многочисленные способы доказательства валидности теста называются разными ее видами.
1. Очевидная валидность. Тест считается валидным, если у испытуемого складывается впечатление, что он измеряет то, что должен измерять.
2. Конкретная валидность, или конвергентная--дивергентная валидность. Тест должен хорошо коррелировать с тестами, измеряющими конкретное свойство либо близкое ему по содержанию, и иметь низкие корреляции с тестами, измеряющими заведомо иные свойства.
3. Прогностическая валидность. Тест должен коррелировать с отдаленными по времени внешними критериями: измерение интеллекта в детстве должно предсказывать будущие профессиональные успехи.
4. Содержательная валидность. Применяется для тестов достижений: тест должен охватывать всю область изучаемого поведения.
5. Конструктная валидность. Предполагает:
а) полное описание измеряемой переменной;
б) выдвижение системы гипотез о связях ее с другими переменными;
в) эмпирическое подтверждение (неопровержение) этих гипотез.
С теоретической точки зрения, единственным способом установления «внутренней» валидности теста и отдельных заданий является метод факторного анализа (и аналогичные), позволяющий:
а) выявлять латентные свойства и вычислять значение «факторных нагрузок» -- коэффициенты детерминации свойств тех или иных поведенческих признаков;
б) определять меру влияния каждого латентного свойства на результаты тестирования.
К сожалению, в классической теории теста не выявлены причинные связи факторных нагрузок и надежности теста.
Дискриминативность задания является еще одним параметром, внутренне присущим тесту. Тест должен хорошо «различать» испытуемых с разными уровнями выраженности свойства. Считается, что больше 9-10 градаций использовать не стоит.
Тестовые нормы, полученные в ходе стандартизации, представляют собой систему шкал с характеристиками распределения тестового балла для различных выборок. Они не являются «внутренним» свойством теста, а лишь облегчают его практическое применение.
6.5 Стохастическая теория тестов (IRT)
Наиболее общая теория конструирования тестов, опирающаяся на теорию измерения, -- Item Response Theory (IRT). Она основывается на теории латентно-структурного анализа (ЛСА), созданной П. Лазарсфельдом и его последователями.
Латентно-структурный анализ создан для измерения латентных (в том числе психических) свойств личности. Он является одним из вариантов многомерного анализа данных, к которым принадлежат факторный анализ в его различных модификациях, многомерное шкалирование, кластерный анализ и др.
Теория измерения латентных черт предполагает, что:
1. Существует одномерный континуум свойства -- латентной переменной (х); на этом континууме происходит вероятностное распределение индивидов с определенной плотностью f(х).
2. Существует вероятностная зависимость ответа испытуемого на задачу (пункт теста) от уровня его психического свойства, которая называется характеристикой кривой пункта. Если ответ имеет две градации («да -- нет», «верно -- неверно»), то эта функция есть вероятность ответа, зависящая от места, занимаемого индивидом на континууме (х).
3. Ответы испытуемого не зависят друг от друга, а связаны только через латентную черту. Вероятность того, что, выполняя тест, испытуемый даст определенную последовательность ответов, равна произведению вероятностей ответов на отдельные задания.
Конкретные модели ЛСА, применяемые для анализа эмпирических данных, основаны на дополнительных допущениях о плотности распределения индивидов на латентном континууме или о форме функциональной связи уровня выраженности свойства у испытуемого и ответа на пункт теста.
В модели латентного класса функция плотности распределения индивидов является точечно-дискретной: все индивиды относятся к разным непересекающимся классам. Измерение производится при помощи номинальной шкалы.
В модели латентной дистанции постулируется, что вероятность ответа индивида на пункт текста является мультипликативной функцией от параметров задачи и величины свойства:
Вероятность ответа на пункт теста описывается функцией, изображенной на графике (рис. 6.5).
Модель нормальной огивы есть обобщение модели латентной дистанции. В ней вероятность ответа на задание такова:
В логистической модели вероятность ответа на задание описывается следующей зависимостью:
Логистическая модель используется наиболее широко, так как она специально предназначена для тестов, где свойство измеряется суммированием баллов, полученных за выполнение каждого задания с учетом их весов.
Логистическая функция и функция нормального распределения тесно связаны:
Развитием ЛСА являются различные модификации Item Response Theory. В IRT распределения переменных на оси латентного свойства непрерывны, т.е. модель латентного класса не используется.
База для IRT-- это модель латентной дистанции. Предполагается, что и индивидов, и задания можно расположить на одной оси «способность -- трудность» или «интенсивность свойства -- сила пункта». Каждому испытуемому ставится в соответствие только одно значение латентного параметра («способности»).
В общем виде вероятность ответа зависит от множества свойств испытуемого, но в моделях IRT рассматривается лишь одномерный случай.
Главное отличие IRT от классической теории теста в том, что в ней не ставятся и не решаются фундаментальные проблемы эмпирической валидности и надежности теста: задача априорно соотносится лишь с одним свойством, т.е. тест заранее считается валидным. Вся процедура сводится к получению оценок параметров трудности задания и к измерению «способностей» испытуемых (образованию «характеристических кривых»).
В классической теории теста индивидуальный балл (уровень свойства) считается некоторым постоянным значением. В IRT латентный параметр трактуется как непрерывная переменная.
Первичной моделью в IRT стала модель латентной дистанции, предложенная Г. Рашем: [Rasch G., 1980]: разность уровня способности и трудности теста xi - i, где хi -- положение i-ro испытуемого на шкале, а j -- положение j-го задания на той же шкале. Расстояние (xi - i) характеризует отставание способности испытуемого от уровня сложности задания. Если разница велика и отрицательна, то задание не может быть выполнено, так как для данного испытуемого оно слишком сложно. Если же разница велика и положительна, то задание также не информативно, ибо испытуемый заведомо легко и правильно его решит.
Вероятность правильного решения задания (или ответа «да») i-м испытуемым:
Вероятность выполнения j-го задания группой испытуемых:
В IRT функции х и f() называются функциями выбора пункта. Соответственно первая является характеристической функцией испытуемого, а вторая -- характеристической функцией задания.
Считается, что латентные переменные х и нормально распределены, поэтому для характеристически функций выбирают либо логистическую функцию, либо интегральную функцию нормированного нормального распределения (как мы уже отметили выше, они мало отличаются друг от друга).
Поскольку логистическую функцию проще аналитически задавать, ее используют чаще, чем функцию нормального распределения.
Кроме «свойства» и «силы пункта» (она же -- трудность задания) в аналитическую модель IRT могут включаться и другие переменные. Все варианты IRT классифицируются по числу используемых в них переменных.
Наиболее известны однопараметрическая модель Г. Раша, двухпараметрическая модель А. Бирнбаума и его же трехпараметрическая модель.
В однопараметрической модели Раша предполагается, что ответ испытуемого обусловлен только индивидуальной величиной измеряемого свойства (i) и «силой» тестового задания (j). Следовательно, для верного ответа («да»)
и для неверного ответа («нет»)
Наиболее распространена модель Раша с логистической функцией отклика.
Для тестового задания:
Для испытуемого:
Естественно, чем выше уровень свойства (способности), тем вероятнее получить правильный ответ («ключевой» ответ -- «да»). Следовательно, функция является монотонно возрастающей.
В точке перегиба характеристической кривой i-го задания теста «способность» равна «трудности задания», следовательно, «вероятность его решения» равна 0,5 (рис. 6.6).
Очевидно, что индивидуальная кривая испытуемого, характеризующая вероятность решить то или иное задание (дать ответ «да»), будет монотонно убывающей функцией(рис. 6.7).
В точке на шкале, где «трудность» равна «индивидуальной способности испытуемого», происходит перегиб функции. С ростом «способности» (развитием психологического свойства) кривая сдвигается вправо.
Главной задачей IRT является шкалирование пунктов теста и испытуемых.
Упростим исходную формулу модели, введя параметр
V = ei-i:
Шанс на успех i-го испытуемого при решении j-го задания определяется отношением:
Если сравнить шансы двух испытуемых решить одно и то же j-е задание, то это отношение будет следующим:
Следовательно, разница в успешности задания испытуемыми не зависит от сложности задания и определяется лишь уровнем способности.
Нетрудно заметить, что в модели Раша отношение трудности заданий не зависит от способности испытуемых. Для того чтобы убедиться в этом, достаточно проделать аналогичные простейшие преобразования, сравнивая вероятности ответов группы на два пункта теста, а не вероятности ответов разных испытуемых.
Следовательно,
Для сравнения шансов на успех i-го испытуемого решить задания k и п берем отношение:
Тем самым отношение шансов испытуемого решить два разных задания определяется лишь трудностью этих заданий.
Обратим внимание, что шкала Раша (в теории) является шкалой отношений. Теперь у нас есть возможность ввести единицу измерения способности (в общем виде -- свойства). Если взять натуральный логарифм от en - k или еi - m, то получается единица измерения «логит» (термин ввел Г. Раш), которая позволяет измерить и «силу пункта» (трудность задания), и величину свойства (способность испытуемого) в одной шкале.
Эмпирически эта процедура производится следующим образом. Предполагается, что данные тестирования и значения латентных переменных характеризуются нормальным распределением. Уровень «способности» испытуемого в «логитах» определяется на шкале интервалов с помощью формулы:
где п -- число испытуемых, рi -- доля правильных ответов i-го испытуемого на задания теста, qi. -- доля неправильных ответов,
Для первичного определения трудности задания в логитах используют оценку
pj + qj = 1.
Хотя параметры и изменяются от «плюса» до «минуса», то при < -6 значения рi близки к единице, т. е. на эти задания практически каждый испытуемый дает правильный («ключевой») ответ. При < 6 с заданием не сможет справиться ни один испытуемый, точнее -- вероятность дать «ключевой» ответ ничтожна.
Рекомендуется рассматривать лишь интервалы от -3 до +3 как для (трудности), так и для (способность).
Второй этап шкалирования испытуемых и заданий сводится к тому, что шкалы преобразуются в единую шкалу путем «уничтожения» влияния трудности задания на результат индивидов. И к тому же элиминируется влияние индивидуальных способностей на решение заданий различной трудности.
Для шкалы испытуемых:
где
-- среднее значение логитов трудности заданий теста, W -- стандартное отклонение распределения начальных значений параметра , п -- число испытуемых.
Для шкалы заданий:
Где
-- среднее значение логитов уровней способностей, V-- стандартное отклонение распределения начальных значений «способности», п -- число заданий в тесте.
Эти эмпирические оценки используются в качестве окончательных характеристик измеряемого свойства и самого измерительного инструмента (заданий теста).
Если перед исследователем стоит задача конструирования теста, то он приступает к получению характеристических кривых заданий теста. Характеристические кривые могут накладываться одна на другую. В этом случае избыточные задания выбраковываются. На определенных участках оси («способность») характеристические кривые заданий могут вовсе отсутствовать. Тогда разработчик теста должен добавить задания недостающей трудности, чтобы равномерно заполнить ими весь интервал шкалы логитов от -6 до +6. Заданий средней трудности должно быть больше, чем на «краях» распределения, чтобы тест обладал необходимой дифференцирующей (различающей) силой.
Вся процедура эмпирической проверки теста повторяется несколько раз, пока разработчик не останется доволен результатом работы. Естественно, чем больше заданий, различающихся по уровню трудности, предложил разработчик для первичного варианта теста, тем меньше итераций он будет проводить.
Главным недостатком модели Раша теоретики считают пренебрежение «крутизной» характеристических кривых «крутизна» их полагается одинаковой.
Задания с более «крутыми» характеристическими кривыми позволяют лучше «различать» испытуемых (особенно в среднем диапазоне шкалы способностей), чем задания с более «пологими» кривыми.
Параметр, определяющий «крутизну» характеристических кривых заданий, называют дифференцирующей силой задания. Он используется в двухпараметрической модели Бирнбаума.
Модель Бирнбаума аналитически описывается формулой
Параметр j определяет «крутизну» кривой в точке ее перегиба; его значение прямо пропорционально тангенсу угла наклона касательной к характеристической кривой задания теста в точке (рис 6.8).
Интервал изменения параметра j от - до +. Если значения близки к 0 (для заданий разной трудности), то испытуемые, различающиеся по уровню выраженности свойства, равновероятно дают «ключевой» ответ на это задание теста. При выполнении такого задания у испытуемых не обнаруживается различий.
Парадоксальный вариант получаем при < 0. В этом случае более способные испытуемые отвечают правильно с меньшей вероятностью, а менее способные -- с большей вероятностью. Опытные психодиагносты знают, что такие случаи встречаются в практике тестирования очень часто.
Ф.М. Лорд и М. Новик в своей классической работе [Lord F.M., Novik M., 1968] приводят формулы оценки параметра . При j = 1 задание соответствует однопараметрической модели Раша. Практики рекомендуют использовать задания, характеризующие значение в интервале от 0,5 до 3.
Все психологические тесты можно разделить в зависимости от формального типа ответов испытуемого на «открытые» и «закрытые». В тестах с «открытым» ответом, к которым относятся тест WAIS Д. Векслера или методика дополнения предложений, испытуемый сам порождает ответ. Тесты с «закрытыми» заданиями содержат варианты ответов. Испытуемый может выбрать один или несколько вариантов из предлагаемого множества. В тестах способностей (тест Дж. Равена, GABT и др.) предусмотрено несколько вариантов неправильного решения и один правильный. Испытуемый может применить стратегию угадывания. Вероятность угадывания ответа:
где п -- число вариантов.
Результаты эмпирических исследований показали, что относительная частота решения «закрытых» заданий отклоняется от теоретически предсказанных вероятностей двухпараметрической модели Бирнбаума. Чем ниже уровень способностей испытуемого (низкие значения параметра ), тем чаще он прибегает к стратегии угадывания. Аналогично, чем труднее задание, тем больше вероятность того, что испытуемый будет пытаться угадать правильный ответ, а не решать задачу.
Бирнбаум предложил трехпараметрическую модель, которая позволила бы учесть влияние угадывания на результат выполнения теста.
Трехпараметрическая модель Бирнбаума выглядит так:
Соответственно оценка «силы» пункта (трудности задания) в логистической форме модели
Сj характеризует вероятность правильного ответа на задание j в том случае, если испытуемый угадывал ответ, а не решал задание, т.е. при --> 0. Для заданий с пятью вариантами ответов Сj становится более пологой, так как 0 < С < 1, но при всех С= 0 кривая поднимается над осью на величину Сj . Тем самым даже самый неспособный испытуемый не может показать нулевой результат. Дифференцирующая сила тестового задания при введении параметра Сj снижается. Из этого следует нетривиальный вывод: тесты с «закрытыми» заданиями (вынужденным выбором ответа) хуже дифференцируют испытуемых по уровням свойства, чем тесты с «открытыми» заданиями.
Модель Бирнбаума не объясняет парадоксального, но встречающегося в практике тестирования феномена: испытуемый может реже выбирать правильный ответ, чем неправильный. Таким образом, частота решения некоторых заданий может не соответствовать предсказаниями модели Рj < Сj, тогда как, согласно модели Бирнбаума, в пределе Рj = Сj.
Рассмотрим еще одну модель, которую предложил В. С. Аванесов. Как мы уже заметили, в IRT не решается проблема валидности: успешность решения задачи зависит в моделях IRT только от одного свойства. Иначе говоря, каждое задание теста считается априорно валидным.
Аванесов обратил внимание на это обстоятельство и ввел дополнительный, четвертый, параметр, который можно обозначить как внутреннюю валидность задания. Успешность решения задания определяется не только «основной» способностью (), но и множеством условий, нерелевантных заданию, однако влияющих на деятельность испытуемого.
Четырехпараметрическая модель представляет, по мнению ряда исследователей, лишь теоретический интерес:
где j -- валидность тестового задания.
Если j > 1, то тест не является абсолютно валидным. Следовательно, вероятность решения задания не только определяется теоретически выделенным свойством, но и зависит от других психических особенностей личности.
Бирнбаум считает, что количество информации, обеспеченное j-м заданием теста, при оценивании qj является величиной, обратно пропорциональной стандартной ошибке измерения данного значения qj j-м заданием. Более подробно вычисление информационной функции рассмотрено в работе М.Б. Челышковой [Челышкова М.Б., 1995].
Многие авторы, в частности Пол Клайн [Клайн П., 1994], отмечают, что IRT обладает множеством недостатков. Для того чтобы получить надежную и не зависимую от испытуемых шкалу свойств, требуется провести тестирование большой выборки (не менее 1000 испытуемых). Тестирование достижений показывает, что существуют значительные расхождения между предсказаниями модели и эмпирическими данными.
В 1978 г. Вуд [цит. по: Клайн П., 1994] доказал, что любые произвольные данные могут быть приведены в соответствие с моделью Раша. Кроме того, существует очень высокая корреляция шкал Раша с классическими тестовыми шкалами (около 0,90).
Шкалирование, по мнению Раша, способно привести к образованию бессмысленных шкал. Например, попытка применить его модель к опроснику EPQ Айзенка породила смесь шкал N, Е, Р и L.
Главный же недостаток IRT -- игнорирование проблемы валидности. В психологической практике не наблюдается случаев, когда ответы на задания теста были бы обусловлены лишь одним фактором. Даже при тестировании общего интеллекта модели IRT неприменимы.
Подобные документы
Валидность и использование мысленных образцов эксперимента. Конструктная валидность и концептуальные репликации. Валидность эксперимента и выводов. Содержательное планирование и выбор типа эксперимента. Валидность как цель экспериментального контроля.
реферат [42,7 K], добавлен 08.08.2010Научное знание и его критерии. Классификация методов психологического исследования. Подготовительный этап психологического исследования. Классификация видов психологического наблюдения. Эксперимент как активный метод психологического исследования.
шпаргалка [38,3 K], добавлен 15.01.2006Предмет, методология экспериментальной психологии. Экспериментальная психология и педагогическая практика. Неэкспериментальные методы в психологии. Организация психологического эксперимента, его место в деятельности педагога. Этика научного исследования.
шпаргалка [93,2 K], добавлен 19.11.2010Сущность, характеристика, структура, способы, психотехника и проблематика социально-психологического воздействия как одного из самых традиционных направлений социально-психологического знания. Исследования эмпирических разработок ученых-психологов.
контрольная работа [22,9 K], добавлен 27.12.2010Наблюдаемые действия и поведение человека. Метод и основные характеристики эксперимента в психологии. Оценка качества психологического эксперимента. Специфика организации экспериментального общения. Организация и проведение воспроизводящего исследования.
реферат [52,0 K], добавлен 22.11.2012Сущность и этапы реализации психологического исследования, его структура, основные компоненты. Классификация методов психологического исследования, их отличительные признаки и условия выполнения. Разновидности и особенности психологического эксперимента.
курсовая работа [39,0 K], добавлен 30.11.2009Понятие и общая логика психологического исследования, разработка концепции и его планирование. Определение переменных, признаков, параметров изучаемого явления, подбор методов и методик, определение объема выборки. Интерпретация и обобщение результатов.
контрольная работа [43,8 K], добавлен 07.02.2011Причины двойственного положения социальной психологии в системе научных знаний. Изучение психологических явлений, характеризующих индивида и общество как субъектов социального взаимодействия. Классификация методов социально-психологического исследования.
контрольная работа [36,7 K], добавлен 24.10.2011Эксперимент как деятельность испытуемого и планы его описания. Рассмотрение психики человека как системы. Личность испытуемого и ситуация психологического эксперимента. Добровольное участие в исследовании. Основные типы психодиагностических ситуаций.
реферат [23,1 K], добавлен 13.05.2009Понятие, виды, специфика психологического исследования. Анализ требований к его результатам. Постановка проблемы и выработка гипотезы. Взаимодействие исследователя и испытуемых. Статистические и интегральные методы обработки данных и их интерпретация.
курсовая работа [63,7 K], добавлен 11.01.2015