Исследование сопоставимости результатов тестирования SAM в Новгородской области и Таджикистане

Анализ мирового опыта установления сопоставимости результатов кросс-культурных исследований. Определение ряда мер установления сопоставимости, подходящих для опросника SAM. Анализ результатов тестирования SAM в Новгородской области и Таджикистане.

Рубрика Социология и обществознание
Вид дипломная работа
Язык русский
Дата добавления 12.07.2016
Размер файла 890,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Оглавление

  • Введение
  • Глава 1. Методы установления эквивалентности в мировой практике кросс-культурных исследований
    • 1.1 Эквивалентность
      • 1.1.1 Конструктная эквивалентность
      • 1.1.2 Эквивалентность метода
      • 1.1.3 Эквивалентность заданий
    • 1.2 Стандарты в области кросс-культурных исследований
    • 1.3 Типы кросс-культурных исследований
    • 1.4 Инструмент SAM
    • Выводы
  • Глава 2. Исследование сопоставимости результатов тестирования SAM в Новгородской области и Таджикистане
    • 2.1 Подготовительный этап
      • 2.1.1 Выборка тестирования
      • 2.1.2 Шкалирование результатов тестирования
      • 2.1.3 Создание выборки Новгородской области
      • 2.1.4 Психометрический анализ данных
    • 2.2 Содержательный этап
      • 2.2.1 Установление Конструктной эквивалентности
      • 2.2.2 Психометрический анализ объединённых данных
      • 2.2.3 Эквивалентность заданий
      • 2.2.4 Построение единой шкалы
    • Выводы
  • Заключение
  • Список использованных источников
  • Приложения

Введение

Количество кросс-культурных исследований со временем увеличивается. Политиков и работников в сфере образования интересует вопрос, насколько хорошо дети в стране знают математику? Или в какой стране школьники больше всего читают? Для того, чтобы ответить на подобные вопросы, необходимы измерительные инструменты, которые позволили бы сопоставлять и ранжировать разные стран по какому-либо признаку. На сегодняшний день существует множество кросс-культурных исследований, особенно в области образовательных достижений (Hambleton, de Jon, 2003). Какой бы признак ни измеряли эти исследования, их суть одинакова - обеспечить возможность сравнения результатов разных стран. Однако, до сих пор не существует единого принятого ряда мер, соблюдение которых гарантировало бы правомерность сопоставления результатов разных стран. В кросс-культурных исследованиях можно выделить 2 типа: исследования, которые изначально создавались для применения в нескольких странах, исследования, которые создавались для применения в одной стране, но затем были адаптированы для использования в других странах. Что касается первого типа, то здесь существуют довольно полные указания и предписания по созданию единой шкалы для разных стран, поскольку в таких исследованиях есть возможность заложить специальные процедуры на этапе разработке инструмента. Доказательство сопоставимости результатов тестирования, которое не задумывалось как кросс-культурное описано в литературе гораздо хуже. Некоторые исследователи придерживаются точки зрения, что результаты разных стран по одним и тем же адаптированным опросникам достижений (а также интеллекта) не сравнимы в принципе (см. Greenfield, 1997).

В основном кросс-культурные исследования используют в качестве измерительного инструмента какие-либо стандартизированные методики. Поскольку результаты страны по итогам измерения планируется сообщать и сравнивать с результатами других стран, необходимо сделать измерение массовым, т.е. отражающим общую тенденцию страны. Когда измерительный инструмента (тест) создается в одной стране, а применяется в другой, в другом культурном контексте, необходимо доказать инвариантность психометрических характеристик теста (включая надёжность и валидность). При этом недостаточно будет просто показать, что тест имеет хорошие психометрические свойства в каждой отдельной стране, необходимо также доказать, что баллы, полученные за тест, значат одно и то же в разных странах (Vijver, Poortinga, 1997). Также для возможности сравнения результатов необходимо создать единую шкалу, на которую могут быть «положены» результаты различных стран (Poortinga, 1989). Когда тест проводится в одной стране (назовём её страной А), результаты (то есть информация о некоторой латентной переменной, которую стремится измерить исследователь) помещаются на определённую шкалу (назовём её шкалой А). Размерность этой шкалы зависит от множества факторов, включающих и модель, в рамках которой создавался тест. Представим себе, что этот же тест проведен в стране Б и полученные здесь результаты помещаются на шкалу Б. Сам факт сопоставления результатов этих двух стран означает, что шкалы А и Б равны, то есть одинаковы. Сюда хорошо подходит простой пример: предположим, исследователь хочет сравнить длину ладони в странах А и Б. Для этого измеряются ладони в стране А (в сантиметрах) и в стране Б (в дюймах). Очевидно, что исследуемый конструкт - длина ладони одинаковый в обоих странах, но он также должен выражаться в одних и тех же единицах в обеих странах. Поскольку сравнение длины ладони в дюймах с длиной ладони в сантиметрах даст некорректные результаты. Безусловно, данный пример несколько гипертрофирует ситуацию, в которой оказывается исследователь, поскольку разница единиц измерения здесь болезненно очевидна, а соотношение единиц известно и можно добиться сопоставимости результатов. Однако, эта очевидность пропадает, когда исследователь занимается измерением какого-либо латентного параметра (Poortinga, 1989). Поэтому исследователям, занимающимся кросс-культурными сравнениям в области социальных наук следует быть особенно внимательными в вопросе доказательства сравнимости результатов. Стоит оговориться, что в данной работе под кросс-культурным исследованием понимается исследование, результаты которого сравниваются в двух культурах, в которых тестирование было проведено на разных языках, поскольку язык является одним из определяющих свойств культуры (Ellis, 1989).

Целью данной работы является сопоставление результатов кросс-культурного исследования, которое изначально не разрабатывалось как кросс-культурное на данных SAM в Новгородской области и Таджикистане. Исследовательский вопрос, который мы ставим перед собой в данной работе: каким образом можно добиться сопоставимости результатов тестирования SAM и создать единую шкалу для Новгородской области и Таджикистана?

Для того чтобы достичь поставленной цели необходимо решить ряд задач:

1) Проанализировать мировой опыт установления сопоставимости результатов кросс-культурных исследований,

2) Выделить ряд мер установления сопоставимости, подходящих для опросника SAM,

3) Проанализировать результаты тестирования SAM в Новгородской области и Таджикистане с тем, чтобы установить возможность сопоставления.

4) Дополнить ряд мер, которые можно применять для установления сопоставимости результатов тестирований.

Объектом данного исследования являются результаты тестирования SAM, полученные в Таджикистане и Новгородской области. Предметом исследования является сопоставимость (эквивалентность) результатов SAM в указанных странах. Основная гипотеза исследования: в Новгородской области и Таджикистане невозможно достичь сопоставимости результатов.

Обратимся к более подробному рассмотрению комплекса мер, позволяющих говорит о сопоставимости результатов исследований, полученных в различных культурах. Ключевым здесь является понятие эквивалентности.

Глава 1. Методы установления эквивалентности в мировой практике кросс-культурных исследований

1.1 Эквивалентность

кросс культурный исследование опросник

Как указывалось ранее, одна из важнейших задач кросс-культурных исследований - обеспечение сопоставимости результатов, полученных в различных культурах и языках. Для исследователей это означает, что тесты на разных языках должны быть эквивалентны (AERA, APA & NCME, 1999). Понятие эквивалентности зеркально понятию ошибки (bias). Ошибка появляется, когда различия индикаторов измеряемого конструкта не связаны с разницей способностей (или другого целевого конструкта).

Приведем простой пример. Предположим, в опроснике спрашивается о том, какой город является столицей Польши. Целевым конструктом здесь является знание по географии о столице Польши. Однако, можно предположить, что при ответе на этот вопрос будет также играть роль и географическое местоположение опрашиваемого: так, жители Европы скорее всего будут отвечать на этот вопрос лучше, нежели жители Африки. Таким образом, процент людей, знающих, что столица Польши - Варшава в Европе и Африке будет различаться не только из-за знаний географии, но и из-за места жительства опрашиваемых (Vijver, Tanzer, 2004). Это и есть ошибка.

Исследователи выделяют три типа ошибки (Vijver, Hambleton, 1996):

· Ошибка конструкта (construct bias),

· Ошибка метода (method bias),

· Ошибка заданий (item bias).

Рассмотрим каждый из видов ошибок более подробно, а также определим статистические процедуры, используемые для выявления различных типов ошибок.

1.1.1 Конструктная эквивалентность

Конструктная эквивалентность достигается за счет доказательства отсутствия ошибки конструкта. Ошибка конструкта появляется тогда, когда измеряемый, целевой конструкт различается в разных странах (Vijver, Hambleton, 1996). Этот тип ошибок корениться в операционализации конструктов. Поэтому такая ошибка чаще всего появляется в исследованиях, которые изначально планировались как локальные, и заранее не предполагалось, что данный инструмент будет использоваться в различных культурах. Например, в одной из работ Хо было показано, что понятие «быть хорошей дочерью/сыном» в Китае гораздо шире, нежели в большинстве европейских стран, поэтому использование одного и того же измерительного инструмента в данном случае даст сдвинутые оценки, и, как следствие, приведет к невалидной интерпретации результатов. Этот тип исследований будет подробно рассмотрен в разделе «типы кросс-культурных исследований».

Для того чтобы избежать появления ошибок этого рода, можно применять различные процедуры. До того, как начать полевой этап можно использовать группу экспертов из различных культур, которые должны будут оценить, насколько схожим является операционализация конструкта в исследуемых культурах. По сути, этот процесс обратен операционализации. Используя задания теста, эксперты должны выстроить «карту конструкта».

Если же у исследователей нет возможности исследовать конструкт в различных культурах до тестирования, то такое исследование можно произвести и пост фактум. В литературе выделяется 4 статистических процедуры:

1. Эксплораторный факторный анализ (exploratory factor analysis),

2. Конфирматорный факторный анализ (confirmatory factor analysis),

3. Многомерное шкалирование (multidimensional scaling),

4. Сравнение номологических карт (comparison of nomological networks) (Vijver, Tanzer, 2004)

Первые три процедуры позволяют доказать эквивалентность структуры конструкта. Однако, эквивалентность структуры является необходимым, но не достаточным условием конструктной эквивалентности. Нужно также показать, что эта структура функционирует одинаково в разных культурах. Для того, чтобы доказать конструктную эквивалентность, необходимо также провести исследование связи между тестовыми баллами исследуемого инструмента в разных странах и какими-либо внешними переменными, о которых известна гипотетическая связь с исследуемым конструктом.

Стоит отметить, что на сегодняшний день опубликовано мало исследований, в которых приводится подробное описание исследования конструктной эквивалентности.

1.1.2 Эквивалентность метода

Как указывалось ранее, эквивалентность - понятие обратное ошибке, поэтому эквивалентность метода означает отсутствие ошибок метода. Ошибки метода представить себе очень легко. Это всё, что относится к администрированию (проведению) теста на выборке. Сюда входят различия в социальной желательности, знакомство со стимулом и форматом вариантов ответа, различия в коммуникации между интервьюерами и респондентами и т.д. Обычно, если появляется ошибка метода, то она влияет на все задания теста, вызывая суммарный «сдвиг» в оценках культурных групп.

Выделяют 3 типа ошибок, препятствующие достижению эквивалентности метода:

· Ошибка выборки (sample bias)

· Ошибка инструмента (instrument bias)

· Ошибка проведения (administration bias) (Vijver, Tanzer, 2004)

Под ошибкой выборки понимаются различные характеристики выборки, которые не связаны с измеряемым конструктом (например, различия в мотивации или социально-экономическом статусе). Ошибку выборки можно выявить с помощью ряда процедур, среди которых ковариационнный и регрессионный анализы, и randomized-block design.

Ошибка инструмента появляется в ситуации, когда различные выборки в различной степени знакомы с форматом проводимого тестирования. Ошибка проведения включает в себя ситуации, в которых нарушается процедура проведения тестирования (например, в одной из групп администраторы неправильно поняли инструкции, имели место проблемы с оборудованием и т.п.). Для того чтобы оценить наличие ошибки инструмента и проведения существует как минимум 3 процедуры:

· Исследование одного конструкта разными методами (monotrait-multimethod study)

· Использование дополнительных конструктов, связанных с исследуемым (collateral information)

· Исследование изменений (Vijver, Tanzer, 2004).

Monotrait-multumethod studies подразумевают, что один и тот же целевой конструкт измеряется разными методами и затем оценивается согласованность полученных оценок. Основным недостатком такой процедуры можно считать большую затратность (по сути, требуется найти такой измерительный инструмент, о котором есть надежные психометрические данные, и который также будет измерять тот же самый конструкт) и невозможность проведения постфактум. Collateral information используется схожим образом, и при этом не требует наличия измерительных инструментов для того же конструкта; требуется наличие измерительного инструмента для любого конструкта, с которым целевой конструкт связан определённым образом. Третья процедура предлагает повторный опрос испытуемых тем же методом. При невысокой надёжности проведённых замеров можно говорить о наличии ошибки инструмента или проведения (Vijver, Tanzer, 2004).

Стоит отметить, что все процедуры для выявления ошибки инструмента и проведения являются очень затратными и требуют специальной подготовки, которая должна быть реализована до сбора данных.

1.1.3 Эквивалентность заданий

Большинство исследований под эквивалентностью заданий понимают одинаковое функционирование заданий в разных культурных группах. Другими словами - отсутствие DIF (differential Item Functioning) (Ellis, 1989). DIF появляется в ситуации, когда испытуемые из одной группы имеют более высокую вероятность правильно ответить на задание, чем испытуемые из другой группы с тем же уровнем способностей (Zumbo, 2007, Ellis 1989). В нашем случае это определение можно конкретизировать: DIF появляется в ситуации, когда испытуемые, принадлежащие к одной культуре имеют более высокую вероятность ответить на задание правильно, по сравнению с испытуемыми из другой культуры, при том, что у этих испытуемых одинаковых уровень подготовленности (или одинаковый уровень выраженности признака, если речь идёт о не когнитивных опросниках).

В настоящее время разработано множество методов выявления DIF. Одна из наиболее распространённых классификаций делит методы на параметрические, непараметрические и многомерные (Zumbo, 2007). Под параметрическими методами в данном случае понимаются методы, использующие логику и параметризацию IRT (включая Rasch) (Wang, Su, 2004; McNamara, Roever, 2006; Karami, 2012; Magis, Beland, Tuerlinckx, De Boeck, 2010). Несмотря на то, что DIF-анализ проводится уже более 50 лет, нет единого мнения о том, какой метод является наиболее эффективным, поскольку различные методы выявления DIF реагируют на различные параметры, такие, как: длина теста, количество заданий, демонстрирующих DIF, величина DIF, и размер выборки, и соотношение размеров групп, в отношении которых проверяется DIF (Rogers, Swaminathan, 1993). В данной работе мы будем использовать 4 наиболее популярных метода выявления DIF, которые относятся к группе непараметрических:

1) Mantel-Haenszel,

2) Standardization,

3) Logistic Regression,

4) t-statistic.

Рассмотрим кратко каждый из методов с указанием их специфики.

Mantel-Haenszel

Данный метод, по сути, основывается на трехмерных таблицах сопряженности. Все испытуемые делятся на группы в зависимости от общего балла за тест, затем по правильности ответа на исследуемое задание, и, наконец, по принадлежности к референтной группе (Millsap, Everson, 1993). Тестируется гипотеза Но: DIF=0, оценка вероятности справедливости Но гипотезы происходит на основе статистики хи-квадрат с одной степенью свободы (Uttaro, Millsap, 1994).

Для оценки величины DIF применяется ещё показатель , который измерен на метрической шкале Educational Testing Service's delta scale. Значение 0 на этой метрической шкале указывает на отсутствие DIF. Отрицательное значение указывает на то, что данное задание хуже решается испытуемыми из фокальной группы. Положительное значение говорит о том, что для испытуемых из референтной группы вероятность ответить правильно на данное задание меньше, чем для фокальной группы (Chiu; Millsap, Everson,1993).

Если показатель , то считается, что размер DIF достаточно мал и им можно пренебречь.

Если показатель то DIF считается среднего размера.

Если показатель то величина DIF считается большой (difR package manual)

По приведённым формулам видно, что данный метод достаточно прост в вычислении, что обуславливает его распространённость. Это свойство является важным достоинством данного метода, также как и то, что Мантель-Ханцель показывает надежные результаты на относительно небольших выборках (около 200 испытуемых) (Clauser, Mazor, 1998; Scheuneman, Bleistein, 1989).

Standardization

Dorans & Kulick (1986) разработали простой математический метод, позволяющий судить о наличии DIF по вероятности правильного ответа на задание двух подгрупп испытуемых. Вся логика данного метода исходит из того, что можно утверждать, что DIF отсутствует тогда, когда вероятность правильно ответить на задание для одной из подгрупп испытуемых равна вероятности правильно ответить на то же задания для другой подгруппы испытуемых (при контроле уровня подготовленности в обеих группах) (Dorans, Kulick 1986; Karami, 2012). На основе разницы вероятностей строится индекс квадратный корень из взвешенной разницы (Root Mean Weighted Squared Difference - RMWSD) (более подробно см. Dorans, Kulick, 1986, стр 359; Dorans, Schmitt, 1988). RMWSD - колеблется в интервале от -1 до 1, где отрицательное значение говорит о том, что испытуемые в референтной группе имеют преимущество перед испытуемыми из фокальной группы. Положительное значение, соответственно, является признаком того, что у испытуемых из фокальной группы вероятность правильно ответить на исследуемое задание выше. Если , то принято считать, что задание не демонстрирует DIF (Millsap, Everson 1993). В случае, когда индекс колеблется в пределах , задание следует дополнительно проверить, во всех остальных случая принято считать, что задание демонстрирует DIF. Стоит отметить, что у данного метода выявления DIF есть недостатки, наиболее важный из них - у данного метода отсутствует статистический критерий значимости, в отличие от статистики Мантель-Ханцель (Karami, 2012; Clauser & Mazor 1998).

Logistic Regression

Данный метод появился вследствие публикаций исследований, доказывающих неэффективность статистики Мантель-Ханцель при выявлении неоднородного DIF. Авторы данного метода (Swaminathan and Rogers, 1990) ставили перед собой цель создания такого инструментария, который был бы также же эффективен, как Мантель-Ханцель при выявлении однородного DIF, обладал мощностью для выявления неоднородного DIF и при этом не использовал параметры IRT (Gуmez-Benito, Hidalgo, Padilla, 2009). Общая идея проста: строится уравнение логистической регрессии, куда принадлежность к референтной или фокальной группе включается как предиктор (также в качестве предикторов выступают трудность задания и дискриминативность).

Тестируется несколько гипотез, которые позволяют сделать вывод о наличии и направлении DIF (какая из групп получает необоснованное преимущество), а также определить какой DIF присутствует: однородный или неоднородный (используется распределение хи-квадрат с двумя степенями свободы). Поскольку понятие однородности DIF приводится в данной работе впервые, приведем определение. Если испытуемым одной из групп труднее отвечать правильно на задание (то есть различается только параметр трудности), то такой DIF называют однородным (uniform) (Clauser, Mazor, 1998; Zumbo, 2007). Неоднородный DIF (nonuniform), возникает в ситуации, когда между группами наблюдаются различия по параметру дискриминативности (и, возможно, трудности) - рис.2 (Clauser, Mazor, 1998; Zumbo, 2007; Magis, De Boeck, 2012, стр. 300).

t-statistic

Последний метод выявления DIF рассчитывался нами вручную, поэтому описание расчётов содержится во второй главе данной работы.

Если тест разрабатывался в рамках парадигмы Rasch моделирования (или IRT моделирования, в данном случае различия между этими подходами не неважны) то исследования item bias начинается с построения с построения ICC (Item Characteristic Curve) отдельно для каждого задания и для каждой страны. ICC в общем виде представляет собой график зависимости между способностями (подготовленностью ) и вероятность правильного ответа на задание (или вероятности выбрать ту или иную категорию, если используются шкалы типа Ликерта). ICC монотонно возрастает и имеет S-образную форму.

Затем, ICC сравниваются между странами. Если кривые совпадают, то можно говорить о том, что задание в странах функционирует одинаково, если кривые различаются - присутствует DIF.

Однако, напрямую сравнивать характеристические кривые по странам нельзя. Для того, чтобы можно было сравнивать ICC нужно сначала положить оценённые способности и характеристики заданий в разных выборках на одну шкалу. Лорд и Стокинг (1983) пишут, результаты одного и того же теста, проведённого на разных выборках будут различны (оценённые параметры будут различаться), поскольку метрическая шкала параметров создается отдельно для каждой выборки, т.е. параметры калибруются на основе данных по выборке. Поэтому прежде, чем сравнивать результаты требуется создать единую шкалу, на которую бы помещались параметры, полученные на разных выборках. Другими словами, параметры двух тестов могут считаться инвариантными, когда они основываются на одной шкале способностей испытуемых (Ellis, 1989).

Для теста, проведённого на двух выборках, будут различаться параметры заданий (если модель однопараметрическая - то трудность, если двухпараметрическая - то трудность и дискриминативность), но вероятность правильного ответа на задание останется прежней. По сути, параметры заданий теста, полученные на разных выборках, будут иметь линейную зависимость, поскольку различаются только «центры» шкалы (т.е. относительный 0 шкалы) (Stocking, Lord, 1983). В общем, процедура приведения к одному основанию заключается в поиске двух констант (назовём их А и В) линейной функции, которая отражает перевод параметра задания, полученного на первой выборке, к параметру задания, общему для двух выборок. То же самое должно быть проделано и для оценки подготовленности испытуемых. Казалось бы, это можно сделать просто: поместить два параметра задания, полученных на разных выборках на плоскость, провести между ними линию и вычислить А и В. И так действительно можно было бы сделать, если бы параметры, между которыми проводится регрессионная прямая были бы истинными, то есть оценёнными без ошибки. Однако, это не так, и в руках исследователя оказываются оценки параметров, включающие ошибку измерения.

Лорд и Стокинг (1983) разработали две процедуры поиска А и В, позволяющих нивелировать недостатки процедур, предложенных ранее (см. стр. 203). Это процедуры «robust mean» и «sigma method» (Stocking, Lord, 1983). Подробный план применения этих методов с описанием их основных преимуществ изложен в статье Лорда и Стокинга (1983), поэтому здесь мы не будем подробно останавливаться на этом.

После проведения процедуры уравнивания параметров, построение характеристических кривых заданий в одном пространстве становится правомерным. Анализ функционирования характеристических кривых обычно применяется исследователями в комплексе с расчетом других показателей DIF (как параметрических. Так и не параметрических), поскольку ICC наглядно показывают, совпадают или различаются кривые, но при этом не дают информации о том, в пользу какой из выборок функционирует задание , а также не дают информации о статистической значимости различий выборок.

1.2 Стандарты в области кросс-культурных исследований

В 90-ых годах XX века были разработаны стандарты психологического и образовательного тестирования. Примерно в одно и то же время появились два различных стандарта по созданию, проведению, валидизации и адаптации теста.

В 1999 году American Educational Research Association, American Phychological Association, National Council on Measurement in Education (AERA, APA & NCME, 1999) совместно создали Стандарты тестирования в области образования и психологии (Standards for Educational and Psychological Testing). Данные стандарты содержат рекомендации не только по адаптации тестов на другие языки, но и по разработке теста в целом. Остановимся более подробно на главе, посвящённой тестированию индивидов в различной лингвистической среде (AERA, APA & NCME, 1999, стр. 91). В данных стандартах указывается, что для того, чтобы перевести тест на другой язык, недостаточно выполнить перевод заданий. Нужно также показать эквивалентность в содержании и трудности заданий, а также в надёжности и валидности тестовых форм на разных языках (AERA, APA & NCME, 1999, стр. 92). Интересно, что двойной слепой перевод НЕ советуют применять при переводе теста на другой язык. Более подходящим считается итерационный подход, при котором эксперты-билингвы стараются не наиболее точно перевести слово, а подобрать наиболее эквивалентное слово: по смыслу, частоте употребления (распространённости в языке), числу слогов и т.д. Также предлагается выбирать наиболее подходящие типы вопросов, варианты ответов, и время заполнения теста для языка, на который осуществляется перевод (AERA, APA & NCME, 1999, стр. 92).

Стандарт 9.4 описывает необходимость для разработчиков теста показывать необходимость внесённых лингвистических изменений. Внесенные в перевод изменения должны учитываться при интерпретации тестового балла.

Стандарт 9.5 рекомендует разработчикам теста давать специальные рекомендации при интерпретации тестовых баллов, если было выявлено, что версии на разных языках неэквивалентны.

Стандарт 9.2 предписывает проводить специальное психометрическое исследование на выборках каждого языка отдельно, если было выявлено, что версии на разных языках неэквивалентны.

Стандарт 9.7 указывает на необходимость публиковать все данные об установлении эквивалентности между версиями теста на разных языках (AERA, APA & NCME, 1999, стр.98-99).

Стандарт 9.9 указывает на то, что если тесты на разных языках создаются с интенцией сравнения результатов между языковыми группами, то разработчики теста должны предоставить доказательство возможности сравнения данных тестов.

В 1992 году Internationl Test Commision (ITC) начала проект по разработке рекомендаций для перевода и адаптации тестов на другой язык. В разработке этих рекомендаций принимали участие 7 организаций. Впоследствии эти рекомендации были апробированы и одобрены ITC (ITC 2010, Hambleton, de Jon, 2003). Эти рекомендации можно разделить на 4 категории:

1. контекст,

2. рекомендации по переводу и адаптации,

3. администрирование

4. документация и интерпретация результатов.

Рассмотрим эти рекомендации более подробно.

1. Контекст:

C 1. Исследование специфических культурных эффектов, которые не связаны непосредственно с измеряемым конструктом (или не важны); их минимизация.

C 2. Оценка того, насколько «пересекаются» измеряемые конструкты в различных культурах (в которых будет применяться данный тест).

2. Перевод и адаптация опросника:

D 1. Создатели теста должны учитывать языковые и культурные особенности групп испытуемых, которые могут проявиться в заданиях теста.

D 2. Создатели теста должны продемонстрировать, что язык (терминология) должен быть приемлемым для всех культур, в которых планируется использовать данный тест.

D 3. Создатели теста должны продемонстрировать, что формат заданий, техники и процедуры, также правила тестирования знакомы всем культурным группам, которые будут тестироваться.

D 4. Создатели теста должны предоставить свидетельства того, что содержание заданий и другие стимулы известны различным культурным группам, в которых планируется проводить тестирование.

D 5. Создатели теста должны предоставить свидетельства эквивалентности теста в разных культурных группах.

D 6. Создатели теста должны быть уверенными, что техники сбора данных позволят в дальнейшем оценивать эквивалентность заданий в разных культурных группах.

D 7. Создатели теста должны применять подходящие статистические процедуры, которые позволяют установить эквивалентность заданий и выявить компоненты, которые различаются в различных культурных группах.

D 8. Создатели теста должны предоставлять данные о валидности методики во всех культурных группах, в которых планируется использовать этот тест.

D 9. Создатели теста должны предоставить статистические доказательства эквивалентности заданий во всех культурных группах, в которых планируется использовать тест.

D 10. Если были выявлены задания, которые не являются эквивалентными во всех популяциях, эти задания не должны использоваться для построения единой шкалы баллов для всех популяций, а также не должны быть использованы при сравнение популяций.

3. Администрирование:

A 1. Создатели теста и те, кто его проводят должны использовать все имеющиеся средства для того, чтобы избежать проблем при подготовке материалов и инструкций.

A 2. Группа специалистов, проводящих тестирование должны быть особенно внимательны к факторам, которые могут повлиять на восприятие стимульного материала, и процедуру проведения тестирования, и, таким образом, поставить под угрозу валидность получаемых данных.

A 3. Все средовые характеристики (характеристики места проведения тестирования) должны быть как можно более близкими между исследуемыми популяциями.

A 4. Инструкции экзаменаторам должны быть составлены таким образом, чтобы минимизировать влияние побочных факторов на ответы испытуемых.

A 5. Все аспекты процедуры тестирования, которые могут повлиять на результаты, должны быть чётко прописаны в мануале теста.

A 6. Взаимодействие тех, кто проводит тестирование и испытуемых должно быть минимизировано. Все возможные аспекты взаимодействий должны быть чётко прописаны в мануале.

4. Документация и интерпретация баллов:

I 1. При переводе теста для использования в другой культурной среде все изменения должны быть задокументированы, так же, как и доказательство эквивалентности полученных тестовых форм.

I 2. Разницу баллов, полученных в различных культурах нельзя интерпретировать как разницу в достижениях разных культурных групп. Обязанностью исследователей является проверка того, что разница баллов действительно отражает разницу в целевом конструкте.

I 3. Сравнение результатов тестирования в разных культурах может быть проведено, только при наличии эквивалентности тестов в этих культурах.

I 4. Создатели теста должны предоставить информацию о том, в какой мере культурные особенности популяций могут повлиять на результаты тестирования, а также провести исследование того, каким образом эти особенности могут быть учтены при интерпретации результатов (ITC 2010, Hambleton, de Jon, 2003).

Эти рекомендации довольно новые, в 2010 году были внесены последние поправки (в раздел о переводе и адаптации). В целом, эти рекомендации ITC охватывают три типа эквивалентности, которые были рассмотрены в данной работе. На наш взгляд, наиболее ценная информация состоит в том, что эквивалентность тестовых форм в различных культурах должна быть не только доказана, но и опубликована. Также эти рекомендации дают исследователям из различных стран «общее основание» для создания кросс-культурных исследований, способствуя, таким образом, интеграции знаний в области образовательных достижений и психологического тестирования.

Подводя итог анализу стандартов в области образовательного и психологического тестирования, необходимо отметить, что все стандарты и пояснения к ним написаны чётко, но оставляют возможности для интерпретации. Например, в комментариях к стандарту 9.9 написано, что такое доказательство должно включать в себя показатели надежности, валидности, а также сходства конструктов, но не должны ограничиваться этими показателями. Таким образом, процедура установления эквивалентности остается на усмотрение исследователей, что подтверждает актуальность поднимаемой в работе темы.

1.3 Типы кросс-культурных исследований

В зависимости контекста создания кросс-культурных опросников можно выделить две категории:

1. Методики, которые изначально создавались для того, чтобы применять в различных культурах (например, PIRLS).

2. Методики, которые изначально создавались для одной популяции, но после создания методики появилась необходимость применять её в другом культурном контексте (Hambleton, de Jon, 2003).

Для опросников, относящихся к первой категории основная цель состоит в том, чтобы сравнивать результаты в различных странах (культурных контекстах). Такие тесты имеют преимущество перед представителями второй группы: здесь все формы теста (на разных языках) создаются параллельно, есть возможность учитывать культурные особенности на этапе разработки инструментария. При создании кросс-культурного исследования у разработчиков есть все возможности сделать тест эквивалентным в целевых популяциях, при помощи guide lines разработанных ITC.

Для опросников, относящихся ко второй категории, справедливо утверждение, что они создавались для оценки какого-либо параметра в одной популяции и не предполагали изначально сравнения результатов за пределами этой популяции. Это является недостатком по сравнению с опросниками из первой категории, поскольку здесь уже есть известные психометрические свойства, которые впоследствии должны быть воспроизведены в другой популяции. Это накладывает отпечаток на то, какие процедуры могут быть использованы для адаптации таких опросников.

Поскольку такой тип создания кросс-культурных исследований наиболее популярен, обратимся к более подробному анализу того, какие из методов проверки эквивалентности могут быть проведены, и есть ли здесь какие-либо особенности.

Первый вопрос, который становится перед разработчиками - действительно ли тест требует адаптации (Geisinger, 1994)? Если какой-либо инструмент планируется переводить на другой язык, то, очевидно, что требуется перевод заданий и скорее всего адаптация, поскольку другой язык во многом подразумевает другой культурный контекст. Однако, если же опросник планируется адаптировать к применению в популяции, говорящей на том же языке (как, например, MMPI, который был разработан для детей, а затем адаптирован для диагностики взрослых), то над вопросом необходимости адаптации стоит задуматься.

Если популяции действительно сильно различаются между собой в терминах культуры и языка, то в первую очередь необходимо задуматься о конструктной эквивалентности. Поскольку эквивалентности метода и заданий могут устанавливаться одинаково в обоих типах исследований. До 90-ых годов XX века это вообще не считалось проблемой (Geisinger, 1994). Эквивалентность конструктов постулировалась исходя из того, что в новой популяции применяется старый тест, а старый тест уже подразумевает определённую структуру конструкта, которая будет воспроизведена в новой популяции. Таким образом, структура конструкта воспринималась как относящаяся к опроснику, а не к реальности, в которой он применяется. Однако, довольно быстро исследователи пришли к выводу, что структуры конструкта могут различаться в различных популяциях.

Создание общей для нескольких популяций карты конструкта уже не является доступной опцией, поэтому необходимо установить степень соответствия структуры конструкта в изначальной популяции и сравнить её со структурой конструкта в новых популяциях (Mylonas, Furnham, 2013). Для этого нужно построить карту измеряемого конструкта в новых популяциях и сравнить ее с картой конструкта в старой популяции. Это уже было описано в соответствующем разделе данной работы (эквивалентность конструкта), поэтому мы не будем подробно на этом останавливаться. Отметим только, что при определении конструктной эквивалентности важно использовать и работу с экспертами, и статистические процедуры в комплексе. Это также является частью требований ITC к адаптации исследований.

Также важным является вопрос о том, что делать с обнаруженной разницей в конструктах? По стандартам ITC для международного сравнения должны использоваться только общие для разных стран «части конструкта», а специфические концепты могут применяться только для национальных оценок. Ещё один подход предлагает не сравнивать различные страны, если их концепты не полностью совпадают (Mylonas, Furnham, 2013).

Представим себе пример, которые мы уже использовали в данной работе:

Рис.1. Пример разницы в содержании конструкта

Если у измеряемого конструкта бОльшая часть дисперсии не является общей для всех стран, то можно ли делать сравнение всех стран только по маленькой части конструкта, которая является общей? Насколько валидным будет сравнение, при котором некоторые части концепта (которые могут быть существенными, как в примере с Китайским восприятием того, кто считается хорошей дочерью/сыном) упускаются? В имеющейся на сегодняшний момент литературе ответа на этот вопрос нет. Однако, мы предполагаем, что данный вопрос может быть разрешен с помощью конфирматорного фактора анализа, который даст оценку объяснённой и необъяснённой дисперсии (чтобы более подробно об этом говорить, необходимо произвести хотя бы первичные расчёты).

Американский исследователь Гайсенджер разработал общий алгоритм по адаптации теста, если он был создан для оценки параметра только в одной популяции:

1. Перевод и адаптация инструмента. Это может быть перевод по заданиям, или по операционализации конструкта. Обычно первый тип перевода используется, когда популяции очень похожи и контекст, включенный в описание заданий является общим для обеих популяций. Если популяции сильно отличаются, то адаптация опросника происходит на уровне концепта. Например, если в оригинальном тесте есть вопрос о том, что испытуемый любит делать по вечерам, ходить в кино или на танцы, то для какой-нибудь развивающейся африканской страны этот типично «западный» вопрос не будет функционировать адекватно. Для такой ситуации подойдет перевод на уровне концепта. Перевод должен осуществляться группой экспертов билингвов, имеющих одинаково хорошие представления о двух культурах, затем должен использоваться обратный перевод. Некоторые исследования показатели, что когда эксперты знают о том, что будет произведен обратный перевод, они специально подбирают слова таким образом, чтобы обратный перевод был более всего похож на первоначальный вариант (Hambleton, 1993).

2. Оценка качества переведенных вариантов. Гайсенджер предлагает вместо обратного перевода использовать ещё одну группу экспертов-билингвов, которые просматривают перевод, сделанный первыми экспертами. Сначала вторые эксперты индивидуально просматривают все задания и пишут письменный отзыв по каждому заданию, затем работают группой и приходят к окончательному варианту формулировок заданий.

3. Пилотное тестирование инструмента. Проверка функционирования инструментария на небольшом числе испытуемых из генеральной совокупности (т.е. новой культурной группы). Здесь выявляется также качество разработанных инструкций, приемлемость времени, числа слов в заданиях. Характеристики, полученные на пилотном исследовании не должны отличаться значимо от характеристик, полученных на первичной популяции. Если пилотажное исследование выявило какие-либо проблемы, они должны быть устранены. Успешным завершением пилотного тестирования завершается этап адаптации инструментария.

1.4 Инструмент SAM

SAM (Student Achievement Monitoring) является инструментом оценки учебно-предметных компетенций учащихся начальной школы (Нежнов, Карданова, 2011; Nezhnov, 2011).Он разработан на основе теории культурного развития Л.С.Выготского, по которой предполагается, что «существует три качественных уровня овладения культурным способом действия», которые можно назвать формальным, рефлексивным и функциональным (Нежнов, Карданова, Эльконин, 2011).

На первом уровне - формальном, ученики решают задачи, ориентируясь на образец, повторяют его внешние характеристики. Они могут применять полученные знания только в типовых ситуациях, по сути, применяя пройденный алгоритм действия в стандартной ситуации. Здесь решение опирается на ассоциативные связи.

На втором уровне - рефлексивном, ученики действуют более осознанно, выделяют существенный признак и с его помощью решают задание. Поэтому при таком уровне освоения материала ученики могут решать весь класс заданий, который можно решить данным способом, вне зависимости от того, описывается ли задача в стандартной форме, или сформулирована нестандартно. «Ориентировка второго уровня опирается на умственную структуру, которая фиксирует существенное отношение объектной ситуации. В психологии такие структуры обозначаются термином «гештальт», а учителя в таких случаях говорят, что ребенок начал понимать предметный материал» (Нежнов, Карданова, 2011).

Третий уровень - функциональный, отражает свободное владение материалом. При таком уровне овладения материалом ученик понимает какой способ решения задачи является наиболее подходящим, отличает подходящие способы решения от неподходящих (Нежнов, Карданова, Эльконин, 2011).

В рамках методологии SAM разработаны тесты по математике и русскому языку. Тесты разработаны для учеников, заканчивающих начальную школу (4-ый класс). Тесты имеют блочную структуру: 1-ое задание каждого блока отражает первый уровень освоения материала, 2-ое задание - второй уровень, 3-е задание - третий уровень. Такое построение заданий имеет восходящую трудность, каждый блок заданий отражает определенную тему/раздел материала. Всего каждый вариант теста содержит 15 блоков и, таким образом, 45 заданий. Благодаря такой структуре, инструмент SAM измеряет успешность освоения различных разделов учебной программы, а также диагностирует уровень усвоения материала.

Данный инструмент разрабатывался в Rasch модели. Задания оцениваются дихотомически: 0 за неправильный ответ, 1 - за правильный. Таким образом, максимальный балл составляет 45.

Разработаны тесты SAM по математике и русскому языку. Эти тесты были переведены на таджикский, казахский и киргизский языки и апробированы. Российская версия SAM прошла международный аудит и имеет полное психометрическое сопровождение.

В данной работе будут анализироваться тесты по математике (вариант 1) на русском и таджикском языках. Таджикская версия была выбрана исходя из того, что результаты таджикских учеников очень сильно отличаются от русских и встаёт вопрос о том, возможно ли сравнивать результаты SAM в этих странах. Более подробно разница в результатах будет рассматриваться во 2-ой главе данной работы.

Выводы

Итак, в данной главе мы подробно рассмотрели вопрос о том, как добиться сопоставимости результатов кросс-культурного исследования между странами. Выделяется три типа эквивалентности, обеспечение которых дает исследователям основания считать тест одинаковым в различных культурах: это конструктная эквивалентность, эквивалентность метода и эквивалентность заданий. Также мы описали общемировые правила перевода и адаптации различных тестов.

Конструктная эквивалентность является наиболее сложной для определения, поскольку она включает в себя суждение о том, что ненаблюдаемые характеристики функционируют одинаковым образом в различных странах. Здесь выделяется ряд процедур, которые необходимо провести исследователям как до, так и после тестирования. Мы также отдельно рассмотрели вопрос о том, как показать конструктную эквивалентность в случае, когда исследование не создавалось изначально для межстранового сравнения. В таком случае исследователям остается применять статистические процедуры и рассматривать различные аспекты функционирования заданий, поскольку работа с экспертами часто оказывается недоступной. Стоит отметить, что методы доказательства эквивалентности метода и заданий разработаны куда лучше, чем методы установления конструктной эквивалентности; и в конечном итоге то, каким образом доказывать сопоставимость результатов исследований, остается на усмотрение разработчиков.

Также в первой главе данной работы мы рассмотрели инструмент SAM. Существенная разница в достижении учеников в России и Таджикистане подтолкнула нас к использованию этого инструмента для определения необходимых мер по установлению сопоставимости результатов.

Глава 2. Исследование сопоставимости результатов тестирования SAM в Новгородской области и Таджикистане

Введение. Инструмент SAM относится к типу кросс-культурных исследований, которые изначально разрабатывались для оценки способностей в России, но потом появилась необходимость перевести опросник на другие языки. Поскольку часть процедур адаптации не была заложена заранее, выполнение полного ряда мер, рассмотренных в 1-ой главе данной работы, не представляется возможным. Также, коррективу в процесс установления соответствия между российской и таджикской версиями опросника вносит и характер данных.

В области установления конструктной эквивалентности невозможно выполнение конфирматорного и эксплораторного факторных анализов (ЭФА и КФА). Это обусловлено тем, что в Таджикских данных слишком много пропусков (35%).

На рисунке 2 представлено распределение учеников из Таджикистана по правильным ответам (ось Х) и пропускам ответа (ось Y).

Рис. 2 Распределение таджикских детей по правильным ответам и пропускам ответа в заданиях

Как видно по рисунку, в Таджикистане отсутствуют ученики, которые дали бы больше, чем 27 правильных ответов, однако, есть дети, которые пропустили практически все задания. С учётом того, что задания оценивались дихотомически, вариации в данных недостаточно для проведения ЭФА и КФА.

Эквивалентности метода, которая предполагает эквивалентность выборки, инструмента и проведения, в случае с опросником SAM доказать невозможно, поскольку все известные процедуры установления методной эквивалентности должны быть заложены исследователем заранее.

Что касается эквивалентности заданий, то здесь есть возможность полной проверки данных SAM в двух странах на эквивалентность заданий.

Как указывалось ранее, целью данной работы является установление сопоставимости (эквивалентности) результатов тестирования в России и Таджикистане. Установление сопоставимости означает, что результаты SAM в этих странах можно сравнить, т.е. результаты могут быть положены на одну шкалу.

Вторая глава нашего исследования состоит из двух частей: предварительной и основной. Предварительная часть заключается в подготовке результатов исследования SAM, а именно:

· Создании выборки российских данных,

· Психометрическом анализе российских и таджикских данных в рамках КТТ и IRT,

· Шкалировании российских и таджикских данных по отдельности,

· Проверке российских и таджикских данных на согласие с моделью Rasch.

Основная часть второй главы посвящена установлению эквивалентности. Она включает в себя:

· Анализ «карт конструктов» в российской и таджикской версиях,

· Анализ перевода заданий на таджикский язык,

· DIF-анализ,

· Психометрический анализ объединённых российских и таджикских данных, включая согласие с моделью Rasch,

· Установление общих заданий для построения единой шкалы,

· Шкалирование результатов тестирования,

· Описательная статистика.

2.1 Подготовительный этап

2.1.1 Выборка тестирования

Анализ проводился на результатах тестирования SAM (математика, вариант 1) в Таджикистане и Новгородской области. Размер выборки в Таджикистане составил 408 ученика, в Новгородской области - 2216. В Таджикистане отбор респондентов осуществлялся методом кластерного отбора (заключительный отчет по локализации и адаптации SAM в Таджикистане). В Новгородской области была опрошена генеральная совокупность учеников 4-го класса.

База результатов тестирования SAM в Таджикистане создавалась на основе данных, представленных таджикской стороной. Готовая база, предоставленная сотрудниками CICED, не использовалась, поскольку в ней были выявлены ошибки кодирования (отсутствовало 4 испытуемых, все отказы от ответа кодировались не как пропущенные значения, а как неправильный ответ, что дает искажения при оценке испытуемых).

2.1.2 Шкалирование результатов тестирования

Таджикистан

После создания базы было проведено шкалирование результатов, чтобы проверить распределение учеников по уровням освоения материала. Для этого необходимо рассчитать пороговые значения перехода с одного уровня на другой, которые являются баллами на 1000-балльной шкале. Для того чтобы произвести необходимые расчеты требуются данные о средней подготовленности испытуемых и дисперсии подготовленности, а также средней трудности заданий по уровням освоения материала. Сначала все оценки переводятся в стандартизированные (z-шкала), затем рассчитываются пороги на 1000-балльной шкале. Используется следующая формула для перевода в z-шкалу:

, где формула 1

- средняя трудность заданий по уровню,

- средняя подготовленность испытуемых по выборке,

- стандартное отклонение подготовленности.

Средний уровень подготовленности испытуемых составил -2,06 логита, стандартное отклонение 1,06 (исключены 8 человек, которые не ответили ни на один вопрос).

Таблица 1. Трудность заданий по уровням освоения материала

Средняя трудность

уровень 1

-1,78

уровень 2

0,55

уровень 3

2,19

ZI = (-1,78-(-2,06)/1,06= 0,26

ZII = (0,55-(-2,06)/1,06= 2,46

ZIII = (2,19-(-2,06)/1,06= 4

Для расчёта порогов используется следующая формула:

B=X+50*Z, формула 2

где X - средний балл по выборке на 1000-балльной шкале.

Х рассчитывается по формуле:

Х=500-50*ZII формула 3

Х=500-50*2,46

Х=377

В=377+50*z формула 4

В1=377+50*0,26=377+13=390

В2=377+50*2,46=500

В3=377+50*4=577

Для того, чтобы достичь 1-го уровня освоения материала требуется набрать как минимум 390 баллов, для того, чтобы перейти на второй уровень требуется набрать 500 баллов и для того, чтобы перейти на третий уровень освоения материала требуется набрать 577 или больше баллов.

После расчётов пороговых значений было проанализировано распределение подготовленности испытуемых по уровням освоения материала.


Подобные документы

  • Теоретическое обоснование проблемы интерпретации результатов социологических исследований. Определение и виды социологических исследований, процедура анализа их результатов. Практическое применение интерпретации данных социологических исследований.

    курсовая работа [52,3 K], добавлен 10.01.2011

  • Теоретико-методологические основы тестирования учебной деятельности при изучении преобладающих способностей человека. История развития тестирования. Обоснование программы и методов исследования социального типа личности учителей. Анализ результатов.

    курсовая работа [55,9 K], добавлен 10.01.2011

  • Теоретические основы формирования и реализации социальной политики бюджетных организаций. Исследование особенностей социальной политики в специализированных коррекционных школах-интернатах. Анализ результатов тестирования и анкетирования их воспитанников.

    дипломная работа [377,8 K], добавлен 12.10.2010

  • Анализ результатов теоретико-эмпирических исследований в области коммуникационных знаков и их связи с перформативностью. Рассмотрение классификации коммуникационных знаков по степени их перформативности, предложенной Ю. Хабермасом и И. Гофманом.

    реферат [48,0 K], добавлен 03.04.2018

  • Основные виды социологических исследований: теоретические (разведывательные, описательные, аналитические) и эмпирические (международные, общенациональные, региональные, локальные, отраслевые). Обработка результатов и анализ эмпирических данных социологии.

    контрольная работа [32,3 K], добавлен 02.08.2011

  • Сущность, значение и методика социологического исследования. Развитие эмпирических исследований, обогащающих теорию и позволяющих разрабатывать механизмы регулирования социальных процессов. Обработка и анализ результатов социологического исследования.

    курсовая работа [30,3 K], добавлен 18.12.2009

  • Понятие и типы социологических исследований, этапы их проведения, подготовительные и основные. Методы эмпирических социологических исследований, анализ и оценка, интерпретация полученных результатов, существующие проблемы и их решение, управление.

    контрольная работа [22,8 K], добавлен 14.06.2015

  • Предмет и динамика исследований ценностных ориентаций молодежи в социологии. Содержательный анализ понятия "ценностные ориентации", анализ результатов и выводы по социологическому исследованию. Успешность самореализации молодежи во всех сферах жизни.

    дипломная работа [83,2 K], добавлен 10.11.2011

  • Теоретические аспекты социологического исследования: сущность, виды, методика. Составление программы изучения социального явления или процесса; обработка результатов, выводы. Анализ исследования качества жизни населения Вологодской области, перспективы.

    курсовая работа [36,6 K], добавлен 26.09.2011

  • Исследование правовых и социально-психологических аспектов усыновления, становление международного опыта в данной сфере. Анализ, представление и интерпретация результатов эмпирического исследования по развитию рынка усыновления в России, его перспективы.

    дипломная работа [1,4 M], добавлен 17.04.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.