Исследование сопоставимости результатов тестирования SAM в Новгородской области и Таджикистане

Анализ мирового опыта установления сопоставимости результатов кросс-культурных исследований. Определение ряда мер установления сопоставимости, подходящих для опросника SAM. Анализ результатов тестирования SAM в Новгородской области и Таджикистане.

Рубрика Социология и обществознание
Вид дипломная работа
Язык русский
Дата добавления 12.07.2016
Размер файла 890,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Таблица 2. Распределение учеников по уровням освоения материала

уровень

частота

доля

0

243

0,6

1

163

0,4

2

2

0,0

3

0

0,0

Всего

408

1

Как видно по представленной таблице, в Таджикистане ни один ученик не достиг третьего уровня освоения материала. На втором уровне оказались всего 2 ученика. Большая часть детей находятся на нулевом уровне освоения материала, то есть не могут применить знания, которые им объясняли на уроках даже в типичной ситуации.

Новгородская область

Для шкалирования результатов тестирования в Новгородской области была применена та же процедура, что и для шкалирования результатов тестирования SAM в Таджикистане.

Средний уровень подготовленности испытуемых составил 0,75 логита, стандартное отклонение 1,24 (исключены 8 человек, которые не ответили ни на один вопрос). Средние трудности заданий по уровням представлены в таблице 3.

Таблица 3. Трудность заданий по уровням освоения материала

Средняя трудность

уровень 1

-1,89

уровень 2

0,13

уровень 3

1,77

ZI = (-1,89-0,75)/1,24= -2,13

ZII = (0,13-0,75)/1,24= - 0,5

ZIII = (1,77-0,75)/1,24= 0,82

B=X+50*ZII, формула 5

где X - средний балл по выборке на 1000-балльной шкале.

Х рассчитывается по формуле:

Х=500-50*ZII формула 6

Х=500-50*(-0,5)

Х=525

В=525+50*z формула 7

В1=525+50*(-2,13)=418,5

В2=525+50*(-0,5)=500

В3=525+50*0,82=566

Таблица 4. Распределение учеников по уровням освоения материала

уровень

частота

доля

0

46

0,02

1

624

0,28

2

1098

0,5

3

448

0,2

всего

2216

1

Как видно по таблице 4 распределение учеников по уровням в Новгородской области сильно отличается от распределения в Таджикистане. Меньше одной трети учеников к концу 4-го класса обладают первым уровнем усвоения материала. В Новгородской области большинство учеников находятся на втором уровне освоения материала. По теории Выготского предполагается, что половина учеников к концу начальной школы находятся на рефлексивном уровне освоения материала. Этот постулат подтверждается новгородскими данными. Третьего уровня достигли 20% опрошенных. На нулевом уровне находятся всего 2% учеников.

2.1.3 Создание выборки Новгородской области

Как указывалось в первой главе данной работы, для проведения DIF анализа соотношение размеров групп является критически важным. Поскольку большая разница между количеством испытуемых в группах может вызвать ложное срабатывание некоторых статистик, мы приняли решение сделать выборку из учеников Новгороской области с тем, чтобы количество испытуемых в Таджикистане и Новгородской области совпадало. Для создания выборки использовался квазислучайный отбор в пакете SPSS 20. Таким образом, была создана выборка, состоящая из 408 испытуемых, проходивших тестирование в Новгородской области. Даже при построении выборки методом случайного/квазислучайного отбора нет гарантии того, что выборка является несмещенной относительно генеральной совокупности. Проблема здесь заключается в том, что нет определённого параметра, по которому можно было бы оценить несмещённость. С учётом того, что тест разрабатывался в рамках Rasch моделирования, несмещённость оценивалась по параметрам распределения подготовленности испытуемых и трудностей заданий. Для этого были построены гистограммы распределения тестовых баллов на генеральной совокупности и выборке, а также были проанализированы трудности (IRT) и решаемости (КТТ) заданий, корреляции с тестовым баллом.

Генеральная совокупность: Выборка:

Рис. 3. Гистограммы распределения подготовленностей испытуемых по генеральной совокупности и выборке

Как видно по представленному рисунку, распределение подготовленностей выглядит сходим образом. Средние значения подготовленностей по выборке и подвыборке совпадают, стандартные отклонения различаются на 0,001.

Рис.4 Гистограммы распределения тестовых баллов по генеральной совокупности и выборке

По гистограмме тестовых баллов можно также говорить о том, что не наблюдается серьёзных различий по генеральной совокупности и выборке.

Таблица 5. Трудность и решаемость заданий в Новгородской области и Таджикистане

Генеральная совокупность

Выборка

t-статистика

трудность

ошибка

Корреляция

решаемость

трудность

ошибка

корреляция

решаемость

1

-2,3

0,08

0,24

0,92

-2,26

0,19

0,22

0,92

-0,19

2

0,03

0,05

0,5

0,64

0,07

0,12

0,51

0,64

-0,31

3

2,63

0,06

0,42

0,20

2,82

0,15

0,43

0,17

-1,18

4

-3,79

0,15

0,15

0,98

-3,65

0,33

0,16

0,98

-0,39

5

-0,56

0,06

0,41

0,74

-0,67

0,13

0,45

0,76

0,77

6

1,95

0,05

0,35

0,29

2,07

0,13

0,35

0,27

-0,86

7

-1,79

0,07

0,39

0,89

-1,83

0,17

0,41

0,89

0,22

8

-0,57

0,06

0,46

0,74

-0,54

0,13

0,47

0,74

-0,21

9

1,36

0,05

0,46

0,39

1,48

0,13

0,5

0,37

-0,86

10

-1,72

0,07

0,35

0,88

-1,41

0,15

0,4

0,85

-1,87

11

-0,17

0,05

0,51

0,68

-0,13

0,12

0,53

0,67

-0,31

12

0,99

0,05

0,46

0,46

1,17

0,12

0,47

0,43

-1,38

13

-0,71

0,06

0,46

0,76

-0,84

0,13

0,5

0,78

0,91

14

0,81

0,05

0,55

0,49

0,66

0,11

0,57

0,52

1,24

15

0,95

0,05

0,43

0,48

1

0,12

0,44

0,48

-0,38

16

-1,84

0,07

0,28

0,89

-1,77

0,17

0,29

0,88

-0,38

17

0,39

0,05

0,59

0,57

0,36

0,12

0,59

0,58

0,23

18

2,36

0,06

0,45

0,23

2,51

0,14

0,44

0,21

-0,98

19

-0,52

0,05

0,54

0,73

-0,81

0,13

0,52

0,77

2,08

20

0,67

0,05

0,54

0,52

0,66

0,12

0,51

0,52

0,08

21

1,34

0,05

0,43

0,40

1,2

0,12

0,41

0,42

1,08

22

-4,2

0,18

0,09

0,99

-4,19

0,42

0,01

0,99

-0,02

23

-0,29

0,05

0,4

0,70

-0,23

0,12

0,4

0,69

-0,46

24

2,67

0,06

0,41

0,19

2,66

0,15

0,37

0,19

0,06

25

-1,25

0,06

0,32

0,83

-1,18

0,14

0,35

0,82

-0,46

26

0,83

0,05

0,44

0,49

0,87

0,11

0,42

0,48

-0,33

27

2,51

0,06

0,29

0,20

2,71

0,14

0,28

0,18

-1,31

28

-1,19

0,06

0,32

0,82

-1,3

0,15

0,31

0,83

0,68

29

0,48

0,05

0,46

0,56

0,5

0,12

0,46

0,55

-0,15

30

1,52

0,05

0,48

0,36

1,55

0,13

0,56

0,36

-0,22

31

-1,19

0,06

0,44

0,82

-1,18

0,14

0,39

0,82

-0,07

32

-0,67

0,06

0,41

0,76

-0,63

0,14

0,39

0,75

-0,26

33

1,82

0,06

0,4

0,31

1,77

0,14

0,47

0,32

0,33

34

-2,78

0,1

0,27

0,95

-2,84

0,24

0,3

0,95

0,23

35

-0,21

0,05

0,46

0,68

-0,34

0,13

0,48

0,70

0,93

36

2,72

0,06

0,29

0,18

2,67

0,14

0,22

0,18

0,33

37

-1,77

0,07

0,34

0,88

-1,72

0,17

0,37

0,88

-0,27

38

0,04

0,05

0,38

0,64

-0,03

0,12

0,37

0,65

0,54

39

1,41

0,05

0,4

0,39

1,39

0,12

0,39

0,39

0,15

40

-1,36

0,07

0,37

0,84

-1,33

0,15

0,36

0,84

-0,18

41

0,21

0,05

0,49

0,61

0,09

0,12

0,46

0,63

0,92

42

0,82

0,05

0,57

0,50

0,83

0,13

0,56

0,50

-0,07

43

-1,96

0,08

0,39

0,90

-2,41

0,21

0,37

0,93

2,00

44

0,9

0,05

0,55

0,48

0,84

0,12

0,52

0,49

0,46

45

1,43

0,05

0,51

0,38

1,44

0,12

0,52

0,38

-0,08

Для оценки разницы показателей трудности (IRT) использовалась t-статистика. По таблице 5 видно, лишь для двух заданий t-статистика она достигает критического значения (задания 19 и 43). Разница решаемостей (КТТ) колеблется в пределах от 0 до 0,04 (по модулю). Корреляции с тестовым баллом, рассчитанные для каждого из заданий по выборке и подвыборке также показывают очень близкие значения, максимальная разница составила 0,08.

Из всего вышеизложенного можно заключить, что данная выборка, состоящая из 408 испытуемых, является адекватной репрезентацией генеральной совокупности из 2216 испытуемых. Весь дальнейших анализ будет выполняться с использованием выборки.

2.1.4 Психометрический анализ данных

Таблица 6. Согласие данных с моделью Rasch

задание

Таджикистан

Новгород

INFIT

OUTFIT

Корр.

INFIT

OUTFIT

Корр.

MNSQ

ZSTD

MNSQ

ZSTD

MNSQ

ZSTD

MNSQ

ZSTD

1

M-C-01-1-1

1,06

1,5

1,07

1

0,4

1,08

0,6

1,52

1,6

0,22

2

M-C-01-1-2

0,98

0

1,91

1,9

0,17

0,95

-0,9

0,9

-1,1

0,51

3

M-C-01-1-3

0,98

0

0,51

-1

0,24

0,95

-0,5

0,78

-1,1

0,43

4

M-C-03-1-1

1,01

0,1

1,19

1,3

0,4

1,04

0,2

1,11

0,4

0,16

5

M-C-03-1-2

1,01

0,2

0,96

-0,5

0,42

0,97

-0,4

1,04

0,3

0,45

6

M-C-03-1-3

0,98

0

0,81

-0,4

0,23

1,1

1,6

1,2

1,5

0,35

7

M-M-02-1-1

1,09

1,2

1,31

2,1

0,24

0,9

-0,9

0,77

-0,9

0,41

8

M-M-02-1-2

1,02

0,4

2,76

2

-0,02

0,96

-0,5

0,92

-0,6

0,47

9

M-M-02-1-3

0,9

0,1

0,11

-1,8

0,22

0,95

-0,9

0,99

-0,1

0,5

10

M-M-03-1-1

1,02

0,6

1,03

0,5

0,42

0,96

-0,3

0,9

-0,5

0,4

11

M-M-03-1-2

1,07

1,1

1

0,1

0,33

0,89

-2

0,87

-1,3

0,53

12

M-M-03-1-3

1,04

0,3

3,16

2

-0,05

0,99

-0,2

1,09

1

0,47

13

M-M-06-1-1

1,12

2,1

1,16

1,6

0,29

0,88

-1,8

0,85

-1

0,5

14

M-M-06-1-2

0,9

-1

0,77

-1,3

0,41

0,87

-2,9

0,84

-2,2

0,57

15

M-M-06-1-3

1,02

0,3

1,2

1,4

0,34

1,03

0,7

1,02

0,2

0,44

16

M-M-11-1-1

0,92

-1,6

0,88

-1,6

0,5

1,08

0,7

1,26

1,1

0,29

17

M-M-11-1-2

0,96

-0,2

0,89

-0,3

0,33

0,83

-3,5

0,79

-2,7

0,59

18

M-M-11-1-3

0,94

0

0,31

-1,2

0,24

0,95

-0,6

0,94

-0,3

0,44

19

M-R-02-1-1

0,99

-0,1

1,5

2,3

0,3

0,86

-2

0,8

-1,4

0,52

20

M-R-02-1-2

0,84

-0,6

0,39

-1,8

0,35

0,96

-0,9

0,91

-1,1

0,51

21

M-R-02-1-3

0

1,08

1,5

1,33

3,3

0,41

22

M-R-05-1-1

1,06

0,4

1,13

0,5

0,22

1,08

0,3

2,49

2,1

0,01

23

M-R-05-1-2

0,87

-1,3

0,76

-1,3

0,46

1,07

1,2

1,14

1,3

0,4

24

M-R-05-1-3

0

0,99

0

1,2

1,1

0,37

25

M-G-01-1-1

0,92

-1

0,8

-1,4

0,41

1,07

0,8

1,01

0,1

0,35

26

M-G-01-1-2

1,09

0,4

1,82

1,6

0,03

1,07

1,5

1,11

1,4

0,42

27

M-G-01-1-3

1,11

0,4

2,62

2,3

-0,07

1,09

1,1

2,15

4,8

0,28

28

M-D-03-1-1

0,93

-1,5

0,9

-1,4

0,47

1,11

1,2

1,29

1,5

0,31

29

M-D-03-1-2

0,94

-0,1

0,41

-1,3

0,25

1,01

0,3

1,01

0,2

0,46

30

M-D-03-1-3

1,12

0,8

1,19

0,7

0,14

0,88

-2,2

0,78

-2,2

0,56

31

M-D-05-1-1

0,86

-3,2

0,82

-2,7

0,52

0,96

-0,4

1,39

2

0,39

32

M-D-05-1-2

1,07

1,4

1,13

1,7

0,34

1,08

1,1

1,09

0,7

0,39

33

M-D-05-1-3

0

0,96

-0,6

1,37

2,8

0,47

34

M-D-08-1-1

0,97

-0,3

0,92

-0,6

0,44

0,96

-0,1

0,7

-0,7

0,3

35

M-D-08-1-2

0,91

-1,2

0,86

-1

0,44

0,97

-0,4

0,87

-1,1

0,48

36

M-D-08-1-3

1,12

0,4

2,09

1,6

-0,01

1,18

2,1

1,71

3,2

0,22

37

M-R-03-1-1

1,08

1,1

1,01

0,1

0,33

1

0

0,83

-0,7

0,37

38

M-R-03-1-2

1,15

1,9

1,52

3,3

0,22

1,14

2,4

1,18

1,8

0,37

39

M-R-03-1-3

0,91

-0,4

0,72

-0,8

0,37

1,1

1,9

1,21

2,1

0,39

40

M-C-05-1-1

1,05

0,9

1,03

0,3

0,35

1,02

0,2

1,29

1,5

0,36

41

M-C-05-1-2

0,9

-0,5

0,68

-1

0,35

1,01

0,2

1,07

0,8

0,46

42

M-C-05-1-3

0,87

-0,4

0,54

-0,9

0,31

0,89

-2,2

0,84

-2

0,56

43

M-M-08-1-1

0,97

-0,5

0,97

-0,3

0,43

0,92

-0,5

0,59

-1,4

0,37

44

M-M-08-1-2

0,93

-0,2

1,01

0,2

0,23

0,94

-1,3

0,91

-1,2

0,52

45

M-M-08-1-3

1

0,1

1,09

0,4

0,24

0,93

-1,3

0,88

-1,2

0,52

Согласие с моделью Новгородских и Таджикских данных оценивалось на основе 6-ти показателей, с особенным вниманием к значениям взвешенных статистик согласия, поскольку они взвешиваются на дисперсию и меньше подвержены случайным колебаниям. INFIT MNSQ - взвешенная статистика согласия, OUTFIT MNSQ - общая статистика согласия, INFIT ZSTD - стандартизированная взвешенная статистика согласия, OUTFIT ZSTD - стандартизированная общая статистика согласия. Показатели MNSQ должны находится в пределах от 0,7 до 1,3, эти показатели отражают то, насколько модель хорошо предсказывает дисперсию данных. Значения этих показателей больше 1, говорят о том, что в данных в данных присутствует дисперсия, не объясняемая моделью. Показатели меньше 1 говорят о том, что данные слишком хорошо предсказываются моделью, в них недостаточно дисперсии, что может привести к завышению показателей надёжности (http://www.winsteps.com/a/winsteps-manual.pdf, стр. 600). Статистики ZSTD показывают вероятность того, что статистики MNSQ покажут согласие данных с моделью. Для 95% доверительной вероятности значение статистик ZSTD должно находится в пределах от -2 до 2, чтобы можно было делать вывод о том, что задание демонстрирует согласие с моделью Rasch (http://www.winsteps.com/a/winsteps-manual.pdf, стр. 600-601).

По совокупности показателей согласия данных с моделью, рассчитанных в пакете Winsteps (http://www.winsteps.com/) можно говорить о том, что все задания (и Таджикские и Новгородские) находятся в согласии с моделью Rasch.

Обратимся к анализу решаемостей заданий в Таджикистане и Новгородской области. Поскольку на российской выборке был проведен полный психометрический анализ опросника SAM, в данной работе Российская версия будет рассматриваться как эталонная (Нежнов, Карданова, 2011), весь проводимый анализ преследует цель - привести Таджикскую версию опросника SAM по математике к сопоставимости с Российской версией.

Таблица 7. Решаемость и Трудность заданий в Новгородской области и Таджикистане

задание

Таджикистан

Новгород

Выполнили

Решаемость

Трудность

Выполнили

Решаемость

Трудность

1

M-C-01-1-1

222

0,54

-3,27

373

0,91

-2,26

2

M-C-01-1-2

20

0,05

0,36

248

0,61

0,07

3

M-C-01-1-3

3

0,01

2,37

61

0,15

2,82

4

M-C-03-1-1

265

0,65

-3,81

396

0,97

-3,65

5

M-C-03-1-2

68

0,17

-1,13

288

0,71

-0,67

6

M-C-03-1-3

5

0,01

1,84

105

0,26

2,07

7

M-M-02-1-1

70

0,17

-1,17

359

0,88

-1,83

8

M-M-02-1-2

1

0,00

3,48

294

0,72

-0,54

9

M-M-02-1-3

1

0,00

3,48

127

0,31

1,48

10

M-M-03-1-1

173

0,42

-2,67

341

0,84

-1,41

11

M-M-03-1-2

67

0,16

-1,11

261

0,64

-0,13

12

M-M-03-1-3

19

0,05

0,42

166

0,41

1,17

13

M-M-06-1-1

134

0,33

-2,18

316

0,77

-0,84

14

M-M-06-1-2

49

0,12

-0,7

209

0,51

0,66

15

M-M-06-1-3

41

0,10

-0,48

174

0,43

1

16

M-M-11-1-1

199

0,49

-2,99

359

0,88

-1,77

17

M-M-11-1-2

41

0,10

-0,48

227

0,56

0,36

18

M-M-11-1-3

1

0,00

3,48

77

0,19

2,51

19

M-R-02-1-1

31

0,08

-0,14

311

0,76

-0,81

20

M-R-02-1-2

7

0,02

1,49

206

0,50

0,66

21

M-R-02-1-3

26

0,06

0,06

150

0,37

1,2

22

M-R-05-1-1

184

0,45

-2,81

400

0,98

-4,19

23

M-R-05-1-2

34

0,08

-0,25

273

0,67

-0,23

24

M-R-05-1-3

1

0,00

3,48

69

0,17

2,66

25

M-G-01-1-1

66

0,16

-1,09

329

0,81

-1,18

26

M-G-01-1-2

2

0,00

2,78

194

0,48

0,87

27

M-G-01-1-3

2

0,00

2,78

72

0,18

2,71

28

M-D-03-1-1

159

0,39

-2,5

339

0,83

-1,3

29

M-D-03-1-2

14

0,03

0,75

217

0,53

0,5

30

M-D-03-1-3

5

0,01

1,84

126

0,31

1,55

31

M-D-05-1-1

76

0,19

-1,28

333

0,82

-1,18

32

M-D-05-1-2

78

0,19

-1,32

282

0,69

-0,63

33

M-D-05-1-3

1

0,00

3,48

104

0,25

1,77

34

M-D-08-1-1

187

0,46

-2,84

381

0,93

-2,84

35

M-D-08-1-2

68

0,17

-1,13

277

0,68

-0,34

36

M-D-08-1-3

5

0,01

1,84

71

0,17

2,67

37

M-R-03-1-1

85

0,21

-1,45

353

0,87

-1,72

38

M-R-03-1-2

81

0,20

-1,38

257

0,63

-0,03

39

M-R-03-1-3

8

0,02

1,35

143

0,35

1,39

40

M-C-05-1-1

126

0,31

-2,07

336

0,82

-1,33

41

M-C-05-1-2

21

0,05

0,31

251

0,62

0,09

42

M-C-05-1-3

9

0,02

1,23

165

0,40

0,83

43

M-M-08-1-1

96

0,24

-1,63

370

0,91

-2,41

44

M-M-08-1-2

15

0,04

0,68

189

0,46

0,84

45

M-M-08-1-3

3

0,01

2,37

134

0,33

1,44

Как видно по представленной таблице 7, оценка трудностей для России и Таджикистана как в рамках КТТ, так и в рамках IRT сильно различается, поэтому было принято решение сравнивать паттерны трудностей по уровням заданий. Основная идея состоит в том, чтобы сравнить задание по трудности с предыдущим и следующим. Если задание является труднее предыдущего и последующего, то такое расположение должно сохраняться и в России и в Таджикистане. Для этого были построены графики трудностей в рамках КТТ и рассчитаны корреляции заданий по уровням.

Сравнение трудностей заданий в России и Таджикистане по уровням (КТТ)

Рис. 5. Решаемости заданий 1-го уровня в Новгородской области и Таджикистане

Рис. 6. Решаемости заданий 2-го уровня в Новгородской области и Таджикистане

Корреляция трудностей для заданий 2-го уровня составила 0,5.

Рис. 7. Решаемости заданий 3-го уровня в Новгородской области и Таджикистане

Корреляция трудностей для заданий 3-го уровня оценивать нельзя, слишком мало учеников в Таджикистане решили задания этого уровня.

Как видно из представленных рисунков 5-7 и таблицы 7, паттерны трудностей для заданий 3-го уровня в России и Таджикистане сильно различаются, поэтому было принято решение не учитывать задания 3-го уровня при построении одной шкалы для России и Таджикистана.

Задания 2-го уровня в целом имеют схожий паттерн, однако есть задание, решаемость которого в связке с другими заданиями в Таджикистане сильно отличается от решаемости в России (M-M-02-1-2) Данное задание должно быть легче предыдущего и следующего за ним, однако, в Таджикистане это задание оказалось сложнее предыдущего и следующего. Его решаемость оказалась схожей с заданиями 3-го уровня, его выполнил верно всего 1 ученик из 408.

Что касается заданий 1-го уровня, то здесь также наблюдается схожий паттерн решаемости заданий в двух выборках. Также как и в группе заданий 2-го уровня «выпадает» одно задание, которое относится к той же предметной области: M-M-02-1-1.

2.2 Содержательный этап

2.2.1 Установление Конструктной эквивалентности

Для установления конструктной эквивалентности мы использовали карты конструктов, поскольку ЭФА и КФА, как было указано во введении к данной главе, невозможно провести на имеющихся данных. Карты конструктов были представлены в заключительном отчёте по локализации и адаптации опросника SAM в Таджикистане, и во фреймворке по разработке SAM в России (заключительный отчет по адаптации и локализации SAM в Таджикистане; Нежнов, Карданова, 2011).

Карта конструкта в обоих документах выглядит одинаково (рис. 8)

Рис 8. Карта конструкта «математическая грамотность» в России и Таджикистане

Приведём описание выделенных на рисунке 8 подконструктов (разделов предметного содержания теста):

«Числа и вычисления

Раздел включает содержание, относящееся к формальной стороне понятия натурального числа (позиционная запись чисел, стандартные алгоритмы действий над числами, порядок выполнения действий, свойства действий). Сюда же отнесен учебный материал, связанный с представлением чисел на координатной прямой. Последнее важно для понимания действительного числа и освоения координатного метода.

Измерение величин

В раздел включен учебный материал, связанный собственно с действиями прямого и косвенного измерения. Сюда же отнесены геометрические измерения.

Что касается собственно прикладного аспекта данного раздела, связанного с конкретными измерениями и представлением их результатов в виде таблиц и диаграмм («анализ данных»), то он в большей степени может быть отнесен к учебному предмету «Окружающий мир».

Закономерности

Содержание раздела связано с построением числовых и геометрических последовательностей и других структурированных объектов, а также с определением их количественных характеристик. Эта линия важна для развития математического мышления (в первую очередь - алгоритмического и комбинаторного).

Зависимости

Содержание раздела связано с выделением и описанием математической структуры отношений между величинами, обычно представляемых текстовыми задачами.

Элементы геометрии

Раздел охватывает геометрический материал, связанный с определением пространственных форм и взаимным расположением объектов.

Содержание математического теста представлено в виде матрицы (табл. 2.1.), в которую включены а) разделы предметного содержания и б) математические средства (понятия, представления, принципы, правила, формулы, схемы и проч.), овладение которыми лежит в основе математической компетентности» (заключительный отчет по адаптации и локализации SAM в Таджикистане; Нежнов, Карданова, 2011).

В документах по разработке российской версии SAM также присутствует более подробное описание того, что входит в каждый из разделов (приложение 2). Также в документах разработчиков SAM в России содержится описание того, сколько заданий и блоков направлены на проверку каждого из разделов (приложение 2).

Стоит отметить, что в документе по адаптации таджикской версии SAM не содержится такой подробной операционализации конструкта «математическая грамотность», там лишь содержится описание разделов, полностью повторяющее описание разделов российской версии. Таким образом, судить о конструктной эквивалентности или неэквивалентности по карте конструкта затруднительно. С учётом того, что перевод SAM на таджикский язык осуществлялся по заданиям, анализ формулировок заданий может помочь определить, совпадают ли области содержания, проверяемые таджикской версией с областями содержания, проверяемыми российской версией.

Для решения этой задачи был проведен анализ тетрадей заданий с привлечением специалиста, знающего русский и таджикский языки, а также документов по двойному слепому переводу, полученных от таджикских специалистов. Результаты анализа перевода представлены в таблице 8.

Таблица 8. Изменения формулировок заданий

Номер

Код заданий

Изменения в формулировке

Российский вариант=таджикский вариант

Решение об изменении

1

M-C-01-1-1

Без изменений

2

M-C-01-1-2

Заменяют = являются

Изменение оставлено в итоговом варианте

3

M-C-01-1-3

Разные буквы заменяют разные цифры =каждая буква заменяет одну цифру

Изменение отменено, итоговый вариант как русский (разные буквы..)

4

M-C-03-1-1

Найдите самое большое из следующих чисел = найдите наибольшее число

Изменение оставлено

5

M-C-03-1-2

Какое число= какую цифру

Изменение отменено, итоговый вариант как русский (какое число)

6

M-C-03-1-3

Расположение чисел

Изменение отменено, числа располагаются аналогично русской версии

7

M-M-02-1-1

ПОЛНАЯ ЗАМЕНА ЗАДАНИЯ (вместо расчета площади - расчет суммы длин сторон «объезд ремонта дороги»

Отредактирована формулировка, смысл задания сильно изменен

8

M-M-02-1-2

ПОЛНАЯ ЗАМЕНА ЗАДАНИЯ (вместо площади - сумма длин трёх сторон)

Аналогично заданию 7

9

M-M-02-1-3

ПОЛНАЯ ЗАМЕНА ЗАДАНИЯ

Аналогично заданию 7 и 8

10

M-M-03-1-1

Ломаная=линия

Изменение сохранено (убрано слово ломаная, поскольку в программе его нет)

11

M-M-03-1-2

Ломаная=линия

То же что и в вопросе 10

12

M-M-03-1-3

Ломаная=линия

То же что и в вопросе 10

13

M-M-06-1-1

Без изменений

14

M-M-06-1-2

Без изменений

15

M-M-06-1-3

Ломаная=линия

То же что и в вопросе 10

16

M-M-11-1-1

Сторона=стороны

Изменение отменено, оставлено «сторона»

17

M-M-11-1-2

Найди=найдите

Изменение отменено, оставлено слово «найди»

18

M-M-11-1-3

Разрезание=разделение

Изменение отменено, оставлено «разрезали»

19

M-R-02-1-1

Гном=ученик

Изменение оставлено, в таджикском нет слова «гном»

20

M-R-02-1-2

Гном=ученик

Изменение оставлено, в таджикском нет слова «гном»

21

M-R-02-1-3

Гном=ученик

Изменение оставлено, в таджикском нет слова «гном»

22

M-R-05-1-1

Располагаются=расположены

Изменение оставлено

23

M-R-05-1-2

Без изменений

24

M-R-05-1-3

Скобки с пояснением (Сколько в нем всего фигур) перенесено в конец задания

Изменение оставлено

25

M-G-01-1-1

Квадрат=четырёхугольник

Изменение отменено, в тетради оставлено как в русском варианте - квадрат

26

M-G-01-1-2

Без изменений

27

M-G-01-1-3

Без изменений

28

M-D-03-1-1

Без изменений

29

M-D-03-1-2

Без изменений

30

M-D-03-1-3

Без изменений

31

M-D-05-1-1

Без изменений

32

M-D-05-1-2

Коробки=банка, бидон и ведро

Изменение отменено, оставлены 3 коробки

33

M-D-05-1-3

Без изменений

34

M-D-08-1-1

Без изменений

35

M-D-08-1-2

Без изменений

36

M-D-08-1-3

Без изменений

37

M-R-03-1-1

Цвета написаны в квадратах в таджикском варианте полностью, в русском - сокращение цветом, снизу расшифровка

В текст задания включено слово «гирлянда» как на таджикском «силсила», так и на русском (пояснено в скобках)

Съехали места для ответов

Изменение оставлено

38

M-R-03-1-2

Цвета написаны полностью, «гирлянд» вместо «гирлянда» - отличие от предыдущего вопроса!

Съехали места для ответов

То же что в задании 37

39

M-R-03-1-3

Цвета написаны полностью, «гирлянда» вместо «гирлянд»

То же что в задании 37

40

M-C-05-1-1

Без изменений

41

M-C-05-1-2

Без изменений

42

M-C-05-1-3

Без изменений

43

M-M-08-1-1

Без изменений

44

M-M-08-1-2

Без изменений

45

M-M-08-1-3

Без изменений

Поскольку для построения общей шкалы для России и Таджикистана было решено не использовать задания 3-го уровня, здесь и далее будут анализироваться только задания 1-го и 2-го уровня.

Без изменений остались следующие задания:

1. M-C-01-1-1

2. M-C-03-1-2

3. M-M-06-1-1

4. M-M-06-1-2

5. M-M-11-1-1

6. M-M-11-1-2

7. M-R-05-1-2

8. M-G-01-1-1

9. M-G-01-1-2

10. M-D-03-1-1

11. M-D-03-1-2

12. M-D-05-1-1

13. M-D-05-1-2

14. M-D-08-1-1

15. M-D-08-1-2

16. M-C-05-1-1

17. M-C-05-1-2

18. M-M-08-1-1

19. M-M-08-1-2

Незначительные изменения были внесены изменения в следующие задания:

1. M-C-01-1-2

2. M-C-03-1-1

3. M-M-03-1-1

4. M-M-03-1-2

5. M-R-02-1-1

6. M-R-02-1-2

7. M-R-05-1-1

Существенные изменения были внесены в следующие задания:

1. M-M-02-1-1

2. M-M-02-1-2

3. M-R-03-1-1

4. M-R-03-1-2

Под существенными изменениями понимаются такие изменения в формулировке, которые могли бы привести к изменению функционирования задания. Например, замена слова «гном» на «ученик» в таджикском варианте (M-R-02-1) была сделана исходя из того, что в таджикской мифологии отсутствуют гномы. Такая замена не должна привести к существенному изменению функционирования задания, поэтому такое изменение можно считать незначительным. С другой стороны, в задании M-R-03-1 в таджикском опроснике цвета написаны в квадратах полностью, без сокращений, что может сделать вопрос более простым для таджикских учеников, поскольку в российском опроснике цвета написаны сокращённо, а полные названия цветов приводятся в полях снизу. То есть российским ученикам нужно сделать лишнее «действие» в уме - сопоставить цвета, написанные в квадратах с полным вариантом, приводимом чуть ниже.

Все 3 задания блока M-M-02-1 были существенно изменены при проведении опроса на таджикском языке. Была изменена единица содержания, проверяемая данными заданиями. В России эти задания направлены на выявление знаний о том, что такое площадь и способность её рассчитать

В Таджикистане эти задания проверяют способность учеников рассчитать сумму длин сторон (фактически - периметра фигуры).

Обратимся к рассмотрению того, как задания оформлены в таджикских и российских тетрадях. Способ представления заданий испытуемым, так же как и содержание заданий, может обуславливать разницу в функционировании заданий на разных выборках. Поэтому для кросс-культурного исследования важно, чтобы задания в разных странах представлялись одинаковым или, если это невозможно, максимально схожим образом.

Таблица 9. Различия в визуальном представлении заданий

Номер

Код заданий

Отличия в представлении задания в Таджикской версии

1

M-C-01-1-1

Нет отличий

2

M-C-01-1-2

Нет отличий

4

M-C-03-1-1

Варианты ответа расположены не в одну строку, а в два столбца

5

M-C-03-1-2

Нет отличий

7

M-M-02-1-1

Даются варианты ответа

8

M-M-02-1-2

-

10

M-M-03-1-1

Незначительное уменьшение масштаба изображения (1,1 см в российской тетради 1,0 см в таджикской)

11

M-M-03-1-2

Более чёткие линии на картинке, изменено расположение вариантов ответа (два столбика)

13

M-M-06-1-1

Уменьшение масштаба изображения (1,6 см в российской тетради, 1,0 см в таджикской)

14

M-M-06-1-2

Увеличение масштаба изображения (0,6 см в российской тетради, 1,0 см в таджикской)

16

M-M-11-1-1

Нет отличий

17

M-M-11-1-2

Нет отличий

19

M-R-02-1-1

Незначительное уменьшение масштаба изображения (изоб.не используется для расчетов), изменено расположение вариантов ответа (два столбика, варианты ответа «съехали» вверх относительно полей для ответа)

20

M-R-02-1-2

Задание написано без абзацев

22

M-R-05-1-1

Более чёткие линии изображения

23

M-R-05-1-2

Незначительное уменьшение масштаба изображения

25

M-G-01-1-1

Уменьшение масштаба изображения

26

M-G-01-1-2

2 из 5-ти изображений зеркально развернуты, все фигуры пронумерованы, введены поля для ответа с нумерацией (в российской тетради ученикам не давалась нумерация, нужно было отметить фигуры)

28

M-D-03-1-1

Нет отличий

29

M-D-03-1-2

Варианты ответа «съехали» вверх относительно полей для ответа

31

M-D-05-1-1

Нет отличий

32

M-D-05-1-2

Нет отличий

34

M-D-08-1-1

Нет отличий

35

M-D-08-1-2

Нет отличий

37

M-R-03-1-1

Варианты ответа «съехали» относительно полей, нет сокращений цветов (в российской тетради цвета сокращены, + приводится расшифровка сокращений)

38

M-R-03-1-2

Варианты ответа «съехали» относительно полей, нет сокращений цветов (в российской тетради цвета сокращены, + приводится расшифровка сокращений)

40

M-C-05-1-1

Нет отличий

41

M-C-05-1-2

Нет отличий

43

M-M-08-1-1

Увеличение масштаба изображения (не связано с расчетами, которые нужно произвести)

44

M-M-08-1-2

Увеличение масштаба изображения (не связано с расчетами, которые нужно произвести)

Систематизируя информацию, представленную в таблице 9 можно сказать, что основные отличия в представлении заданий сводятся к:

1. Изменению масштабов рисунков в сторону упрощения расчетов. Изменены масштабы тех рисунков, которые используются для получения ответов в задании (которые используются для расчетов). Во всех заданиях, где ученику даётся «линейка» с делениями для измерения требуемого объекта, деления этой линейки приведены в соответствие реальным сантиметрам.

Рис 9. Пример задания с изменением масштабов рисунка

2. Изменению формы записи правильного ответа.

· Расположение вариантов ответа в две строки, вместо одной строки

· Введение дополнительной нумерации объектов, которой не было в российской тетради.

Рис 10. Пример заданий с изменением формы записи вариантов ответа

3. Все изображения имеют более чёткие линии, по сравнению с российской тетрадью.

4. Поля для ответов и варианты ответа, им соответствующие, не располагаются на одной строке

По результатам описанного выше анализа мы исключили из дальнейшей работы все задания 3-его уровня и блок заданий M-M-02-1, поскольку они проверяют различные темы в России и Таджикистане. Дальнейшая работа будет проводиться со следующими заданиями:

1. M-C-01-1-1

2. M-C-01-1-2

3. M-C-03-1-1

4. M-C-03-1-2

5. M-M-03-1-1

6. M-M-03-1-2

7. M-M-06-1-1

8. M-M-06-1-2

9. M-M-11-1-1

10. M-M-11-1-2

11. M-R-02-1-1

12. M-R-02-1-2

13. M-R-05-1-1

14. M-R-05-1-2

15. M-G-01-1-1

16. M-G-01-1-2

17. M-D-03-1-1

18. M-D-03-1-2

19. M-D-05-1-1

20. M-D-05-1-2

21. M-D-08-1-1

22. M-D-08-1-2

23. M-R-03-1-1

24. M-R-03-1-2

25. M-C-05-1-1

26. M-C-05-1-2

27. M-M-08-1-1

28. M-M-08-1-2

Прежде, чем перейти к объединению российских и таджикских данных нам хотелось бы обозначить логику исследования перевода и визуального представления заданий.

1. Исследование документов по локализации и адаптации теста: выделение заданий, имеющих существенную и незначительную разницу в формулировках, а также заданий, которые с точки зрения языка переведены точно.

2. Привлечение специалиста, владеющего обоими языками для проверки пункта 1. Для этого специалиста просили заново перевести задания из таджикской тетради на русский язык. Изменения классифицировались по трём типам, сравнивались с результатами, полученными в ходе анализа документов.

3. Для оценки разницы в визуальном представлении заданий использовались только анкеты опросника (тетради). Для каждого задания любые изменения в визуальном представлении задания фиксировались в таблицу, затем выделялись группы параметров, по которым отличаются российская и таджикская тетради.

2.2.2 Психометрический анализ объединённых данных

Данные по 28-ми заданиям из России и Таджикистана были объединены в одну выборку, которая была проверена на соответствие модели Раша. Общий размер выборки составил 816 учеников.

Таблица 10. Согласие данных с моделью объединённых данных

код задания

трудность

число учеников

ответили верно

ошибка

INFIT. MNSQ

INFIT. ZSTD

OUTFIT. MNSQ

OUTFIT. ZSTD

1

M-C-01-1-1

-1,43

797

589

0,1

1,07

1,50

1,39

2,12

2

M-C-01-1-2

1,31

683

262

0,1

0,85

-3,15

0,86

-1,20

3

M-C-03-1-1

-2,96

803

715

0,13

1,02

0,28

1,26

0,94

4

M-C-03-1-2

-0,2

664

403

0,1

1,13

2,54

1,14

1,28

5

M-M-03-1-1

-0,74

745

497

0,1

1,07

1,46

1,05

0,45

6

M-M-03-1-2

0,46

686

346

0,1

1,15

2,92

1,12

1,20

7

M-M-06-1-1

-0,03

748

426

0,09

1,05

0,98

1,06

0,67

8

M-M-06-1-2

1,41

700

259

0,1

0,99

-0,27

0,96

-0,33

9

M-M-11-1-1

-1,41

734

563

0,11

1,07

1,30

1,48

2,39

10

M-M-11-1-2

1,34

683

258

0,1

0,85

-3,01

0,92

-0,66

11

M-R-02-1-1

0,44

722

359

0,1

0,80

-4,28

0,88

-1,28

12

M-R-02-1-2

1,76

673

219

0,1

0,85

-2,91

0,66

-2,73

13

M-R-05-1-1

-3,62

616

593

0,23

1,09

0,57

2,64

2,97

14

M-R-05-1-2

0,69

613

315

0,1

1,02

0,34

1,02

0,21

15

M-G-01-1-1

0,19

808

406

0,09

0,87

-3,05

0,77

-2,77

16

M-G-01-1-2

1,99

720

204

0,1

1,04

0,71

1,10

0,70

17

M-D-03-1-1

-0,55

719

472

0,1

1,04

0,74

1,19

1,54

18

M-D-03-1-2

1,68

694

225

0,1

0,89

-2,12

0,69

-2,47

19

M-D-05-1-1

-0,52

703

460

0,1

0,96

-0,80

1,29

2,26

20

M-D-05-1-2

-0,24

634

396

0,1

1,29

5,17

1,46

3,56

21

M-D-08-1-1

-2,29

721

615

0,12

1,00

0,03

0,86

-0,47

22

M-D-08-1-2

0,5

684

343

0,1

0,97

-0,60

0,92

-0,88

23

M-R-03-1-1

-0,34

687

434

0,1

0,92

-1,61

0,76

-2,25

24

M-R-03-1-2

0,65

671

325

0,1

1,29

5,26

1,62

5,42

25

M-C-05-1-1

-0,32

682

427

0,1

1,02

0,32

1,10

0,92

26

M-C-05-1-2

1,16

642

272

0,1

0,89

-2,20

0,77

-2,23

27

M-M-08-1-1

-0,8

652

461

0,11

0,81

-3,70

0,61

-3,09

28

M-M-08-1-2

1,87

588

199

0,11

0,94

-1,20

0,90

-0,60

Выявлено 2 задания, не согласующихся с моделью Раша:

· M-D-05-1-2

· M-R-03-1-2

Данные задания не будут включаться в построение единой шкалы.

2.2.3 Эквивалентность заданий

Для того чтобы можно было положить Российские и Таджикские данные на одну шкалу, необходимо проверить задания на DIF. Поскольку в научной среде нет консенсуса относительно того, какой метод выявления DIF наиболее эффективен, в данной работе мы будем использовать 4 метода:

1. Мантель-Ханцель,

2. Стандартизацию,

3. Логистическую регрессию,

4. t-статистику.

Мы будем считать, что задание демонстрирует DIF, если 3 или 4 статистики показывают, что в данном задании присутствует DIF. Поскольку все методы выявления DIF в той или иной мере демонстрируют ошибку II рода (ложное срабатывание), нельзя ограничиваться показаниями только одной статистики. В первой главе данной работы описано более подробно, от чего зависит функционирование статистик DIF-анализа.

3 статистики DIF-анализа были рассчитаны в пакете difR. Задание отмечалось как демонстрирующее DIF, если наблюдался large или moderate effect.

T-статистика рассчитывалась в Excel. Для того, чтобы рассчитать t-статистику, требовалось выделить несколько (не менее 4 заданий), которые функционируют максимально схожим образом в России и в Таджикистане и которые потенциально свободны от DIF. Было выбрано 5 заданий:

1. M-C-01-1-1

2. M-C-03-1-1

3. M-D-03-1-1

4. M-C-05-1-1

5. M-D-08-1-1

Эти задания использовались как «якорные». Их трудность фиксировалась на том уровне, который демонстрировали задания на российской подвыборке, трудность остальных заданий переоценивалась для Таджикской выборки. Затем производился расчет статистики. Критические значения для неё были выбраны традиционные: если t-статистика показывала значения по модулю превышающее 2, задание отмечалось как демонстрирующее DIF в соответствии с данной статистикой (Wang, Su, 2004).

Если 3 или 4 статистики показывали, что задание демонстрирует DIF, мы считали что DIF присутствует.

Таблица 11. Результаты DIF-анализа

Код задания

M-H

LR

STND

t-stat.

1

1

M-C-01-1-1

0,00

2

2

M-C-01-1-2

+

+

5,02

4

3

M-C-03-1-1

0,00

5

4

M-C-03-1-2

+

+

+

-3,79

10

5

M-M-03-1-1

-1,25

11

6

M-M-03-1-2

+

+

-3,74

13

7

M-M-06-1-1

+

-0,52

14

8

M-M-06-1-2

+

+

+

-2,84

16

9

M-M-11-1-1

+

+

+

-3,22

17

10

M-M-11-1-2

+

+

+

1,11

19

11

M-R-02-1-1

+

4,53

20

12

M-R-02-1-2

+

+

3,00

22

13

M-R-05-1-1

+

-0,43

23

24

M-R-05-1-2

+

+

0,60

25

15

M-G-01-1-1

+

+

4,78

26

16

M-G-01-1-2

+

+

3,25

28

17

M-D-03-1-1

+

0,00

29

18

M-D-03-1-2

+

+

4,19

31

19

M-D-05-1-1

+

+

+

-1,56

32

20

M-D-05-1-2

+

+

-4,60

34

21

M-D-08-1-1

0,00

35

22

M-D-08-1-2

+

+

-0,35

37

23

M-R-03-1-1

+

+

4,50

38

24

M-R-03-1-2

+

-2,81

40

25

M-C-05-1-1

+

+

0,00

41

26

M-C-05-1-2

+

+

2,65

43

27

M-M-08-1-1

+

5,11

44

28

M-M-08-1-2

+

+

1,80

В соответствии с описанным выше критерием, было выделено 14 заданий, демонстрирующих DIF. 10 из них принадлежат ко 2-ому уровню освоения материала. Задания, демонстрирующие DIF:

1. M-C-01-1-2

2. M-C-03-1-2

3. M-M-03-1-2

4. M-M-06-1-2

5. M-M-11-1-1

6. M-M-11-1-2

7. M-R-02-1-2

8. M-G-01-1-1

9. M-G-01-1-2

10. M-D-03-1-2

11. M-D-05-1-1

12. M-D-05-1-2

13. M-R-03-1-1

14. M-C-05-1-2

Обратимся к рассмотрению причины появления DIF в данных заданиях.

M-C-01-1-2. Данное задание является более трудным для таджикских детей. Данное задание было переведено на таджикский язык с точностью до одного слова. Также задания представлены одинаково в обеих тетрадях. В таджикской тетради вместо * стоит точка (знак умножения)

M-C-03-1-2. Данное задание является более сложным для российских детей. Присутствуют незначительные изменения при переводе («самое большое» заменено на «наибольшее»), а также в оформлении задания: варианты ответа в таджикской тетради располагаются не в одну строку, а в две.

M-M-06-1-2. Задание является более трудным для российских детей. Масштаб рисунка в таджикской тетради значительно больше.

M-R-02-1-2. Задание является более трудным для таджикских детей. Присутствует незначительное изменение формулировки задания (слово «гном» заменено на слово «ученик»), также, в таджикской тетради данное задание не разбито на абзацы.

M-G-01-1-2. Задание является более трудным для таджикских детей. Присутствуют существенные изменения в представлении задания в таджикской тетради: перевёрнуты 2 из 5 нарисованных фигур, введены отдельные поля для ответов и нумерация фигур, что усложняет процедуру записывания ответов.

M-D-05-1-1. Данное задание демонстрирует DIF в пользу таджикских учеников, для российских учеников оно является необоснованно сложным. Различий в формулировке и представлении данного задания обнаружено не было.

M-M-03-1-2. Данное задание является более трудным для Российских детей. В данном задании в таджикской тетради слово «ломаная» заменено на слово «линия», также изменено расположение вариантов ответа: в 2 строки вместо одной строки.

M-M-11-1-1. Данное задание демонстрирует DIF в пользу таджикских учеников, для российских учеников оно является необоснованно сложным. Различий в формулировке и представлении данного задания обнаружено не было.

M-M-11-1-2. Данное задание демонстрирует DIF в пользу российских учеников, для таджикских учеников оно является необоснованно сложным. Различий в формулировке и представлении данного задания обнаружено не было.

M-G-01-1-1. Данное задание является необоснованно более сложным для таджикских учеников. Единственное отличие данного задания в российской и таджикской тетрадях - в таджикской версии рисунок, сопровождающий задание, имеет меньший масштаб.

M-D-03-1-2. Данное задание является необоснованно более сложным для таджикских учеников. Здесь поля для вариантов ответа не лежат на одной строке с вариантами ответов.

M-R-03-1-1. Данное задание демонстрирует DIF в пользу российских учеников, для таджикских детей оно является необоснованно сложным. У данного задания имеются существенные отличия как по содержанию, так и по представлению: в таджикской версии цвета написаны полностью, поля для вариантов ответа не лежат на одной строке с вариантами ответов.

M-C-05-1-2. Данное задание является необоснованно более сложным для таджикских учеников. Различий в формулировке и представлении данного задания обнаружено не было. В результате проведённого анализа можно говорить о том, что возможно достижение только частичной эквивалентности SAM в России и Таджикистане. Общую шкалу рекомендуется строить на основе следующих заданий: 1, 19, 22, 28, 34, 35, 40, 43, 44. Данные задания имеют схожие характеристики как в рамках классической теории тестирования, так и в рамках IRT. Также данные задания проверяют одну и ту же область математического знания, не имеют разницы в переводе и оформлении и не демонстрируют DIF.

2.2.4 Построение единой шкалы

Как следует из предыдущего раздела работы, мы выделили 9 заданий (20% длины теста), которые функционируют одинаково в рассматриваемых странах и свободны от DIF. На их основе строилась единая шкала в Таджикистане и Новгородской области. На данный момент существует множество методов построения одной шкалы (Vale, 1986; Карданова, Нейман, 2003). Один из них - одновременная калибровка (simultaneous calibration) (Карданова, Нейман, 2003). Он предполагает следующую процедуру. Ответы новгородских и таджикских учеников на 9 заданий объединяются, ответы на остальные 22 задания (по 11 на каждую выборку) присоединяются отдельно, при этом база данных приобретает вид:

Далее происходит оценка подготовленности испытуемых и трудностей заданий в рамках модели Rasch (для этого использовался пакет Winsteps). Карту заданий и испытуемых можно увидеть в приложении 3. Таким образом, поскольку имеется «пересечение» в данных, оценки подготовленности и трудностей заданий попадают на одну (и центрируются относительно общего среднего значения трудностей заданий).

Рис 11. Схема построения единой шкалы для новгородских и таджикских данных

После построения общей шкалы оценки испытуемых были переведены в 1000-балльную шкалу с помощью двухшагового преобразования:

1. Преобразование оценок подготовленности в z-шкалу с помощью формулы

, где формула 8

Xi - значение подготовленности одного испытуемого в логитах,

- средняя подготовленность,

Sx - стандартное отклонение подготовленности в логитах.

Средняя подготовленность для 816-ти испытуемых составила 0,04, стандартное отклонение - 2,02 лонгета.

2. Преобразование оценок подготовленности из z-шкалу в 1000-балльную шкалу по формуле:

, где формула 9

Yi - балл испытуемого на 1000-балльной шкале,

Zi - балл испытуемого в z-шкале.

Обратимся к анализу получившихся данных.

После получения оценок испытуемых на общей шкале было проведено повторное шкалирование результатов тестирования с тем, чтобы определить, изменилось ли распределение учеников по уровням освоения материала. Поскольку процедура шкалирования была описана в начале данной главы, мы не будем приводить расчёты еще раз, укажем лишь получившиеся пороговые значения. Стоит отметить, что пороговые значения устанавливались отдельно для двух стран, поскольку метод одновременной калибровки предполагает наличие уникальных для каждой страны заданий, которые дают уникальный вклад в оценки подготовленности испытуемых.

Таблица 12. Распределение пороговых баллов

Таджикистан

Новгород

порог 1

409

423

порог 2

500

500

Порог 1 показывает, какое количество баллов необходимо набрать ученику (на 1000-балльной шкале) чтобы перейти на 1-ый уровень освоения материала, порог 2 - необходимое количество баллов для перехода на 2-ой уровень освоения материала.

Обратимся к рассмотрению результатов установления единой шкалы для Таджикистана и Новгородской области.

На рисунке 12 представлено распределение баллов учеников из Новгородской области и Таджикистана на 1000-балльной шкале (со средним 500 и стандартным отклонением 100). Видно, что распределение напоминает бимодальное. Ниже среднего балла в основном сконцентрировались таджикские ученики, в районе среднего и выше - новгородские.

Рис. 12. Распределение баллов учеников из Таджикистана и Новгородской области

Средняя подготовленность учеников в логитах очень близка к нулю, что говорит о том, что данный тест хорошо центрирован относительно общей группы испытуемых. Однако, это достигается за счёт того, что общими являются только 9 заданий, остальные задания (11 для России и 11 для Таджикистана) являются уникальными (см.Приложение 3). Разброс подготовленностей очень высокий, за счет соединения выборок.

средняя подготовленность

0,045502

дисперсия

4,090278

станд.отклон

2,022444

Сравнение по уровням освоения материала

Поскольку 3-ий уровень освоения материала не сформирован в Таджикистане и данные задания были удалены из анализа, сравнить распределение учеников по уровням освоения материала в Новгородской области и Таджикистане возможно только для 2-ух уровней

После установления одной шкалы распределение учеников по уровням в Новгородской области и Таджикистане изменилось.

Таблица 13. Распределение учеников по уровням освоения материала

уровень

Таджикистан

Новгород

0

0,55

0,03

1

0,44

0,26

2

0,02

0,72

Рис. 13. Распределение учеников по уровням освоения материала

В Таджикистане на 0 уровне после установления единой шкалы оказалось меньше учеников (на 0,05 - всего 223 человека), количество учеников на первом уровне освоения материала увеличилось с 0,4 до 0,44 (стало 178 человек). Также увеличилось число учеников, демонстрирующих 2-ой уровень освоения материала (до установления общей шкалы было 2 человека, после - 7). По представленным данным можно заключить, что с установлением общей шкалы оценка подготовленности таджикских учеников сдвинулась вверх. Этот же вывод справедлив и для новгородских учеников, однако, здесь разница гораздо больше: если до установления общей шкалы на 2-ом уровне освоения материала находилось около 32% учеников, то после установления общей шкалы более 70% учеников оказались на 2-ом уровне освоения материала. Это объясняется разницей подготовленности учеников из Новгорода и Таджикистана. После установления общей шкалы средняя подготовленность уменьшилась, за счет включения слабых учеников из Таджикистана, в результате чего оценка подготовленности Новгородских учеников существенно повысилась.

Обратимся к нормативной интерпретации результатов с использованием процентилей.

10-ый процентиль - 359 баллов

25-ый процентиль - 401 балл

50-ый процентиль (медиана) - 458 баллов

90-ый процентиль - 558 баллов

10% наиболее слабых учеников имеют балл от 234 до 359. 25% самых слабо подготовленных учеников имеют балл 401 и ниже. Половина испытуемых имеет балл, лежащий в пределах от 234 до 458. И, наконец, 90% опрошенных учеников набрали 558 баллов и меньше. 10% самых сильных учеников имеют балл от 558 до 647.

Посмотрим на то, как распределились студенты по процентилям с учётом страны.

Таблица 14. Процентильное распределение по странам

Процентиль

Балл

Таджикистан

Новгород

число учеников

число учеников

10-ый процентиль

359

81

1

25-ый процентиль

401

205

2

50-ый процентиль

458

370

36

90-ый процентиль

558

408

329

Ниже 359 баллов в Новгородской области получил всего 1 человек, балл, находящийся в промежутке между 359 и 401 баллами имеет также один человек. В то время как в Таджикистане в нижние 10% попали 81 человек, в следующие 15% еще 124 человека. В нижних 25% опрошенных располагаются более половины учеников из Таджикистана. 458 баллов и меньше получили 36 учеников из Новгородской области и 370 учеников из Таджикистана. В 10% учеников, имеющих наиболее высокий балл, не попал никто из Таджикистана, из Новгородской области больше 558 баллов получили 79 учеников.

Выводы

Эмпирическая часть данного исследования состояла из двух этапов:

1) Подготовительного,

2) Содержательного.

На первом этапе была заново создана база с результатами исследования в Таджикистане, создана выборка для данных, полученных в Новгородской области с тем, чтобы уравновесить размер групп. Шкалирование результатов тестирования отдельно по странам выявило большую разницу в достижениях учеников в Новгородской области и Таджикистане. В Таджикистане ни один ученик не достиг 3-его уровня освоения материала, и всего 0,4% выборки достигли 2-го уровня. В Новгородской области 3-его уровня достигли 12% учеников, 2-го уровня - 20% опрошенных. Психометрическое исследований заданий (как в рамках КТТ, так и в рамках IRT) результатов тестирования в двух странах показало, что все задания находятся в согласии с моделью Rasch. Однако 3-ий уровень освоения материала не сформирован учениками из Таджикистана, поэтому построение общей шкалы возможно только на 30 заданиях (1-ый и 2-ой уровень освоения материала).

Содержательный этап заключался в установлении эквивалентности конструктов, метода и заданий. Исследование карт конструктов российской и таджикской версий не дало достаточно информации о том, чтобы можно было сделать вывод о том, эквивалентны конструкты или нет. Однако с помощью анализа формулировок заданий на таджикском языке удалось установить, что конструкты различаются по одному разделу из пяти. Таким образом, была установлена частичная эквивалентность конструктов. Из построения общей шкалы были исключены ещё 2 задания.

Установить методную эквивалентность заданий не представляется возможным, поскольку все возможные способы, рассмотренные в первой главе данной работы, должны быть заложены при разработке инструмента.

Эквивалентность заданий устанавливалась с помощью DIF-анализа. DIF-анализ проводился с помощью 4-ёх методов: Мантель-Ханцель, Стандартизации, Логистической регрессии и t-статистики. В результате мы установили, что 11 из 28 заданий демонстрируют DIF. Мы показали, что DIF могут вызывать не только изменения в формулировке задания при переводе, но также и представление, оформление задания. Сюда входит расположение вариантов ответа и масштаб и чёткость рисунков.

Построение общей шкалы для двух стран осуществлялось методом вертикального выравнивания. Было выделено 9 заданий, которые показали близкое функционирование (как в рамках КТТ, так и в IRT), не имеют никаких искажений при переводе и в визуальном представлении, а также свободны от DIF. На основе этих 9-ти заданий была построена общая шкала. В результате подготовленность испытуемых из Новгородской области и Таджикистана оценена на одной шкале и возможно проведение сравнений по баллам на 1000-балльной шкале. Однако, пороги для распределения учеников по уровням были рассчитаны для каждой страны отдельно.

Таким образом, можно говорить о том, что достигнута частичная эквивалентность результатов тестирования SAM в Новгородской области и Таджикистане.

Заключение

Данная работа продолжает обширный ряд исследований, посвящённых вопросу сопоставимости результатов кросс-культурных исследований. В отличие от большинства исследований, мы рассматривали сопоставимость результатов тестирования, которое изначально не планировалось как кросс-культурное. Эта особенность вносит существенные коррективы в те меры установления сопоставимости, которые можно применить к тесту. Так, все меры, которые должны быть проведены до начала сбора на данных, на этапе разработки, оказываются недоступными в нашем случае. Фокусом нашего исследования была возможность установления сопоставимости результатов исследования SAM, полученных в Новгородской области и Таджикистане.

Для достижения этой цели мы в первую очередь обратились к анализу мировой практики сопоставимости результатов тестирования. В мировой практике сопоставимость результатов исследования обозначают понятием эквивалентность. Выделяется 3 вида эквивалентности: конструктная, методная и эквивалентность заданий, достижение которых позволяет говорить о сопоставимости результатов тестирования в разных странах. С помощью обзора литературы нам удалось выделить ряд мер, направленных на установление сопоставимости результатов кросс-культурных исследований.

Эмпирическая часть данного исследования была направлена на то, чтобы показать сопоставимость результатов тестирования SAM в Новгородской области и Таджикистане, используя ряд мер, сформулированных в теоретической части данной работы. Эмпирическая часть состоит из двух этапов: подготовительного и основного. В рамках подготовительного этапа было проведено исследование баз данных Новгородской области и Таджикистана, сделана выборка для Новгородской области с тем, чтобы уравновесить число испытуемых в Новгородской области и Таджикистане. Также, было показано, что в Таджикистане 3-ий уровень освоения материала не сформирован. В рамках содержательного этапа мы исследовали конструктную эквивалентность и эквивалентность заданий.

Особенностью нашей работы является то, каким образом устанавливалась конструктная эквивалентность. Мы не использовали эксплораторный и конфирматорный факторные анализы. Для установления эквивалентности использовались «карты конструкта», а также анализ перевода заданий. Нам удалось показать, что между российской и таджикской версиями существует частичная эквивалентность. В результате проведения DIF-анализа мы установили, что задания могут несправедливо оценивать испытуемых не только из-за изменения в формулировке, но также из-за разницы в представлении задания. В предыдущих исследованиях на тему эквивалентности мы не нашли указаний на то, что следует обращать внимание на представление заданий. В результате было выделено несколько заданий, на которых была построена общая шкала для Таджикистана и Новгородской области методом вертикального выравнивания.

Подводя итог, хотелось бы отметить, что установление эквивалентности между версиями теста, который изначально не задумывался как кросс-культурный, требует особой изобретательности от исследователей. Наша работа имеет несколько аспектов, которыми могут воспользоваться другие исследователи в данной области. Во-первых, мы приводим подробный анализ перевода заданий и обращаем внимание на необходимость проверки визуального представления задания, который включает в себя такие черты как шрифт, масштаб, расположение вариантов ответов и рисунки. Во-вторых, мы описываем анализ «карты конструкта», что также мало освещено в литературе на сегодняшний день. В-третьих, мы используем метод вертикального выравнивания, который не является очень распространённым, но позволяет создать одну шкалу для данных, имеющих только частичную эквивалентность. Однако, не стоит забывать, что наше исследование использовало не все потенциально доступные средства для установления сопоставимости результатов тестирования. Мы не проводили эксплораторный и конфирматорный факторные анализы, в силу специфики имеющихся данных. В дальнейшем мы планируем преодолеть это ограничение с помощью привлечения других данных: результатов тестирования SAM в Киргизии и Казахстане.

Список использованных источников

1. AERA, APA & NCME, 1999. Standards for Educational and Psychological Testing.

2. URL: << http://www.apa.org/science/programs/testing/standards.aspx>>

3. Barbara B. Ellis (1989). Differential Item Functioning: Implications for Test Translations. Journal of Applied Psychology, Vol. 74, No. 6,912-921


Подобные документы

  • Теоретическое обоснование проблемы интерпретации результатов социологических исследований. Определение и виды социологических исследований, процедура анализа их результатов. Практическое применение интерпретации данных социологических исследований.

    курсовая работа [52,3 K], добавлен 10.01.2011

  • Теоретико-методологические основы тестирования учебной деятельности при изучении преобладающих способностей человека. История развития тестирования. Обоснование программы и методов исследования социального типа личности учителей. Анализ результатов.

    курсовая работа [55,9 K], добавлен 10.01.2011

  • Теоретические основы формирования и реализации социальной политики бюджетных организаций. Исследование особенностей социальной политики в специализированных коррекционных школах-интернатах. Анализ результатов тестирования и анкетирования их воспитанников.

    дипломная работа [377,8 K], добавлен 12.10.2010

  • Анализ результатов теоретико-эмпирических исследований в области коммуникационных знаков и их связи с перформативностью. Рассмотрение классификации коммуникационных знаков по степени их перформативности, предложенной Ю. Хабермасом и И. Гофманом.

    реферат [48,0 K], добавлен 03.04.2018

  • Основные виды социологических исследований: теоретические (разведывательные, описательные, аналитические) и эмпирические (международные, общенациональные, региональные, локальные, отраслевые). Обработка результатов и анализ эмпирических данных социологии.

    контрольная работа [32,3 K], добавлен 02.08.2011

  • Сущность, значение и методика социологического исследования. Развитие эмпирических исследований, обогащающих теорию и позволяющих разрабатывать механизмы регулирования социальных процессов. Обработка и анализ результатов социологического исследования.

    курсовая работа [30,3 K], добавлен 18.12.2009

  • Понятие и типы социологических исследований, этапы их проведения, подготовительные и основные. Методы эмпирических социологических исследований, анализ и оценка, интерпретация полученных результатов, существующие проблемы и их решение, управление.

    контрольная работа [22,8 K], добавлен 14.06.2015

  • Предмет и динамика исследований ценностных ориентаций молодежи в социологии. Содержательный анализ понятия "ценностные ориентации", анализ результатов и выводы по социологическому исследованию. Успешность самореализации молодежи во всех сферах жизни.

    дипломная работа [83,2 K], добавлен 10.11.2011

  • Теоретические аспекты социологического исследования: сущность, виды, методика. Составление программы изучения социального явления или процесса; обработка результатов, выводы. Анализ исследования качества жизни населения Вологодской области, перспективы.

    курсовая работа [36,6 K], добавлен 26.09.2011

  • Исследование правовых и социально-психологических аспектов усыновления, становление международного опыта в данной сфере. Анализ, представление и интерпретация результатов эмпирического исследования по развитию рынка усыновления в России, его перспективы.

    дипломная работа [1,4 M], добавлен 17.04.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.