Главная Коллекция "Otherreferats" Психология Измерение креативности и критического мышления в начальной школе: валидизация инструмента

Измерение креативности и критического мышления в начальной школе: валидизация инструмента

Установление психометрических свойств инструмента измерения креативности и критического мышления учащихся начальной школы. Модель оценки результатов тестирования. Методология проверки валидности инструмента измерения. Психометрический анализ данных.

Рубрика	Психология
Вид	дипломная работа
Язык	русский
Дата добавления	23.09.2018
Размер файла	1,9 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Обратим внимание на крайне высокую долю неверных предсказаний на узлах компетенций Критическое мышление (34.6%; 0.74) и Креативность (37.5%; 0.79). Каждая из компетенций измерялась с учетом оценки по ее суб-компетенциям, т.е. согласно результатам только двух дочерних узлов.

Таблица 5 Показатели точности в оценках уровня компетенций

Название компетенции	Количество суб-компетенций / индикаторов	Доля ошибочных предсказаний	Доля ошибочных предсказаний с учетом неопределенности
Модель 1
Критическое мышление	2	33.7%	0.76
Креативность	2	39.2%	0.83
Вывод	8	18.2%	0.43
Анализ	6	27.7%	0.66
Любознательность	4	31.7%	0.66
Воображение	8	17.8%	0.41
Модель 2
Критическое мышление	14	12.5 %	0.29
Креативность	12	12.6 %	0.32

В исследованиях отмечается, что высокая доля ошибочных предсказаний может быть связана с недостаточным количеством индикаторов, относящихся к компетенции (Almond et al., 2007). На следующем этапе была построена модель, которая содержала только узлы компетенций Критическое мышление (14 индикаторов) и Креативность (12 индикаторов). Как видно из таблицы №5 (модель 2) доля ошибочных предсказаний снизилась до 12.5% (logarithmic loss score = 0.29) по компетенции Критическое мышление и до 12.6% (logarithmic loss score = 0.32) по компетенции Креативность.

5.3 Анализ качества функционирования индикаторов

Анализ качества отдельных индикаторов включал в себя анализ трудности индикаторов, согласно значениям маргинального распределения вероятностей; анализ вклада индикаторов в оценку компетенций, с применением показателя общей информации; и функционирование индикаторов для испытуемых с различным уровнем компетенции, с учетом значений вероятностей в таблице условных вероятностей.

Анализ трудности индикаторов. В данной работе для анализа трудности заданий будет проведен анализ маргинальных распределений вероятностей на узлах наблюдаемых переменных (индикаторов) (Almond et al., 2015). В целом, среди индикаторов наблюдается достаточный разброс показателей трудности, но в тоже время не встречаются индикаторы с экстремальными показателями. Подробное описание каждого индикатора, используемого в байесовской сети, и его психометрических свойств приведено в приложении 1.

На рисунках 8 и 9 показано, с какой вероятностью испытуемый может не справиться с элементом тестового задания - представлена вероятность получить 0 баллов по индикатору. Чем больше вероятность набрать 0 баллов, тем труднее индикатор для испытуемых. Такой подход к представлению трудности позволит сравнить индикаторы с дихотомической и политомической системой оценки и проиллюстрирует общий характер функционирования индикаторов. Вероятности набрать различные баллы по индикаторам с политомической оценкой будут рассмотрены отдельно.

Среди индикаторов, относящихся к компетенции Креативность (рис. 8), наибольшую вероятность получить 0 баллов имеет индикатор суб-компетенции Воображение, MCR2_col (Фиксируется изменение цвета монстра), т.е. именно этот индикатор может считаться самым трудным среди индикаторов этой компетенций. Наиболее легкий индикатор компетенций Креативность также относится к суб-компетенции Воображение - вероятность набрать 0 баллов по индикатору ACR2_5_1 (Фиксируется количество использованных для постройки аквариума элементов) составила .22. Для оставшихся индикаторов суб-компетенции Воображение, вероятность набрать 0 баллов оказывается чуть ниже 0.5, эти индикаторы чуть легче для испытуемых. По индикаторам суб-компетенции Любознательность вероятность набрать 0 баллов чуть выше 0.5, т.е. эти индикаторы немного труднее.

Рисунок 8. Показатели трудности индикаторов компетенции Креативность

Для компетенции Критическое мышление (рис. 9) наиболее трудный индикатор (по которому вероятность набрать 0 баллов наибольшая) - индикатор суб-компетенции Анализ ACT1_5_2 (1 - если выбирает ссылку «Как построить аквариум для крабов. Рекомендации Московского зоопарка», 0 - если любую другую ссылку). Наиболее легкие индикаторы - индикаторы суб-компетенции Вывод: ACT2_1_1 (1 - если выбраны комбинации: ЖЖ, ЖМ, МЖ, 0 - если выбрана комбинация ММ), MCT1_6_horns (1 - есть рога у первого монстра, 0 - нет рогов у первого монстра). В целом, все индикаторы оказываются немного более легкими для испытуемых.

Рисунок 9. Показатели трудности индикаторов компетенции Критическое мышление

Анализ индикаторов с политомической системой начисления баллов (DCT1_6p, MCR1_2map, MCR1_2news, MCR2_elem, MCR2_newel) показал, что вероятность набрать максимальное количество баллов достаточно мала практически по всем индикаторам. Особенно заметны с этой позиции индикатор MCR2_elem (Фиксируется количество элементов у каждого построенного монстра. Рассчитывается среднее количество используемых элементов: 0 - от 0 до 7, 1 - от 8 до 14, 2 - от 15 и больше), в котором вероятность получить 2 балла составила .03; и индикатор MCR2_newel (Начисляется по одному баллу за каждый использованный новый элемент, по отношению ко всем предыдущим вариантам, рассчитывается среднее значение для всех построенных монстров: 0 - значение среднего от 0 до 2, 1 - значение среднего от 3 до 4, 2 - значение среднего больше 5) для которого вероятность получить 2 балла составила .05.

Анализ вклада индикаторов в итоговую оценку компетенции. Показатель общей информации (MI) рассматривался для каждого индикатора по отношению к соответствующей суб-компетенции (приложение 1). Показатель общей информации имеет достаточный разброс: встречаются индикаторы с высоким, средним и низким значением (от 0.04 до 0.45), при этом, не встречаются индикаторы с экстремально низким показателем общей информации (MI <0.001).

Индикаторы, соответствующие суб-компетенции Любознательность (рис. 10а), демонстрируют значения общей информации в диапазоне от 0.04 до 0.3. Наименьшую информацию сообщает индикатор ACT1_7_1 (1 - если перешел по обеим ссылкам, 0 - если ребенок кликнул только на одну ссылку, при поиске релевантной информации). Индикаторы MCR1_2map и MCR1_2news, отражающие исследование окружающей обстановки в интерфейсе задания Монстр, сообщают приблизительно одинаковую информацию (0.3).

Рисунок 10а. Общая информация индикаторов суб-компетенции Любознательность

По компетенции Воображение, как показано на графике (рис. 10б). большая часть индикаторов имеет значение общей информации от 0.5 до 0.15, но индикатор ACR2_5_1 (фиксируется количество использованных для постройки аквариума элементов, дихотомическая оценка) сообщает неожиданно много информации - 0.45.

Рисунок 10б. Общая информация индикаторов суб-компетенции Воображение

Среди индикаторов компетенции Вывод (рис. 10в), большая часть индикаторов сообщает информацию от 0.05 до 0.2, но наблюдаются два индикатора, которые сообщают заметно большее количество информации: для индикатора ACT2_1_4 (1 - если поставил лампу в аквариум, 0 - если не поставил) показатель составил 0.32; для индикатора ACT2_1_6 (1 - если выбирает крышку; 0 - если не выбирает) - 0.38.

Рисунок 10в. Общая информация индикаторов суб-компетенции Вывод

По компетенции Анализ (рис. 10г), один индикатор демонстрирует неожиданно высокое значение общей информации: ACT1_6_dih (доля релевантных предложений, выделенных в тексте, дихотомическая оценка) - 0.34. При этом, общая информация остальных индикаторов варьируется от 0.04 до 0.08.

Рисунок 10г. Общая информация индикаторов суб-компетенции Анализ

Функционирование индикатора для испытуемых с различным уровнем компетенции. Анализ таблиц условных вероятностей позволяет оценить, различается ли вероятность справиться или не справиться с заданием у респондентов с разным уровнем компетенции - позволяет ли индикатор различать респондентов с разным уровнем креативности и критического мышления?

Анализ таблиц условных вероятностей индикаторов позволил выделить несколько групп индикаторов в зависимости от функционирования для испытуемых различных уровней компетенции (таблицы условных вероятностей каждого индикатора с комментариями приведены в приложении 1). Так, были обнаружены четыре индикатора (DCT1_5_1, ACR2_5_1, ACR2_5_4, MCR2_5mnewcolor), для которых вероятность набрать максимальный балл сильно отличалась для испытуемых со средним и низким уровнем, но крайне мало отличалась для испытуемых с высоким и средним уровнем. Такие индикаторы характеризуются как слабо дифференцирующие испытуемых на среднем и низком уровне. Например, рассмотрим таблицу условных вероятностей индикатора DCT1_5_1 (1 - первый клик по «Энциклопедия динозавров», 0 - первый клик по любой другой ссылке) (табл. 6). Вероятность набрать один балл для испытуемых с высоким уровнем (.67) слабо отличается от вероятности набрать один балл для испытуемых со средним уровнем (.6), при этом, вероятность набрать один балл сильно уменьшается для испытуемых с низким уровнем (.37).

Таблица 6 Таблица условных вероятностей индикатора DCT1_5_1

	1 балл	0 баллов
Высокий уровень	.67	.33
Средний уровень	.6	.4
Низкий уровень	.37	.63

Следующая группа индикаторов характеризуется сильной дифференцирующей способностью для испытуемых с высоким и средним уровнем, но слабой для испытуемых со средним и низким уровнем. К таким индикаторам относятся ACT2_4_1, DCT1_7_1, DCT1_6p, ACR1_2_1. Например, таблица условных вероятностей индикатора ACR1_2_1 (1 - если кликает на кнопку “подробнее” в описании одного или двух крабов, 0 - не кликает на кнопку “подробнее”) приведена в таблице 7. Вероятность набрать один балл для испытуемых с высоким уровнем сильно превышает вероятность набрать один балл для испытуемых со средним и низким уровнем.

Таблица 7 Таблица условных вероятностей индикатора ACR1_2_1

	1 балл	0 баллов
Высокий уровень	.59	.41
Средний уровень	.19	.81
Низкий уровень	.16	.83

Индикаторы MCR1_2map, MCR1_2news, DCT1_6p, MCR2_elem и MCR2_newel предполагали политомическую оценку. Для них вероятность набрать максимальный балл оказалась очень мала, даже для испытуемых с высоким уровнем компетенции. Также, индикаторы MCR1_2map и MCR1_2news продемонстрировали, что испытуемые с высоким уровнем компетенции имеют приблизительно одинаковую вероятность набрать 0, 1, 2 или 3 балла. Например, согласно таблице условных вероятностей индикатора, MCR1_2news (табл. 8), для испытуемых на высоком уровне вероятность набрать 3 балла почти совпадает с вероятностью набрать 0 баллов. Вероятность набрать более одного балла для испытуемых со средним уровнем не превышает .11, а испытуемые с низким уровнем почти наверняка получат 0 баллов по индикатору.

Таблица 8 Таблица условных вероятностей индикатора MCR1_2news

	3 балла	2 балла	1 балл	0 баллов
Высокий уровень	.31	.14	.23	.3
Средний уровень	.03	.08	.16	.7
Низкий уровень	.00	.02	.04	.96

Индикатор DCT1_6p также продемонстрировал нарушения в функционировании системы начисления баллов - вероятность справиться с элементом тестового задания не возрастает с увеличением уровня компетенций (табл. 9): вероятность получить 0 по данному индикатору максимальна для испытуемых со средним уровнем компетенции, вероятности получить 0 баллов очень близки для испытуемых с высоким и низким уровнем.

Таблица 9 Таблица условных вероятностей индикатора DCT1_6p

	2 балла	1 балл	0 баллов
Высокий уровень	0.2	0.49	0.32
Средний уровень	0.05	0.36	0.59
Низкий уровень	0.04	0.46	0.5

Далее рассмотрим особенности функционирования индикаторов, в вероятность справиться с которыми вкладывается контекст задания - индикаторы, которые характеризуют облик монстра (MCT2_1_1, MCT16HOR, MCR2_ELEM, MCR2_OTHER, MCR2_NEWEL, MCR2_COL, MCR2_MROT). Таблицы условных вероятностей этих индикаторов позволяют оценить, насколько вклад контекста изменяет вероятность получить максимальный балл за задание для испытуемых с разным уровнем способности. Отношения между контекстом и компетенцией моделировались как компенсаторные, поэтому ожидается, что вклад контекста будет увеличивать вероятность набрать максимальный балл, но без вклада контекста вероятность справиться с элементом задания должна сохраняться.

Так, для двух индикаторов (MCR2_3_newel, MCR2_5_elements) контекст имеет очень большой вклад в вероятность набрать максимальный балл. Например, рассмотрим таблицу условных вероятностей индикатора MCR2_5_elements (Фиксируется количество элементов у каждого построенного монстра. Рассчитывается среднее количество используемых элементов, 0 - от 0 до 7, 1 - от 8 до 14, 2 - от 15 и больше; табл. 10). Вероятность набрать 2 балла крайне низка при отсутствии вклада контекста, даже для испытуемых с высоким уровнем воображения.

Таблица 10 Таблица условных вероятностей индикатора MCR2_5_elements

Контекст	Суб-компетенция Воображение	2 балла	1 балл	0 баллов
Есть вклад	Высокий уровень	.68	.18	.14
Есть вклад	Средний уровень	.3	.27	.43
Есть вклад	Низкий уровень	.12	.13	.75
Нет вклада	Высокий уровень	.04	.75	.21
Нет вклада	Средний уровень	.01	.39	.6
Нет вклада	Низкий уровень	.01	.55	.44

В качестве примера индикатора, для которого вклад контекста невелик, можно рассмотреть таблицу условных вероятностей индикатора MCT2_1_1 (Для монстра с новыми условиями фиксируется наличие элемента из категории Разное, соответствующее крыльям 1 - в собранном монстре есть хотя бы одно крыло, 0 - в собранном монстре нет крыльев). Согласно значениям в таблице 11, вероятность набрать 1 балл для респондентов с высоким уровнем не сильно отличается при наличии и отсутствии вклада контекста.

Таблица 11 Таблица условных вероятностей индикатора MCT2_1_1

Контекст	Суб-компетенция Вывод	1 балл	0 баллов
Есть вклад	Высокий уровень	.77	.23
Есть вклад	Средний уровень	.52	.48
Есть вклад	Низкий уровень	.07	.93
Нет вклада	Высокий уровень	.71	.29
Нет вклада	Средний уровень	.33	.67
Нет вклада	Низкий уровень	.36	.63

Также обратим отдельное внимание на характер распределения вероятностей для индикатора, который имеет функциональную зависимость с другим индикатором (индикатор ACT2_1_plant выступает пререквизитом для индикатора ACR2_5_plant). В таблице 12 показано, как меняется вероятность справиться с индикатором ACR2_5_plant при изменении уровня компетенции и успешности выполнения элемента задания ACT2_1_plant. В случае, если испытуемый набирает 0 балл по индикатору ACT2_1_plant, то вероятность набрать 1 балл по индикатору ACR2_5_plant приближена к нулю. В противном случае, если испытуемый набрал 1 балл по индикатору ACR2_5_plant, то вероятность получить 1 балл по индикатору ACR2_5_plant будет определяться уровнем компетенции.

Таблица 12 Таблица условных вероятностей индикатора ACR2_5_plant

Балл по индикатору ACT2_1_plant	Суб-компетенция Воображение	1 балл	0 баллов
1 балл	Высокий уровень	.87	.13
1 балл	Средний уровень	.59	.41
1 балл	Низкий уровень	.2	.78
0 баллов	Высокий уровень	.01	.99
0 баллов	Средний уровень	.01	.99
0 баллов	Низкий уровень	.01	.99

Глава 6. Обсуждение полученных результатов

Целью данной работы выступало установление психометрических свойств инструмента измерения креативности и критического мышления в начальной школе. Инструмент измерения представлял собой задания сценарного типа, что продиктовано комплексной природой компетенций (Claro & Ananiadou, 2009).

Для достижения заявленной цели, были проанализованы требования к психометрическому качеству инструментов измерения сценарного типа. Было установлено, что требования к валидности инструмента продиктованы не его форматом, а общими требованиями качества инструментов измерения, принятыми в психологическом и образовательном тестировании.

Однако, тестовые задания сценарного типа, направленные на измерение комплексных конструктов, требуют большей гибкости статистических моделей, что продиктовано возникновением дополнительных связей между различными элементами сценария и многокомпонентной структурой оцениваемых компетенций. Также релевантные заданиям сценарного типа статистические модели должны служить целям тестирования - должны позволять сообщать информацию о выраженности компетенций. Выбор и построение таких моделей - отдельный важный этап измерения ненаблюдаемых конструктов (West, 2010).

Для оценки результатов тестирования при применении инструмента измерения креативности и критического мышления наиболее релевантной моделью оценивания результатов выступали байесовские сети. В данной работе была построена байесовская сеть, отражающая концептуальную рамку инструмента, и были проверены особенности ее функционирования: оценена точность, с которой модель позволяет определить уровень компетенции и проанализировано качество элементов тестовых заданий, на которых строилось оценивание.

В целом, проведенный в данной работе анализ позволил установить психометрические свойства, заявленные в методологической рамке проверки валидности, и вынести рекомендации по улучшению качества инструмента.

Методологическая рамка проверки валидности включала три аспекта: анализ согласованности теоретических представлений о структуре компетенций и эмпирических данных; анализ точности, с которой модель определяет уровень компетенции испытуемых; и анализ качества функционирования индикаторов (элементов тестового задания, на которых строится оценивание).

В результате проверки согласованности теоретической рамки компетенций с реально полученными данными была подтверждена теоретически ожидаемая структура компетенций (согласно концептуальной рамке, компетенция Креативность включала суб-компетенции Любознательность и Воображение; компетенция Креативность - суб-компетенции Вывод и Анализ; при этом компетенции рассматривались как связанные между собой). Однако, высокая связь между компетенцией Критическое мышление и суб-компетенцией Вывод (.96) требует дополнительного внимания при дальнейшей работе с теоретической рамкой. Такие высокие показатели связи компетенции и суб-компетенции могут свидетельствовать о том, что конструкты мало различимы между собой. Также требуются дальнейшие исследования, направленные на уточнение факторной структуры компетенций и отношений между компетенциями и суб-компетенциями: сравнение иерархических и неирархических моделей; моделей, в которых отношения компетенций и суб-компетенций некомпенсаторные.

При анализе факторной структуры был обнаружен дополнительный источник общей дисперсии для элементов, которые составляли разные аспекты одного продукта деятельности испытуемого. В частности, действия испытуемых на индикаторах, которые относились к общему облику монстра, определялись не только выраженностью компетенций, но дополнительным фактором, который в работе был назван фактором «контекста» (Almond et al., 2009; Toland et al., 2017).

Включение в модель такого дополнительного фактора позволило значительно улучшить психометрические свойства модели и устранить угрозу локальной зависимости. Однако причина возникновения такого фактора требует дополнительных исследований - стоит ли за фактором контекста некий дополнительный латентный конструкт? Например, в данном случае, облик монстра может определяться не только выраженностью креативности и критического мышления, но заинтересованностью ребенка в создании монстра, желанием ребенка справиться с заданием (помочь сыщикам города найти преступника-монстра), или более общими характеристиками испытуемых, как например, сопротивление преждевременному завершению.

Анализ точности, с которой инструмент позволяет определить уровень компетенций испытуемых, показал высокую долю ошибочных предсказаний. Такая характеристика модели может быть объяснена недостаточным количеством наблюдаемых переменных. Как было показано, доля ошибочных предсказаний была заметно уменьшена при укрупнении оцениваемых компетенций, т.е. при увеличении количества индикаторов для оцениваемой компетенции за счет объединения суб-компетенций. Согласно полученным результатам, достижение приемлемой точности возможно при увеличении количества индикаторов примерно в два раза. Такие результаты важны для дальнейшей разработки инструмента измерения: при создании сценариев заданий, количество используемых в оценивании элементов может быть рассчитано заранее и при их недостаточном количестве создатели теста смогут внести необходимые изменения.

Анализ качества функционирования индикаторов позволил внести уточнения в теоретическую рамку компетенций и вынести практические рекомендации по улучшению качества инструмента. Поскольку в рамках компетентностного подхода ключевую роль играют наблюдаемые действия испытуемого, нарушения в функционировании индикаторов могут свидетельствовать о несоответствии наблюдаемого действия измеряемой компетенции. Иными словами, анализ индикаторов позволяет выявить релевантные наблюдаемые проявления компетенции. Кроме того, анализ функционирования индикаторов позволяет выявить возможные нарушения в форме предъявления тестового задания из-за особенностей интерфейса или структуры сценария. Результаты анализа функционирования индикаторов показали, что в целом, индикаторы демонстрируют хорошие психометрические свойства (не экстремальные значения трудности, достаточный вклад в оценивание конструкта, достаточная различительная способность для испытуемых с разным уровнем компетенции). В то же время, были обнаружены индикаторы, которые функционируют хуже и требуют дополнительного внимания. К таким относятся индикаторы, нерелевантные заявленной компетенции; индикаторы, сильно подверженные вкладу контекста и сильно зависящие от интерфейса задания; индикаторы, сообщающие неожиданно много информации и индикаторы с нарушениями в функционировании системы начисления баллов. Подробное описание индикаторов, демонстрирующих различные нарушения в функционировании, приведено в приложении 2.

С позиции практической значимости, психометрический анализ, проведенный в данной работе, позволил выявить слабые и сильные стороны инструмента измерения креативности и критического мышления. Результаты работы сообщают эмпирически обоснованную информацию о функционировании сценариев тестовых заданий и позволяют вынести практические рекомендации по улучшению инструмента. Кроме того, анализ показал необходимость увеличения количества наблюдаемых элементов, используемых в оценивании.

Заключение

Измерение комплексных конструктов с использованием таких инструментов измерения как задания сценарного типа - довольно новый подход в психологическом и образовательном тестировании. Многие аспекты проверки психометрических свойств инструментов такого типа (например, методы оценки согласованности теоретических представлений о структуре конструктов и эмпирических данных, критические значения трудности, дискриминативности, общей информации индикаторов) находятся на этапе активной разработки и требуют дальнейших исследований.

Установление психометрических свойств инструмента измерения сценарного типа - процесс, требующий большого внимания к деталям концептуальной рамки тестирования. В этом процессе важно учитывать, как теоретически ожидаемую структуру компетенций, так и внутреннюю структуру инструмента измерения, и цель тестирования.

В результате данной работы были получены эмпирические подтверждения теоретически ожидаемой факторной структуры компетенций креативность и критическое мышление, рассмотрены особенности функционирования элементов заданий и вынесены предложения дальнейшей доработки сценариев.

Доказательство валидности инструмента требует дальнейших исследований, которые должны включать более глубокий анализ факторной структуры с интерпретацией фактора контекста, выявление угроз локальной независимости между индикаторами, а также доказательства валидности инструмента с позиции соответствия внешнему критерию и отсутствия несправедливого функционирования по отношению к различным группам испытуемых (гендерным, социально-экономическим и т.д.).

Библиография

1. Авдеева, С. М., Руднев, М. Г., Васин, Г. М., Тарасова, К. В., и Панова, Д. М. (2017). Оценка информационно-коммуникационной компетентности учащихся. Вопросы образования // Educational Studies, (4), 104-132.

2. Блонский, П. П. (1964). Избранные психологические произведения (Просвещение). Москва.

3. Бояцис, Р. (2008). Компетентный менеджер. Модель эффективной работы: [пер. с англ.]. ХИППО Публ.

4. Летова, Л. В. (2013). Объективные измерения и моделирование латентных величин в образовании. Образование и наука, (8). Извлечено от https://cyberleninka.ru/article/n/obektivnye-izmereniya-i-modelirovanie-latentnyhvelichin-v-obrazovanii

5. Осин, Е. Н., Рассказова, Е. И. (2013). Краткая версия теста жизнестойкости: психометрические характеристики и применение в организационном контексте. Вестник Московского университета. Серия 14: Психология, (2).

6. Остапенко, Р. И. (2012). Латентное в социо-гуманитарном знании: понятие и классификация. Современные научные исследования и инновации, 7. Извлечено от http://web.snauka.ru/issues/2012/07/15845

7. Суворова, А. В., Тулупьева, Т. В., Тулупьев, А. Л., Сироткин, А. В., и Пащенко, А. Е. (2012). Вероятностные графические модели социально-значимого поведения индивида, учитывающие неполноту информации. Труды СПИИРАН, 3(22), 101-112.

8. Хлопотов, М. В. (2014). Применение байесовской сети при построении моделей для оценки уровня сформированности компетенций. Интернет-журнал Науковедение, (5 (24)). Извлечено от https://cyberleninka.ru/article/n/primenenie-bayesovskoy-seti-pri-postroenii-modeley-dlya-otsenki-urovnya-sformirovannosti-kompetentsiy

9. Almond, R. G. (1995). Graphical Belief Modeling. CRC Press.

10. Almond, R. G., DiBello, L. V., Moulder, B., & Zapata-Rivera, J. D. (2007). Modeling Diagnostic Assessments with Bayesian Networks. Journal of Educational Measurement, 44(4), 341-359. https://doi.org/10.1111/j.1745-3984.2007.00043.x

11. Almond, R. G., Mislevy, R. J., Steinberg, L. S., Yan, D., & Williamson, D. M. (2015). Bayesian Networks in Educational Assessment. New York, NY: Springer New York. https://doi.org/10.1007/978-1-4939-2125-6

12. Almond, R. G., Mulder, J., Hemat, L. A., & Yan, D. (2009). Bayesian Network Models for Local Dependence among Observable Outcome Variables. Journal of Educational and Behavioral Statistics, 34(4), 491-521. https://doi.org/10.3102/1076998609332751

13. Almond, R., & Almond, M. R. (2015). Package `CPTtools'

14. Almond, R., Kim, Y. J., Shute, V. J., & Ventura, M. (2013). Debugging the evidence chain. В 2013 UAI Application Workshops: Big Data meet Complex Models and Models for Spatial, Temporal and Network Data (Association for Uncertainty in Artificial Intelligence).

15. Almond, R., Yan, D., & Hemat, L. (2007). PARAMETER RECOVERY STUDIES WITH A DIAGNOSTIC BAYESIAN NETWORK MODEL. Behaviormetrika, 35(2), 159-185. https://doi.org/10.2333/bhmk.35.159

16. Almond, R. G. (2015). An irt-based parameterization for conditional probability tables. В Proceedings of the Twelfth UAI Conference on Bayesian Modeling Applications Workshop-Volume 1565 (сс. 14-23). CEUR-WS. org.

17. Anderson, R. D., & Vastag, G. (2004). Causal modeling alternatives in operations research: Overview and application. European Journal of Operational Research, 156(1), 92-109. https://doi.org/10.1016/S0377-2217(02)00904-9

18. Barendse, M. T., Oort, F. J., & Timmerman, M. E. (2015). Using Exploratory Factor Analysis to Determine the Dimensionality of Discrete Responses. Structural Equation Modeling: A Multidisciplinary Journal, 22(1), 87-101. https://doi.org/10.1080/10705511.2014.934850

19. Bickel, J. E. (2007). Some Comparisons among Quadratic, Spherical, and Logarithmic Scoring Rules. Decision Analysis, 4(2), 49-65. https://doi.org/10.1287/deca.1070.0089

20. Brooks, S. P. (1998). Markov Chain Monte Carlo Method and Its Application. Journal of the Royal Statistical Society. Series D (The Statistician), 47(1), 69-100.

21. Brown, T. A. (2006). Confirmatory Factor Analysis for Applied Research. Guilford Press. Извлечено от https://books.google.co.in/books?id=KZwDkH2G2PMC

22. Claro, M., & Ananiadou, K. (2009). 21st Century Skills and Competences for New Millennium Learners in OECD Countries (OECD Education Working Papers No. 41). https://doi.org/10.1787/218525261154

23. Crocker, L. M., & Algina, J. (1986). Introduction to classical and modern test theory. Holt, Rinehart, and Winston. Извлечено от https://books.google.ru/books?id=tfgkAQAAMAAJ

24. Cronbach, L. J. (1971). Test validation. Educational measurement.

25. Culbertson, M. J. (2016). Bayesian Networks in Educational Assessment: The State of the Field. Applied Psychological Measurement, 40(1), 3-21. https://doi.org/10.1177/0146621615590401

26. David, N. (2008). Law of Total Probability (SSRN Scholarly Paper No. ID 1310502). Rochester, NY: Social Science Research Network. Извлечено от https://papers.ssrn.com/abstract=1310502

27. de Klerk, S., Eggen, T. J. H. M., & Veldkamp, B. P. (2016). A methodology for applying students' interactive task performance scores from a multimedia-based performance assessment in a Bayesian Network. Computers in Human Behavior, 60, 264-279. https://doi.org/10.1016/j.chb.2016.02.071

28. de Klerk, S., Veldkamp, B. P., & Eggen, T. J. H. M. (2015). Psychometric analysis of the performance data of simulation-based assessment: A systematic review and a Bayesian network example. Computers & Education, 85, 23-34. https://doi.org/10.1016/j.compedu.2014.12.020

29. Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39(1), 1-38.

30. Efron, B. (2013). Mathematics. Bayes' theorem in the 21st century. Science (New York, N.Y.), 340(6137), 1177-1178. https://doi.org/10.1126/science.1236536

31. Ercikan, K., & Oliveri, M. E. (2016). In Search of Validity Evidence in Support of the Interpretation and Use of Assessments of Complex Constructs: Discussion of Research on Assessing 21st Century Skills. Applied Measurement in Education, 29(4), 310-318. https://doi.org/10.1080/08957347.2016.1209210

32. Evers, A., Sijtsma, K., Lucassen, W., & Meijer, R. R. (2010). The Dutch Review Process for Evaluating the Quality of Psychological Tests: History, Procedure, and Results. International Journal of Testing, 10(4), 295-317. https://doi.org/10.1080/15305058.2010.518325

33. Facione, P. (1990). Critical thinking: A statement of expert consensus for purposes of educational assessment and instruction (The Delphi Report).

34. Finch, W. H. (2011). A Comparison of Factor Rotation Methods for Dichotomous Data. Journal of Modern Applied Statistical Methods, 10(2), 549-570. https://doi.org/10.22237/jmasm/1320120780

35. Fox, J. P. (2010). Bayesian Item Response Modeling. New York, NY: Springer New York. https://doi.org/10.1007/978-1-4419-0742-4

36. Griffin, P., McGaw, B., & Care, E. (2012). Assessment and Teaching of 21st Century Skills. Dordrecht: Springer Netherlands. https://doi.org/10.1007/978-94-007-2324-5

37. Guilford, J. P. (1936). Psychometric Methods. McGraw-Hill.

38. Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory. SAGE.

39. Jeffreys, H. (1998). The Theory of Probability. OUP Oxford.

40. Junker, B. W., & Sijtsma, K. (2001). Cognitive Assessment Models with Few Assumptions, and Connections with Nonparametric Item Response Theory. Applied Psychological Measurement, 25(3), 258-272. https://doi.org/10.1177/01466210122032064

41. Kim, Y. J., Almond, R. G., & Shute, V. J. (2016). Applying Evidence-Centered Design for the Development of Game-Based Assessments in Physics Playground. International Journal of Testing, 16(2), 142-163. https://doi.org/10.1080/15305058.2015.1108322

42. Klingler, K. (2015). Structural equation modelling with latent variables - evidence from a Monte Carlo study. Dьsseldorf?: Universitдts- und Landesbibliothek der Heinrich-Heine-Universitдt Dьsseldorf.

43. Lai, E. R. (2011). Critical thinking: A literature review. Pearson's Research Reports, 6, 40-41.

44. Ledesma, R. D., & Valero-Mora, P. (2007). Determining the Number of Factors to Retain in EFA: an easy-to- use computer program for carrying out Parallel Analysis. Exploratory Factor Analysis, 12(2), 11.

45. Levy, F., & Murnane, R. (2005). How computerized work and globalization shape human skill demands. Cambridge, MA: Harvard University, Department of Urban Studies and Planning.

46. Levy, R. (2006). Posterior predictive model checking for multidimensionality in item response theory and Bayesian networks.

47. Levy, R. (2013). Psychometric and Evidentiary Advances, Opportunities, and Challenges for Simulation-Based Assessment. Educational Assessment, 18(3), 182-207. https://doi.org/10.1080/10627197.2013.814517

48. Liu, C. L. (2009). SELECTING BAYSIAN-NETWORK MODELS BASED ON SIMULATED EXPECTATION. Behaviormetrika, 36, 1-25. https://doi.org/10.2333/bhmk.36.1

49. Lucas, B., Claxton, G., & Spencer, E. (2013). Progression in Student Creativity in School.

50. Messick, S. (1989). Meaning and Values in Test Validation: The Science and Ethics of Assessment. Educational Researcher, 18(2), 5-11. https://doi.org/10.3102/0013189X018002005

51. Messick, S. (1992). The Interplay of Evidence and Consequences in the Validation of Performance Assessments. ETS Research Report Series, 1992(1), i-42. https://doi.org/10.1002/j.2333-8504.1992.tb01470.x

52. Messick, S. (1994). Alternative Modes of Assessment, Uniform Standards of Validity1. ETS Research Report Series, 1994(2), i-22. https://doi.org/10.1002/j.2333-8504.1994.tb01634.x

53. Mislevy, R. J. (1986). Bayes modal estimation in item response models. Psychometrika, 51(2), 177-195.

54. Mislevy, R. J., Almond, R. G., & Lukas, J. F. (2003). A brief introduction to evidence-centered design. ETS Research Report Series, 2003(1).

55. Mislevy, R. J., Almond, R. G., Dibello, L., Jenkins, F., Steinberg, L., Yan, D., & Senturk, D. (2002). Modeling Conditional Probabilities in Complex Educational Assessments. CSE Technical Report.

56. Mukherjee, S., & Speed, T. P. (2008). Network inference using informative priors. Proceedings of the National Academy of Sciences, 105(38), 14313-14318. https://doi.org/10.1073/pnas.0802272105

57. Muthйn, B. O. (1989). Dichotomous factor analysis of symptom data. Sociological Methods & Research, 18(1), 19-65

58. Norsys, Inc. (2004). Netica [Computer software manual]. Retrieved from http://www.norsys.com.

59. Paul, R. (1992). Critical thinking: What, why, and how. New directions for community colleges, 1992(77), 3-24.

60. Pearl, J. (1988). Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann.

61. Polyak, S. T., von Davier, A. A., & Peterschmidt, K. (2017). Computational Psychometrics for the Measurement of Collaborative Problem Solving Skills. Frontiers in psychology, 8, 2029.

62. Quality Assurance Agency. (2008). The framework for higher education qualifications in England, Wales and Northern Ireland: August 2008. Mansfield, England: Author.

63. Razzouk, R. (2011). Using evidence-centered design for developing valid assessments of 21st century skills. Bellevue, WA: Edvation. com. Google Scholar.

64. Rigdon, S. E., & Tsutakawa, R. K. (1983). Parameter estimation in latent trait models. Psychometrika, 48(4), 567-574.

65. Rutstein, D. W. (2012). Measuring Learning Progressions Using Bayesian Modeling in Complex Assessments. ProQuest LLC.

66. Samejima, F. (1997). Graded Response Model. В Handbook of Modern Item Response Theory (сс. 85-100). Springer, New York, NY. https://doi.org/10.1007/978-1-4757-2691-6_5

67. Scott C. L. The futures of learning 2: What kind of learning for the 21st century //Education research and foresight working papers. Paris: UNESCO. - 2015.

68. Shute, V. J., Masduki, I., Donmez, O., Dennen, V. P., Kim, Y.-J., Jeong, A. C., & Wang, C.-Y. (2010). Modeling, Assessing, and Supporting Key Competencies Within Game Environments. В D. Ifenthaler, P. Pirnay-Dummer, & N. M. Seel (Ред.), Computer-Based Diagnostics and Systematic Analysis of Knowledge (сс. 281-309). Boston, MA: Springer US. https://doi.org/10.1007/978-1-4419-5662-0_15

69. Shute, V. J., Ventura, M., Bauer, M., & Zapata-Rivera, D. (2009). Melding the power of serious games and embedded assessment to monitor and foster learning. Serious games: Mechanisms and effects, 2, 295-321.

70. Sinharay, S. (2006). Bayesian item fit analysis for unidimensional item response theory models. British Journal of Mathematical & Statistical Psychology, 59(2), 429-449. https://doi.org/10.1348/000711005X66888

71. Sinharay, S., & Almond, R. G. (2007). Assessing Fit of Cognitive Diagnostic Models A Case Study. Educational and Psychological Measurement, 67(2), 239-257. https://doi.org/10.1177/0013164406292025

72. Srinivas, S. (2013). A Generalization of the Noisy-Or Model. arXiv:1303.1479 [cs]. Извлечено от http://arxiv.org/abs/1303.1479

73. Steinberg, L. S., Mislevy, R. J., Almond, R. G., Baird, A. B., Cahallan, C., Dibello, L. V., ... & Kindfield, A. C. H. (2003). Introduction to the biomass project: An illustration of evidence-centered assessment design and delivery capability. Center for the Study of Evaluation National Center for Research on Evaluation, Standards, and Student Testing. LA, CA: CSE Report, 609.

74. Sternberg, R. J. (1986). Critical Thinking: Its Nature, Measurement, and Improvement.

75. Swaminathan, H., & Gifford, J. A. (1982). Bayesian estimation in the Rasch model. Journal of Educational Statistics, 7(3), 175-191.

76. Tabachnick, B. G., & Fidell, L. S. (2007). Using multivariate statistics (5th ed.). Boston, MA, : Allyn & Bacon/Pearson Education

77. Toland, M. D., Sulis, I., Giambona, F., Porcu, M., & Campbell, J. M. (2017). Introduction to bifactor polytomous item response theory analysis. Journal of School Psychology, 60, 41-63. https://doi.org/10.1016/j.jsp.2016.11.001

78. Torrance, E. P. (1972). Predictive validity of the Torrance tests of creative thinking. The Journal of creative behavior, 6(4), 236-262.

79. Treffinger, D. J., Young, G. C., Selby, E. C., & Shepardson, C. (2002). Assessing Creativity: A Guide for Educators. National Research Center on the Gifted and Talented.

80. West, P., Rutstein, D. W., Mislevy, R. J., Liu, J., Choi, Y., Levy, R., … Behrens, J. T. (2010). A Bayesian Network Approach to Modeling Learning Progressions and Task Performance. CRESST Report 776. National Center for Research on Evaluation, Standards, and Student Testing (CRESST).

81. Williamson, D. M., & Almond, R. G. (2000). Model Criticism of Bayesian Networks with Latent Variables, 10.

82. World Economic Forum Report. New vision for education. URL: http://www3.weforum.org/docs/WEF_New_Vision_for_Education.pdf

83. Ximйnez, C. (2016). Recovery of Weak Factor Loadings When Adding the Mean Structure in Confirmatory Factor Analysis: A Simulation Study. Frontiers in Psychology, 6. https://doi.org/10.3389/fpsyg.2015.01943

84. Yen, W. M. (1993). Scaling Performance Assessments: Strategies for Managing Local Item Dependence. Journal of Educational Measurement, 30(3), 187-213. https://doi.org/10.1111/j.1745-3984.1993.tb00423.x

Приложение 1

Индикаторы тестовых заданий и их психометрические характеристики

№п/п	Компетенция: суб-комптенция	Интерфейс экрана	Название индикатора	Правила начисления балла	Классическая трудность	Таблица маргинального распределения вероятностей индикаторов	Стандартизированные факторные нагрузки (КФА)	Показатель общей информации	Таблица условных вероятностей индикаторов (комментарий)
1	Креативность: любознательность		ACR1_2_1	1 - если кликает на кнопку “подробнее” в описании одного или двух крабов 0 - не кликает на кнопку “подробнее”	0,30		0.678	0.14	(сильно дифференцирует испытуемых с высоким и средним уровнем; слабо дифференцирует со средним и высоким)
2			ACT1_7_1	1 - если перешел по обеим ссылкам 0 - если ребенок кликнул только на одну ссылку	0,46		0.384	0.04	(позволяет дифференцировать испытуемых на высоком, среднем и низком уровнях)
3			MCR1_2map	2 - из основного экрана клик на карту И клик на объект внутри карты 1 - из основного экрана клик на карту 0 - не кликает на карту	0,20		0.442	0.29	(испытуемые на высоком уровне имеют примерно одинаковую вероятность набрать 0, 1 или 2 балла; индикатор позволяет дифференцировать испытуемых со средним и низким уровнем; ответные категории «two» и «one» слабо разделимы между собой для испытуемых со средним и низким уровнем)
4			MCR1_2news	3 - клик на «Новости города» И на «Холодное преступление» И на «Помогите починить фонтан» 2 - клик на «Новости города» И [на «Холодное преступление» ИЛИ на «Помогите починить фонтан»] 1 - клик ТОЛЬКО на «Новости города» 0 - НЕ кликал на «Новости города»	0,16		(удаление из модеди КФА - непозитивно определённая матрица ковариаций)	0.29	(испытуемые на высоком уровне имеют примерно одинаковую вероятность набрать 0, 1, 2 или 3 балла; позволяет дифференцировать испытуемых со средним и низким уровнем; ответные категории «three», «two», «one» слабо разделимы между собой для испытуемых со средним и низким уровнем)

№п/п	Компетенция: суб-комптенция	Интерфейс экрана	Название индикатора	Правила начисления балла	Классическая трудность	Таблица маргинального распределения вероятностей индикаторов	Стандартизир. факторная нагрузка модели КФА	Показатель общей информации	Таблица условных вероятностей индикаторов (комментарий)
1	Креативность: воображение		ACR2_5_	Фиксируется количество использованных для постройки аквариума элементов - всего 1 - больше 5 0 - 5 и меньше (5 - минимальное количество обязательных элементов)	0,73		(удалие из модели КФА - непозитивно определённая матрица ковариаций)	0.47	(сильно дифференцирует испытуемых со средним и низким уровнем; позволяет дифференцировать испытуемых со средним и высоким уровнем)
2			ACR2_5_4	1 - если испытуемый поставил более 1 элемента из категории Украшения 0 - если только 1 или 0 элементов из категории Украшения	0,51		0.245	0.1	(сильно дифференцирует испытуемых со средним и низким уровнем; слабо дифференцирует испытуемых со средним и высоким уровнем; вероятность набрать 1 балл максимальна для испытуемых со средним, а не высоким уровнем)
3			ACR2_5_plant	1 - если использовал БОЛЕЕ 1 водорослей 0 - если использовал 1 водоросль или 0 водорослей.	0,49		(удаление из конфирматроной модели - функциональная зависимость с пермеенной ACT2_1_plant)	0.14	(возможность получить 1 балл появляется, если испытуемый получил 1 балл по индикатору ACT2_1_plant; если по индикатору ACT2_1_plant 1 балл получен, дифференцирует испытуемых с высоким, средним и низким уровнем)
4			MCR2_elem (MCR2_5_elements)	Фиксируется количество элементов у каждого построенного монстра. Рассчитывается среднее количество используемых элементов 0 - от 0 до 7 1 - от 8 до 14 2 - от 15 и больше	0,35		0.421	0.09	(вклад контекста: низкая вероятность набрать 2 балла объясняется вкладом контекста в вероятность выполнить задание [нижние три строки таблицы]; если вклад контекста присутсвует [верхние три строки таблицы], индикатор дифференцирует респодентов на высоком, низком среднем уровне)
5			MCR2_OTHER (MCR2_2mother)	Первый шаг. Для каждого монстра рассчитывается 1 - количество элементов из категории Разное больше 1 0 - нет элементов категории Разное 999 - испытуемый не строил монстра (это нужно если испытуемый построил меньше 6 монстров) Второй шаг. В итоговую переменную идет расчёт среднего по этим переменным: 1 - значение 0,5 и больше 0 - менее 0,5	0,62		0.298	0.05	(при вкладе контекста вероятность набрать один балл увеличивается и становится очень высокой, даже для испытуемых с низким уровнем; без вклада контекста повзволяет дифференцировать респондентов с высоким, средним и низким уровнем)
6			MCR2_newel (MCR2_3_newel)	Первый шаг: Начисляется по одному баллу за каждый использованный новый элемент, по отношению ко всем предыдущим вариантам. Например, если испытуемый во втором монстре выбрал новые конечности (которые не использовал в первом монстре) и добавляет усы, которых не было, он получает 2 балла. Если в третьем монстре он использовал какой-то 1 новый элемент, который не использовал в двух предыдущих монстрах, то он получает 1 балл). Второй шаг: расчет среднего по этим переменным. Третий шаг: итоговый балл: 2 - значение среднего больше 5 1 - значение среднего от 3 до 4 0 - значение среднего от 0 до 2	0,30		0.345	0.05	(при вкладе контекста вероятность набрать два балла увеличивается; без вклада контекста вероятность набрать два балла крайне мала)
7			MCR2_col (MCR2_5mnewcolor)	Первый шаг: Для каждого монстра: 1 - выбор нового цвета из палитры в поле конструктора. Испытуемый кликнул как минимум 1 раз на любой из цветов. Фиксируется только первый клик и не важно какого цвета в итоге оказался монстр и сменил ли он цвет вообще. Фиксируется клик НЕ на значок палитры, а после него - клик на любой из цветов. 0 - отсутствие клика на какой-либо из 4 цветов в палитре ИЛИ отсутствие клика на палитру в принципе). Второй шаг. В итоговую переменную идет расчёт среднего по этим переменным: 1 - значение 0,5 и больше 0 - менее 0,5	0,21		0.569	0.05	(фактор контекста не сильно определяет вероятность набрать один балл; как при вкладе фактора контекста, так и при его отсутсвии индикатор дифференцирует испытуемых с высоким и средним уровнем; слабо дифференцирует рисытуемых со средним и высоким уровнем).
8			MCR2_mrot (MCR2_mrotation)	Первый шаг: Для каждого монстра: 1 - фиксируется, когда испытуемый нажал кнопку вращения первый раз для данного монстра. Фиксируется только первое нажатие на вращение, остальные - нет. 0 - присваивается созданному монстру, если в процессе его создания испытуемый ни разу не нажал на кнопку вращения). Второй шаг. В итоговую переменную идет расчёт среднего по этим переменным: 1 - значение 0,5 и больше 0 - менее 0,5	0,52		0.181	0.15	(при вкладе контекста вероятность получить один балл увеличивается; при вкладе контекста индикатор дифференцирует испытуемых с высоким, средним и низким уровнем; без вклада коентекста, индикатор индикатор дифференцирует испытуемых с высоким и средним уровнем, но не дифференцирует испытуемых со средним и высоким уровнем)

№п/п	Компетенция: субкомптенция	Интерфейс экрана	Название индикатора	Правила начисления балла	Классическая трудность	Таблица маргинального распределения вероятностей индикаторов	Стандартизир. факторная нагрузка модели КФА	Показатель общей информации	Таблица условных вероятностей индикаторов (комментарий)
1	Критическое мышление: вывод		ACT2_1_1	1 - если выбраны комбинации: ЖЖ, ЖМ, МЖ 0 - если выбрана комбинация ММ	0,86		0.466	0.07	(индикатор дифференцирует испытуемых на высоком, среднем и низком уровне)
2			ACT2_1_4	1 - если поставил лампу 0 - если не поставил	0,65		0.863	0.32 22.6	(индикатор дифференцирует испытуемых на высоком и среднем уровне; сильно дифференцирует испытуемых на срденем и низком уровне)
3			ACT2_1_6	1 - если выбирает крышку 0 - если не выбирает	0,68		0.929	0.38 26.9	(индикатор дифференцирует испытуемых на высоком и среднем уровне; сильно дифференцирует испытуемых на срденем и низком уровне)
4			ACT2_4_1	1 - если изменяет уровень соли в аквариуме в соответствии с типом краба. Если новый краб - морской, то добавляет соль (или оставляет, если ранее нажимал на кнопку соли, если новый краб пресноводный, то убирает соль (или не добавляет). 0 - если не меняет количество соли	0,62		0.303	0.05	(индикатор сильно дифференцирует испытуемых на высоком и среднем уровне; слабо дифференцирует испытуемых на среднем и низком уровне)
5			ACT2_1_plant	1 - использовал водоросли (хотя бы один раз) 0 - не использовал	0,68		0.729	0.18	(индикатор дифференцирует испытуемых на высоком и среднем уровне; дифференцирует испытуемых на срденем и низком уровне)
6			MCT2_1_1	Для монстра с новыми условиями фиксируется наличие элемента из категории Разное, соответствующее крыльям 1 - в собранном монстре есть хотя бы одно крыло 0 - в собранном монстре нет крыльев	0,49		0.375	0.1	(фактор контекста вносит небольшой вклад вероятность набрать один балл; при вкладе контекста индикатор сильно дифференцирует испытуемых со средним и низким уровнем; без вклада контекста дифференцирует испытуемых с высоким и средним уровнем)
7			MCT1_6_horns	1 б - есть рога у первого монстра 0 б - нет рогов у первого монстра	0,80		0.493	0.05	(при вкладе контекста вероятность набрать один балл становится очень высокой, даже для респондентов на низком уровне; при отсутсвии вклада контекста индикатор дифференциует испытуемых на высоком, среднем и низком уровне)
8			DCT2_1_1	1 - если выбрал “Точно не известно” 0 - если выбрал другой вариант ответа	0,44		0.368	0.08	(индикатор дифференцирует испытуемых с высоким и низким уровнем сильнее, чем испытуемых с средним и низким уровнем)
№п/п	Компетенция: суб-комптенция	Интерфейс экрана	Название индикатора	Правила начисления балла	Классическая трудность	Таблица маргинального распределения вероятностей индикаторов	Стандартизированная факторная нагрузка индикатора модели конфирматорного ФА	Показатель общей информации	Таблица условных вероятностей индикаторов (комментарий)
1	Критическое мышление: анализ		ACT1_5_2	1 - если выбирает ссылку «Как построить аквариум для крабов. Рекомендации Московского зоопарка» 0 - если любую другую ссылку	0,34		0.180	0.02	(индикатор сильнее дифференцирует испытуемых со средним и слабым уровнем, чем испытуемых с высоким и средним)
2			ACT1_6_dih	1 - выделено больше 0,54/0,53/0,3 правильных предложений в текстах «Сообщество любителей»/ “Рекомендации московского зоопарка”/ “Дети.ру”	0,48		0.712	0.34	(индикатор сильно дифференцирует испытуемых с высоким, средним и низким уровнем)
3			DCT1_6_1	1 - выбор «Массоспондил описание» 0 - любой другой выбор	0,70		0.275	0.05	(индикатор дифференцирует испытуемых на высоком, низком и среднем уровне)
4			DCT1_5_1	1 - первый клик по «Энциклопедия динозавров» 0 - первый клик по любой другой ссылке	0,58		(удаление из модели КФА- непозитивно определённая матрица ковариаций)	0.04	(индикатор сильнее дифференцирует испытуемых с средним и низким уровнем, чем с высоким и средним)
5			DCT1_7_1	1 - если выбраны все 3 ссылки ИЛИ 2 ссылки (обсуждение динозавров И энциклопедия динозавров) 0 - если выбраны 2 ссылки (Обсуждение И Сказки ИЛИ Энциклопедия И Сказки) ИЛИ только Сказки	0,65		0.261	0.05	(индикатор дифференцирует испытуемых на высоком и среднем уровне)
6			DCT1_6p	Количество выбранных релевантных предложений 0 - 0 предложений 1 - от 1 до 3 2 - от 4 до 6	0,33		0.287	0.07	(индикатор слабо дифференцирует испытуемых на среднем и низком уровне; вероятность набрать два балла очень мала для всех испытуемых)

Приложение 2

Нарушения в функционировании индикаторов

На этапе проверки факторной структуры инструмента, применение конфирматорного факторного анализа позволило выявить несколько индикаторов с незначимыми факторными нагрузками (ACT2_1_2, ACT215gr, ACT1_5_1, MCR21num).

Страница:

дипломная работа "Измерение креативности и критического мышления в начальной школе: валидизация инструмента" скачать

Подобные документы

Возможности использования технологии критического мышления в начальной школе
Психология учителя при развитии критического мышления, его особенности и характеристики. Чувство иерархии, сцены, самовлиятельности, правила "игры в мышление". Использование рисунка и техники вопросов для развития критического мышления, их виды.

курсовая работа [34,2 K], добавлен 31.05.2010
Развитие критического мышления обучающихся в основной школе (на примере уроков английского языка и литературы)
Развитие критического мышления через чтение и письмо: стадии, методы, приёмы. Возрастные особенности школьников подросткового периода. Пути развития критического мышления учащихся 7-8 классов на уроках английского языка. Уровень сформированности мышления.

дипломная работа [372,2 K], добавлен 25.07.2017
Технология развития критического мышления. Метод "Шесть шляп мышления"
Эдвард де Боно - автор метода прямого обучения мышлению в школах. Суть параллельного мышления. Особенности метода "Шести шляп мышления". Правила использования шляп. Преимущества и недостатки. Развитие творческого и критического мышления, толерантности.

презентация [1,3 M], добавлен 01.11.2016
Исследование креативности: критерии оценки и методы изучения
Понятие креативности, факторы, влияющие на ее развитие; проявление в различные возрастные периоды. Выделение критериев оценки креативности в научных теориях. Методы оценки творческих способностей человека. Сравнительный анализ тестирования и эксперимента.

курсовая работа [24,5 K], добавлен 28.03.2011
Психодиагностика креативности
Творческие способности индивида: проблема тестирования и диагностики креативности и дивергентной продуктивности. Параметры творческой одаренности и креативности, специализированный тест Торренса для оценки их беглости, оригинальности и разработанности.

презентация [780,8 K], добавлен 21.10.2016
Гендерные различия в особенностях вербальной и образной креативности во взрослом возрасте
Понятие креативности и гендера в социальной психологии. Факторы гендерно-ролевой социализации человека. Методики изучения уровня развития творческого мышления взрослых. Организация исследования гендерных различий в процессе анализа креативности.

курсовая работа [470,1 K], добавлен 30.01.2013
Понятие креативности
Креативность как способность к умственным преобразованиям и творчеству. Методики развития креативного мышления персонала предприятия. Характеристика процесса креативности. Тесты дивергентных способностей. Пути формирования креативности у персонала.

реферат [29,1 K], добавлен 07.03.2012
Развитие вербальной креативности студентов в условиях обучения в высшем учебном заведении
Общая характеристика вербальной креативности, ее связь с компетентностью. Психолого-педагогическая характеристика студенчества. Особенности творческого мышления в молодости. Рекомендации, которые могли бы помочь развитию вербальной креативности.

курсовая работа [70,3 K], добавлен 15.06.2015
Исследование уровня креативности менеджеров по рекламе
Разработка теста для исследования уровня креативности менеджеров по рекламе и определение его надежности. Критерии креативности, экспертные оценки способности человека к производству знаний, отличающиеся от общепринятых. Методология исследования.

контрольная работа [782,8 K], добавлен 11.07.2009
Исследования креативности
Понятие и содержание креативности как уровня творческой одаренности и устойчивой психологической характеристики личности. Анализ проблем определения креативности как умственного процесса и возрастных аспектов ее развития. Современные теории креативности.

презентация [1,1 M], добавлен 18.06.2016

Другие документы, подобные "Измерение креативности и критического мышления в начальной школе: валидизация инструмента"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.