Измерение креативности и критического мышления в начальной школе: валидизация инструмента
Установление психометрических свойств инструмента измерения креативности и критического мышления учащихся начальной школы. Модель оценки результатов тестирования. Методология проверки валидности инструмента измерения. Психометрический анализ данных.
Рубрика | Психология |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 23.09.2018 |
Размер файла | 1,9 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Федеральное государственное автономное образовательное учреждение высшего профессионального образования
Национальный исследовательский университет
Высшая школа экономики
Выпускная квалификационная работа
по направлению подготовки 37.04.01 «Психология»
Измерение креативности и критического мышления в начальной школе: валидизация инструмента
Угланова Ирина Львовна
Москва 2018
Аннотация
Работа посвящена установлению психометрических свойств инструмента измерения креативности и критического мышления в начальной школе. В состав инструмента измерения входят три задания сценарного типа, которые предъявляются в компьютерной форме. В ходе работы была выбрана модель оценки результатов тестирования, задана методологическая рамка проверки валидности инструмента измерения, проведен психометрический анализ данных. Методологическая рамка проверки валидности включала в себя анализ соответствия теоретических представлений о структуре компетенций и эмпирических данных, анализ точности, с которой модель определяет уровень компетенции испытуемых, и анализ качества функционирования элементов тестового задания, на которых строится оценивание. Анализ проводился на выборке, состоящей из 511 учеников четвертого класса (9-11 лет).
Проведенный в работе анализ позволил установить психометрические свойства инструмента и вынести рекомендации по улучшению его качества. В результате были получены эмпирические подтверждения теоретической рамки компетенций, рассмотрены особенности функционирования элементов заданий и вынесены предложения дальнейшей доработки сценариев тестовых заданий.
психометрический креативность критический валидность
Оглавление
Введение 4
Глава 1 Особенности измерения креативности и критического мышления
Глава 2 Выбор модели оценки результатов. Возможности и особенности построения байесовской сети
2.1 Теоретические и методологические основания байесовских сетей в образовательном и психологическом тестировании
2.2 Этапы построения байесовской сети
Глава 3 Методологическая рамка проверки валидности инструмента измерения креативности и критического мышления
3.1 Соответствие теоретической рамки компетенций эмпирическим данным
3.2 Точность выводов модели об уровне компетенций испытуемых
3.3 Функционирование элементов тестовых заданий, используемых в оценивании
Глава 4 Метод
4.1 Выборка и процедура сбора данных
4.2 Описание инструмента
4.3 Методы анализа данных и программное обеспечение
Глава 5 Результаты
5.1 Проверка согласия теоретически ожидаемой структуры компетенций и эмпирических данных
5.2 Характеристики точности модели измерения
5.3 Анализ качества функционирования индикаторов
Глава 6 Обсуждение полученных результатов
Заключение
Библиография
Приложения
Введение
На сегодняшний день в связи со стремительным развитием технологий и ростом глобализационных процессов, формируются новые тренды рынка труда: современному обществу требуются специалисты, которые могут справляться с неструктурированными задачами, предлагают новые способы решения задач, умеют искать и анализировать информацию. Формирование и развитие таких навыков и компетенций требует внимания со стороны системы образования (Levy & Murnane, 2005). Вопросами формирования и измерения актуальных в 21 веке навыков и компетенций занимались многие исследователи (Griffin, McGaw, & Care, 2012; Levy & Murnane, 2005) и международные организации (ЮНЕСКО, Scott, 2015; World Economic Forum, 2016). Однако, несмотря на важность компетенций креативности и критического мышления, в России не существует инструмента их измерения для начальной школы с установленными психометрическими свойствами.
Для измерения креативности и критического мышления среди российских младшеклассников, сотрудниками Центра мониторинга качества образования Института образования НИУ ВШЭ в 2017 году в рамках проекта «4К современного мира. Формирование компетенций XXI века и оценка индивидуального прогресса в их развитии» был разработан инструмент, который состоит из заданий сценарного типа. В заданиях симулируется близкий для учеников начальной школы контекст из повседневной жизни.
Задания сценарного типа включают в себя несколько заложенных разработчиками проблем, которые испытуемый решает, последовательно выполняя элементы задания. Элементы заданий сценарного типа разрабатываются как свидетельства (индикаторы) компетенций: наблюдаемые действия испытуемого при взаимодействии с заданием трактуются как проявления выраженности компетенции (Mislevy, Almond, & Lukas, 2003). Инструмент предполагает реализацию в компьютерном формате.
Согласно концептуальной рамке инструмента, под креативностью понимается способность представить и разработать принципиально новые подходы к решению проблем, ответы на вопросы, стоящие перед субъектом или способы выражения идей в прикладных разработках (World Economic Forum, 2016). Под критическим мышлением - способность критически оценивать аргументы, допущения, абстрактные понятия и данные (которые могут быть неполными), чтобы вынести суждение, и сформулировать соответствующие вопросы для достижения решения - или набора решений (QAA, 2008).
Главная задача инструмента - сообщить учителям и родителям уровень развития креативности и критического мышления четвероклассников, для формирования и развития этих компетенций в последующих классах. Таким образом, предполагается использование инструмента для формирующего оценивания. Инструмент измерения прошел стадию разработки и апробационного сбора данных, и в настоящее время стоит задача установления его психометрических характеристик.
Таким образом, проблематика работы заключается в отсутствии исследований, эмпирически доказывающих качество инструмента измерения креативности и критического мышления в начальной школе.
Цель исследования состоит в выявлении психометрических свойств инструмента измерения креативности и критического мышления.
Исследовательский вопрос:
Имеет ли инструмент измерения креативности и критического мышления удовлетворительные психометрические свойства (согласно современным стандартам и подходам: COTAN, Evers, Sijtsma, Lucassen, & Meijer, 2010; Messick, 1994)?
Исследовательский вопрос можно разделить на несколько подвопросов:
1. Подтверждается ли теоретически ожидаемая факторная структура компетенций на реальных данных?
2. Позволяет ли инструмент сделать точные выводы об уровне компетенций испытуемых?
3. Отражают ли элементы заданий, используемые в оценивании, измеряемые компетенции? Демонстрируют ли элементы заданий, используемые в оценивании, удовлетворительное функционирование?
Для достижения цели, были поставлены следующие задачи:
1. Анализ научной литературы, посвящённой особенностям изменения компетенций креативность и критическое мышление.
2. Анализ научной литературы, посвященной особенностям валидизации инструментов измерения, которые представляют собой задания сценарного типа.
3. Анализ научной литературы, посвященной методам психометрического анализа, релевантного заданиям сценарного типа.
4. Проведение эмпирической проверки психометрических свойств инструмента измерения креативности и критического мышления в начальной школе.
5. Анализ полученных результатов, выделение слабых и сильных сторон инструмента измерения.
6. Определение ограничений настоящего исследования и построение плана продолжения изучения психометрических свойств инструмента измерения.
Глава 1. Особенности измерения креативности и критического мышления
Исследования креативности и критического мышления имеют давнюю историю и продолжают набирать популярность (Lai, 2011; Treffinger, Young, Selby, & Shepardson, 2002). Сегодня активно развивается подход, в котором креативность и критическое мышление рассматриваются как ключевые компетенции 21го века (21st Century Skill) - компетенции, которые необходимы в современном обществе для решения сложных, неструктурированных задач (Griffin, McGaw, & Care, 2012).
Как было отмечено, для измерения креативности и критического мышления российских младшеклассников, был разработан инструмент, состоящий из нескольких заданий сценарного типа. Инструмент направлен для применения в рамках формирующего оценивания и предполагает выделение трех уровней каждой компетенции: базовый, развивающийся и продвинутый.
Согласно концептуальной рамке инструмента, креативность и критическое мышление рассматриваются с позиции компетентностного подхода (McClelland, 1973; Бояцис, 2008). В рамках данного подхода под компетенциями понимаются характеристики личности (когнитивные и некогнитивные), которые важны для эффективного выполнения учебных заданий и решения задач, связанных с демонстрацией критического мышления, креативности (вместе или в отдельности) и которые могут быть измерены через наблюдаемое поведение Орёл Е.А., Брун И.В., Агадуллина Е.Р, Брагинец Е.И, Карданова Е.Ю. Техническая документация по проекту «4К современного мира. Формирование компетенций XXI века и оценка индивидуального прогресса в их развитии» - 2017. .
Теоретическая рамка инструмента, разработанная сотрудниками Института образования, основана на анализе традиционных и современных отечественных и зарубежных исследований (Блонский, 1964; Torrance, 1972; Sternberg, 1986; Facione, 1990; Paul, 1992; Lai, 2011; Lucas, Claxton, Spencer, 2013; Liu, Frankel & Roohr, 2014). Ниже приведены операциональные определения и структура исследуемых компетенций.
Креативность - «способность представить и разработать принципиально новые подходы к решению проблем, ответы на вопросы, стоящие перед субъектом или способы выражения идей в прикладных разработках» (World Economic Forum, 2016),3 Орёл Е.А., Брун И.В., Агадуллина Е.Р, Брагинец Е.И, Карданова Е.Ю. Техническая документация по проекту «4К современного мира. Формирование компетенций XXI века и оценка индивидуального прогресса в их развитии» - 2017.. Компетенция Креативность состоит из двух суб-компетенций: любознательность и воображение. Любознательность проявляется относительно объекта исследования и выражается в проявлении интереса к окружающему миру, в активной позиции в поиске новой информации. Воображение понимается как продуцирование собственных идей (оригинальных, редких идей и идей в большом количестве, как оригинальных, так и типичных), а также как обработка предложенных идей, предложение новых, улучшенных и выстраивание неожиданных связей между идеями, объектами или явлениями.
Критическое мышление - «способность критически оценивать аргументы, допущения, абстрактные понятия и данные (которые могут быть неполными), чтобы вынести суждение, и сформулировать соответствующие вопросы для достижения решения - или набора решений» (QAA, 2008)3. Критическое мышление включает в себя две суб-компетенции: анализ текста; вывод и аргументацию (далее данная суб-компетенция называется Вывод).
Анализ текста понимается как работа с имеющейся текстовой информацией, согласно целям и условиям задачи. Анализ проявляется в исследовании информации, распознавании элементов текста (доводов, фактов, предположений, заключений, свидетельств) и их категоризации на факты, мнения, предпосылки, аргументы, выводы. Анализ позволяет выявлять взаимоотношения между элементами текста и оценивать их качество: выявлять достоверность фактов, определять сильные и слабые стороны аргументов, оценивать важность для поставленной задачи. Суб-компетенция Вывод предполагает построение собственного вывода и аргументов к нему. Суб-компетенция проявляется в формировании собственной позиции, создании собственного решения поставленной задачи, проработке аргументов, подкрепляющих решение, оценивании сильных и слабых сторон своего решения.
Компетентностный подход в измерениях в психологии и образовании имеет две особенности:
1. Компетенции не наблюдаются явно, а могут быть только оценены через соответствующие наблюдаемые действия (Бояцис, 2008). Таким образом, исследуемые компетенции являются латентными конструктами (Guilford, 1936; Messick, 1994). Наблюдаемые действия в психологическом и образовательном тестировании соответствуют действиям испытуемых при решении тестовых заданий. Такие действия выступают свидетельствами (индикаторами) наличия и выраженности компетенций (Mislevy et al., 2003). При этом, истинные отношения компетенций и наблюдаемых действий не известны, а могут быть только концептуально представлены (Shute et al., 2010) и выражены через математические функции с применением соответствующего математического аппарата (Остапенко, 2012; Летова, 2013). Компетенции могут быть приблизительно смоделированы с учетом представлений исследователей и наблюдаемых действий испытуемого (Rutstein, 2012). Тогда перед исследователем возникает задача построить наиболее точную модель, используя наиболее подходящие методы.
2. Креативность и критическое мышление, согласно концептуальной рамке инструмента, обладают комплексной, многокомпонентной структурой. Каждая из компетенций включает в себя несколько суб-компетенций, отражающих различные аспекты: способы действия и размышления, установки испытуемых. Отмечается, что измерение комплексных конструктов - сложная задача и даже в какой-то мере вызов для исследователя (Ercikan & Oliveri, 2016). При моделировании комплексных конструктов необходимо учитывать характер связи компетенций и суб-компетенций, характер связи компетенций между собой, что неизбежно вызывает необходимость применения более сложных моделей измерения (Almond, DiBello, Moulder, & Zapata-Rivera, 2007).
В измерении комплексных конструктов важно учитывать еще одну специфику. Согласно работам С. Мессика, методолога измерений в психологии и образовании, именно «природа исследуемого конструкта должна руководить подбором и созданием релевантных тестовых заданий, а также установкой целесообразных критериев и рубрик оценивания» (Messick, 1992, с. 17). Традиционные форматы тестовых заданий, например, задания с выбором ответа (multiple choice), не позволяют достоверно оценивать комплексные компетенции, приближать тестирование к реальным жизненным ситуациям, учитывать особенности самого способа действия в задании (Griffin, McGaw, & Care, 2012; Messick, 1994; Razzouk, 2011). Более релевантным инструментом выступают задания с фокусом на продукт и процесс работы (задания типа performance-based; Messick, 1994), которые могут представлять собой задания сценарного типа и симуляции, реализующиеся в компьютерной форме (de Klerk, Eggen, & Veldkamp, 2016).
Таким образом, измерение креативности и критического мышления сопряжено с разработкой сложного инструментария, который позволяет приблизить ситуацию тестирования к повседневной жизни испытуемого и более реалистично оценить выраженность компетенций. Измерение явно ненаблюдаемых компетенций, которое проводится с использованием заданий сценарного типа, предполагает применение сложных и гибких статистических моделей, чтобы учесть особенности внутренней структуры компетенций и тестовых заданий (элементов сценария).
Обратим внимание, что поскольку инструмент разрабатывается для оценки уровня компетенции испытуемых, применяемая статистическая модель должна позволять делать вывод об уровне компетенции, т.е. требуется выбор наиболее подходящей модели оценки результатов и последующий анализ ее качества.
В следующей главе будет представлено обоснование выбора модели оценки результатов, которая позволит учесть сложную структуру компетенций и сделать заключение об уровне креативности и критического мышления испытуемых.
Глава 2. Выбор модели оценки результатов. Возможности и особенности построения байесовской сети
Выбор модели оценки результатов - важный этап создания инструмента. Модель оценки результатов должна согласовываться с целью применения инструмента и учитывать особенности оцениваемого конструкта (West и др., 2010).
Поскольку оценки явно ненаблюдаемых конструктов, какими являются креативность и критическое мышление, всегда содержат долю неопределенности, наиболее корректным выступает применение моделей, которые предполагают вероятностный вывод (Almond, Mislevy, Steinberg, Yan, & Williamson, 2015; Pearl, 1988).
Так, в социально-гуманитарных науках для моделирования конструктов широко известен подход современной теории тестирования (Item Response Theory, IRT), который позволяет оценить вероятность справиться или не справиться с заданием теста при определенном уровне выраженности компетенции (Culbertson, 2016; Hambleton, Swaminathan, & Rogers, 1991).
Несмотря на популярность и многообразие моделей современной теории тестирования, в современных психометрических практиках существует более гибкий подход к моделированию комплексных компетенций, основанный на построении байесовских сетей. Байесовские сети позволяют моделировать сложную структуру компетенций и тестовых заданий, а также делать вероятностный вывод об уровне компетенции испытуемых (Almond и др., 2007; Levy, 2013).
В психологическом и образовательном тестировании применение байесовского подхода стало развиваться с 1980-х годов, благодаря работам Мислеви (Mislevy, 1986), Ригдон и Тсутакава (Rigdon & Tsutakawa; 1983), Сваминахан и Гиффорд (Swaminathan & Gifford; 1982). В измерениях многокомпонентных компетенций, особенно с применением заданий сценарного типа, байесовский подход нашел широкое распространение в построении байесовских сетей (Culbertson, 2016).
Распространение байесовского подхода и применение байесовских сетей в образовательном и психологическом тестировании продиктовано рядом преимуществ. Среди них можно выделить:
а) Возможность сделать вероятностный вывод об уровне компетенции. При построении байесовской сети в результате анализа предоставляется информация о вероятности оказаться на том или ином уровне компетенции для каждого испытуемого (Almond et al., 2015).
б) Возможности для анализа психометрического качества инструмента измерения. Применение байесовского подхода и построение байесовской сети позволяет проверить качество теоретически ожидаемой модели и получить информацию о качестве отдельных индикаторов (Almond, Kim, Shute, & Ventura, 2013).
в) Построение модели с учетом теоретических ожиданий о структуре компетенций (конфирматорный характер построения байесовской сети) (Mislevy и др., 2002).
г) Использование представлений исследователей о характеристиках компетенций и тестовых заданий для получения более точных оценок (Almond, Yan, & Hemat, 2007).
д) Гибкость в моделировании отношений компетенций и индикаторов. В байесовской сети возможен учет сложных связей (компенсаторных и некомпенсаторных отношений) между компетенциями, между компетенциями и наблюдаемыми действиями, между наблюдаемыми действиями (Mislevy и др., 2002).
е) Удобство в реализации. Байесовская сеть -- удобный способ визуализировать структуру измеряемых компетенций (Almond et al., 2015) и организовать работу с большим объемом данных (de Klerk, Veldkamp, & Eggen, 2015).
Байесовский подход и построение байесовской сети становятся все более популярным направлением в образовательном и психологическом тестировании. Например, в компании ETS (Educational Testing Service), был разработан инструмент Biomass, который позволяет оценить знания по биологии и умение применять полученные знания учеников средней школы (Steinberg et al., 2003). Другим примером теста, оценивающим академические успехи, может выступить инструмент, разработанный голландскими исследователями -- инструмент создан для оценки освоения обучающей программы по подготовке служащих закрытых пространств (таких как танки или бункеры) (de Klerk, Eggen, & Veldkamp, 2016). Также, данный подход нашел свое применение в исследованиях образовательного прогресса (West et al., 2010). Но особое распространение данная рамка получила для оценки комплексных метакогнитивных компетенций. Были разработаны и валидизированы инструменты измерения информационной и коммуникационной грамотности (Авдеева, Руднев, Васин, Тарасова, и Панова, 2017; Almond, Yan, & Hemat, 2007); креативного решения задач (creative problem solving; Shute, Ventura, Bauer, & Zapata-Rivera, 2009); коммуникативных навыков в решений задач (collaborative problem solving; Polyak, von Davier, & Peterschmidt, 2017); систематического мышления (systems thinking; Mislevy, 2014).
2.1 Теоретические и методологические основания байесовских сетей в образовательном и психологическом тестировании
Методологические преимущества и широкое распространение в тестировании характеризуют построение байесовской сети как наиболее подходящий метод в рамках данного исследования. Обратимся к описанию теоретических и методологических оснований такого подхода.
Байесовская сеть строится на основании теоретических представлений исследователей о природе конструкта (компетенции) и характере связи суб-конструктов (суб-компетенций), с учетом ожидаемого характера связи латентного конструкта и наблюдаемых действий (Mislevy et al., 2002).
Байесовская сеть представляет собой графическую структуру, в которой отражается характер связи между переменными в терминах условных вероятностей (conditional probability relationships; de Klerk и др., 2015). Построение Байесовской сети - удобный способ представить совместное распределение вероятностей (joint probability distribution) для всех используемых в модели оценивания переменных, ненаблюдаемых конструктов (компетенций) и наблюдаемых действий (элементов задания, на котором строится оценивание; индикаторов). В байесовской сети предполагается расчет вероятности оказаться на определенном уровне выраженности компетенции при определенных действиях испытуемого в тестовом задании. При этом, действия испытуемого должны быть независимы друг от друга при заданном значении общего для них конструкта. Иными словами, байесовская сеть позволяет отразить вероятностные зависимости между переменными и отсутствие зависимостей между ними (Хлопотов, 2014).
Обратимся к тому, какие элементы образуют байесовскую сеть. Байесовская сеть представляет собой ацикличный направленный граф (directed acyclic graph, DAG), который состоит из узлов (nodes) и связывающих их ребер (edges). Узлы отражают переменные: наблюдаемые и ненаблюдаемые. Ребра, которые в направленном графе обозначаются стрелками, отражают условные зависимости между переменными (Almond et al., 2015).
Ациклические направленные графы играют ключевую роль в теории байесовских сетей. «Поскольку направление ребер отражает направление статистической условной вероятности, условие ацикличности гарантирует, что распределение в достаточной мере задано графом» (Almond et al., 2015, p. 85). Условие ацикличности не позволяет моделировать распределение с использованием циклических зависимостей, как например, моделируются реципрокные отношения в структурном моделировании (Almond et al., 2015; Klingler, 2015).
Также в ацикличном направленном графе каждое ребро может иметь только одно направление (unidirectional edge). В моделях структурного моделирования, которые как и байесовские сети предполагают графическое представление моделей, часто можно увидеть двунаправленные связи между латентными конструктами, которые обозначают корреляционные отношения между ними (Brown, 2006). В байесовских сетях корреляционные отношения между конструктами выражаются по-другому: если теоретически ожидается, что конструкты связаны между собой, в сеть вводится дополнительный узел, который становится родительским по отношению к двум связанным латентным конструктам. Это узел интерпретируется как общий для латентных конструктов источник дисперсии (Almond et al., 2007). Условие ацикличности легко распознается в графическом представлении сети. На рисунке 1а изображен цикличный граф, на рисунке 1б - ацикличный.
а) б)
Рисунок 1. Цикличный и ацикличный направленные графы
Воспользуемся рисунком 1б для дальнейшей иллюстрации структуры байесовской сети. Узлами графа обозначаются круги А, В и С. Мы видим, что от узла А отходит направленное ребро (стрелка) к узлу В. В такой ситуации считается, что узел А является родительским (parent node) по отношению к узлу В. Альтернативно, узел В - дочерний (child node) по отношению к узлу А. Это значит, что распределение вероятностей на узле В находится в отношении условной зависимости к распределению вероятностей узла А. Если у определенного узла нет родительских (узел А на рис. 1б), распределение вероятностей такого узла будет называться маргинальным, безусловным (Хлопотов, 2014; Almond et al., 2015).
Формально отношения условной зависимости узла В от узла А записываются как:
, Р(А) ?0.
Это уравнение призвано ответить на вопрос: «Если нам известна информация об узле А, что мы можем сказать об узле В?».
Если задать, что узел А отражает компетенцию, а узел В - результат выполнения элемента задания, вероятность Р(B|А) означает вероятность справиться с элементом задания при определенном уровне компетенции. В свою очередь, Р(А|В) означает вероятность обладать определённым уровнем компетенции, зная, справился респондент с заданием или нет.
Таким образом, один из способов расчета совместной вероятности узлов А и В (Р (B, А)) - расчёт через условную вероятность узла В при заданном значении узла А (Р (B | А)) и маргинальной вероятности узла А (Р (А)). Расчет совместной вероятности Р(B,А) реализуется благодаря правилу умножения (Almond et al., 2015; Pearl, 1988):
Р (B, А) = Р (B | А) * Р(А), Р (А) > 0.
Наличие условных вероятностей позволяет оценить значение других, более сложных для расчета вероятностей. Так, расчёт вероятности справиться с элементом задания при заданном уровне компетенции Р (B|А) реализуется благодаря закону общей вероятности (Law of Total Probability; David, 2008):
.
Если предположить, что А - уровень компетенции, который может принимать два значения: Высокий и Низкий, а В - балл за элемент задания, то вероятность получить определенный балл будет записывать как:
Р(В) = P(B | A = Высокий)*Р(A = Высокий) + P(B | A = Низкий)*Р(A = Низкий).
В фокусе данной работы такое использование условных вероятностей, которое позволит узнать вероятность оказаться на определенном уровне компетенции с известными результатами выполнения элемента задания. Расчет такой вероятности возможен применением теоремы Байеса (Efron, 2013). Теорема Байеса в общем виде выражается формулой:
,
в которой Р(В|A) - правдоподобие, т.е. вероятность получить данные при фиксированных параметрах модели; Р(А) - априорная вероятность, т.е. представление о вероятности А до получения данных; Р (А|B) - апостериорная вероятность, т.е. вероятность А с учетом полученных данных.
Возьмем рассмотренный выше пример. Вероятность оказаться на высоком уровне компетенции при известном балле будет рассчитываться по формуле:
.
Очевидно, что апостериорное распределение учитывает вклад и данных, и априорных представлений о вероятности. Изучению вклада априорных вероятностей посвящено множество исследований (Almond, 1995; Almond et al., 2007; Jeffreys, 1998; Mukherjee & Speed, 2008). Отмечается, что при увеличении выборки (увеличении количества реальных данных) вклад априорных значений уменьшается. В психологическом и образовательном тестировании априорные вероятности уславливаются панелью экспертов, согласно теоретическим представлениям и предыдущемeу опыту измерений исследуемых конструктов.
При построении байесовской сети и при расчете значений вероятностей на узлах, удобно использовать не только отношения условной зависимости, но и отношения условной независимости. Например, на рисунке 1б узлы В и С условно независимы при заданном значении узла А. Формально такая запись имеет вид:
Р(В,С|А) = Р(В|A)*P(C|A).
Если задать, что узел А - уровень компетенции, узлы В и С - баллы за элементы задания №1 и №2, соответственно, то при известном уровне компетенции вероятность получить балл за задание №1 не зависит от вероятности получить балл за задание №2.
При наличии отношений условной независимости, совместное распределение вероятностей Р(А, В, С), отраженное на рисунке 1б, может быть записано в упрощенной форме как серия произведений:
Р(А, В, С) = Р(В|A)*P(C|A)*Р(А).
Такая запись означает, что совместную вероятность можно факторизовать, что уменьшит количество оцениваемых параметров и сделает расчеты проще (Almond et al, 2015; Fox, 2010).
Факторизация правомерна только при достижении условной независимости - локальной независимости между дочерними узлами, при заданном родительском узле (Almond, Mulder, Hemat, & Yan, 2009; Yen, 1993). Угрозу локальной независимости может вызывать целый ряд факторов: внешние воздействия (помощь учителя при выполнении задания теста); нехватка времени при прохождении теста; усталость и научение; общий контекст для разных тестовых заданий; рубрики и шкалы оценивания; другие способности и навыки (Yen, 1993).
Однако, в практике работы в измерениях в социально-гуманитарных науках, важно учесть не сколько наличие локальной зависимости, сколько силу эффекта, которую локальная зависимость оказывает на результаты. Если вклад локальной зависимости невелик, ее наличием предпочитают пренебрегать. Такое решение связано с тем, что изменение содержания или формата администрирования теста в ряде случаев крайне затруднительно, а моделирование локальной зависимости сильно усложняет модель и делает расчеты более громоздкими из-за увеличения количества оцениваемых параметров. Все же, если локальная зависимость может оказать сильное воздействие на результаты, в байесовской сети создается новый узел: например, узел контекста. Такой узел выступает дополнительным родительским узлом по отношению к релевантным наблюдаемым переменным, связанным между собой общим стимульным материалом - контекстом задания. При этом гибкость байесовских сетей позволяет не только моделировать наличие локальной зависимости, но и учитывать характер связи дополнительного родительского узла контекста и наблюдаемых дочерних узлов, индикаторов (Almond et al., 2015). Различные характеры связи будут подробнее описаны ниже в данной работе.
Другой источник нарушения локальной независимости - функциональная зависимость между наблюдаемыми переменными. В инструментах измерения со сложной структурой нередки случаи, в которых для выполнения одного действия в тестовом задании требуется выполнение предыдущего. Такие отношения также могут моделироваться в байесовской сети (Almond, Mulder, Hemat, & Yan, 2009).
Еще одной особенностью байесовских сетей выступает дискретный характер всех переменных модели: и переменных, отражающих компетенции испытуемых, и переменных, отражающих действия испытуемых в тестовых заданиях (Суворова, Тулупьева, Тулупьев, Сироткин, и Пащенко, 2012). Использование дискретных переменных, с одной стороны, сделает расчеты менее громоздкими (Levy, 2006), а с другой позволяет давать легко интерпретируемые результаты (Almond et al., 2015).
В данной части главы были описаны основные принципы и допущения байесовских сетей. В следующей части будут последовательно обозначены основные этапы построения байесовской сети и сделаны указания на используемые в данной работе методы.
2.2 Этапы построения байесовской сети
Построение байесовской сети включает два крупных этапа: построение графической структуры сети и определение параметров - значений вероятностей на узлах сети (Kim, Almond, & Shute, 2016).
На первом этапе задается графическая структура сети согласно концептуальной рамке инструмента измерения. При построении структуры сети учитываются все отношения между компетенциями, суб-компетенциями и наблюдаемыми действиями (индикаторами). На этом этапе задается теоретически ожидаемая структура компетенций, вводятся узлы контекста и устанавливаются отношения функциональной зависимости между индикаторами.
Второй этап - определение параметров сети. Данный этап предполагает использование эмпирических данных для расчета интересующих вероятностей. На этом этапе рассчитывается вероятностный вывод об уровне компетенции испытуемого с учетом его действий в тестовых заданиях, а также появляются возможности для анализа качества модели (Almond et al., 2015).
Для расчета вероятности обладать определенным уровнем компетенции требуется определить распределение условных вероятностей на всех дочерних узлах (компетенциях, суб-компетенциях, наблюдаемых переменных). В случае, когда все узлы сети - дискретные (как в данной работе), распределение вероятностей представляется в формате таблиц условных вероятностей. В таблицах условных вероятностей отражается вероятность оказаться на каждом уровне дочернего узла при каждом уровне родительского (или при комбинации родительских узлов, если у дочернего узла два или больше родительских). В таблице №1 приведен пример таблицы условных вероятностей для индикатора, который относится к одной компетенции и оценивается дихотомически.
Таблица 1 Пример таблицы условных вероятностей
Уровень способности Высокий |
Уровень способности Низкий |
||
1 балл |
P (1|В) |
P (1|Н) |
|
0 баллов |
P (0|В) |
P (0|Н) |
Значение вероятности должно быть рассчитано для каждой ячейки таблицы условных вероятностей. Обратим внимание, что количество значений экспоненциально возрастает с увеличением количества родительских узлов для одного дочернего. Для сокращения числа оцениваемых параметров были разработаны параметрические методы определения значений условных вероятностей (Mislevy et al., 2002).
Среди них можно выделить три наиболее популярных:
1. Конъюнктивный метод, учитывающий шум (conjunctive, Noisy-min/AND; Junker & Sijtsma, 2001).
2. Дизъюнктивный метод, учитывающий шум (disjunctive, Noisy-max/OR; (Srinivas, 2013).
3. Метод, основанный на современной теории тестирования (Mislevy et al., 2002).
Ниже будут приведены краткие описания первых двух и более подробное описание последнего, т.к. именно он применялся в работе, благодаря удобству этого подхода в практической реализации и вслед за обширным опытом компании ETS, в которой был разработан и применен данный подход (Almond et al., 2013; Kim et al., 2016).
Конъюнктивный и дизъюнктивный методы, учитывающие шум, позволяют определить вероятность справиться или не справиться с заданием при определенном уровне компетенции, с поправкой на вероятность справиться с заданием при низком уровне компетенции и с поправкой на вероятность не справится с заданием при высоком уровне. В таких моделях необходимо определить только вероятность справиться с заданием, если уровень компетенции высокий, и вероятность справиться с заданием без достаточного уровня компетенции, например, вероятность справиться с заданием благодаря другой компетенции. Выбор между конъюнктивным и дизъюнктивным методами зависит от ожидаемого характера связи родительских и дочерних узлов. Например, если задание относится одновременно к двум компетенциям и обе компетенции требуются для выполнения задания, то корректнее применять дизъюнктивный подход.
Метод, основанный на современной теории тестирования (DiBello's Effective Theta Distributions; подробное описание метода приведено в работе Mislevy et al., 2002), позволяет рассчитать параметры в таблице условных вероятностей, используя широко известные в современной теории тестирования характеристики: трудность и дискриминативности тестовых заданий, различия в трудности шагов политомических заданий.
Основное допущение этого метода состоит в том, что все размерности теста имеют одно направление, т.е. рост одной компетенции предполагает рост другой. Например, с увеличением уровня любознательности, предполагается увеличение уровня воображения. Для ситуации, в которой один дочерний узел имеет два родительских (индикатор относится к двум компетенциям), общее направление задается определенной комбинацией родительских узлов. Построив необходимую комбинацию, в полученном направлении можно отложить расстояние, соответствующее определенному уровню выраженности компетенции. В дискретных байесовских сетях удобно получить значение выраженности компетенции на определенном уровне способности, т.е. удобно выбрать такие значения компетенции на ее континууме, которые соответствуют дискретным значениям уровней (в англоязычной литературе такие значения носят название effective theta; в данной работе будет использоваться перевод «фиксированное значение выраженности компетенции»). Например, если предполагается, что компетенция имеет три уровня - Высокий, Средний, Низкий, а форма распределения может считаться нормальной, то удобно рассчитать три значения выраженности компетенции, в логике современной теории тестирования, например -1, 0, 1 логита, соответственно. После того, как оценки компетенций на определенных уровнях заданы, мы можем применить распространенные модели современной теории тестирования для оценки вероятности справиться с определенным элементов задания.
Данный метод включает в себя три последовательных этапа:
1) Для каждой родительской переменной, т.е. для каждой компетенции, выбирается определенное значение, которое в дельнейшем используется как фиксированное значение выраженности компетенции (например, -1,0,1 логит).
2) Если дочерняя переменная (например, наблюдаемое действие) имеет две и больше родительских переменных, фиксированные значения выраженности компетенции каждого родительского узла объединяются, и рассчитывается общее значение в направлении, созданном их комбинацией. Комбинация родительских параметров может иметь разный характер. Например, можно выделить компенсаторные, некомпенсаторные и подавляющие отношения (compensatory, conjunctive, inhibitor).
3) Рассчитываются значения вероятностей в таблице условных вероятностей дочерней переменной с учетом ранее определенного фиксированного значения выраженности компетенции. Расчет осуществляется рамках определенной модели современной теории тестирования (наиболее распространённая - Graded Response Model) (Mislevy et al., 2002).
Обратимся к более подробному описанию каждого шага. Фиксированное значение выраженности компетенции каждого уровня рассчитывается при допущении о нормальном распределении компетенции в популяции и при допущении о равном расстоянии между уровнями. Тогда, согласно закону нормального распределения, если компетенция предполагает два уровня (Низкий, Высокий), то соответствующие фиксированные значения на континууме выраженности компетенций будут равны -0.67 логита для уровня Низкий и 0.67 логита для уровня Высокий. Если компетенция предполагает три уровня (Низкий, Средний, Высокий), то фиксированные значения будут -0.97, 0, +0.97 логита, соответственно.
Второй этап актуален для ситуации, в которой дочерний узел имеет два или более родительских узла. Основная идея этапа комбинирования значений выраженности компетенций заключается в том, что получаемые фиксированные значения выраженности каждой родительской переменной находятся в отдельных размерностях, которые связываются определенным образом, и могут быть спроецированы на размерность дочерней переменной. Этой проекцией будет выступать точка на континууме распределения дочерней переменной.
Предположим, что родительские узлы - компетенции, а дочерний - индикатор. Комбинацией фиксированных значений выраженности компетенций, задается их общее направление, фиксированные значения по которому используются на последующем этапе при расчете значений таблицы условных вероятностей с помощью моделей современной теории тестирования (Almond et al., 2015; Mislevy et al., 2002)..
Можно выделить четыре основных типа отношений между родительским узлами по отношению к дочернему (Mislevy и др., 2002):
а) компенсаторный (compensatory),
б) связывающий (conjunctive),
в) разъединяющий (disjunctive),
г) подавляющий (inhibitor).
Рассмотрим каждый характер отношений более подробно на примере, в котором в качестве родительских узлов выступают компетенции, а в качестве дочерних - индикаторы.
Компенсаторные отношения родительских узлов предполагают, что одна компетенция обеспечит нехватку выраженности другой при решении элемента задания (при взаимодействии с индикатором). Формально, для k родительских узлов такое отношение будет записываться как
Иср = ,
где Иср - фиксированное значение выраженности компетенции при нескольких родительских компетенциях; - параметр трудности элемента задания; бk - параметр дискриминативности элемента задания по отношению к компетенции К; - фиксированное значение выраженности компетенции k; 1/ - константа, стабилизирующая дисперсию.
Связывающий характер отношений предполагает, что для успешного решения элемента задания требуются все родительские компетенции, но определяющим параметром будет выступать наименьшее значение выраженности одного из родительских узлов. Иными словами, при оценке вероятности справиться или не справиться с элементом задания при том или ином уровне в комбинации родительских компетенций, будет учитываться выраженность наиболее «слабой» компетенции. Формально запись такого характера отношений имеет вид:
Иср = [min Kk = 1 ,
где буквенные обозначения те же, что и для предыдущего уравнения, но сумма заменятся на минимизацию.
Разъединяющий характер отношений также предполагает, что для того, чтобы успешно справиться с элементом задания требуются все родительские компетенции, но, в отличие от соединяющего характера, определяющей будет наиболее сильно выраженная компетенция. В отличие от уравнения связывающих отношений, в уравнении разъединяющих отношений минимизация заменяется на максимизацию:
Иср = [max Kk = 1 .
Отношения с подавляющей связью (inhibitor) характеризуют ситуацию, в которой для успешного решения требуются все родительские компетенции. Однако требуется достижение определенного порогового уровня по одной компетенции, после чего успешность выполнения элемента задания будут объясняться выраженностью другой компетенции.
Например, для двух родительских узлов такой характер отношений записывается системой уравнений:
Иср = ,
где - необходимый уровень выраженности второй компетенции; - минимальный возможный уровень выраженности второй компетенции, - дискриминативность задания по отношению ко второй компетенции.
После того, как для дочернего узла рассчитано фиксированное значение выраженности на континууме, для определения значений в таблице условных вероятностей можно применить определенную модель современной теории тестирования, например, Graded Response Model (GRM; Samejima, 1997). В этой модели вероятность справиться с заданием рассчитывается как вероятность оказаться на ответной категории m элемента задания j или выше (на ответных категориях от m+1 до М). В трактовке современной теории тестирования данная модель позволяет учитывать дискриминативность каждого задания, но предполагает, что шаги внутри задания имеют одинаковую дискриминативность. Для случая с m ответными категориями элемента задания, вероятность оказаться на категории m или выше записывается в виде:
P(X ? xjm | и) = logit-1 Daj(и - djm), где
D = 1,7, нормализирующая константа, djm - трудность ответной категории m элемента задания j, aj - параметр дискриминативности элемента задания j.
Вероятность получить определенный балл определяется разностью вероятностей для двух соседних категорий. Учитывая, что P(X ? x0|и) = 1, то P(X = x0) = 1 ? P( X ? x1 ). Тогда вероятность оказаться на ответной категории m определяется формулой
P(X = xm | и) = Pm(и) - Pm+1(и).
Обратим внимание, что для определения вероятности используется не параметр трудности всего задания, а параметр трудности порога (что не имеет различий для дихотомических случаев). Важное условие заключается в том, что трудности порогов должны быть упорядочены и возрастать (Almond et al., 2015; Mislevy et al., 2002).
Обратимся к тому, как задаются априорные вероятности в данном подходе. Априорные вероятности трудности и дискриминативности элементов заданий, сила связи компетенций между собой задается экспертной оценкой, которая базируется на теоретических ожиданиях и предыдущем опыте. Для более удобной организации работы с экспертами при оценке априорных значений трудности и дискриминативности был разработан метод «лингвистических априорных значений» (linguistic priors) (Mislevy et al., 2002). Этот метод базируется на том, что эксперты разделяют все элементы заданий на три группы: легкие, средние и трудные. Эти оценки переводятся в оценки трудности -1, 0, 1 логита, соответственно. Также можно отнестись и к установке параметров дискриминативности: эксперты делят все задания на три группы: вносящие мало вклада, вносящие средний вклад и вносящие много вклада в итоговый вывод о выраженности компетенции (de Klerk et al., 2015). Априорные вероятности между компетенциями и суб-компетенциями в данной работе задавались непараметрически с учетом ожиданий экспертов относительно силы и характера связи.
Таким образом, задав априорные вероятности, задав отношения между родительскими переменными (если у дочернего узла больше одного родительского), при помощи модели современной теории тестирования можно рассчитать значение вероятности для каждой ячейки таблицы условных вероятностей.
Следующим этапом, после того, как построена графическая структура сети и заданы априорные значения таблиц условных вероятностей, выступает анализ с учетом реально полученных данных. На этом этапе априорные значения параметров таблиц условных вероятностей обновляются с учетом новой информации - эмпирических данных. Этот этап часто называется обучением сети. Параметры, полученные при обучении сети, называются апостериорными параметрами (Хлопотов, 2014).
Для оценки параметров таблиц условных вероятностей наиболее широко применяются два похода: метод максимизации ожидания (expectation maximization, EM-алгоритм; Dempster, Laird, & Rubin, 1977) и методы Монте Карло по схеме марковской цепи (MCMC; Brooks, 1998).
EM-алгоритм позволяет получить модальную оценку апостериорного распределения вероятностей. Такой алгоритм позволяет проводить быстрые расчеты и устойчив к шуму и пропуску данных. Допущением алгоритма выступает допущение о нормальном распределении всех параметров (Dempster, Laird, & Rubin, 1977).
В целом, ЕМ-алгоритм позволяет получить оценку максимального правдоподобия ненаблюдаемого параметра. Процесс этого вычисления можно разделить на два этапа. Первый этап - вычисление ожидаемых значений (expectation, E-этап). На этом этапе определяются паттерны ответов респондентов (определённые комбинации ответов) и рассчитывается количество респондентов с определенным паттерном ответа на каждом уровне компетенции. Например, если в тесте три дихотомических вопроса, то возможно 12 паттернов (000, 001 и т.д.). Если компетенция имеет два уровня, то рассчитывается ожидаемое количество респондентов в каждом паттерне для каждого уровня компетенции. Поскольку уровень компетенции неизвестен, для расчета количества испытуемых на каждом уровне используются предварительные оценки вероятности справиться с заданием и вероятности оказаться на определенном уроне компетенции. Иными словами, строятся функции правдоподобия для каждого паттерна при определенных значениях вероятностей.
На следующем этапе полученное количество испытуемых на каждом уровне компетенции позволяет переоценить значения вероятностей и сделать их более подходящими данным. Это означает, что происходит максимизация функции правдоподобия (maximization, M-шаг). В байесовской сети этот процесс происходит при условии взаимодействия полученных на E-шаге вероятностей и априорном распределении. В результате алгоритм предлагает модальные оценки апостериорных распределении вероятностей оказаться на определённом уровне компетенции и вероятностей справиться с заданиями. EM-алгоритм функционирует итерационно, т.е. шаги последовательно сменяют друг друга до достижения сходимости модели (Almond et al., 2015).
Другой подход к оценке параметров, метод Монте Карло по схеме марковской цепи (MCMC) не требует допущений о нормальности распределения и позволяет получить не только модальную оценку вероятностного распределения, но все распределение вероятностей в целом, в котором можно оценить интересующие характеристики (медиану, дисперсию, моду, квартили). Это возможно благодаря тому, что МСМС позволяют сгенерировать набор выборок из вероятностного распределения, который будет эквивалентен набору выборок из апостериорного распределения.
Применение MCMC дает значительные преимущества для анализа. Среди них можно отдельно отметить, что исследователь получает полное представление о вероятностном распределении и может глубже проанализировать характер поведения исследуемого параметра. Также MCMC дает серьезные преимущества при оценке согласия модели с данными, при сравнении моделей, при оценке качества отдельных индикаторов. Например, MCMC позволяет применить такие критерии согласия, в которых учитывается доля неопределенности в оценке параметра (Posterior predictive model checking), сравнивать согласие данных с моделью, учитывая расхождения значений максимума функции правдоподобия (Deviance) в распределении вероятностей, полученных в каждой цепи Маркова, делая поправку на количество параметров (DIC), применять графические методы оценки качества модели (Almond et al., 2015; Levy, 2006; Sinharay, 2006; Sinharay & Almond, 2007). Однако несмотря на такие преимущества, применение MCMC требует осторожности и больших вычислительных затрат. В рамках данной работы к обучению сети будет применен EM-алгоритм. EM-алгоритм широко применяется в тестировании, особенно в работах, посвященных разработке и валидизации заданий сценарного типа и компьютерных игр (Kim et al., 2016).
После того, как задана структура графа, заданы априорные распределения параметров и получены апостериорные распределения вероятностей, следующий этап - оценка качества построенной модели. Как будет отмечено ниже, проверка качества модели - один из аспектов доказательства валидности инструмента. Такой анализ позволяет исследователям понять, как с учетом реальных данных функционирует инструмент, подтверждается ли теоретически ожидаемая структура компетенций с учетом эмпирических данных, выявить слабые места модели.
Глава 3. Методологическая рамка проверки валидности инструмента измерения креативности и критического мышления
Доказательство валидности и надежности - один из важнейших этапов разработки инструмента измерения. При этом, стандарты и требования к валидности сохраняются вне зависимости от формы тестирования и от формата тестовых заданий: «различные модели могут использоваться, равно как и различные подходы к начислению баллов и различные рубрики оценивания, но фундаментальные принципы оценивания, такие, как валидность, надежность, объективность и честность, должны применяться ко всем инструментам одинаково» (Messick, 1992, p. 2).
Подобные документы
Психология учителя при развитии критического мышления, его особенности и характеристики. Чувство иерархии, сцены, самовлиятельности, правила "игры в мышление". Использование рисунка и техники вопросов для развития критического мышления, их виды.
курсовая работа [34,2 K], добавлен 31.05.2010Развитие критического мышления через чтение и письмо: стадии, методы, приёмы. Возрастные особенности школьников подросткового периода. Пути развития критического мышления учащихся 7-8 классов на уроках английского языка. Уровень сформированности мышления.
дипломная работа [372,2 K], добавлен 25.07.2017Эдвард де Боно - автор метода прямого обучения мышлению в школах. Суть параллельного мышления. Особенности метода "Шести шляп мышления". Правила использования шляп. Преимущества и недостатки. Развитие творческого и критического мышления, толерантности.
презентация [1,3 M], добавлен 01.11.2016Понятие креативности, факторы, влияющие на ее развитие; проявление в различные возрастные периоды. Выделение критериев оценки креативности в научных теориях. Методы оценки творческих способностей человека. Сравнительный анализ тестирования и эксперимента.
курсовая работа [24,5 K], добавлен 28.03.2011Творческие способности индивида: проблема тестирования и диагностики креативности и дивергентной продуктивности. Параметры творческой одаренности и креативности, специализированный тест Торренса для оценки их беглости, оригинальности и разработанности.
презентация [780,8 K], добавлен 21.10.2016Понятие креативности и гендера в социальной психологии. Факторы гендерно-ролевой социализации человека. Методики изучения уровня развития творческого мышления взрослых. Организация исследования гендерных различий в процессе анализа креативности.
курсовая работа [470,1 K], добавлен 30.01.2013Креативность как способность к умственным преобразованиям и творчеству. Методики развития креативного мышления персонала предприятия. Характеристика процесса креативности. Тесты дивергентных способностей. Пути формирования креативности у персонала.
реферат [29,1 K], добавлен 07.03.2012Общая характеристика вербальной креативности, ее связь с компетентностью. Психолого-педагогическая характеристика студенчества. Особенности творческого мышления в молодости. Рекомендации, которые могли бы помочь развитию вербальной креативности.
курсовая работа [70,3 K], добавлен 15.06.2015Разработка теста для исследования уровня креативности менеджеров по рекламе и определение его надежности. Критерии креативности, экспертные оценки способности человека к производству знаний, отличающиеся от общепринятых. Методология исследования.
контрольная работа [782,8 K], добавлен 11.07.2009Понятие и содержание креативности как уровня творческой одаренности и устойчивой психологической характеристики личности. Анализ проблем определения креативности как умственного процесса и возрастных аспектов ее развития. Современные теории креативности.
презентация [1,1 M], добавлен 18.06.2016