Современные математические методы обработки результатов педагогического тестирования

Особенности оценивания достоверности результатов тестирования знаний учащихся в педагогике. Методы теории моделирования и параметризации тестов, основанные на математических моделях Георга Раша. Развитие методов обработки результатов тестирования.

Рубрика Педагогика
Вид статья
Язык русский
Дата добавления 14.10.2018
Размер файла 11,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

2

Современные математические методы обработки результатов педагогического тестирования

«Наука начинается с тех пор, как начинают измерять», - говорил Дмитрий Иванович Менделеев. В педагогике, как и во многих приложениях естественных, социальных, экономических и технических наук, зачастую необходимо измерять нечто, недоступное непосредственному наблюдению. В педагогике это, например, уровень подготовленности обучающихся в рамках тех или иных учебных дисциплин. Такие, недоступные непосредственному наблюдению, величины называют латентными. И измерены, точнее, оценены, они могут быть по совокупности каких-то косвенных данных. Обычно измеряемый объект тестируют, то есть подвергают серии специально выбранных испытаний, по отклику объекта на которые и можно сделать заключение о значении его латентной характеристики.

Одним из актуальных примеров этого является педагогическое тестирование: уровень подготовленности учащихся оценивается по результатам выполнения ими тестовых заданий.

Любое измерение должно давать объективный, надёжный и достоверный результат. Особенно важно это для измерения, основанного на косвенной информации, в том числе для педагогического тестирования.

Одной из актуальных задач, решаемых с использованием современных математических методов, является оценивание достоверности результатов тестирования. И такие методы последнее время активно разрабатываются, как в западной, так и в отечественной науке. Об этом и, в частности, о методах теории моделирования и параметризации тестов, основанных на математических моделях Георга Раша, можно прочитать в [1].

Математические модели Раша имеют вероятностную природу. Так, определяется вероятность того, что испытуемый, обладающий определённым уровнем подготовленности, при выполнении задания известной трудности получит некоторый балл. Уровень подготовленности каждого испытуемого, равно как и уровни трудности всех заданий теста, являются параметрами модели Раша и теми латентными характеристиками, которые подлежат измерению. Доступны для наблюдения баллы, фактически полученные каждым испытуемым за выполнение каждого задания. Эти баллы образуют матрицу ответов. Каждая строка матрицы ответов характеризует одного испытуемого и называется его профилем. Сумма баллов по строке называется первичным баллом испытуемого и является, в совокупности с другими аналогичными первичными баллами, достаточной статистикой для латентной характеристики - уровня подготовленности испытуемого.

Однако первичный балл испытуемого лежит на порядковой шкале. То есть испытуемых по результатам тестирования можно ранжировать, определить, что один испытуемый имеет более высокий уровень подготовленности, чем другой. Но нельзя ответить на вопрос: насколько более высокий, так как численно одинаковая разность первичных баллов в разных частях шкалы имеет объективно неодинаковое значение. Кроме того, результаты измерения, полученные с использованием разных тестов, нельзя непосредственно сравнивать друг с другом, так как они лежат на разных шкалах. Немного улучшает дело пересчёт первичных баллов в процентные, но и процентные баллы не образуют метрической шкалы, необходимой для объективности измерений. Тогда как шкалы, по которым измеряются физические величины (расстояния в метрах, интервалы времени в секундах и т.п.) - метрические. Хотелось бы и уровень подготовленности обучающихся измерять по результатам тестирования тоже баллами на метрической шкале.

То, что тестовые баллы, полученные указанными выше математическими методами, основанными на моделях Раша, лежат на метрической шкале, доказано [Там же, c. 39]. Что есть одно из важнейших преимуществ этих методов.

Другим важным преимуществом математических моделей Раша является объективность выполняемых с их помощью измерений. Это свойство моделей Раша позволило разработать специальные математические методы анализа результатов тестирования [2]. В частности, по согласию или несогласию данных тестирования с моделью оказывается возможным сделать заключение о достоверности или недостоверности результатов измерения уровня подготовленности испытуемого. Причинами недостоверности измерения могут быть нарушения процедуры тестирования, ошибки разработчиков теста и так далее. В любом случае педагоги, применяющие тестирование (а также иные лица, принимающие решения на основании тестовых измерений), должны быть уверены в достоверности полученных оценок. А при выявлении случаев недостоверности необходимо принять меры по совершенствованию тестовых материалов и (или) процедуры тестирования, либо устранению иных причин этой недостоверности. Математические методы, описываемые в настоящей статье, помогают в этом.

Поскольку модель вероятностная, то для оценки достоверности измерения используются методы математической статистики, и, в частности, методы проверки статистических гипотез. Стандартный подход предполагает сравнение значений некоторых статистик, вычисленных на эмпирических данных, с соответствующими критическими значениями. При проверке гипотезы, что эмпирические данные (профили испытуемых) согласуются с моделью Раша, используются так называемые статистики согласия. Их эффективность для обнаружения недостоверных измерений была подвергнута специальному исследованию [3]. Были выявлены недостатки упомянутых стандартных методов, определены причины их недостаточной эффективности и разработаны способы совершенствования этих методов применительно к указанной задаче.

В частности, было показано и теоретически, и эмпирически в сериях вычислительных экспериментов, что распределение статистик согласия существенно отличается от предполагаемых для них теоретических распределений. А, следовательно, неэффективно использовать при проверке гипотезы согласия предлагаемые стандартным подходом критические значения. То есть можно было предположить, что корень проблемы не в самих статистиках согласия, а в выборе критических значений для них. Соответственно, надлежало исследовать зависимость эффективности выявления искажённых профилей от выбора критического значения. Была определена зависимость от критического значения для частоты совершения ошибки первого рода (профиль испытуемого искажён, но критерием это не выявлено) и для частоты совершения ошибки второго рода (профиль не содержит искажений, но критерием выбран как искажённый).

Как обычно, в данном случае невозможно оптимизировать обе величины одновременно. Поэтому был использован известный из математической теории принятия решений подход: оптимизация функции суммарных потерь. В соответствии с ним разработан алгоритм получения критического значения для каждой статистики согласия посредством оптимизации функции потерь на специально сконструированных модельных данных, аналогичных реальным данным, подлежащим анализу. Интересной особенностью этого метода является отсутствие необходимости в знании теоретического характера распределения, что позволяет, - и это проверено, - использовать и иные критерии, не связанные со статистиками согласия, в том числе непараметрические.

Попутно исследование эффективности статистик согласия показало, что они эффективны в разных ситуациях по-разному. Одни показывают высокую эффективность при малом количестве искажений, но теряют её при увеличении этого количества. Другие, наоборот, менее эффективны в целом, но более устойчивы к увеличению числа искажённых профилей.

Поэтому было предложено сформировать на основе наиболее эффективных статистических критериев сводный критерий, являющийся их линейной композицией, коэффициенты которой выбираются так, чтобы статистика оказалась нормирована к единице. Тогда её семантика очевидна - это степень уверенности в том, что результаты тестирования данного испытуемого содержат искажения и недостоверны. Априорные соображения позволяли предполагать, что такой сводный критерий окажется эффективнее каждого из входящих в композицию статистического критерия отдельно. Посредством такого же, как и для всех остальных статистик, исследования его эффективности на всех модельных данных было показано, что это действительно так.

На основе метода оптимизации критических значений и алгоритма формирования сводного критерия была создана технология обработки данных тестирования, позволяющая оценивать достоверность его результатов по каждому испытуемому. Иначе говоря, разработано математическое и программное обеспечение оценки достоверности результатов тестирования [4].

Указанное программное обеспечение прошло всестороннюю проверку как в ходе серий вычислительных экспериментов, так и при обработке реальных данных тестирования, включая не только результаты педагогического тестирования, но и данные аналогичной структуры, но относящиеся к иным прикладным сферам. Результаты исследования прошли апробацию в Федеральном центре тестирования Министерства образования и науки Российской Федерации, были доложены на российских и международных симпозиумах и конференциях и опубликованы в научных журналах.

Целью публикации настоящей статьи являются трансляция наработанного опыта и приглашение коллег, заинтересованных в развитии и использовании методов обработки результатов тестирования, к сотрудничеству. Связаться с автором можно по электронной почте V_B_Karpinsky@mail.ru. Автор использует описанные выше методы в своей педагогической деятельности. Они оказываются полезны при разработке и апробации тестовых материалов как текущего, так и промежуточного тестирования по разным учебным дисциплинам, а также тестирования остаточных знаний. Если по результатам апробации выявляются случаи недостоверного измерения уровня подготовленности некоторых испытуемых, то чаще всего причина в несовершенстве тестовых материалов (реже - процедуры тестирования), причём используемые математические методы помогают разобраться, в чём именно состоит это несовершенство, и как его исправить.

Перед нами пример того, как достижения современной науки могут найти конкретное применение в нашей системе образования. А именно, в частности, для совершенствования педагогического тестирования, вызывающего, как известно, много нареканий, но являющегося, на данный момент неизбежно, одним из важнейших средств педагогической диагностики.

Список литературы

тестирование педагогика раш моделирование

1. Карданова Е.Ю. Моделирование и параметризация тестов: основы теории и приложения. М.: ФГУ «Федеральный центр тестирования», 2008. 296 с.

2. Карданова Е.Ю., Карпинский В.Б. Специальные методы анализа результатов тестирования, основанные на свойстве объективности моделей Раша // Информационные технологии. 2008. № 4. С. 72-80.

3. Карпинский В.Б. Исследование эффективности общих статистик согласия для обнаружения искажений при массовом тестировании // Вопросы тестирования в образовании. 2006. № 1 (17). С. 7-14.

4. Карпинский В.Б. Математическое и программное обеспечение оценки достоверности результатов массового тестирования: автореф. дисс. ... канд. техн. наук. Великий Новгород, 2009. 20 с.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.