Оценивание результатов электронного обучения на основе современной теории тестов

Теоретические положения идей развивающего обучения и гуманизации педагогического контроля. Оптимальные условия для процедуры оценивания обучающегося и организации его электронного обучения. Применение теории тестов в контрольно-оценочных процедурах.

Рубрика Педагогика
Вид статья
Язык русский
Дата добавления 02.04.2019
Размер файла 82,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Оценивание результатов электронного обучения на основе современной теории тестов

Малыгин А.А., кандидат педагогических наук, доцент

Челышкова М.Б., доктор педагогических наук, профессор

Ивановский государственный университет

Одной из актуальных задач на пути развития электронного обучения, массовых открытых онлайн курсов (МООК) в академической среде является возможность получения качественного контента и объективной информации о результатах обучения как для самих обучающихся, так и для профессорско-преподавательского состава. Как отмечают участники различных конференций по данной и смежной проблематике [1], существуют определенные риски получения недостоверных данных о реальном уровне академических достижений студентов после прохождения тех или иных онлайн курсов, с одной стороны, и качества самих курсов, программ, дисциплин, представленных на платформах онлайн обучения, с другой стороны. В свою очередь это порождает много других вопросов, связанных с возможностью переаттестации и признания результатов освоения различных дисциплин основной образовательной программы на базе МООК, выбора аналогичного курса у другого преподавателя и т. п.

В данной работе рассмотрим аспект, связанный с оценочной деятельностью в условиях электронного обучения и предложим технологию оценивания результатов обучения студентов.

Перспективной с позиций цифровизации образования и развития методов машинного обучения и эффективной с точки зрения достижения индивидуализирующего и дифференцирующего эффектов является применение современной теории тестов (Item Response Theory, IRT) в контрольно-оценочных процедурах [2, 5]. Создаваемые на основе моделей IRT контрольно-обучающие системы позволяют реализовывать в практике электронного обучения теоретические положения идей развивающего обучения и гуманизации педагогического контроля, его адаптивности, создавая каждому обучающемуся ситуацию успеха [3].

Весомым аргументом в пользу использования IRT в оценочных процедурах является возможность операционализации концепции Л. С. Выготского о зонах развития ребенка. В его работах было доказано, что обучение должно быть согласовано с уровнем развития ребенка. Поэтому для входа в режим оценивания или самооценивания необходимо иметь методику выделения задания, оптимальных по трудности для двух уровней развития - уровня актуального развития и зоны ближайшего развития обучающегося. Методики дифференциации заданий по трудности, основанные на аппарате IRT, позволяют сформировать для каждого обучающегося в индивидуализированном режиме два фрейма заданий. Один из них предназначается для адаптивного обучения, а другой - для адаптивного оценивания [4].

IRT предназначена для оценки латентных параметров испытуемых и заданий тестов на основе математико-статистических моделей измерения, для которых характерны строго формализованное представление эмпирических данных и фундаментальный теоретический подход. Качественная калибровка заданий, объединенных в банки, использование адаптивных технологий тестирования, высокий уровень автоматизации режима предъявления заданий для обучения и контроля, оперативное реагирование на ответы испытуемого, компьютерное моделирование тестов и высокая информационная безопасность являются примечательными особенностями сегодняшнего дня в высокоразвитых системах образования.

В IRT начальная оценка латентного параметра, который трактуется как некоторая переменная величина, получается непосредственно из эмпирических данных измерения. Переменный характер измеряемой величины указывает на возможность последовательного приближения к объективным оценкам параметра с помощью определенных итерационных методов. В педагогических тестах, являющихся основным инструментом измерений, в качестве латентной переменной выступает уровень подготовленности, который в IRT обозначается символом и, а латентный параметр трудности задания - в.

Датский математик Г. Раш (G. Rash), рассмотревший оптимальное соотношение между и и в, предложил форму связи этих параметров в виде разности и - в. Введение разности для оценок трудности заданий и уровня подготовленности предполагает существование единой интервальной шкалы с единицей измерения, получившей в работах зарубежных исследователей название «логит» (“logit”).

Выбор математической модели, описывающей взаимосвязь между эмпирическими результатами измерения и значениями латентных параметров и и в, является центральным в IRT. Основное предположение в IRT состоит в существовании некоторой математической модели связи между эмпирическими результатами тестирования и значениями латентных параметров и и в, взаимодействие которых в процессе тестирования порождает эти эмпирические результаты.

Относительная инвариантность значений латентных переменных, определенная устойчивость частот появлений их значений послужили основанием для использования понятия вероятности события как меры возможности его появления. В качестве такого события исследователи выбрали правильный ответ i-го испытуемого на j-е задание теста. Можно рассматривать условную вероятность правильного выполнения i-м испытуемым с уровнем подготовленности иi различных по трудности заданий теста, считая иi параметром i-го испытуемого, а в независимой переменной.

Тогда условная вероятность Pi будет функцией латентной переменной в:

электронный обучение тест оценивание

(1)

Аналогично вводится условная вероятность правильного выполнения j-го задания трудностью вj различными испытуемыми тестируемой группы. В данном случае независимой переменной является и, а вj - параметр, определяющий трудность j-го задания теста. Тогда

(2)

Где

N - число испытуемых, n - количество заданий в тесте.

В теории IRT функции (1) и (2) обозначаются как и соответственно и называются Item Response Functions (IRF). Графиком первой функции является убывающая индивидуальная кривая обучающегося (рис. 1), а вторая возрастающая функция - это характеристическая кривая задания (рис. 2).

Число параметров, входящих в аналитическое задание функций, является основанием для подразделения семейства IRF на классы. Среди логистических функций различают несколько наиболее удобных для практического использования - однопараметрическую модель Раша, двух- и трехпараметрические модели Бирнбаума. Ниже приводятся указанные модели.

Однопараметрическая модель Г. Раша:

, (3)

, (4)

где и - независимые переменные для первой и второй функции соответственно.

Двухпараметрическая модель А. Бирнбаума:

, (5)

, (6)

где аj - параметр дифференцирующей способности задания, указывающий дифференцирующую способность задания при измерении различных значений уровня подготовленности и принимающий значения в интервале (0,5; 2,5), ai - параметр, характеризующий структуру знаний испытуемого.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Рис. 1. График функции Pi=f (в) (индивидуальная кривая обучающегося)

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Рис. 2. График функции Pj=F(и) (характеристическая кривая задания)

Трехпараметрическая модель А. Бирнбаума:

, (7)

где все обозначения прежние, а сj - параметр, характеризующий вероятность правильного ответа на j задание в том случае, если этот ответ угадан.

В режиме реального времени при организации оценочной процедуры выбор излишне сложной модели (т. е. трехпараметрической, учитывающей эффект угадывания правильного ответа на задание) приводит к менее надежным и валидным результатам за счет плохой сходимости итерационных методов для оптимизации значений параметра подготовленности обучающегося и. Поэтому есть смысл обращаться к модели Раша.

К числу важных преимуществ использования IRT и на ее основе технологии оценивания следует отнести [3, 4]:

1) высокую эффективность, обеспечиваемую за счет минимизации числа заданий, времени тестирования в условиях, когда трудность заданий в режиме самообучения или самооценки оптимальна для каждого обучающегося;

2) индивидуализацию темпа выполнения каждого задания каждым обучающимся, обеспечиваемую адаптивными алгоритмами и соответствующим программным обеспечением, с помощью которых подбор очередного по трудности задания происходит только после выполнения предыдущего задания;

3) повышение уровня мотивации во время самообучения или самооценки у слабо подготовленных обучающихся за счет исключения предъявления излишне трудных заданий, способствующих росту фактора тревожности и чувства страха.

Наряду с выбором теоретико-методологического обоснования необходимо иметь банк калиброванных заданий, из которого в последствии будут собираться измерители. Стандартизированная форма заданий также является необходимым условием [6].

Процедура оптимизации подбора заданий строится на оценивании значения разности и - в при подборе каждого задания и имеет различный вид для обучения и оценивания. В качестве и выбирается апостериорное значение, полученное по результатам выполнения испытуемым предыдущего задания. А в выбирается среди оценок трудности калиброванных заданий банка с расчетом на подбор специальных значений разности и - в и в рамках планируемого содержания обучения или оценивания.

Для анализа значения разности и - в кривые обучающегося и нескольких различных по трудности заданий располагают на единой системе координат, поскольку в IRT для оценок параметров и и в вводится одна и та же единица измерения. Графическая интерпретация такого взаимного расположения кривых представлена на рис. 3, где приводятся характеристические кривые четырех различных по трудности заданий (графики функций Р1, Р2, Р3, Р4) и индивидуальная кривая обучающегося (график функции Pi), для которого определяются границы зон развития.

На качественном уровне анализа можно сказать, первое задание слишком легкое для обучения или оценивания рассматриваемого обучающегося. Его выполнение не вызовет у испытуемого никаких новообразований, способствующих приращению уровня или качества подготовленности обучающегося. Столь же непригодно первое задание для оценивания уровня подготовленности обучающегося в силу существенного отличия от нуля разности иi - в1. Вероятность правильного выполнения испытуемым рассматриваемого задания стремится к единице, в этой связи его применение нецелесообразно для обучения или оценивания. По своей трудности первое задание принадлежит к области знаний, давно освоенной обучающимся.

Второе задание с характеристической кривой в окрестности точки перегиба индивидуальной кривой i-го обучающегося оптимально по трудности для проведения оценивания уровня подготовленности. Поскольку для такого задания разность |иi - в2| близка к нулю, оно обеспечивает максимальные значения показателя адаптивности, которые возрастают по мере приближения в к и и значения вероятности правильного выполнения второго задания i-м обучающимся Pi(в2) к 50 %, когда ровно половина шансов на то, что обучающийся справится с рассматриваемым заданием. Трудность второго задания вполне естественно соотнести с уровнем актуального развития обучаемого, на котором он способен без помощи педагога выполнить правильно второе задание.

Рис. 3. Характеристические кривые четырех заданий
и индивидуальная кривая обучающегося

Третье задание с характеристической кривой Р3 обладает большей трудностью по сравнению со вторым заданием. Соответственно, характеристическая кривая третьего задания сдвинута вправо, вдоль оси переменных и и в. Судя по вероятности правильного ответа, можно сказать, что трудность третьего задания незначительно превышает возможности рассматриваемого обучающегося, поэтому в процессе оценивания обучающийся скорее всего не справится с ним без помощи, если, конечно, не угадает правильный ответ. В этой связи, можно предположить, что третье задание соответствует по трудности зоне ближайшего развития обучающегося и оптимально для обучения, а не для оценивания.

Возникает вопрос - все ли задания, расположенные правее точки перегиба индивидуальной кривой i-го обучающегося и на достаточном от нее удалении, следует отнести к его зоне ближайшего развития с тем, чтобы использовать в режиме адаптивного обучения? Или есть какой-то предел, ограничивающий сверху интервал трудности заданий, соответствующих зоне ближайшего развития i-го обучающегося. Для ответа на поставленный вопрос следует соотнести принцип обучения на высоком уровне трудности, предложенный Л.В. Занковым, и другой не менее важный принцип доступности обучения. Результаты соотнесения позволяют сделать вывод о необходимости введения ограничений на трудность заданий, соответствующих зоне ближайшего развития i-го обучающегося, поскольку в противном случае, если ограничения не введены, появляются слишком трудные задания, которые оказываются недоступны для обучаемого в процессе обучения и тем более, в процессе оценивания. Именно таким, слишком трудным заданием представляется четвертое задание, вероятность правильного выполнения которого i-м обучающимся близка к нулю. По трудности это задание можно отнести к области дальнейшего перспективного развития обучаемого и опираться на него и ему подобные задания при планировании индивидуальной траектории обучения i-го обучающегося.

Анализ значений вероятности правильного выполнения i-м обучающимся различных по трудности заданий по однопараметрической модели G. Rasch позволяет выстроить систему неравенств, задающих внешние границы зон развития обучаемого на оси переменных и и в путем определения возможных диапазонов изменения разности иi - в [4].

Основываясь на результатах анализа, предлагается вероятность правильного выполнения заданий, соответствующих по трудности уровню актуального развития i-го обучающегося и режиму оценивания, определить неравенством |Рi(иi - в) - 0,5|<0,1. Тогда 0,4<Рi(иi - в)<0,6 и разность иi - в лежит в пределах -0,20<иi - в<0,24. Из последнего неравенства следует диапазон оценок параметра трудности заданий, соответствующих уровню актуального развития i-го обучающегося и предназначенных для оценивания. Этот диапазон имеет вид иi -0,24<в<иi +0,20. С учетом границ доверительного интервала для оценок параметра и при уровне значимости б=0,05 неравенство для диапазона оценок параметра трудности заданий, соответствующих уровню актуального развития примет вид

иi +1,96Se(и)-0,24< в < иi - 1,96Se(и)+0,20.

Вероятность правильного выполнения заданий, соответствующих по трудности зоне ближайшего развития определяется неравенством

0,2<Рi(иi - в)<0,4.

Отсюда, как и ранее, легко получить диапазон для разности иi - в, который имеет вид -0,80<иi - в<-0,20. А диапазон оценок параметра трудности заданий, соответствующих зоне ближайшего развития обучающегося и предназначенных для обучения имеет вид иi+0,20<в<иi+0,80. Полученное неравенство помогает переосмыслить связь между принципом обучения на высоком уровне трудности и принципом доступности и ввести формализованную характеристику этой связи, поскольку предлагая i-му обучающемуся задания трудности в из интервала (иi+0,20; иi+0,80), можно реализовать принцип доступности на фоне оптимально высокой трудности заданий в процессе обучения или оценивания.

Граничные значения на концах интервала необходимо уточнить, учитывая доверительные интервалы для оценок параметра и, которые при уровне значимости б=0,05. На выбранном уровне значимости неравенство для диапазона оценок параметра трудности заданий, соответствующих зоне ближайшего развития, примет вид

иi +1,96Se(и)+0,20< в < иi - 1,96Se(и)+0,80.

Оставшиеся концы интервала возможных значений вероятности правильного выполнения i-м обучающимся различных по трудности заданий задаются неравенствами 0,0<Рi(иi - в)<0,2 и 0,6<Рi(иi - в)<1,0 и соответствуют ситуациям, когда задания слишком трудны (первое неравенство), либо излишне легки (второе неравенство) для организации обучения или оценивания. Из первого неравенства получается диапазон оценок параметра трудности заданий в>иi+0,80, которые можно отнести к зоне дальнейшего перспективного развития обучающегося. На момент получения оценки иi вероятность самостоятельного выполнения заданий из интервала в>иi+0,80 близка к нулю, поэтому они годятся лишь для планирования индивидуальной траектории обучения. С большой достоверностью можно утверждать, что при выборе заданий трудностью в>иi+0,80 начинает доминировать принцип обучения на высоком уровне трудности, а принцип доступности обучения совсем не принимается во внимание.

Второе неравенство 0,6<Рi(иi - в)<1 приводит к противоположной пограничной ситуации, когда задания из соответствующего неравенству интервала в<иi-0,24 оказываются излишне легкими для обучения или оценивания i-го обучающегося.

Описанные интервалы трудности заданий позволяют сформировать оптимальные условия для процедуры оценивания обучающегося и обеспечивают максимально возможный развивающий эффект при организации его электронного обучения, поскольку все расчеты и алгоритмы должны выполняться на основе соответствующего программного обеспечения.

Список литературы

1. eLearning Stakeholders and Researchers Summit 2018 [Текст] : материалы междунар. конф. : Proc. of the Intern. Conf., Москва, 5-6 декабря 2018 г. / Нац. исслед. ун-т «Высшая школа экономики» ; отв. ред. Е. Ю. Кулик. - М. : Изд. дом Высшей школы экономики, 2018. - 210 с.

2. Звонников, В. И. Оценивание в высшем образовании: от линейности к адаптивности [Текст] / В. И. Звонников, А. А. Малыгин, М. Б. Челышкова // Известия высших учебных заведений. Сер.: Гуманитарные науки. - 2014. - Т. 5, вып. 2. - С. 166-171. - Библиогр.: с. 171.

3. Малыгин, А. А. Адаптивное тестирование в дистанционном обучении [Текст] : моногр. / А. А. Малыгин. - Иваново : Иван. гос. хим.-технол. ун-т, 2012. - 138 с.

4. Челышкова, М. Б. Адаптивное тестирование в образовании (теория, методология, технология) [Текст] : моногр. / М. Б. Челышкова. - Москва, Исследовательский центр проблем качества подготовки специалистов, 2001. 165 c.

5. Hambleton, R. K., Swaminathan, H., Rogers, H. J. (1991). Fundamentals of Item Response Theory. N. Y. : Sage Publications. - 174 p.

6. Van der Linden, W. J., Glas, C. A. W. (2010). Elements of adaptive testing, Statistical for social and behavioral sciences. - Springer Science + Business Media, LLC. - 437 p.

7. Wainer, H. (2000). Computerized adaptive testing: A Primer. - 2nd edition. - Mahwah, NJ : ELawrence Erlbaum Associates. - 278 p.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.