Построение многофакторной модели успеваемости студента
Методика расчета коэффициента вариации по потенциальным переменным. Алгоритм вычисления параметров линейной функции. Средний балл по аттестату - один из дополнительных факторов, которые могут потенциально оказать влияние на успеваемость студентов.
Рубрика | Математика |
Вид | статья |
Язык | русский |
Дата добавления | 31.08.2020 |
Размер файла | 274,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru
Размещено на http://www.allbest.ru
Построение многофакторной модели успеваемости студента
Галимова Н.С., Загитова Л.Р.
Аннотации
Целью исследования является оценка результатов ЕГЭ как показателя уровня знаний абитуриентов, а также выявление факторов, проецирующих успеваемость первокурсников вуза. В исследовании были использованы методы подбора обьясняющих переменных: исключение квазинеизменных переменных,метод анализа матрицы коэффициентов корреляции, процедура исключения a posteriori; тест Чоу для ввода фиктивных переменных. Основным информационным источником для проведения исследования стали данные внутривузовской информационной системы «ИСУ АГНИ».
Основными результатами исследования являются следующие:
- выявлен тип связи успеваемости студентов с факторами;
- определено оптимальное множество объясняющих переменных для прогнозирования успеваемости студентов;
- с помощью теста Чоу было выяснено, что качество частных моделей регрессии превосходит качество общей модели регрессии.
Ключевые слова: эконометрические модели, фиктивные переменные, подбор обьясняющих переменных
The aim of the study is to evaluate the results of the national college entrance exam as an indicator of the level of knowledge of applicants, as well as to identify factors that project the performance of freshmen at universities. The study used the methods of selection of explanatory variables: the exclusion of quasi-constant variables, the method of analysis of the matrix of correlation coefficients, the procedure for eliminating a posteriori, Chow test for entering simulation variables. The main information source for the study was the data of the intra-university Information System of Almetyevsk State Oil Institute.
The main results of the study are as follows:
- The type of relationship between student performance and factors is identified;
- The best set of explanatory variables for predicting student performance is determined;
- With the help of the Chow test, it was found that the quality of private regression models exceeds the quality of the general regression model.
Keywords: econometric models, simulated variables, selection of explanatory variables.
Ни для кого не секрет, что в российские вузы школьники поступают по результатам единого государственного экзамена. Однако, не все ребята с высокими «стартовыми» баллами ЕГЭ держат данную планку по успеваемости в вузе. Данная практика определила актуальность исследования. Накопленный опыт позволяет использовать статистические данные для проверки наличия связи результатов ЕГЭ и последующей успеваемостью в вузе [7]. Также выделены дополнительные факторы, которые могут потенциально оказать влияние на успеваемость студентов помимо результатов ЕГЭ, а именно: средний балл по аттестату, сразу ли после окончания суза абитуриент поступает в вуз, живет ли студент в общежитии, приезжий ли студент или местный.
Регрессионный анализ
Для исследования связи между результатами ЕГЭ и успеваемостью студентов первого курса был использован массив данных, включающий обезличенную информацию о студентах, обучавшихся на очном отделении за период зимней сессии 2018-2019 уч.г. по 3 факультетам: Нефтегазовый (НГФ), Энергомеханический (ЭМФ), Экономический (экономика)
Согласно рисунку 1 [6, c.192], на котором представлено распределение успеваемости, студенты, поступившие с баллами более 200, были отчислены в конце первого семестра наравне с теми, кто имел балл 160 и ниже. Также же не трудно заметить широкий разброс баллов успеваемости при равных результатах ЕГЭ, к примеру, при 180: от 400 до 600! Однако, высокобальники (с баллами более 210) показывают однозначно высокие показатели успеваемости.
Рис. 1 - Распределение успеваемости студентов 1-го курса
вариация линейный успеваемость студент
Рассчитаем разные модели, по каждой из двух x-переменных: «Баллы по ЕГЭ» и «Средний балл аттестата», чтобы понять, какая числовая переменная лучше описывает изменение у-переменной «Успеваемость» [8]. Расчеты проведены с помощью MS Exsel [3, c.85].
Таблица 1 - Результаты вычислений параметров линейной функции
Параметр |
по переменной «Баллы по ЕГЭ» |
по переменной «Средний балл аттестата» |
|
Линейная модель |
|||
Значение коэффициента а |
2,237056 |
0,149332 |
|
Значение коэффициента b |
0,009617 |
0,865286 |
|
Коэффициент детерминации RІ |
0,312048 |
0,382615 |
|
Экспоненциальная кривая |
|||
Значение коэффициента ln(a) |
- |
-0,03032 |
|
Значение коэффициента b |
- |
0,945854 |
|
Коэффициент детерминации RІ |
- |
0,379052 |
|
Гиперболическая кривая |
|||
Значение коэффициента а |
- |
7,7389723 |
|
Значение коэффициента b |
- |
-16,50151 |
|
Коэффициент детерминации RІ |
- |
0,369173 |
По результатам расчета линейной модели, переменная «Средний балл аттестата» имеет больший вклад в целевую переменную (b~0,87), чем переменная «Баллы ЕГЭ» (b ~ 0,09617). Поэтому следующие расчеты по остальным видам моделей проведены только по переменной «Средний балл аттестата». В каждой из моделей ошибка не превышает 20%, следовательно, стоит выбрать ту модель, у которой коэффициент детерминации наибольший: rІ~0,38 при линейной модели.
Однако, принимать решение о том, является ли переменная «Баллы ЕГЭ» постоянной и нужно ли ее оставлять в качестве фактора в модели, стоит после применения методов подбора оптимального количества обьясняющих переменных. И так как значение коэффициента детерминации должно быть близко к 1, чтобы модель считалась хорошей, значит, нужно улучшить обьясняемость целевой переменной [9.c.54].
Подбор объясняющих переменных
Объясняющие переменные подбираются с помощью статистических методов.
Первый метод - исключение квазинеизменных переменных. Чтобы считать переменную обьясняемой, необходимо, чтобы она была вариабельна. Измерить размах переменной позволяет коэффициент вариации. И далее при заданном критическом значении коэффициента вариации v*, например v*=0,1, переменные удовлетворяющие условию: vi?v* признаются квазинеизменными и исключаются из множества потенциальных объясняющих переменных. Эти переменные не несут значимой информации.
Рассчитаем среднее значение, стандартное отклонение для коэффициента вариации по нашим данным [4,c.108].
Таблица 2 - Расчёт коэффициента вариации по потенциальным переменным
Показатель |
Среднее значение |
стандартное отклонение |
Коэффициент вариации |
|
Формула в MS Exsel |
СРЗНАЧ() |
СТАНДОТКЛОН() |
п.3/п.4 |
|
По переменной «Баллы ЕГЭ» |
192,948 |
30,08 |
0,155925 |
|
По переменной «Средний балл аттестата» |
4,3 |
0,37 |
0,081246 |
При заданном критическом значении коэффициента вариации v*, например, v*=0,1, переменная, удовлетворяющая условию - «Средний балл аттестата» признается квазинеизменной и исключается из множества потенциальных объясняющих переменных.
Второй метод - метод анализа матрицы коэффициентов корреляции [5].
После проведенных расчетов коэффициенты корреляции между переменной У и переменными Х1 и Х2 равны:
Таким образом, мы получили вектор коэффициентов корреляции между объясняемой переменной и потенциальными объясняющими переменными в виде:
Коэффициент корреляции пар переменных Х1 и Х2 равен:
Матрица коэффициентов корреляции между потенциальными объясняющими переменными представляется в следующем виде (с учетом свойства симметричности коэффициентов):
В множестве потенциальных объясняющих переменных R0= нет элементов, меньше r*=0,063, следовательно, модель успеваемости студентов можно представить в виде у=б0+ б1Х1+Х2+е.
Третий метод - процедура исключения a posteriori.
Процедура исключения a posteriori состоит из следующих этапов:
1. Строится модель, содержащая все объясняющие переменные.
2. Для каждой потенциальной объясняющей переменной рассчитывается значение статистики:
3. Наименьшее из значений Ii, т.e. Ih=min сравнивается с критическим значением I*, выбранным из таблиц t-теста Стьюдента для принятого уровня значимости г и для (n-m-1) степеней свободы. Если Ih?I*, то следует исключить из модели потенциальную объясняющую переменную Ih, повторно оценить модель со всеми оставшимися потенциальными объясняющими переменными и вернуться к этапу 2. Если же Ih>I*, то необходимо принять модель со всеми присутствующими в ней объясняющими переменными [2, c.154].
Рассчитаем по нашим данным:
I1=0.622/0.049=12.676
I2=0.0052/0.000604=8.687
I*=(673-4-1;0,95)=1,9635
Ih=min =8.687 > I*, следовательно, принимаем модель со всеми присутствующими переменными.
Таким образом, проведя подбор объясняющих переменных:
- методом исключения квазинеизменных;
- методом анализа матрицы коэффициентов корреляции;
- процедурой исключения a posteriori
пришли к результату, что модель успеваемости студентов принимается с двумя объясняющими переменными: «Баллы ЕГЭ» и «Средний балл аттестата».
Построим линейную модель с помощью функции MS Excel ЛИНЕЙН.
Таблица 3 - Результаты линейной модели успеваемости студентов
Параметр |
Значение |
|
Значение а |
0,247 |
|
Значение b1 |
0,62179 |
|
Значение b2 |
0,0052 |
|
Коэффициент детерминации RІ |
0,445 |
|
Коэффициент аппроксимации |
7,59 |
Итак, уравнение имеет вид: y=0.247+0,6218Х1+0,0052Х2 , где Х1 - Средний балл аттестата, Х2- Баллы ЕГЭ. Ошибка аппроксимации в пределах нормы, коэффициент детерминации вырос при добавлении второй переменной, однако, объяснимость успеваемости студентов стоит попробовать еще повысить, попытаясь ввести фиктивные переменные и проверить их целесообразность с помощью теста Чоу.
Если до сих пор мы использовали непрерывные переменные, которые могут принимать любые значения, то вводимые переменные -фиктивные или искусственные - дискретны. Необходимость ввода таких переменных определяется с помощью теста Чоу [1, c.263].
Для улучшения модели успеваемости студентов планируется ввести следующие фиктивные переменные [10]:
- форма финансирования обучения
Х3
- окончание среднего профессионального учреждения
Х4
- поступление в вуз в год окончания ссуза
Х5
- территориальное происхождение студента
Х6
- пол студента
Х7
- направление, на котором учится студент
Х8
Рассчитаем суммы квадратов остатков для общей модели регрессии: для этого применим функцию ЛИНЕЙН(), по Y - успеваемость студента, по Х - Средний балл аттестата и Баллы ЕГЭ. Для данной модели ESS(UN)=100.0321.
Теперь рассчитаем суммы квадратов остатков для частных выборок (табл. 4).
Таблица 4 - Данные для расчета
№ п/п |
Переменная |
сумма квадратов остатков |
ESS(PR1)+ ESS(PR2)< ESS(UN) |
Fнабл |
||
ESS(PR1) |
ESS(PR2) |
|||||
1 |
форма финансирования обучения |
27,31 |
71,07 |
98,38<100,0321 |
3,74 |
|
2 |
окончание среднего профессионального учреждения |
98,67 |
0,54 |
99,21<100,0321 |
1,84 |
|
3 |
поступление в вуз в год окончания ссуза |
9,25 |
89,18 |
98,43<100,0321 |
3,599 |
|
4 |
территориальное происхождение студента |
82,69 |
15,32 |
98,01<100,0321 |
4,57 |
|
5 |
пол студента |
46,17 |
45,11 |
91,28<100,0321 |
21,296 |
|
6 |
направление, на котором учится студент |
49,04 |
48,396 |
97,44<100,0321 |
5,909 |
Рассчитаем Fкрит при уровне значимости а=0,1 и двух степеней свободы k1=m+1=674 и k2=n-k-1=667 по таблице распределения Фишера-Снедекора: Fкрит~1.26. Сравним данное значение с наблюдаемым, вычисленное по выборочным данным. Все значения Fнабл больше Fкрит. Следовательно, основная гипотеза отвергается, и качество частных моделей регрессии превосходит качество общей модели регрессии.
Таким образом, модель успеваемости студента имеет вид:
У=1,029 + 0,51018*Средний балл аттестата + 0,00291*Баллы ЕГЭ + 0,249*Форма финансирования + 0,063*Окончание СПУ + 0,132*Год окончания ссуза + 0,075*Терр.происхождение студента - 0,263*Пол студента-0,035*Направление обучения студента
R-квадрат, называемая также мерой определенности, составляет 0,53, т.е. модель улучшилась после добавления фиктивных переменных. В нашем случае ошибка прогноза составила 7,1%.
Заключение
На примере Альметьевского государственного нефтяного института миссия единого государственного экзамена в области ранжирования абитуриентов является успешной для выявления талантов и отличников.
Список литературы
1. Айвазян С.А. Методы эконометрика: учебник /С.А. Айвазян.- М.: Магистр:ИНФРА-М,2010. - 512с.
2. Новак Эдвард Введение в методы эконометрики. Сборник задач:Пер. с польск./Под ред. И.И. Елисеевой.-М.:Финансы и статистика,2004. - 248с.
3. Абдуллин Р.З. Эконометрика в MS Excel [Электронный ресурс] : практикум/ Р.З. Абдуллин, В.Р. Абдуллин. - Иркутск : Изд-во БГУ, 2016. - 135 с.
4. Воскобойников Ю.Е. Теория вероятностей и математическая статистика (с примерами в Excel) [Электронный ресурс] : учебное пособие / Ю.Е. Воскобойников, Т.Т. Баланчук. -- Электрон. текстовые данные. -- Новосибирск: Новосибирский государственный архитектурно-строительный университет (Сибстрин), ЭБС АСВ, 2013. -- 201 c.
5. Кремер Н.Ш., Путко Б.А. Эконометрика. -2007. с 175-251.
6. Наглядная статистика. Используем R! / А.Б. Шипунов, Е.М. Балдин, П.А. Волкова, А.И. Коробейников, С.А. Назарова, С.В. Петров, В.Г. Суфиянов. Издательство: ДМК-Пресс, 2017. - 293c.
7. Сосницкий В.Н., Потанин Н.И. Вероятностный подход к анализу успеваемости студентов // Фундаментальные исследования. - 2014. - № 8-3. - С. 734-738
8. Хавенсон Т. Е., Соловьева А. А. Связь результатов Единого государственного экзамена и успеваемости в вузе // Вопросы образования. - №1. - 2014. - С. 176?199.
9. Бородачёв, С.М. Многомерные статистические методы: учебное пособие / С.М. Бородачёв. Екатеринбург: УГТУ - УПИ, 2009. - 85c.
10. Герасименко П.В. Анализ степени влияния основных факторов на результаты обучения высшей математике в современных условиях / П.В. Герасименко // Математика в вузе. Современные интеллектуальные технологии: Материалы международной научно-методической конференции 21 - 25 июня 2000 г. / НовГУ им. Ярослава Мудрого. Великий Новгород, 2000. - С. 7-9.
Размещено на Allbest.ru
Подобные документы
Построение многофакторной корреляционно-регрессионной модели доходности предприятия: оценка параметров функции регрессии, анализ факторов на управляемость, экономическая интерпретация модели. Прогнозирование доходности на основе временных рядов.
дипломная работа [5,1 M], добавлен 28.06.2011На основе корреляционно-регрессионного анализа выявление зависимости успеваемости учащихся от таких факторов как: табакокурение; проблемы в семье; времяпровождение в сети Интернет; время, уходящее на телефонные разговоры; посещение дополнительных занятий.
научная работа [212,8 K], добавлен 23.05.2012Методика и основные этапы расчета параметров линейного уравнения парной регрессии с помощью программы Excel. Анализ качества построенной модели, с использованием коэффициента парной корреляции, коэффициента детерминации и средней ошибки аппроксимации.
лабораторная работа [22,3 K], добавлен 15.04.2014Оптимальная настройка параметров "алгоритма отжига" при решении задачи коммивояжера. Влияние начальной температуры, числа поворотов при одной температуре и коэффициента N на результат. Сравнение и определение лучшей функции для расчётов задачи.
контрольная работа [329,9 K], добавлен 20.11.2011Обобщенные циклотомические последовательности. Цикломатические числа и их свойства. Метод расчета линейной сложности обобщенных циклотомических последовательностей. Примеры вычисления линейной сложности двоичных последовательностей с периодами.
курсовая работа [797,5 K], добавлен 13.06.2013Полное исследование функции с помощью производных, построение графика функции, нахождение ее наибольшего и наименьшего значения на отрезке. Методика вычисления неопределенных и определенных интегралов. Нахождение общего решения дифференциального уравнения
контрольная работа [133,4 K], добавлен 26.02.2012Математическое обоснование алгоритма вычисления интеграла. Принцип работы метода Монте–Карло. Применение данного метода для вычисления n–мерного интеграла. Алгоритм расчета интеграла. Генератор псевдослучайных чисел применительно к методу Монте–Карло.
курсовая работа [100,4 K], добавлен 12.05.2009Подборка нелепых отрывков из конспектов студентов механико-математического факультета и некоторых казусных высказываний их преподавателей. Анализ теории вероятностей и теории функции Зильберта. Методика вычисления интегралов методом подгонки под ответ.
учебное пособие [237,6 K], добавлен 28.03.2010Задачи и методы линейной алгебры. Свойства определителей и порядок их вычисления. Нахождение обратной матрицы методом Гаусса. Разработка вычислительного алгоритма в программе Pascal ABC для вычисления определителей и нахождения обратной матрицы.
курсовая работа [1,1 M], добавлен 01.02.2013Методика нахождения уравнения прямой исследуемого треугольника и параллельной ей стороне с использованием углового коэффициента. Определение уравнения высоты этого треугольника. Порядок и составление алгоритма вычисления площади данного треугольника.
задача [21,9 K], добавлен 08.11.2010