Использование методов Data Mining для анализа качества и ритмичности обучения студентов

Изучение ориентировки методов Data Mining на обнаружение закономерностей (или знаний), скрытых в описании имеющихся фактов. Особенность построения иерархической структуры классифицирующих правил для анализа качества и ритмичности обучения студентов.

Рубрика Педагогика
Вид статья
Язык русский
Дата добавления 28.01.2019
Размер файла 21,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

УДК 004.825

Национальный исследовательский Иркутский государственный технический университет

Использование методов Data Mining для анализа качества и ритмичности обучения студентов

М.Н. Ихиритова

Государственный образовательный стандарт высшего профессионального образования предусматривает контроль качества обучения студентов - промежуточную и итоговую аттестацию. Промежуточная аттестация организуется в соответствии с учебным планом специальности вуза и проводится во время экзаменационных сессий. Как правило, студенты сдают 4-5 экзаменов. Практика учета успеваемости показывает, что экзаменационная сессия проходит для студентов по-разному, одни студенты сдают экзамены в срок на хорошие и отличные оценки, другие имеют отставания. Представляет интерес анализ ситуации и характеристика отставания в сдаче экзаменов для какой-либо конкретной экзаменационной сессии, а также выяснение существования взаимосвязи между наличием перерывов в обучении, качеством и ритмичностью обучения. Под ритмичностью обучения понимаем сдачу экзаменов в сроки сессий или с определенным отставанием.

Характеристика методов Data Mining. Методы Data Mining ориентированы на решение центральной проблемы Искусственного Интеллекта - на обнаружение закономерностей (или знаний), скрытых в описании имеющихся фактов, и на использовании этих закономерностей для предсказания будущих фактов. Data Mining - это процесс обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных для практики закономерностей [1].

Неочевидные - это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.

Объективные - это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным.

Практически полезные - это значит, что выводы имеют конкретное значение, которому можно найти практическое применение.

Современные требования к эффективной интеллектуальной обработке данных:

§ данные не имеют ограничений в объеме;

§ допускаются к обработке разнородные данные (количественные, качественные, текстовые);

§ результаты должны быть конкретны и понятны;

§ инструменты для обработки данных должны быть просты в использовании [2].

Деревья решений (decision trees) - один из наиболее популярных подходов к решению задач Data Mining. Они создают иерархическую структуру классифицирующих правил типа «ЕСЛИ... ТО...» (IF … THEN), имеющую вид дерева.

Одна из известных систем в классе Data Mining, использующая алгоритмы построения деревьев решений, - See5/С5.0 (RuleQuest, Австралия). Система See5 предназначена для анализа больших баз данных, содержащих до сотни тысяч записей и до сотни числовых или номинальных полей. Результат работы See5 выражается в виде деревьев решений и множества if-then-правил. Задача See5 состоит в предсказании диагностического класса какого-либо объекта по значениям его признаков. Выбор See5 для данного исследования объясняется не только широкими возможностями программы, но и тем, что DEMO-версия программы доступна, а правила ее использования описаны в отечественной литературе [2].

Постановка задачи. Выявить закономерности успеваемости студентов разных специальностей по каждому из девяти учебных семестров, ритмичности сдачи сессий и наличии перерывов в обучении. Для анализа выбран выпускной курс факультета кибернетики ИрГТУ.

Подготовка данных для анализа. Система See5 требует задание двух обязательных файлов: первый с перечислением имен разделяющих признаков и указанием классификационного признака (файл с расширением "*.names") и второй - с данными (файл с расширением "*.data"), где по строкам располагаются объекты, а по столбцам - признаки, причем в том порядке, в котором они заданы в файле названий.

При создании файла "*.names" использованы следующие классификации и обозначения.

Все студенты разделены на три класса (описательные показатели, имя поля в файле "*.names" class): Значения поля class:1, 2, 3:

1) студенты, претендующие на диплом с отличием (имеют средний балл по дисциплинам учебной программы (4,75-5,0);

2) хорошо успевающие студенты (средний балл 4,0-4,75);

3) студенты, имеющие удовлетворительную успеваемость (средний балл 3,0-3,99);

Для каждого студента указывается его специальность (имя поля в файле "*.names" -Spec ); значения поля Spec: IP, ASU, IT, EVM:

IP - «Прикладная информатика».

ASU - «Автоматизированные системы обработки информации и управления».

IT - «Информационные системы и технологии».

EVM - «Вычислительные машины, комплексы, системы и сети».

Для каждого студента указываются результаты аттестации за 1, 2, …, 9 семестр (имя полей в файле "*.names" - S1, S2, …, S9). Значения полей S1, S2, …, S9: A, B, C, D:

А - сессия сдана на «отлично»;

В - сессия сдана на «хорошо» и «отлично»;

С - сессия сдана с оценками «удовлетворительно»;

D - сессия сдана только на «удовлетворительно».

Для каждого студента указывается показатель ритмичности обучения - сроки сдачи 1, 2, …, 9 сессии (имя полей в файле "*.names" - SU1, SU2, …, SU9). Значения полей SU1, SU2, …, SU9: 0, 1, 2:

0 - сессия сдана в срок;

1 - сессия сдана с незначительным опозданием;

2 - сессия сдана со значительным опозданием.

Имя поля перерывы в обучении в файле "*.names" - Rest. Значения поля Rest :Yes, No - наличие или отсутствие перерывов в обучении (отчисление/восстановление, академический отпуск). Ниже приведена структура полученного файла "U.names" и фрагмент файла "U.data" для рассматриваемой задачи. знание иерархический обучение

Структура файла U.names

class.

class:1,2,3.

Spec: IP,ASU,IT,EVM.

S1:A,B,C,D.

S2:A,B,C,D.

….

S9:A,B,C,D.

SU1:0,1,2

SU2:0,1,2.

…..

SU9:0,1,2.

Rest:Yes,No

Фрагмент структуры файла U.data

2,IP,A,B,B,B,A,C,A,B,C,0,0,0,0,1,0,1,0,1,Yes

2,IP,C,B,B,B,A,C,A,B,C,0,0,0,0,1,0,1,0,1,No

1,IP,C,B,B,B,A,C,A,B,C,0,2,0,0,1,0,1,0,1,No

2,IP,C,B,B,B,A,C,A,B,C,0,0,0,0,1,0,1,0,1,No

Результаты оценки качества и ритмичности обучения с использованием системы See5. Исследование проведено по данным выпускного курса факультета кибернетики, число студентов составило 94 человека, была использована DEMO-версия программы See5.

В результате работы программы было получено следующее дерево решений:

Decision tree:

S2 = A: 1 (7)

S2 = D: 3 (2)

S2 = B:

:...S8 = D: 2 (0)

: S8 = A: 1 (13/2)

: S8 = B: 2 (11/2)

: S8 = C: 2 (4)

S2 = C:

:...S3 = A: 2 (0)

S3 = B: 2 (5/1)

S3 = D: 3 (3)

S3 = C:

:...S7 = A: 2 (9)

S7 = B: 2 (13)

S7 = D: 3 (9/1)

S7 = C:

:...S5 = A: 2 (1)

S5 = B: 2 (3)

S5 = C: 3 (13/5)

S5 = D: 3 (1).

Анализ полученного дерева решений возможен, но не удобен для восприятия. Вместо этого в системе See5 предусмотрена возможность преобразования дерева решений в набор правил IF … THEN. Всего было получено 13 правил, ниже представлен фрагмент полученных правил:

Read 94 cases (20 attributes) from U.data

Rules:

Rule 1: (7, lift 4.0)

OC2 = A

-> class 1 [0.889]

Rule 2: (13/2, lift 3.6)

OC2 = B

OC8 = A

-> class 1 [0.800]

Rule 3: (16/1, lift 1.6)

Правило 1: 7 студентов из числа претендующих на диплом с отличием вторую экзаменационную сессию сдали на отлично.

Правило 2: для 13 студентов из числа претендующих на диплом с отличием характерно, что вторая экзаменационная сессия сдана на хорошо и отлично, а 8 сессия - только на отлично, исключение из этого правила составили 2 студента.

Правило 3: для 16 студентов из числа имеющих удовлетворительную успеваемость характерно, что вторая экзаменационная сессия сдана с оценками удовлетворительно, а 5 сессия - на хорошо и отлично, исключение из этого правила составил 1 студент.

Следующие правила также показывают закономерности между классами студентов и результатами сдачи сессий. В восьми из 13 правил речь идет о второй сессии, результаты сдачи которой фактически классифицируют студентов также как и конечный результат их обучения. Такой же вывод, хотя и в меньшей степени, можно сделать о сдаче третьей сессии. Интересно, что никаких закономерностей в отношении ритмичности обучения, специальности по которой обучались студенты, и наличия перерывов в обучении система не выявила.

Выводы

Использование системы See5, реализующей один из методов Data Mining, позволило проанализировать качество и ритмичность обучения студентов:

§ выявлены закономерности между сдачей студентами второй и третьей сессии и средним баллом по результатам обучения;

§ незначительные закономерности существуют между сдачей студентами пятой, седьмой, восьмой сессии и средним баллом по результатам обучения;

§ закономерностей, связанных с первой, четвертой и девятой сессиями не выявлено;

§ не выявлено закономерностей, связанных со специальностью, по которой обучались студенты и наличием перерывов в обучении.

Библиографический список

1. Чубукова И. А. Data Mining: учеб. пособие. М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. 382 с.

2. Дюк В.А., Самойленко А.П. Data Mining: учебный курс. СПб.: Питер, 2001. 366 с.

3. Китаева О.И. Использование ИТ-инфраструктуры вуза для оценки общекультурных компетенций студента/выпускника: тр. XVI Байкальской Всероссийской конференции «Информационные и математические технологии в науке и управлении». Т. 2. Иркутск. 2011.186 с.

Аннотация

Методы Data Mining ориентированы на обнаружение закономерностей (или знаний), скрытых в описании имеющихся фактов, и на использовании этих закономерностей для предсказания будущих фактов. Показано использование одного из методов поиска закономерностей - построение иерархической структуры классифицирующих правил для анализа качества и ритмичности обучения студентов. Приведены результаты анализа.

Ключевые слова: качество успеваемости; данные; интеллектуальная обработка данных; деревья решений.

DataMining methods are focused on revealing regularities (or knowledge), concealed in description of the facts, and on usage of these regularities in order to predict future facts. The paper shows one of the methods of searching regularities - plotting a hierarchical structure of ranking rules to analyze the quality and rhythmicity of students' training. The author presents the results of the analysis.

Keyword: quality of progress in studies, data, intelligent data processing, decision trees

Размещено на Allbest.ru


Подобные документы

  • Изучение методов учета и контроля знаний студентов по модульно-рейтинговой системе. Характеристика критериев письменного экзамена и принципов получения объективной оценки. Исследование правил построения системы непрерывного контроля знаний студентов.

    курсовая работа [301,9 K], добавлен 27.03.2010

  • Дискуссия как активный метод обучения. Изучение отличительных признаков традиционных и активных методов обучения. Описание дискуссии как учебного спора-диалога. Обобщение результатов применения дискуссионных методов в процессе обучения студентов.

    курсовая работа [140,9 K], добавлен 17.04.2017

  • Рейтинговая система контроля и оценки учебных достижений в компьютерных системах обучения. Методика постановки целей обучения и выбора критериев для оценки его качества. Система рейтингового контроля умений и знаний студентов агролицея №59.

    курсовая работа [77,2 K], добавлен 14.02.2007

  • Признаки, функции и технологии концентрированного обучения. Повышение качества обучения студентов через создание оптимальной организационной структуры учебного процесса. Сближение обучения с естественными психологическими закономерностями обучения.

    контрольная работа [34,7 K], добавлен 11.12.2014

  • Активные и интерактивные технологии обучения. Имитационные и неимитационные формы организации обучения. Классификация методов активного обучения для ВУЗа, предложенная Вербицким А.А. Критика интерактивных методов обучения в академической среде.

    реферат [17,0 K], добавлен 23.09.2011

  • Проблема методов обучения и их классификация. Основные понятия, непосредственно связанные со способами отслеживания учебных результатов и повышения качества знаний. Сущность и типы педагогического мониторинга как средства повышения качества обучения.

    дипломная работа [1,2 M], добавлен 08.06.2015

  • Специфика вузовского обучения. Психолого-педагогические аспекты самостоятельной работы студентов. Общая характеристика активного обучения. Сущность и принципы деловой игры. Эвристические технологии обучения. Практическое изучение активности студентов.

    дипломная работа [2,5 M], добавлен 25.06.2011

  • Характеристика методики обучения истории: предмет, задачи, компоненты, методы научного исследования. Закономерности обучения истории в целях повышения эффективности и качества знаний. Изучение педагогических методов в процессе школьного обучения истории.

    реферат [128,3 K], добавлен 19.01.2010

  • Познавательная активность студентов как психолого-педагогическая проблема. Характеристика методов активного обучения студентов: проблемные лекции, консультации, семинары-практикумы, дискуссии, деловые игры. Разработка консультаций для преподавателей.

    дипломная работа [564,1 K], добавлен 14.07.2014

  • Технологии модернизации обучения на основе активизации и интенсификации деятельности студентов. Классификация форм активного обучения. Применение интерактивных, знаково-контекстных, частично-поисковых методов обучения как образовательных инноваций.

    реферат [796,6 K], добавлен 15.06.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.