Машинное обучение

Понятие и содержание машинного обучения, его разновидности и основные задачи, алгоритмы и сферы практического применения, возможные проблемы и недостатки. Образовательные онлайн-платформы. Модель и принципы предсказания академического успеха студента.

Рубрика Педагогика
Вид дипломная работа
Язык русский
Дата добавления 30.06.2017
Размер файла 1,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Введение

машинный обучение образовательный студент

Постановка проблемы

Конкурс на поступление в высшие учебные заведения в Москве растёт в течение последних нескольких лет, нередко достигая сотен претендентов на одно место. Требования к Единому Государственному Экзамену ужесточаются, а проходные баллы в университеты увеличиваются. Абитуриенты при поступлении всё больше и больше начинают демонстрировать свои учебные и личные достижения: победы в олимпиадах, окончание школы с золотой медалью, сдача норм ГТО.[1] Однако далеко не все студенты, показавшие такие высокие результаты в ходе приёмной кампании, доучиваются до конца. Процент отчислений за академическую неуспеваемость оказывается достаточно высоким, особенно на младших курсах. По данным НИУ ВШЭ, среди студентов, зачисленных в бакалавриат в 2012 году, менее 85% получили дипломы в 2016. На отдельных факультетах процент отчисленных студентов существенно выше, например, только 52% студентов факультета прикладной математики и информатики окончили бакалавриат в 2016 году. [2] Такие цифры заставляют задаться вопросом, из-за чего именно студенты, показавшие высокие результаты и достижения в школе, не показывают их в университете, и можно ли предсказать академический успех или неудачу конкретного студента, основываясь только на тех данных, которые он предоставил приёмной комиссии.

Актуальность

Образование является сферой, в которой производится и накапливается большое количество данных.

· Традиционный образовательный процесс подразумевает тысячи часов, проведенных в учебном заведении и за выполнением различных заданий дома в течение многих лет. Такое взаимодействие студентов с учебными материалами генерирует множество информации.

· В системах управления образованием (LMS - Learning Management System) и образовательных онлайн платформах собирается данные о взаимодействии студента с онлайн системой, о его прогрессе и результате выполнения заданий и упражнений, о вовлеченности в групповые проекты и обсуждения.

За годы работы университет накапливает данные о своих абитуриентах: их пол, возраст, баллы за ЕГЭ по различным предметам, выигранные олимпиады и внеучебные достижения. Позже собираются данные об этих же людях, но уже как о студентах: их посещаемость, оценки по различным предметам, успехи в научной деятельности, какие типы заданий давались лучше или хуже, какие преподаватели вели курс.

Правильный анализ такой информации может помочь составить более полную картину процесса обучения, выявить полезные и, возможно, неочевидные связи: как уровень первоначальной подготовки влияет на успеваемость по конкретному предмету, зависит ли успех в освоении дисциплины от пола, посещаемости или преподавателя, студенты каких преподавателей показывают лучшие результаты. Методы машинного обучения могут позволить предсказать исход какой-либо ситуации, основываясь на исторических данных. В отличие от традиционных мер измерения результатов учащихся, таких как оценки и накопленные баллы, которые помогают измерять только конечный результат студента, применение методов машинного обучения может помочь педагогам и исследователям получить ценную информацию о том, как улучшить и персонализировать обучение, составлять прогнозы и рекомендации, проводить изменения в режиме реального времени, когда это имеет смысл и необходимо.

Цель и задачи исследования

Цель данной работы - показать возможности применения машинного обучения в сфере образования на примере обзора существующего опыта, а также разработки модели предсказания успешности сдачи экзамена студентом на основе его предыдущих академических успехов.

Для достижения цели исследования были поставлены следующие задачи:

1. Изучить основы машинного обучения

2. Провести обзор сфер применения машинного обучения

3. Исследовать существующий опыт использования машинного обучения в сфере образования

4. Разработать модель предсказания успешности прохождения студентом определённой дисциплины.

Объект и предмет исследования

Объектом данного исследования является применение методов машинного обучения в образовании.

Предметом исследования является разработка модели, позволяющей предсказывать успешность сдачи студентом экзамена на основании его предыдущих учебных успехов.

Структура работы

Данная работа состоит из введения, трёх глав и заключения.

В первой главе содержатся основы машинного обучения: понятие, его виды, задачи и алгоритмы. Также в этой главе описаны сферы применения машинного обучения и возможные проблемы и недостатки. Вторая глава посвящена обзору существующего опыта применения машинного обучения различными образовательными учреждениями. В третьей главе описана разработанная модель, предсказывающая успешность освоения студентом определённой дисциплины, а также возможные перспективы развития. В заключении содержатся выводы, сделанные в ходе данной работы.

1. Машинное обучение

1.1 Понятие машинного обучения

Термин «машинное обучение» был впервые введён пионером в области компьютерных игр и искусственного интеллекта Артуром Самюэлем в 1952 году. Артур Сэмюель занимался созданием программы для игры в шашки, и в ходе этой работы была создана программа «Checkers-playing», которая смогла «научиться» играть в шашки лучше, чем её создатель. Таким образом, программа, продемонстрировавшая способность к самообучению на основе своего предыдущего опыта, опровергла суждение о том, что компьютеры способны выполнять только строго заданные для них алгоритмы. Артур Сэмюель определил машинное обучение, как «методы, позволяющие компьютерам учиться без непосредственного их программирования». [3]

Более формальное определение машинного обучения дал американский учёный в области науки о данных Том Митчелл: «Говорят, что компьютерная программа обучается на основе опыта E по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E» [4]

Таким образом, машинное обучение представляет собой подраздел искусственного интеллекта, стоящий на стыке таких дисциплин, как математика, статистика, теория вероятностей, теория графов и изучающий алгоритмы, способные самостоятельно обучаться на основе опыта.

1.2 Виды машинного обучения

Существует несколько основных способов машинного обучения:

1. Обучение с учителем

2. Обучение без учителя

3. Частичное обучение

4. Обучение с подкреплением

При обучении с учителем для каждого прецедента задана пара «ситуация, требуемое решение». Задача такого обучения состоит в поиске зависимости принятого решения от заданной ситуации и построении алгоритма, способного принять на вход описание ситуации, а на выходе предсказать для неё решение.

При обучении без учителя на входе подаются только описания объектов без принятого решения по этой ситуации, а задача состоит в поиске зависимостей между представленными объектами.

Частичное обучение является промежуточным звеном между обучением с учителем и без учителя, так как каждый прецедент задаётся парой «ситуация, требуемое решение», однако ответы известны лишь для части этих ситуаций.

При обучении с подкреплением не существует «правильных ответов» для каждой ситуации, алгоритм ищет оптимальную стратегию поведения, опираясь на реакцию внешней среды. [5]

1.3 Задачи машинного обучения

Машинное обучения позволяет решать ряд задач, самыми распространёнными из которых являются:

1. Классификация

2. Регрессия

3. Кластеризация

4. Фильтрация выбросов

Задача классификации является задачей обучения с учителем. Все вводимые данные разделяются на два и более классов, а задача обучающегося алгоритма состоит в том, чтобы определять новые вводимые данные в один из этих классов. [6]

Главным отличием задачи регрессии от задачи классификации является то, что при регрессии выходные данные являются непрерывными, а не дискретными. [7]

При прогнозировании оценок студента перед алгоритмом стоят именно эти задачи, так как на входе имеются данные о «ситуации», то есть наборе характеристик студента, и «решении», то есть оценке студента, при этом количество оценок может быть ограничено: например, разделение на два класса «зачёт» и «незачёт», 4 класса «отлично», «хорошо», «удовлетворительно» и «неудовлетворительно» или большее количество классов, а может быть и непрерывно для более глубокой детализации оценки.

Кластеризация является задачей обучения без учителя, целью которой является группировка объектов в кластеры на основании характеристик каждого объекта. [8]

Задача фильтрации выбросов заключается в поиске аномальных измерений, выделяющихся на фоне всей выборки. [9]

1.4 Алгоритмы машинного обучения

Существуют различные алгоритмы машинного обучения, на основе которых строится модель. Во многом выбор подходящего алгоритма зависит от характеристик набора данных, таких как объем, структура и качество. Также на выбор алгоритма влияет желаемый результат (двухклассовая или многоклассовая классификация, регрессия или фильтрация выбросов), требуемая точность предсказания и время, необходимое для обучения модели. Пример того, как можно выбрать подходящий алгоритм машинного обучения представлен на рисунке 1.

Рисунок 1. Выбор алгоритма машинного обучения, Microsoft Azure

Далее будут рассмотрены некоторые классы самых популярных и используемых алгоритмов.

Линейная регрессия. Модели линейной классификации основаны на предположении о том, что данные можно разделить на классы прямой линией или её многомерным аналогом. В некоторых случаях модели линейной регрессии могут существенно снизить точность модели. [10] На рисунке 2 зелёным цветом показана настоящая граница двух классов, а оранжевая прямая - линейная граница классов. На изображении отчётливо видно, что в данном примере линейная модель оказалось не очень точной.

Рисунок 2. Алгоритм линейной классификации, Microsoft Azure

Логистическая регрессия - это также инструмент классификации, в котором вместо прямой используется S-образная кривая. [11] Пример логистической регрессии представлен на рисунке 3.

Рисунок 3. Логистическая регрессия, Microsoft Azure

Деревья решений - это базовый алгоритм машинного обучения, который подразделяет все признаки на области с одинаковой меткой. Дерево решений может быть представлено в виде структуры «листьев» и «веток», где на «листьях» записаны значения атрибутов, по которым различаются случаи, а на «ветках» дерева вариант решения для данного значения. Дерево решений позволяет показать процесс принятия алгоритмом решения в виде логической цепочки «если значение такое, то результат такой».[12] Пример дерева решений представлен на рисунке 4.

Рисунок 4. Дерево принятия решений, Microsoft Azure

Методы опорных векторов позволяют найти границу, которая разделяет классы настолько широко, насколько это возможно. Такие границы могут как линейными, так и нелинейными. [13] Пример классификации данным методом продемонстрирован на рисунке 5.

Рисунок 5. Метод опорных векторов, Microsoft Azure

1.5 Сферы применение машинного обучения

Согласно циклу зрелости технологий, опубликованному консалтинговой компанией Gartner в июле 2016 года, машинное обучение находится на так называемом «пике завышенных ожиданий» (Peak of Inflated Expectation), что означает, что данная технология популярна, является предметом обсуждения в обществе и от неё ожидают революционного эффекта. Также Gartner прогнозирует, что в течение 2-5 ближайших лет машинное обучение выйдет на уровень массового применения (mainstream adoption). [14] Цикл зрелости технологий 2016 года представлен на рисунке 6.

Рисунок 6. Цикл зрелости технологий Gartner 2016 год

На данный момент технологии машинного обучения уже широко применяются в таких сферах, как:

· Оптимизация поиска в интернете

· Обнаружение спама

· Распознавание речи, жестов и образов

· Рекомендательные системы

· Персонализированный маркетинг

· Кредитный скоринг

· Выявление мошенничества

· Страхование

· Медицинская диагностика [15]

Сферой применения машинного обучения, с которой практически каждый современный человек сталкивается на ежедневной основе, является оптимизация поиска в интернете. Пользователь заходит в поисковик и задаёт свой вопрос, задача же поисковой системы заключается в том, чтобы произвести ранжирование миллионов подходящих вариантов и выдать вначале те, которые наиболее актуальны для каждого конкретного человека. [16] Алгоритм отслеживает действия пользователя: перешёл ли он по первой ссылке, как долго он задержался на этом сайте, перешёл ли к следующей странице поиска или ввёл новый запрос. Алгоритм может отслеживать не только действия одного конкретного человека, но и учитывать поведение пользователей со схожими запросами. Таким образом, поисковый алгоритм может улучшать качество своей работы. [17]

Классическим примером решения задачи классификации является обнаружение спама в электронных письмах. Для каждого входящего письма алгоритм должен определить, является ли оно спамом или нет, то если отнести объект к одному из двух классов. Для обучения алгоритм может использовать различные характеристики письма: кем и откуда было отправлено письмо, длину письма, наличие в нём каких-либо специфических слов. При этом алгоритм может переобучаться с помощью человека, который отмечает спамом письма, пропущенные алгоритмом, или наоборот достаёт письма по ошибке попавшие в спам. [18]

Распознавание речи уже давно широко используется в повседневной жизни: люди дают своим смартфонам различные голосовые команды, такие как создать напоминание, поставить будильник, написать сообщение или позвонить определённому человеку.

Одним из развивающихся трендов современного мира являются беспилотные автомобили - транспортные средства, оборудованные системой автоматического управления, которые могут передвигаться без помощи человека. Для того, чтобы автомобиль «видел», куда он едет, используются алгоритмы распознавания образов. [19]

Ещё один пример применения методов машинного обучения, с которым многие люди сталкиваются в повседневной жизни, это персонализированный маркетинг. Чем больше компания знает о своих клиентах, тем эффективнее она может нацеливать рекламу, обеспечивая лучший сервис клиентам и большие прибыли себе. Компании могут регулировать, какие рекламные письма, скидки и купоны должны быть показаны потенциальному клиенту, учитывая его предыдущее поведение в интернете. [20] На этих же принципах основываются и рекомендательные системы. Эти системы могут определить, в какой ценовой категории необходимы товары, какие характеристики товара важны, а какие нет, покупает ли человек данную вещь для себя или в подарок. Некоторые системы будут обучаться только на информации, собранной с одного пользователя, другие же могут учитывать предпочтения людей со схожим поведением. [21]

Банки начинают использовать методы машинного обучения для кредитного скоринга - оценки платежеспособности клиента банка. Опираясь на накопленный опыт, алгоритм может позволить банку оценить уровень кредитного риска заёмщика, выявить вероятность потенциального мошенничества, предсказать финансовое поведение (наличие или отсутствие отсрочек по платежам, заинтересованность в других услугах и продуктах банка), а также определить, какие действия более эффективно применять к каждому конкретному должнику. [22]

Задача выявления финансового мошенничества решается с помощью метода фильтрации выбросов. Практически невозможно предсказать, как в данных будет выглядеть финансовое мошенничество, потому что вариантов очень много, а выборка, на которой должен обучаться алгоритм мала. Для решения этой задачи следует изучать нормальную активность, на фоне которой будут выделяться транзакции со значительными отличиями. [23]

Технологии анализа больших данных уже успешно используется в некоторых областях страхования, например, на рынке страхования автомобилей. Страховые компании просят водителя установить в своей машине электронное устройство, которое собирает все данные и все параметры автомобиля. Это позволяет определить структуру вождения водителя, например, скорость его вождения, осуществляет ли он опасные маневры, как резко он трогается с места, время суток, в которое он чаще всего водит. [24] Используя эти данные, компании могут назначать цену на страховое покрытие адекватную риску этого водителя. Страховые компании уже по-разному используют подобные данные, некоторые вводят систему скидок, если данные «говорят», что в течение какого-то отрезка времени водитель «вел себя хорошо». Другие компании определяют, будут ли они осуществлять страховую выплату в зависимости от того, нарушал ли водитель в момент аварии правила дорожного движения, например, превышал ли скорость. Очевидно, что с помощью такого устройства, факт превышения скорости устанавливается очень легко. Находя различные поведенческие паттерны, страховые компании смогут определять, если люди имеющие определенные привычки поведения в интернете, выходящие в социальные сети в определенное время дня или выкладывающие определенные типы фотографий, имеют тенденцию к тому, чтобы жить меньше, чаще терять работу или иметь проблемы с законом. [25]

Очень быстро развивающейся сферой применения машинного обучения является сфера медицинской диагностики. Применение искусственного интеллекта может повысить скорость диагностирования заболевания, уменьшить количество ошибок при диагностировании, помочь назначить нужные анализы, тем самым оптимизировав расходы больницы. Применение машинного обучения также позволяет увеличить производительность диагностирования, так как компьютер может хранить и анализировать гораздо больше данных, чем любой врач в своей голове. Машинное обучение уже используется для диагностирования некоторых форм рака и различных редких заболеваний (болезнь Гоше, множественный склероз) и имеет высокий потенциал для использования в медицине. [26]

1.6 Возможные проблемы и недостатки

Несмотря на все преимущества и возможности использования таких методов анализа, существуют некоторые проблемы и опасения, касающиеся моральной, этической и правовой использования результатов. Например, при диагностике редких заболеваний выборка, на которой происходит обучение алгоритма, является несбалансированной. Это означает, что данных о людях, имеющих заболевание существенно меньше, чем о здоровых людях, что увеличивает вероятность неверного отнесения человека в класс «больных» или «здоровых».

Также алгоритмы могут выдавать неожиданные корреляции, которые повлияют на конечный результат. Например, машинное обучение используется для классификации людей по группам риска при страховании жизни. У различных национальностей и этнических групп есть свои отличительные особенности поведения в интернете: к примеру, евреи могут искать в интернете время захода солнца чаще, нежели другие группы людей. Поэтому страховые компании могут обнаружить корреляцию между поисковыми запросами о заходе солнца и болезнью Тея-Сакса, которая распространена практически только среди евреев. Поэтому корреляции связывающие различные запросы в интернете с риском заболевания какой-либо болезнью, могут поставить под угрозу некоторые группы населения, повысив им тем самым стоимость страхования. Также одной из проблем считается использование данных о желающих застраховаться агентах без их прямого разрешения, что может расцениваться как вторжение в личную жизнь.

Классификация риска путем использования методов машинного обучения может быть неэффективна еще и по той причине, что есть вероятность того, что определенные группы населения должны будут платить более высокие цены, когда есть сомнения, насколько это этично. Например, при медицинском страховании или страховании жизни должны учитываться такие факты, как то, что:

· женщины сильнее подвержены затратам, связанным с рождением ребенка или возникновения рака груди;

· ожидаемая продолжительность жизни мужчин меньше, чем у женщин;

· афроамериканцы сильнее ассоциированы с затратами, связанными с лечением серповидно клеточной анемии.

Этот список можно продолжать довольно долго. Эти группы населения действительно сильнее подвержены риску по данным показателям, однако по социальным и этическим соображениям, а также потому, что, например, в США Конституция защищает различные группы граждан от дискриминации по половому, расовому, религиозному и прочим признакам, страховые компании предпочитают игнорировать эти факторы риска. Даже если выявится корреляция по поводу определенной группы людей, которая не защищается по своему отличительному признаку конституцией, отнесение людей из этой группы к какой-либо классификации риска может расцениваться как дискриминация, особенно, если у людей нет власти над этой характеристикой. Так, например, женщины, подвергавшиеся домашнему насилию, должны тратить больше денег на восстановление психического и физического здоровья. Поэтому встает вопрос, этично ли назначать такой категории людей высокую цену на медицинское страхование, ведь очевидно, что у женщин нет власти над этой характеристикой. [25]

Машинное обучение является технологией, позволяющей строить алгоритмы, способные самостоятельно обучаться на основе предыдущего опыта. В данной главе были описаны виды машинного обучения, какие задачи оно позволяет решать и с помощью каких алгоритмов. Также были описаны сферы, в которых машинное обучения уже активно применяется, и были даны примеры возможных недостатков и проблем, связанных с использованием машинного обучения.

2. Применение машинного обучения в образовании

2.1 Где и как образуются данные

Несмотря на то что использование методов машинного обучения во многих сферах уже укоренилось и считается общепринятым, в сфере образования данная технология ещё не нашла широкого применения.

Образование является одной из индустрий, в которой постоянно образуются новые данные. Данные накапливаются и в заведениях традиционного офлайн образования, таких как школы, колледжи, высшие учебные заведения, и в системах онлайн образования. [27]

Традиционные формы образования

В большинстве традиционных учебных заведений все еще отсутствуют специальные электронные образовательные системы, содержащие много онлайн-контента и позволяющие отслеживать взаимодействие обучающихся с этим контентом. Поэтому такие заведения в основном накапливают персональные данные учащихся, а также различные административные данные.

К персональным данным относится такая информация, как полное имя, дата рождения, паспортные данные, номера телефонов, адрес проживания, данные о социальных льготах. К персональным данным могут относиться и различные данные о родителях или законных представителях учащегося, если речь идет и школьнике.

К административным данным можно отнести успеваемость, посещаемость занятий, количество пропусков по болезни и количество прогулов, данные о предыдущих учебных заведениях и об основании поступления в нынешнее, данные о форме финансирования, если образования является платным.

Получать такие данные становится все проще с увеличением количества учебных заведений, внедряющих системы электронного журнала, электронного дневника и системы электронных пропусков.

Данные, создающиеся в электронной системе пропусков в учебное заведение, могут показать, например, как часто студент опаздывает, пропускает занятия, уходит пораньше или выходит покурить. [27]

Системы смешанного обучения

В последние четыре года все большую популярность набирает онлайн образование, но несмотря на то, что онлайн обучение становится все более востребованным, оно не сможет полностью заменить такие традиционные формы образования, как школы, колледжи, высшие учебные заведения. Многим учащимся необходимы личные советы и наставления преподавателей, возможность живой дискуссии по интересующему их вопросу.

В таких случаях лучшей моделью обучения является «смешанное образование». Смешанное обучение (англ. blended learning) подразумевает под собой комбинирование онлайн и очного обучения студентов. В системе смешанного обучения студенты могут посещать занятия, которые ведет учитель в традиционной обстановке классе, а также самостоятельно выполнять онлайн задания курса за пределами классной комнаты. Онлайн обучение может быть лишь малой частью процесса обучения - например, видео-лекции одного конкретного предмета, вебинары, онлайн тестирования и другие виды учебной деятельности могут только дополнять привычное учебное взаимодействие студента и преподавателя. В некоторых случаях учащиеся могут работать самостоятельно с онлайн лекциями, проектами и заданиями на дому или в другом месте, лишь периодически встречаясь с учителями, чтобы обсудить свои работы, задать вопросы или получить помощь в выполнении трудных заданий. В других случаях студенты могут проводить весь день в традиционном здании школы или университета, но они будут уделять больше времени, работая самостоятельно с различными электронными образовательными системами, нежели слушая лекции преподавателя. При переносе части учебной деятельности в цифровой формат образуются новые данные. Становится возможным контролировать каждый шаг учеников. Как много времени требуется студенту, чтобы ответить на вопрос, какие источники он использует, какие вопросы пропускает, какой тип информации усваивает лучше всего, а какой хуже.

В последние годы высшие учебные заведения начали внедрять системы управления образованием (англ. Learning Management System, LMS). Такие системы позволяют распространять учебные онлайн-материалы, обеспечивать совместный доступ к ним студентов и преподавателей. В таких системах учащиеся могут выполнять различные задания, индивидуальные и групповые проекты, проходить тесты, следить за своей успеваемостью.

С растущей популярностью LMS появляются возможности собирать данные о взаимодействии студентов с электронной системой и онлайн контентом. К таким данным относятся количество просмотров одним студентом страниц с материалами, скорость просмотра страниц, время, проведенное пользователем в электронной системе.

Также LMS позволяет собирать данные об эффективности учебных материалов, например, отслеживать, к каким типам материалов чаще всего обращаются студенты, сколько времени тратят на выполнение заданий, на каких вопросах задерживаются. [27]

Образовательные онлайн платформы

Онлайн образование становится все более распространено и доступно для широких масс. Особой популярностью пользуются Массовые Открытые Онлайн Курсы (сокр.: МООК; англ. Massive open online courses, MOOC) - форма дистанционного образования с открытым доступом через Интернет. Чаще всего онлайн курсы содержат в себе видео лекции, материалы для чтения, различные задания для усвоения пройденного материала. Также онлайн курсы дают возможность интерактивного взаимодействия студентов с другими студентами и преподавателями.

Самыми известными и популярными платформами являются:

· Coursera

· edX

· Udacity

· MIT OpenCourseWare

· FutureLearn

· Khanacademy

Такие крупные онлайн академии имеют очень широкий охват аудитории, который стремительно увеличивается с каждым годом. На данный момент Coursera является самой крупной онлайн системой образования и на ее долю приходится чуть менее 50% всех студентов МООК. На конец 2015 года общее количество студентов, подписавшихся по крайней мере на один онлайн курс, составило 35 миллионов человек, из них 17 миллионов являются пользователями Coursera. [28] Количество студентов, подписавшихся на одну сессию одного курса, исчисляется десятками, а иногда и сотнями тысяч. Например, одна сессия курса «Understanding IELTS: Techniques for English Language Tests» от академии FutureLearn собрала 370 000 студентов. [29]

Таким образом, платформы МООК обладают большими возможностями для глубоко анализа данных о своих студентах, так как:

Во-первых, на онлайн платформах каждый курс имеет не одну сессию и запускается в среднем один раз в месяц, а на каждую сессию подписываются десятки тысяч человек со всего мира. Традиционные образовательные учреждения же располагают данными нескольких сотен студентов для каждого курса, а периодичность таких курсов чаще всего составляет один год.

Во-вторых, весь процесс прохождения МООК происходит онлайн, что дает возможность собирать данные о полном пути прохождения курса студентом, начиная от выбора конкретного курса среди схожих по тематике до момента сдачи финального проекта и получения диплома или сертификата.

В-третьих, данные, получаемые системами онлайн образования, могут дать более полное представление о том, почему студенты не проходят какие-либо курсы, прекращают свое обучение. Учеба в традиционных учебных заведениях обычно не дает возможность пройти курс с нескольких попыток.

В-четвертых, МООК способны получать более полную информацию о студентах со всего мира, так как студентами являются люди разных возрастов, разных профессий, проживающие в разных странах. А выборка данных, получаемая университетами, чаще всего однородна, так как большинство студентов одного возраста, проживают в одном городе и находятся в схожих социальных кругах. [27]

2.2 Применение методов машинного обучения

Дистанционное обучение

В основном методы машинного обучения используются образовательными платформами, которые позволяют автоматизировать процесс сбора, хранения и анализа данных. Первые исследования в этой области были проведены профессором математики Сотирисом Котсиантисом ещё в 2003 году. В своей статье об использовании техник машинного обучения для прогнозирования оценок студентов «Use of machine learning techniques for educational proposes: a decision support system for forecasting students' grades» Котсиантис пишет, что использование машинного обучения в образовательных практиках это перспективное и развивающееся направление, направленное на разработку методов анализа данных и поиска значимых и полезных закономерностей. Автор отмечает, что огромное количество данных о студенте накапливается в процессе обучения. Котсиантис также делает акцент на онлайн обучении, так как там появляется возможность собирать не только персональные и демографические данные учащегося (пол, возраст, семейное положение, вид деятельности), но и информацию о его взаимодействии с системой: время, проведённое за просмотром обучающих материалов, скорость просмотра этих материалов, количество попыток прохождения теста, как много времени требуется студенту, чтобы ответить на вопрос, какие источники он использует, какие вопросы пропускает и на каких вопросах задерживается, какой тип информации усваивает лучше всего, а какой хуже. Хотя традиционные учебные заведения собирают информацию о нескольких потоках прохождения одного курса в течение нескольких лет, а образовательные онлайн платформы получают эту информацию за несколько сессий одного курса, подобные исторические данные будут полезны для анализа и построения алгоритмов машинного обучения. [30]

В статье о предотвращении отсева студентов в дистанционном обучении с использованием технологии машинного «Preventing Student Dropout in Distance Learning Using Machine Learning Techniques» Котсиантис описывает, как он использовал существующие методы регрессионного анализа с целью прогнозирования отметок студентов в системе дистанционного обучения. Он сравнивает некоторые из современных регрессионных алгоритмов, чтобы выяснить, какой алгоритм является более целесообразным не только для точного прогнозирования успеваемости, но также для использования в качестве аналитического инструмента поддержки и принятия решений для преподавателей. Имея перед собой информацию о текущей и прогнозируемой успеваемости студентов, преподаватели смогут свести к минимуму количество не справляющихся с обучением студентов, оказывая им поддержку и предоставляя дополнительные обучающие материалы.

Для своего исследования Котсиантис использует данные о 354 студентах дистанционного курса «введение в информатику» Эллинского Открытого Университета (Hellenic Open University). Эллинский Открытый Университет предлагает образование университетского уровня, используя дистанционные методы обучения. Основной образовательной единицей курса «Введение в информатику», а также любого другого курса магистратуры или аспирантуры университета - это модуль, которому эквивалентны 3 или 4 семестра учебных занятий. Курс «Введение в информатику» состоит из 12 модулей и приводит к степени бакалавра. Студенты курса в течение учебного модуля должны сдать 4 письменных задания, а также принять участие в 4 дополнительных очных консультаций с преподавателями и сдать выпускные экзамены. Студент должен предоставить по крайней мере три из четырех заданий. Преподаватели должны оценивать эти задачи по 10-балльной системе оценивания греческих ВУЗов. В общей сложности студент должен набрать не менее 20 баллов за письменные задания, чтобы быть допущенным к итоговому экзамену. Для преподавателей же очень важно до середины учебного модуля определить студентов, которые имеют риск быть отчисленными, чтобы смочь оказать им дополнительную поддержку. Студенты редко сами заявляют о неспособности успешно закончить учебный модуль, однако есть некоторые индикаторы, способные указать на тех, кто вероятно может быть отчислен, до середины модуля. Все характеристики студента были разделены на две группы: личные и академические. Первая группа характеристик содержала только персональные данные студентов, во второй группе добавились данные об академической успеваемости за половину модуля. Полное описание всех характеристик можно посмотреть в таблицах 12 и 13 в приложениях.

Пять различных подходов машинного обучения были протестированы для того, чтобы построить алгоритм, который может наиболее точно предсказать будущие результаты студентов. К этим подходам относятся: дерево решений, нейронные сети, байесовские сети, логистическая регрессия и метод опорных векторов. Все эти модели подробно описаны Котсиантисом в его статье.

Фаза обучения состояла из пяти последовательных шагов. На первом шаге для обучающей выборки были использованы только демографические данные студентов в качестве «ситуации» и успешное или неуспешное окончание курса в качестве «решения». На этом шаге алгоритм показал точность модели 63%. На втором шаге в модель были включены данные о первой встрече студента с преподавателем, на третьем шаге добавилась информация о первом письменном задании, на четвёртом и пятых шагах была включена информация о второй встрече и втором задании соответственно. В ходе последнего этапа эксперимента точность модели достигла почти 84%. По результатам этого исследования Котсиантис отметил, что наибольшую точность показала модель, основанная на наивном байесовском классификаторе, для которого и приведены значения точности в таблице 1.

Таблица 1. Точность модели в зависимости от входных данных

Данные

Точность модели

Только демографические данные

63,06%

Добавлены данные о первой встрече

62,65%

Добавлены данные о первом задании

71,04%

Добавлены данные о второй встрече

72,94%

Добавлены данные о втором задании

83,89%

Наивный байесовский классификатор - это один из самых простых из алгоритмов классификации, основанный на теореме Байеса для определения вероятности принадлежности наблюдения (элемента выборки) к одному из классов. Смысл теоремы на простом языке можно выразить следующим образом: теорема Байеса позволяет переставить местами причину и следствие. Зная с какой вероятностью причина приводит к некоему событию, с помощью теоремы можно рассчитать вероятность того, что именно эта причина привела к наблюдаемому событию. Наивный байесовский классификатор позволяет легко и быстро произвести многклассовую классификацию и хорошо обучается на сравнительно небольших выборках, что и можно было наблюдать в проведённом эксперименте.

Также в статье было отмечено, что самое сильное влияние на точность модели оказывали именно оценки за письменные задания, встречи с преподавателями и уровень компьютерной грамотности на момент старта курса. Демографические же показатели, такие как пол, возраст, семейное положение не добавляли существенную точность предсказательной модели.

Платформа Knewton

Одной из первых компаний, начавших активно применять технологии анализа больших объемов данных в сфере образовании, является компания Knewton. Своей миссией компания считает персонализацию обучения в всем мире.

Компанией Knewton были разработаны универсальные алгоритмы сбора, анализа и использованию информации о прогрессе студентов. Knewton создала адаптивную образовательную платформу, которую можно подключить к любой современной системе управления учебным процессом (LMS).

Платформа включает в себя:

· Систему сбора данных, собирающую информацию о знаниях студентов, уровне усвоения и понимания проходимых курсов.

· Систему выводов, обобщающую информацию, основываясь на полученных данных об особенностях студента, его реакциях на изменение траектории обучения

· Систему персонализации, которая на основе данных всей системы оценивает возможности студента, и с учётом этого корректирует цели и формирует оптимальную стратегию обучения каждого студента

Данные, используемые платформой для анализа собираются приложением внутри самого образовательного учреждения и передаются на сервер Knewton. Далее платформа анализирует полученные данные по сотням параметров (например, темп работы студента, его способность к обработке информации) и возвращает их в виде рекомендаций студенту или преподавателю, основанных на знаниях и потребностях учащихся. Система определяет пробелы в знаниях студентов и может порекомендовать конкретные действия для их устранения, например, обучающее видео, материалы для чтения или интерактивные упражнения. Технологии компании позволяют выполнять сложный анализ данных о показателях студентов в режиме реального времени, делать прогнозы относительно их успехов и неудач (например, скорость выполнения работы, вероятность достижения цели, вероятность выбытия из учебного процесса), определять сильные и слабые стороны каждого студента, вести личную статистику успеваемости студента на всех этапах обучения. [32]

Школа AltSchool

Среди обычных школ и университетов, которые собирают данные о своих учащихся, но практически не используют их для анализа, есть отдельные заведения, которые строят весь образовательный процесс вокруг технологий. Примером такого заведения является AltSchool.

AltSchool, образовательный стартап из Силиконовой долины, - это сеть частных микро-школ, запущенная бывшим исполнительным директором Google Максом Вентилла в 2014 году для развития персонализированного образования в США. [33]

AltSchool не похожа ни на одну из существующих в мире школ. Главной особенностью этой школы является то, что в ней используется разработанное специально для проекта программное обеспечение, позволяющее учителям персонализировать процесс образование для каждого ребенка, создавать индивидуальный план урока и всего курса для каждого конкретного ученика вместо единого для всех учебного плана. Родители в этой школе помогают преподавателям сформировать максимально полное представление о каждом конкретном ребенке и могут свободно участвовать в обсуждении индивидуальных планов, совместно с детьми и преподавателями решать, что именно они хотели бы изменить в учебном плане.

Для поступления в Altschool каждый ребенок проходит личное интервью, в ходе которого формируется Learner Profile, так называемый профиль ученика. В этом профиле максимально подробно описываются сильные и слабые стороны ребенка, его интересы, к чему он стремится и как лучше обучается. Это и является основной стартовой точкой для последующего создания индивидуальной программы обучения. Собеседование с каждым из учеников позволяет преподавателям определить, как следует выстроить взаимодействие в классе таким образом, чтобы сильные стороны одного ученика помогали развить слабые стороны другого.

Обычные классы в AltSchool заменены на микро-сообщества - группы до 20 человек, причем привычное всем разделение на классы по возрастному признаку отсутствует, группы формируются по уровню развития и способностей учеников.

В ходе занятий используются планшеты и различные другие цифровые устройства. Учебный день ребенка начинается просмотра своего индивидуального расписания занятий: для каждого составлен свой список заданий - как индивидуальных, так и групповых, причем каждое из заданий преследуют определённую конкретную цель. Приложение автоматически отслеживает посещаемость, успеваемость, следит за личными особенностями ребенка и вносит изменения в его персональный план обучения.

Индивидуальным программы основаны на потребностях и предпочтениях каждого ребенка, а задачи, которые в обычных школах отнимают время преподавателя, такие как, например, оценка успеваемости полностью автоматизированы. За счет того, что во всех учебных помещениях аудиовизуальные датчики, оценивающие грамотность речи учеников во время их разговора, необходимость в написании контрольных работ отпадает. Датчики также оценивают и внимательность детей - как часто они отвлекаются, одинаково ли мальчики и девочки участвуют в групповых обсуждениях. В это время учителя могут помогать детям реализовывать их потенциал и учить их. [27]

Традиционные ВУЗы

Традиционные школы и высшие учебные заведения имеют меньше возможностей для сбора данных, чем образовательные онлайн платформы. Однако всё больше университетов начинают внедрять системы управления образованием LMS, которые позволяют собирать и хранить данные автоматизировано. В высших учебных заведениях существует потенциал использования технологий машинного обучения для улучшения качества образования. Лекции в ВУЗах по своей природе менее интерактивные, чем школьные уроки - возможно, исходя из предположения, что старшие, более серьезные и ответственные студенты меньше нуждаются в индивидуальном подходе к каждому студенту, обратной связи от преподавателя и дополнительной мотивации к тому, чтобы оставаться сфокусированным на занятиях. Это означает, что студенты получают меньше отзывов о своей работе, а преподаватели меньше отзывов об эффективности их методов обучения, о которых часто судят только по финальным оценкам их студентов. [27]

Одной из задач, стоящей первед университетами, является сокращение количества отчисляемых студентов по причине академический задолжностей, то есть несданных экзаменов.

В 2012 году было проведено исследование, целью которого являлось проверить, возможно ли прогнозировать успех студентов первокурсников только по тем данным, которые были предоставлены ими при зачислении в университет. Успех студента измерялся по оценке, полученной на финальном экзамене по курсу «Бизнес-информатика» в конце первого курса. Было рассмотрено влияние на эту оценку различных социально-демографических факторов, предыдущих успехов в старшей школе и на вступительных экзаменах, а также отношение студента к учёбе. [34]

Авторы исследования делают упор на том, что все участники образовательного процесса выигрывают от анализа накопленных данных. В качестве иллюстрации авторы приводят цикл применения глубокого анализа данных в сфере образования. Цикл продемонстрирован на рисунке 7.

Рисунок 7. Цикл взаимодействия с образовательной системой, Romero, Ventura 2007

Студенты и преподаватели взаимодействуют с образовательными системами, тем самым накапливая данные об учебных планах и участии студентов в процессе обучения. После применения методов анализа данных, например, классификации или кластеризации, и студенты и преподаватели могут получить рекомендации по улучшению своей деятельности. [35]

В ходе исследования были собраны данные студентов первого курса факультета экономики университеты Тузлы. Данные собирались путём проведения опроса студентов после окончания первого курса и после удаления выбросов содержали информацию о 257 студентах. Данные содержали такую информацию как:

· Пол

· Количество членов семьи

· Дальность проживания от корпуса

· Уровень образования

· Средний балл

· Оценка за вступительный экзамен

· Получает ли студент стипендию

· Количество часов в неделю, уделяемых учёбе

· Материалы, которые используются для подготовки

· Использование интернета в образовательных целях

· Важность оценки для студента

· Доход студента

Полную информацию о всех собранных данных можно посмотреть в таблице 14 в приложениях.

В ходе эксперименты было построено три предсказательных модели, на основе таких алгоритмов, как наивный байесовский классификатор (NB - naпve Bayes), дерево решений (decision tree) и многослойный перцептрон (MLP - multilayer perception). В таблице 2 приведён сравнительный анализ выбранных подходов по трём заданным критериям.

Таблица 2. Сравнительный анализ различных классификаторов

Критерий оценки

Классификатор

NB

MLP

Decision tree

Время на построение модели (в секундах)

0

4.13

0

Количество верно классифицированных

197

183

190

Количество неверно классифицированных

60

74

67

Можно заметить, что наивный байесовский алгоритм и дерево решений практически не требуют время на анализ данных, при этом наибольшую точность показала модель, основанная на именно наивном байесовскм алгоритме, что продемонстрировано на диаграмме 1. Аналогичный результат был получен и С. Котсиантисом.

Диаграмма 1. Точность модели

Однако авторы статьи также обращают внимание на то, что для построения системы принятия решений, основанной на использовании методов машинного обучения, алгоритм принятия решений должен быть максимально прозрачен и понятен пользователям системы. Среди рассмотренных алгоритмов самым понятным для неподготовленного человека является дерево решений, так как оно может быть преобразовано в набор правил «Если-то», а это самая простая форма представления модели, которую легко понять и интерпретировать. [34]

В данной главе было рассказано, как именно и какие данные образуются в сфере образования, а также приведены примеры того, как различные образовательные учреждения применяют машинное обучение для анализа этой информации.

3. Модель предсказания академического успеха студента

3.1 Постановка задачи

В качестве практической части данного исследования была поставлена задача разработки модели машинного обучения, которая могла бы предсказывать сдаст ли тот или иной студент определённую дисциплину, основываясь на данных о его предыдущих академических успехах. Такое предсказание должно осуществляться за какое-то время до экзамена, например, 2-4 месяца, чтобы эта информация могла быть использована: студенты успели бы приложить больше усилий к освоению этой дисциплины, а преподаватель имел бы возможность уделить этим студентам больше внимания. В терминах машинного обучения стоит задача обучения с учителем, а именно задача классификации.

3.2 Сбор данных

Для построения предсказательной модели были использованы данные студентов Национального Исследовательского Университета Высшей Школы Экономики факультета Экономики образовательных программ «Экономика» и «Экономика и статистика». Были взяты данные абитуриентов и студентов первого курса набора 2014 и 2015 годов. В первую очередь были собраны данные абитуриентов, для которых известны следующие характеристики:

· Фамилия, имя и отчество абитуриента

· Баллы за ЕГЭ по предметам Математика, Русский язык, Обществознание и Иностранный язык

· Был ли получен этот балл именно за ЕГЭ или по результатам выигранной олимпиады абитуриенту были присуждены 100 баллов за этот предмет.

После были взяты данные об успеваемости студентов в течение первого курса: рейтинги студентов за первый и второй семестр до пересдач. Были выбраны именно рейтинги до пересдач, так как они наиболее точно отражают уровень знаний студента на момент сдачи экзамена, и показывают больший разброс полученных оценок. В Высшей Школе Экономики принята десятибалльная система оценивания, для которой существует следующая шкала перевода количественной оценки в качественную, представленная в таблице 3:

Таблица 3. Перевод оценки из 10-балльной шкалы в 5-балльную

10-бальная шкала

5 - балльная шкала

8,9,10

Отлично (5)

6,7

Хорошо (4)

4,5

Удовлетворительно (3)

0,1,2,3

Плохо (1,2)

Для каждого студента в рейтинге содержалась информация о его имени, месте в рейтинге, группе, оценке за экзамен или зачёт по каждому предмету данного семестра по десятибалльной шкале, средний балл, минимальный балл, а также наличие неудовлетворительных оценок.

Было решено анализировать данные для студентов образовательных программ «Экономика» и «Экономика и статистика» вместе, так как:

· на оба направления принимаются одинаковые вступительные экзамены (ЕГЭ по математике, русскому языку, иностранному языку и обществознанию)

· программы первого курса по основным предметам совпадают (совпадают учебные дисциплины, темы, которые должны быть освоены, часы, выделенные на лекционную, семинарскую и самостоятельную работу)

Все данные были взяты с сайта НИУ ВШЭ в момент, когда они были доступны.

3.3 Инструментальные средства

Для предварительной обработки данных была выбрана программа для работы с электронными таблицами Microsoft Excel, с помощью которой можно объединить данные из нескольких источников и провести их первичный анализ.

Для построения машинного обучения был выбран высокоуровневый язык программирования python. Разработка проходила в Jupyter Notebook, веб-оболочке программе Anaconda, которая является дистрибутивом языка программирования python, включающим в себя набор библиотек для крупномасштабной обработки данных, научных вычислений и прогнозной аналитики.

Для загрузки данных и проведения вычислений были подключены следующие библиотеки:

· NumPy - базовая библиотека для научных вычислений в среде Python, позволяющая поддержку массивов, матриц и функций для работы с этими типами данных.


Подобные документы

  • Особенности догматического, объяснительно-иллюстративного, проблемного, программированного, развивающего и модульного обучения, их достоинства, недостатки, приоритеты и эффективные сферы применения. Основные задачи учителя при применении метода обучения.

    реферат [18,2 K], добавлен 12.09.2011

  • Сущность и классификация технических средств обучения, их разновидности. Особенности применения технических средств обучения в современном мире. Преимущества и недостатки этой сферы образования. Новейшие разработки и технологии будущего в сфере обучения.

    реферат [33,2 K], добавлен 27.02.2017

  • Общие и конкретные формы организации процесса обучения, их содержание, сходные и отличительные признаки, оценка преимуществ и недостатков, условия практического применения на современном этапе. Методы психологического обучения в группе и их особенности.

    реферат [18,3 K], добавлен 05.03.2013

  • История развития и становления методов обучения. Понятие и сущность процесса обучения, его задачи. Особенности традиционного обучения. Основные представления об обучении в аспекте программированного подхода. Принципы воспитания и их характеристика.

    реферат [167,6 K], добавлен 13.01.2011

  • Классификация современных моделей обучения в ВУЗе. Сопоставительный анализ различных моделей обучения. Эффективность применения и тенденции развития американской модели обучения в вузе. Создание условий для становления личности студента как специалиста.

    курсовая работа [42,5 K], добавлен 01.02.2014

  • Дидактика как часть педагогики, разрабатывающая проблемы обучения и образования, ее основные категории, закономерности функционирования и назначение. Принципы обучения и существующие в данной сфере технологии, преимущества и недостатки их использования.

    презентация [186,8 K], добавлен 25.08.2013

  • Индивидуализация и автоматизация процесса обучения. Бихевиористская теория научения. Основные признаки, принципы, концептуальные основы, задачи и цели программированного обучения, его достоинства и недостатки. Применение алгоритма в дидактике.

    презентация [1,2 M], добавлен 23.06.2014

  • Современные инновационные технологии в образовании, их классификация и разновидности, условия и возможности практического применения. Понятие и средства проблемного, программированного, личностно-ориентированного, здоровьесберегающего, игрового обучения.

    контрольная работа [33,5 K], добавлен 21.12.2014

  • Понятие творческого мышления и основные факторы, влияющие на его развитие, значение в структуре личности. Средства стимулирования интеллектуальной сферы активными методами обучения. Метод "Мозговой атаки": сущность и содержание, используемые принципы.

    контрольная работа [30,5 K], добавлен 17.02.2015

  • Взаимосвязь обучения и развития человека. Основные положения теории развивающего обучения. Принципы дидактической системы. Основополагающие направления развивающего обучения Л.В. Занкова. Содержание и методика обучения. Критерии результатов обучения.

    курсовая работа [437,3 K], добавлен 06.02.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.