Применение методов машинного обучения в информационных системах

Основные понятия и существующие алгоритмы машинного обучения, особенности их применения в информационных системах. Подходы к обработке естественного языка. Вызовы и ограничения применения машинного обучения в информационных системах, его перспективы.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 20.05.2023
Размер файла 622,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

МИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ

УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ ИМ. ПРОФ. М.А. БОНЧ-БРУЕВИЧА» (СПбГУТ)

ИНСТИТУТ НЕПРЕРЫВНОГО ОБРАЗОВАНИЯ

Курсовая работа

По дисциплине: «Теория информации, данные, знания»

Тема: «Применение методов машинного обучения в информационных системах»

Офицерова Дарья Александровна,

Курс: 3

Группа №:ИБ-02з

Санкт-Петербург

2023 г.

Содержание

  • Введение
  • 1. Основные понятия машинного обучения
  • 1.1 Алгоритмы машинного обучения
  • 1.2 Применение методов машинного обучения в информационных системах
  • 1.3 Обработка естественного языка (NLP)
  • 1.4 Подходы к обработке естественного языка
  • 2. Вызовы и ограничения применения машинного обучения в информационных системах
  • 2.1 Недостаток данных и проблемы с качеством данных
  • 2.2 Детерминированные проблемы
  • 2.3 Этические и правовые вопросы, связанные с использованием машинного обучения
  • 2.4 Предвзятость машинного обучения
  • 3. Будущие перспективы и направления развития
  • Заключение
  • Глоссарий
  • Список использованных источников

Введение

Машинное обучение является одной из наиболее динамично развивающихся областей в современной информационной технологии. С прогрессом в области вычислительной мощности и доступности больших объемов данных, методы машинного обучения приобретают все большую популярность и находят широкое применение в различных сферах. В информационных системах, которые являются неотъемлемой частью нашей повседневной жизни, методы машинного обучения играют ключевую роль, обеспечивая улучшение эффективности, точности и интеллектуальности систем.

Целью данного эссе является исследование применения методов машинного обучения в информационных системах. Мы рассмотрим различные области, в которых методы машинного обучения находят свое применение, и рассмотрим примеры их конкретных применений. Будут рассмотрены такие области, как классификация и распознавание, кластеризация и сегментация данных, рекомендательные системы, а также обработка естественного языка (NLP).

Однако на протяжении исследования мы также обратим внимание на вызовы и ограничения, с которыми сталкиваются методы машинного обучения в информационных системах. Проблемы, такие как недостаток данных, вычислительные ограничения и этические вопросы, требуют внимания и поиска решений для дальнейшего развития эффективного и надежного использования машинного обучения.

В заключение, будут обозначены будущие перспективы и направления развития применения методов машинного обучения в информационных системах. Быстрые технологические прорывы и постоянно расширяющийся объем данных создают новые возможности для инноваций в этой области, и исследование этих перспектив поможет нам лучше понять, как методы машинного обучения будут формировать будущее информационных систем и их роль в нашей жизни.

1. Основные понятия машинного обучения

Машинное обучение (ML) - это подмножество искусственного интеллекта (AI), которое фокусируется на создании систем, которые обучаются или улучшают производительность на основе данных, которые они потребляют. Искусственный интеллект - это широкий термин, который относится к системам или машинам, имитирующим человеческий интеллект. Машинное обучение и ИИ часто обсуждаются вместе, и эти термины иногда используются как взаимозаменяемые, но они не означают одно и то же. Важным отличием является то, что хотя все машинное обучение - это ИИ, не все ИИ - это машинное обучение.

Сегодня машинное обучение работает повсюду вокруг нас. Когда мы взаимодействуем с банками, делаем покупки в Интернете или пользуемся социальными сетями, алгоритмы машинного обучения вступают в игру, чтобы сделать наш опыт эффективным, гладким и безопасным. Машинное обучение и связанные с ним технологии быстро развиваются, и мы только начинаем изучать их возможности.

Машинное обучение представляет собой совокупность методов, которые автоматически создают прогнозные модели на основе имеющихся данных. С помощью алгоритмов машинного обучения набор данных преобразуется в модель, которая способна предсказывать и принимать решения. Выбор наилучшего алгоритма зависит от типа задачи, доступных вычислительных ресурсов и характеристик данных.

Алгоритмы машинного обучения явно указывают компьютеру, что делать. Например, алгоритмы сортировки приводят неупорядоченные данные в порядок согласно определенным критериям, например, числовому или алфавитному порядку одного или нескольких полей данных.

1.1 Алгоритмы машинного обучения

Существует множество алгоритмов машинного обучения, от простых, таких как линейная регрессия и логистическая регрессия, до более сложных, таких как глубокие нейронные сети и ансамбли моделей.

Вот несколько наиболее распространенных алгоритмов:

Линейная регрессия, также известная как метод наименьших квадратов, применяется для работы с числовыми данными.

1) Логистическая регрессия используется для бинарной классификации.

2) Линейный дискриминантный анализ применяется для классификации с несколькими категориями.

3) Деревья решений используются для классификации и регрессии.

4) Наивный байесовский классификатор используется для классификации и регрессии.

5) Метод k-ближайших соседей, также известный как k-NN, используется для классификации и регрессии.

6) Обучение нейронной сети Кохонена, также известное как LVQ, применяется для классификации и регрессии.

7) Метод опорных векторов, также известный как SVM, используется для двоичной классификации.

8) «Случайный лес» и методы бэггинга используются для классификации и регрессии.

9) Методы бустинга, включая AdaBoost и XGBoost, представляют собой ансамбли алгоритмов, которые создают серию моделей, где каждая последующая модель исправляет ошибки предыдущей модели, применяются для классификации и регрессии.

Нейронные сети и глубокие нейронные сети, о которых так много говорят, требуют значительных вычислительных ресурсов. Они обычно применяются для специализированных задач, таких как классификация изображений и распознавание речи, где более простые алгоритмы не всегда подходят. Термин «глубокий» относится к наличию множества слоев в структуре нейронной сети.

1.2 Применение методов машинного обучения в информационных системах

Применение методов машинного обучения в информационных системах стало неотъемлемой частью различных областей, включая бизнес, финансы, здравоохранение, транспорт, обработку естественного языка, компьютерное зрение и многое другое. Они позволяют автоматически классифицировать данные, делать прогнозы, обнаруживать аномалии, оптимизировать процессы и принимать более обоснованные решения на основе фактических данных.

Классификация и распознавание

Классификация является одной из областей машинного обучения, также она является одной из наиболее популярных. Она занимается решением следующей задачи. Дано множество объектов или ситуаций, которые разделены на различные классы. У нас также имеется конечное множество объектов, для которых мы знаем, к каким классам они относятся. Это набор объектов называется обучающей выборкой. Однако, классификация остальных объектов неизвестна. Наша задача заключается в построении алгоритма, который способен классифицировать произвольный объект из изначального множества. Классификация объекта означает указание номера или наименования класса, к которому принадлежит данный объект.

Задачи классификации также известны как задачи дискриминантного анализа в математической статистике. В контексте машинного обучения, задача классификации относится к обучению с учителем. Однако также существует обучение без учителя, где разделение объектов обучающей выборки на классы не предоставляется, и требуется классифицировать объекты на основе их сходства друг с другом. В таких случаях мы говорим о задачах кластеризации или таксономии, а классы называем кластерами или таксонами соответственно.

Термин «распознавание образов» также используется для классификации сигналов и изображений. Это можно сравнить с тем, как ребенок учится определять форму и размер предметов, сортируя их в различные группы.

В бизнесе классификация может применяться, например, для сегментации клиентов на основе их покупательских привычек, частоты посещения веб-сайта или количества покупок. Эта система работы используется, например, в письмах от супермаркетов, где участники программы лояльности получают персонализированные предложения со скидками на товары, которые они часто покупают. Такую систему также могут использовать банки, чтобы на основе общего профиля заявителя на кредит определить вероятность возврата кредита.

Дополнительным результатом классификации по заданным параметрам является возможность выделить объекты, которые не соответствуют стандартным классам.

Метод опорных векторов

Метод опорных векторов (SVM) - это набор алгоритмов, использующихся для задач классификации и регрессионного анализа (рис. 1). Учитывая, что в N-мерном пространстве каждый объект принадлежит одному из двух классов, SVM генерирует (N-1) - мерную гиперплоскость с целью разделения этих точек на 2 группы. Это как если бы вы на бумаге изобразили точки двух разных типов, которые можно линейно разделить. Помимо того, что метод выполняет сепарацию объектов, SVM подбирает гиперплоскость так, чтобы та характеризовалась максимальным удалением от ближайшего элемента каждой из групп.

Рисунок 1

Среди наиболее масштабных проблем, которые были решены с помощью метода опорных объектов (и его модифицированных реализаций) выделяют отображение рекламных баннеров на сайтах, распознавание пола на основании фотографии и сплайсинг человеческой ДНК.

Кластеризация и сегментация

Кластеризация, также известная как «сегментация», представляет собой процесс выделения групп объектов схожих свойств из исходного набора данных и часто является первым этапом анализа данных. Разделение на кластеры упрощает обработку данных, и после проведения кластеризации применяются другие методы, чтобы построить отдельные модели для каждой группы.

Фактически, кластеризация является одним из видов методов обучения без учителя. Обучение без учителя - это подход, при котором мы изучаем наборы данных, состоящие из входных данных без предоставленных меток или ответов. В общем, он используется для поиска значимой структуры, объяснения глубинных процессов, генерации признаков и группировки, присущих набору примеров.

Задача кластеризации состоит в группировании множества объектов таким образом, чтобы поместить максимально похожие между собой элементы в одну группу (рис. 2).

алгоритм машинный обучение информационный

Рисунок 2

Алгоритмов кластеризации существует довольно много, и все они отличаются друг от друга. Самые популярные из них:

§ алгоритмы на базе центра тяжести треугольника;

§ алгоритмы на основе подключения;

§ алгоритмы плотности на основе пространственной кластеризации;

§ вероятностный алгоритм;

§ алгоритм уменьшения размерности;

§ нейронные сети и машинное обучение.

Алгоритмы кластеризации используются в биологии, социологии и информационных технологиях. Например, в биоинформатике с помощью кластеризации анализируются сложные сети взаимодействующих генов, состоящие порой из сотен или даже тысяч элементов. А при анализе результатов социологических исследований рекомендуется осуществлять анализ методом Уорда, при котором внутри кластеров оптимизируется минимальная дисперсия, в итоге создаются группы приблизительно равных размеров.

Кластеризация очень важна, поскольку она определяет внутреннюю группировку среди имеющихся немаркированных данных. Не существует критериев хорошей кластеризации. Все зависит от пользователя, и какие критерии он может использовать, чтобы удовлетворить свои потребности. Например, мы можем быть заинтересованы в поиске представителей однородных групп (сокращение данных), в поиске «естественных кластеров» и описании их неизвестных свойств («естественные» типы данных), в поиске полезных и подходящих группировок («полезные» классы данных) или в поиске необычных объектов данных (обнаружение выбросов). Этот алгоритм должен сделать несколько предположений, составляющих сходство точек, и каждое предположение создает различные и одинаково достоверные кластеры.

Существует некоторое программное обеспечение для моделирования наборов данных для оценки производительности алгоритмов кластеризации, например, пакет Qiu и Joe (2006) CLUSTERGENERATION для R с открытым исходным кодом. Помимо алгоритмических и других ограничений (Maitra and Melnykov, 2010), лежащие в основе обоих пакетов, ни один из них не предоставляет интегрированного инструмента для оценки алгоритмов кластеризации. CARP устраняет этот недостаток, органично объединяя три этапа. Общими словами, CARP это надстройка, чтобы сравнивать разные алгоритмы классификации, которая генерирует для них задачи и потом сравнивает, какой лучше справился.

Кластеризация применяется в биологии и биоинформатике, медицине, маркетинге и во многих других сферах.

Методы кластеризации

· Графовые алгоритмы кластеризации. Наиболее примитивный класс алгоритмов. В настоящее время практически не применяется на практике;

· Вероятностные алгоритмы кластеризации. Каждый объект из обучающей выборки относится к каждому из кластеров с определенной степенью вероятности:

· Иерархические алгоритмы кластеризации. Упорядочивание данных путем создания иерархии вложенных кластеров;

· Алгоритм k-средних (англ. k-means). Итеративный алгоритм, основанный на минимизации суммарного квадратичного отклонения точек кластеров от центров этих кластеров;

· Распространение похожести (англ. affinity propagation). Распространяет сообщения о похожести между парами объектов для выбора типичных представителей каждого кластера;

· Сдвиг среднего значения (англ. mean shift). Выбирает центроиды кластеров в областях с наибольшей плотностью;

· Спектральная кластеризация (англ. spectral clustering). Использует собственные значения матрицы расстояний для понижения размерности перед использованием других методов кластеризации;

· Основанная на плотности пространственная кластеризация для приложений с шумами (англ. Density-based spatial clustering of applications with noise, DBSCAN). Алгоритм группирует в один кластер точки в области с высокой плотностью. Одиноко расположенные точки помечает как шум.

Рекомендательные системы

Рекомендательные системы выполняют функцию подбора соответствующих товаров и услуг на основе пользовательских данных.

В настоящее время в рекомендательных системах применяются два основных подхода: коллаборативная фильтрация и модель, основанная на контенте. Коллаборативная фильтрация основывается на данных о других пользователях с похожими интересами для генерации рекомендаций. Этот подход включает user-based и item-based фильтрацию.

User-based алгоритмы направлены на поиск пользователей с схожими интересами, основываясь на ранее потребленных продуктах и оценках. Item-based рекомендации, наоборот, нацелены на поиск похожих объектов и анализ их предыдущих оценок. Цель коллаборативной фильтрации состоит в том, чтобы найти пользователя, оценившего определенный объект, и вычислить коэффициент корреляции между его оценками и оценками всех объектов в базе данных. Для этого часто используется метод k-ближайших соседей.

Модель, основанная на контенте, фокусируется на самих объектах и не требует пользовательских оценок. В этом подходе важны любые характеристики объекта, такие как автор, жанр, страна происхождения и производитель. Однако не все атрибуты являются релевантными для конечного пользователя, поэтому рекомендательные системы ограничиваются основными характеристиками. Модели, основанные на контенте, набирают популярность, поскольку они не требуют длительного обучения, и разработчики могут сразу начать рекомендовать товары пользователям.

Однако у этого подхода есть недостатки. Некоторые пользователи замечают, что после поиска определенного товара в Google они начинают получать рекламные предложения о покупке этого товара в интернет-магазинах. Чтобы уменьшить количество нерелевантных объявлений и отрицательных отзывов, разработчики дополняют алгоритмы моделями, основанными на знаниях.

1.3 Обработка естественного языка (NLP)

Обработка естественного языка (Natural Language Processing, NLP) - это область машинного обучения, которая позволяет компьютерам интерпретировать, манипулировать и понимать человеческий язык. В настоящее время организации сталкиваются с огромными объемами голосовых и текстовых данных из различных источников, таких как электронная почта, текстовые сообщения, социальные медиа, видео и аудио. Для автоматической обработки этих данных, анализа намерений или настроений в сообщениях и реакции на человеческое общение в режиме реального времени они применяют программное обеспечение NLP.

Для решения задач обработки естественного языка, таких как отвечание на вопросы, машинный перевод, понимание текстов и создание обобщений, обычно применяется контролируемое обучение на специфичных наборах данных, разработанных специально для каждой конкретной задачи.

Обычно процесс обработки естественного языка (NLP) начинается с сбора и подготовки неструктурированных текстовых или речевых данных из различных источников, таких как облачные хранилища данных, опросы, электронные письма или внутренние приложения бизнес-процессов.

Для подготовки данных к использованию в различных приложениях, программное обеспечение NLP применяет методы предварительной обработки, такие как:

· Токенизация, которая разбивает предложения на отдельные слова или фразы.

· стемминг, лемматизация, которые упрощают слова до их корневой формы, например, преобразуя «начало» в «старт».

· удаление стоп-слов, которое гарантирует, что несущественные слова, такие как «для» и «с», не будут учитываться.

Исследователи используют предварительно обработанные данные для обучения моделей NLP с помощью методов машинного обучения, чтобы выполнять конкретные приложения, основанные на текстовой информации. Обучение алгоритмов NLP требует больших объемов данных для достижения высокой точности.

Затем модель NLP развертывается или интегрируется в существующую производственную среду специалистами по машинному обучению. Модель получает входные данные и предсказывает выходные данные для конкретного сценария использования. Приложение NLP может быть запущено на реальных данных, и ожидаемый результат будет получен.

Методы NLP, или задачи NLP, разбивают человеческий текст или речь на более мелкие части, которые компьютерные программы могут легко понять.

Ниже приведены общие функции, доступные в области обработки и анализа текста с использованием технологии NLP.

· Часть тегирования речи

· Смысл слов

· Распознавание речи

· Машинный перевод

· Распознавание именованных сущностей

· Анализ эмоций

1.4 Подходы к обработке естественного языка

· Контролируемая обработка естественного языка (NLP)

· В процессе контролируемой обработки естественного языка программное обеспечение проходит обучение на основе помеченных или известных входных и выходных данных. Сначала оно обрабатывает обширные наборы известных данных и учится предоставлять правильные выходные результаты для любых неизвестных входных данных. Например, компании обучают инструменты NLP для категоризации документов по определенным меткам.

· Неконтролируемая обработка естественного языка (NLP)

Неконтролируемая обработка естественного языка использует статистическую языковую модель для прогнозирования закономерностей, возникающих при подаче немаркированных входных данных. Например, функция автозаполнения в текстовых сообщениях предлагает соответствующие слова, которые имеют смысл в контексте предложения, на основе отслеживания ответов пользователя.

· Понимание естественных языков

Понимание естественного языка (NLU) - это подраздел NLP, который сосредоточен на анализе смысла предложений. NLU позволяет программе находить схожие значения в разных предложениях или обрабатывать слова, которые имеют разные значения.

· Генерация естественного языка

Генерация естественного языка (NLG) направлена на создание разговорного текста, аналогичного тому, что создают люди, на основе заданных ключевых слов или тем. Например, интеллектуальный чат-бот с функциями NLG может взаимодействовать с клиентами так же, как сотрудники службы поддержки клиентов.

2. Вызовы и ограничения применения машинного обучения в информационных системах

2.1 Недостаток данных и проблемы с качеством данных

Нейронные сети представляют собой сложные архитектуры и требуют огромного количества обучающих данных для получения жизнеспособных результатов. С ростом размера архитектуры нейронной сети растет и потребность в данных. В таких случаях некоторые могут решить повторно использовать данные, но это никогда не принесет хороших результатов.

Другая проблема связана с отсутствием качественных данных. Это не то же самое, что просто отсутствие данных. Допустим, вашей нейронной сети требуется больше данных, и вы предоставляете ей достаточное количество, но предоставляете данные низкого качества. Это может значительно снизить точность модели.

Например, предположим, что для обучения алгоритма выявления рака молочной железы используются данные маммограмм, полученных преимущественно от белых женщин. В этом случае модель, обученная на этом наборе данных, может быть предвзятой и давать неточные прогнозы при чтении маммограмм чернокожих женщин. Вероятность смерти от рака груди у темнокожих женщин уже на 42% выше в силу многих факторов, а плохо обученные алгоритмы выявления рака только увеличат этот разрыв.

Недостаток данных - самая распространенная, но устранимая проблема машинного обучения. Здесь вы можете либо собирать данные самостоятельно, либо найти открытые данные. Это один из благоприятных результатов «открытого движения», который значительно стимулирует эффективное машинное обучение. По данным freecodecamp.org наиболее полезными открытыми источниками данных, из которых можно генерировать большие наборы данных, являются:

· World Bank Open Data

· WHO (World Health Organization)

· Google Public Data Explorer

· European Union Open Data Portal

· U.S. Census Bureau

· Data.gov

· Dbpedia

· UNICEF Dataset

2.2 Детерминированные проблемы

ML - это мощная технология, хорошо подходящая для многих областей, включая прогнозирование погоды и исследования климата и атмосферы. Модели ML можно использовать для калибровки и корректировки работы датчиков, которые позволяют регулировать работу датчиков, измеряющих такие показатели окружающей среды, как температура, давление и влажность.

Модели могут быть запрограммированы, например, для имитации погоды и выбросов в атмосферу для прогнозирования загрязнения. В зависимости от объема данных и сложности модели, это может потребовать больших вычислительных затрат и занять до месяца.

Могут ли люди использовать ML для прогнозирования погоды? Возможно. Специалисты могут использовать данные со спутников и метеостанций вместе с элементарным алгоритмом прогнозирования. Они могут предоставить необходимые данные, такие как атмосферное давление в конкретном районе, уровень влажности в воздухе, скорость ветра и т.д., чтобы обучить нейронную сеть предсказывать погоду на завтра.

Однако нейронные сети не понимают физику погодной системы, не понимают ее законов. Например, ИИ может делать прогнозы, но расчеты таких промежуточных полей, как плотность, могут иметь отрицательные значения, что невозможно по законам физики. ИИ не распознает причинно-следственные связи. Нейронная сеть находит связь между входными и выходными данными, но не может объяснить причину их связи.

2.3 Этические и правовые вопросы, связанные с использованием машинного обучения

Легко понять, почему машинное обучение оказывает такое глубокое влияние на мир, но менее очевидно, какие именно у него возможности и, что более важно, каковы его ограничения. Безусловно, у доверия к алгоритмам есть множество преимуществ. Человечество выиграло от того, что полагается на компьютерные алгоритмы для автоматизации процессов, анализа больших объемов данных и принятия сложных решений. Однако доверие к алгоритмам имеет и свои недостатки. Алгоритмы могут быть подвержены предвзятости на любом уровне разработки. А поскольку алгоритмы разрабатываются и обучаются людьми, устранить предвзятость практически невозможно.

Многие этические вопросы до сих пор остаются без ответа. Например, кто виноват, если что-то пойдет не так? Возьмем самый очевидный пример - самодвижущиеся автомобили. Кто должен нести ответственность в случае ДТП? Водитель, производитель автомобиля или разработчик программного обеспечения?

Пока что машинное обучение не может принимать этические и моральные решения самостоятельно, поэтому в будущем нам придётся создавать основу для решения этических проблем.

2.4 Предвзятость машинного обучения

Предвзятость в машинном обучении - это склонность модели отдавать предпочтение определенному набору данных или его подмножеству, что часто вызывается использованием непредставительных обучающих наборов данных. Если модель обучена на предвзятых данных, ее производительность может снизиться, что приведет к снижению ее точности.

В реальных условиях это может означать, что предвзятые данные обучения привели к тому, что модель предпочитает определенные расы, демографические группы или пол.

В результате результаты машинного обучения могут быть несправедливыми или дискриминационными. Использование непредставительных обучающих наборов данных может привести к систематической ошибке в работе модели машинного обучения.

В случае отсутствия или недостаточной представительности обучающих данных по определенным категориям, результирующая модель может быть смещена в сторону других категорий. Это может произойти, если выборка данных для обучения не полностью соответствует реальной среде, в которой будет применяться модель.

Ярким примером является применение машинного обучения в области здравоохранения, где модели могут использоваться для анализа данных пациентов в поиске известных заболеваний. Если эти модели используются должным образом, они могут помочь врачам принимать решения и облегчить медицинское вмешательство.

Предвзятость в машинном обучении может существенно влиять на точность модели в обоих сценариях, и в некоторых случаях может даже привести к выводам, которые являются дискриминационными и несправедливыми.

Поэтому решения, связанные с машинным обучением, должны быть тщательно проверены, чтобы гарантировать отсутствие предвзятости, особенно учитывая то, что модели машинного обучения все больше и больше заменяют ручные операции. В любой организации методы управления моделями должны включать мониторинг предвзятости в машинном обучении.

Модели машинного обучения выполняют разнообразные задачи в различных отраслях. Сегодня они используются для автоматизации сложных процессов и генерации предложений. Однако, предвзятость означает, что модель может предпочитать одну группу перед другой на основе усвоенных предубеждений.

Если такая предвзятая модель используется для принятия решений с реальными последствиями, это может иметь серьезные негативные последствия. Например, если предвзятая модель применяется для автоматического одобрения кредитных заявок, она может нанести вред определенной группе населения. В регулируемых организациях, где все действия могут быть проверены или тщательно изучены, это особенно важный фактор, который следует учитывать. Есть несколько типов смещения машинного обучения, таких как:

· Смещение алгоритма

· Выборочная погрешность

· Предвзчтость исключения

· Предвзятость предрассудков

· Смещение измерения

Предвзятость машинного обучения в основном вызвана:

· Предубеждениями, вызванными людьми или обществом в исторических данных, использующимися для обучения алгоритмов.

· Учебными данными, которые не отражают реальных обстоятельств.

· Предвзятостью при маркировке или подготовке данных для контролируемого машинного обучения.

3. Будущие перспективы и направления развития

Благодаря применению научных подходов в области машинного обучения и искусственного интеллекта, эти отрасли продолжают продвигаться вперед, становясь все более развитыми с каждым днем. В некоторых случаях технологии позволяют сохранять конкурентоспособность, однако само использование искусственного интеллекта только по себе необходимо для продвижения вперед.

Мы все наблюдаем стремительное развитие и прогресс в сфере информационных технологий. В связи с этим программисты вынуждены вести разработки и использовать новаторские инструменты для решения поставленных задач. Темп развития настолько высок, что сроки выпуска продуктов становятся минимальными, а технологические возможности и характеристики гаджетов и приложений растут.

В этой связи, искусственный интеллект и его машинное обучение пользуются огромной популярностью. Крупные компании, такие как Google, Netflix, eBay, а также множество других крупных и малых торговых площадок, активно используют их. Благодаря этому работа с их продуктами становится максимально удобной и простой. Аналитики прогнозируют, что популярность машинного обучения будет продолжать расти до 2024 года.

Тенденции в применении машинного обучения в информационных системах

Объединение машинного обучения с сетью интернет является наиболее обсуждаемым и долгожданным трендом. Этот тренд получил дополнительную активность благодаря развитию и внедрению сети 5G, которая станет платформой для развития интернета вещей. Благодаря высокой скорости передачи данных, устройства смогут не только быстро реагировать, но и обмениваться большим объемом информации.

Технология интернета вещей (IoT) позволяет объединять несколько устройств в единую сеть через интернет. Год от года процент выпуска и объем производства устройств IoT продолжают расти. Главная цель работы этих устройств заключается в сборе данных, которые затем анализируются и изучаются для максимального предоставления полезной информации. Этот аспект имеет ключевое значение для применения машинного обучения.

Применение проектов IoT охватывает множество различных отраслей, таких как экология, медицина, образование, торговля, IT и другие. Предполагается, что к 2022 году появится множество корпоративных систем IoT, из которых 80% будут обладать возможностями машинного обучения.

Кроме того, использование этой технологии поможет максимизировать уровень безопасности. Новые технологии могут содержать множество ошибок, которые могут привести к утечке данных в сеть. Поскольку все компоненты интернета вещей связаны между собой, необходимо проанализировать возможные внешние угрозы и устранить их на ранних стадиях. В этом процессе машинное обучение может быть полезно для автоматизации тестирования и исследований.

Заключение

Применение методов машинного обучения в информационных системах имеет значительный потенциал и влияние на современное общество. Эти методы предоставляют возможности автоматизации и оптимизации процессов, анализа больших объемов данных и принятия решений на основе объективных факторов. Машинное обучение играет ключевую роль в развитии интеллектуальных систем и создании новых технологических решений.

Применение машинного обучения в информационных системах дает возможность эффективно обрабатывать и интерпретировать данные, выявлять скрытые закономерности и паттерны, а также прогнозировать будущие события и тенденции. Это позволяет организациям и предприятиям принимать основанные на данных решения, оптимизировать бизнес-процессы и улучшать качество предоставляемых услуг.

Однако следует помнить о потенциальных ограничениях и проблемах, связанных с машинным обучением. Возможность появления предвзятости, недостаточная интерпретируемость моделей, требование больших объемов данных для обучения - все это требует тщательного подхода к применению методов машинного обучения и внимания к этическим и правовым аспектам.

В целом, применение методов машинного обучения в информационных системах открывает новые горизонты для развития технологий и достижения новых высот в автоматизации и оптимизации процессов. Однако успех зависит от того, насколько эффективно мы сможем использовать эти методы, адаптировать их к конкретным потребностям и преодолеть связанные с ними вызовы. И только путем постоянного совершенствования и разработки новых подходов мы сможем полностью раскрыть потенциал машинного обучения в информационных системах и обеспечить более инновационное и устойчивое будущее.

Глоссарий

1. Классификация - один из разделов машинного обучения, посвященный решению следующей задачи. Имеется множество объектов (ситуаций), разделённых некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется обучающей выборкой. Классовая принадлежность остальных объектов не известна. Требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества.

2. Кластеризация - это метод машинного обучения, который используется для группировки похожих экземпляров. Этот метод используется в задачах машинного обучения без учителя, когда набор данных не помечен, и ваша задача состоит в том, чтобы сгруппировать похожие экземпляры.

3. Машинное обучение (ML) - это подмножество искусственного интеллекта (AI), которое фокусируется на создании систем, которые обучаются или улучшают производительность на основе данных, которые они потребляют.

4. Нейронная сеть - математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации и функционирования биологических нейронных сетей - сетей нервных клеток живого организма.

5. Предвзятость машинного обучения - это тенденция модели отдавать предпочтение определенному набору данных или подмножеству данных; это часто вызывается нерепрезентативными обучающими наборами данных.

Список использованных источников

1. Абрамов Р.В. Гиперпараметры нейронных сетей // Научно-исследовательская работа обучающихся и молодых ученых. - 2018. - С. 270-272.

2. Домингос П. Верховный алгоритм. Как машинное обучение изменит наш мир / М.: Манн, Иванов и Фербер // Верховный алгоритм. - 336 с.

3. Душин В.К. Теретические основы информационных процессов и систем: Учебник // М.: Издательско-торговая корпорация «Дашков и К». - 348 с.

4. Роберт К. Основные концепции нейронных сетей: пер. с англ. - М.: Вильямс, 2001. - 288 с.

5. Воронцов К.В. Лекции по алгоритмическим композициям. [Электрон. ресурс]. Режим доступа: http://www.ccas.ru/voron/download/Composition.pdf (дата обращения: 5.05.2023).

6. Нейронные сети для начинающих: многопредмет. науч. электрон. журнал [Электронный ресурс]. - URL: https://rn.habr.com/ru/post /312450/ (дата обращения: 8.04.2023).

7. Bishop C.M. Neural Networks for Pattern Recognition / Oxford: Oxford University Press // 1995. - 496 p.

8. Dash M., Liu H. Feature selection for classification // Intelligent data analysis. - 1997. - Vol. 1, no. 3. - P. 131-156.

9. Das S. Filters, wrappers and a boostingbased hybrid for feature selection // Icml. Vol. 1. - 2001. - P. 74-81.

10. Gene selection for cancer classification using support vector machines / I. Guyon [et al.] // Machine learning. - 2002. - Vol. 46, no. 1-3. - P. 389-422.

11. Zhou Z.-H. Ensemble Methods: Foundations and algorithms. Chapman & Hall/Crc Machine Learning & Pattern Recognition. 2012. 236 p.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.