Система классификации информации
Методы классификации объектов. Иерархическая система классификации, ее достоинства. Структура соподчиненности (уточнения) кодируемых позиций в условиях иерархической классификации. Фасетная система классификации. Суть дескрипторного метода классификации.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 01.06.2010 |
Размер файла | 369,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Министерство образования и науки Украины
Харьковский национальный экономический университет
Реферат
на тему: «СИСТЕМА КЛАССИФИКАЦИИ ИНФОРМАЦИИ»
Харьков-2010
Система классификации
Общие сведения. Важным понятием при работе с информацией является классификация объектов.
Классификация система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком.
Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств. Классификация объектов это процедура группировки на качественном уровне, направленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.
Пример. Всю информацию о техникуме можно классифицировать по многочисленным информационным объектам, которые будут характеризоваться общими свойствами:
· информация о студентах в виде информационного объекта "Студент";
· информация о преподавателях в виде информационного объекта "Преподаватель";
· информация о факультетах в виде информационного объекта "Отделение" и т.п.
Свойства информационного объекта определяются информационными параметрами, называемыми реквизитами. Реквизиты представляются либо числовыми данными, например вес, стоимость, год, либо признаками, например цвет, марка машины, фамилия.
Реквизит логически неделимый информационный элемент, описывающий определенное свойство объекта, процесса, явления и т.п.
Пример. Информация о каждом студенте в отделе кадров техникума систематизирована и представлена посредством одинаковых реквизитов:
· фамилия, имя, отчество;
· пол;
· год рождения;
· место рождения;
· адрес проживания;
· отделение, где проходит обучение студент, и т.д.
Все перечисленные реквизиты характеризуют свойства информационного объекта "Студент".
Кроме выявления общих свойств информационного объекта классификация нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной совокупностью реквизитов.
Пример. Алгоритм обработки информационных объектов библиотечного фонда позволяет получить информацию о всех книгах по определенной тематике, об авторах, абонентах и т.д.
Алгоритм обработки информационных объектов фирмы позволяет получить информацию об объемах продаж, о прибыли, заказчиках, видах производимой продукции и т.д.
Алгоритмы обработки в том и другом случае преследуют разные цели, обрабатывают разную информацию, реализуются разными способами.
При любой классификации желательно, чтобы соблюдались следующие требования:
* полнота охвата объектов рассматриваемой области;
* однозначность реквизитов;
* возможность включения новых объектов.
В любой стране разработаны и применяются государственные, отраслевые, региональные классификаторы. Например, классифицированы: отрасли промышленности, оборудование, профессии, единицы измерения, статьи затрат и т.д.
Классификатор систематизированный свод наименований и кодов классификационных группировок.
При классификации широко используются понятия классификационный признак и значение классификационного признака, которые позволяют установить сходство или различие объектов. Возможен подход к классификации с объединением этих двух понятий в одно, названное как признак классификации. Признак классификации имеет также синоним основание деления.
Пример. В качестве признака классификации выбирается возраст, который состоит из трех значений: до 20 лет, от 20 до 30 лет, свыше 30 лет. Можно в качестве признаков классификации использовать: возраст до 20 лет, возраст от 20 до 30 лет, возраст свыше 30 лет.
Разработаны три метода классификации объектов:
ь иерархический
ь фасетный
ь дескрипторный.
Эти методы различаются разной стратегией применения классификационных признаков. Рассмотрим основные идеи этих методов для создания систем классификации.
Иерархическая система классификации
Иерархическая система классификации (рис. 1) строится следующим образом:
· исходное множество элементов составляет 0-й уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), которые образуют 1-й уровень;
· каждый класс 1-го уровня в соответствии со своим, характерным для него классификационным признаком делится на подклассы, которые образуют 2-й уровень;
· каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уровень.
Рис. 1 - Иерархическая система классификации
Иерархический принцип классификации заключается в переходе «от общего к частному» при детализации характеристик идентифицируемого объекта и структурно может быть представлен с помощью графа «типа дерева». В такой системе классификации кодируемые информационные единицы идентифицируются как соответствующие узлы графа, а размерность кодов (т.е. количество разрядов в них) увеличивается по мере перемещения от корня графа к его вершинам. Например, значение элементов структуры кода 621.3 в системе УДК отражает принадлежность классифицируемого объекта в следующем порядке его иерархической детализации (рис. 2).
Рис. 2 - Структура соподчиненности (уточнения) кодируемых позиций в условиях иерархической классификации
Учитывая достаточно жесткую процедуру построения структуры классификации, необходимо перед началом работы определить ее цель, т.е. какими свойствами должны обладать объединяемые в классы объекты. Эти свойства принимаются в дальнейшем за признаки классификации.
В иерархической системе классификации из-за жесткой структуры особое внимание следует уделить выбору классификационных признаков.
В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранного классификационного признака. Для последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор классификационных признаков будет зависеть от семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии.
Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации. Сфера применения иерархической классификации весьма обширна.
Достоинства иерархической системы классификации:
· простота построения;
· использование независимых классификационных признаков в различных ветвях иерархической структуры. Недостатки иерархической системы классификации:
· жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки;
· невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.
Фасетная система классификации
Фасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами (facet рамка). Каждый фасет (Фi) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.
Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут использоваться не все фасеты.
Для каждого объекта задается конкретная группировка фасетов структурной формулой, в которой отражается порядок их следования:
Здесь Fi - i-й фасет;
n - количество фасетов.
При построении фасетной системы классификации необходимо, чтобы значения, используемые в различных фасетах, не повторялись.
Пример. Фасет цвет содержит значения: красный, белый, зеленый, черный, желтый.
Фасет специальность содержит названия специальностей.
Фасет образование содержит значения; среднее, среднее специальное, высшее.
Достоинства фасетной системы классификации:
· возможность создания большой емкости классификации, т.е. использования большого числа признаков классификации и их значений для создания группировок;
· возможность простой модификации всей системы классификации без изменения структуры существующих группировок.
Недостатком фасетной системы классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков.
Фасетная система позволяет при группировке объектов выбирать классификационные признаки независимо друг от друга, что придает ей большую гибкость (табл. 1).
Таблица 1 - Фасетная классификация (на примере лакокрасочных изделий)
Вид |
Назначение |
Состав |
Отношение к воздействию |
Оптические свойства |
Цвет |
||
окружающей среды |
воды |
||||||
Ф1 |
Ф2 |
Ф3 |
Ф4 |
Ф5 |
Ф6 |
ФN |
|
1.Эмаль 2.Краска 3.Грунтовка 4.Лак |
1.Техническое 2.Санитарное 3.Декоративное |
1.Масляная 2.Водная 3.Синтети ческая |
1.Для наружных работ 2.Для внутренних работ 3.Для наружных и внутренних работ |
1.Водостой кая 2.Неводостойкая |
1.Прозрачная 2.Непрозрачная 3.Люминисцентная |
1.Белая 2.Голубая 3.Желтая |
Смысл кодирования в данном случае будет представлен парами чисел (индексов), отражающих номера классификационной позиции (фасета) и номера слов (значений) в соответствующих списках фасета. Например, «белая непрозрачная водостойкая синтетическая эмаль для наружной декоративной отделки» в условиях представленной выше фасетной классификации будет закодирована, как: Ф1,1; Ф2,3; Ф3,3; Ф4,1; Ф5,1; Ф6,2; ФN,1.
Несмотря на то, что фасетная классификация объектов обладает большей гибкостью (возможность практически не ограниченного добавления числа фасетов, расширения состава значения в отдельных фасетах, группировки множества по любому сочетанию и числу фасетов), в силу специфики характера обработки экономической информации она имеет довольно ограниченное распространение в организационно-экономическом управлении и применяется главным образом для реализации информационно-поисковых систем. Например, каталог поисковой системы Яndex построен с использованием фасетной классификации. Основными фасетами для спецификации поискового образа в нем являются: тема, регион, жанр, источник информации, адресат информации и т.д.
Дескрипторная система классификации
Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска.
Суть дескрипторного метода классификации заключается в следующем:
· отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;
· выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;
· создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.
Пример. В качестве объекта классификации рассматривается успеваемость студентов. Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, и поэтому указанные ключевые слова можно использовать как словарь дескрипторов.
В качестве предметной области выбирается учебная деятельность в учебном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, отделение, подразделение техникума, аудитория, комната, лекция, практическое занятие, занятие и т.д. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся; преподаватель, учитель, педагог; отделение, подразделение техникума и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, отделение, аудитория, лекция, практическое занятие и т.д.
Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:
· синонимические, указывающие некоторую совокупность ключевых слов как синонимы;
· родовидовые, отражающие включение некоторого класса объектов в более представительный класс;
· ассоциативные, соединяющие дескрипторы, обладающие общими свойствами.
Пример.
Синонимическая связь: студент учащийся обучаемый.
Родо-видовая связь: техникум отделение кафедра.
Ассоциативная связь: студент экзамен преподаватель аудитория.
Подобные документы
Пример дерева решений. Анализ древовидной структуры данных. Предикторные (зависимые) переменные как признаки, описывающие свойства анализируемых объектов. Решение задач классификации и численного прогнозирования с помощью деревьев классификации.
презентация [391,1 K], добавлен 09.10.2013Программное обеспечение для получения исходных данных для обучения нейронных сетей и классификации товаров с их помощью. Алгоритм метода обратного распространения ошибки. Методика классификации товаров: составление алгоритма, программная реализация.
дипломная работа [2,2 M], добавлен 07.06.2012Роль классификации документов в решении задач информационного поиска. Методы автоматической классификации документов и этапы построения классифицирующей системы: индексация документа, построение классификаторов на базе обучающих данных, оценка их работы.
курсовая работа [354,2 K], добавлен 13.01.2013Схема организационной структуры управления информационных и аналитических технологий аппарата администрации. Математическая постановка задачи классификации информационных сообщений СМИ. Описание информационного обеспечения на примере АИС "Классификатор".
дипломная работа [677,2 K], добавлен 28.07.2009Программная реализация метода оптимальной классификации одномерного упорядоченного множества на основе "склеивания с ближайшим". Проверка работоспособности программы на основе алгоритмов классификации, вычислительные эксперименты по оценке эффективности.
курсовая работа [414,4 K], добавлен 24.05.2015Создание системы предобработки данных; разработка системы классификации на базе методов и алгоритмов машинного обучения, их реализация в программной системе. Предобработка информации, инструкция пользователя, система классификации, машинный эксперимент.
дипломная работа [917,1 K], добавлен 31.01.2015История классификации и кодирования. Стандартизация передачи записей в электронную историю болезни. Клинические коды Рида RCC. Системы медицинской классификации в Украине. Унифицированная система медицинского языка UMLS. Особенности и классификация кодов.
реферат [38,2 K], добавлен 13.12.2009Виды машинного обучения, его основные задачи и методы. Подходы к классификации: логистическая регрессия, наивный байесовский классификатор, стохастический градиентный спуск, K-ближайший сосед, дерево решений, случайный лес, метод опорных векторов.
курсовая работа [436,9 K], добавлен 14.12.2022Повышение эффективности системы управления информационной безопасностью в корпоративных информационных системах. Разработка структуры процесса классификации объектов защиты и составляющих его процедур; требования к архитектуре программного обеспечения.
дипломная работа [1,8 M], добавлен 19.05.2013Изучение принципа работы интернет-аукциона (на примере сайта molotok.ru). Способ получения информации с веб-ресурсов. Разработка программного обеспечения с целью создания исходных данных для обучения нейронных сетей и классификации товаров с их помощью.
дипломная работа [2,0 M], добавлен 29.06.2012