Технология автоматической рубрикации текстов с использованием тезауруса для автоматического концептуального индексирования
Варианты классификации, рубрицирование текстов. Методы машинного обучения в задачах рубрикации. Оптимальный линейный сепаратор Support Vector Machines. Документы из Reuters-21548. Применение тезауруса для решения сложных задач. Расчет веса конъюнкции.
Рубрика | Программирование, компьютеры и кибернетика |
Предмет | Программирование |
Вид | лекция |
Язык | русский |
Прислал(а) | Chastinvest |
Дата добавления | 19.10.2013 |
Размер файла | 404,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Подобные документы
Методы машинного обучения в задачах рубрикации, положительные и отрицательные примеры. Отсечение по центрам тяжести и ближайшим соседям. Оптимальный линейный сепаратор Support Vector Machines. Особенности применения тезауруса. Расчет веса конъюнкции.
лекция [405,0 K], добавлен 01.09.2013Тезаурус для автоматического концептуального индексирования как особый вид тезауруса. Подходы к описанию отношений при разработке онтологий. Родовидовое отношение выше-ниже. Семантическое смещение. Формальная онтология. Сравнение поисковых механизмов.
презентация [721,9 K], добавлен 19.10.2013Отличительные особенности тезауруса для автоматического концептуального индексирования. Методы, используемые при формировании состава Общественно-политического тезауруса. Описание идеи алгоритма, основанного на учете структуры связного текста.
презентация [38,0 K], добавлен 01.09.2013Разработка алгоритма автоматического создания отзывов на русском языке с использованием лексико-синтаксических шаблонов. Процесс создания текста при помощи цепей Маркова. Принцип работы Томита-парсера. Применение автоматических генераторов текстов.
курсовая работа [150,6 K], добавлен 27.09.2016Понятие тезаурусов, их классификация, назначение, принципы работы. Анализ языков программирования: HTML, Java, C++, Delphi. Создание предварительного проекта. Поэтапная разработка тезауруса. Тип семиотических средств, используемых для семантизации лексем.
курсовая работа [988,5 K], добавлен 25.12.2014Тезаурусы как инструмент для облегчения поиска языковых средств выражающих данное понятие. Виды, состав и структура тезауруса. Сущность информационно-поискового тезауруса по сохранности документов. Тезаурус терминов по морскому делу и парусному туризму.
контрольная работа [22,1 K], добавлен 01.07.2009Анализ метода линейного программирования для решения оптимизационных управленческих задач. Графический метод решения задачи линейного программирования. Проверка оптимального решения в среде MS Excel с использованием программной надстройки "Поиск решения".
курсовая работа [2,2 M], добавлен 29.05.2015Морфологические анализаторы (морфологизаторы) на различных языках программирования. Анализ методов и технологий автоматической обработки ЕЯ-текстов. Разработка модуля графематического анализа и создания таблицы лексем. Программная реализация классов.
дипломная работа [3,0 M], добавлен 06.03.2012Появление искусственных систем, способных воспринимать и понимать человеческую речь. Автоматическая обработка естественного языка. Анализ, синтез текстов. Системы автоматического синтеза. Проблема понимания, оживление текстов. Модели коммуникации.
реферат [19,0 K], добавлен 02.11.2008Роль классификации документов в решении задач информационного поиска. Методы автоматической классификации документов и этапы построения классифицирующей системы: индексация документа, построение классификаторов на базе обучающих данных, оценка их работы.
курсовая работа [354,2 K], добавлен 13.01.2013