Исследование и разработка алгоритмов анализа неструктурированной и слабоструктурированной информации

Изучение проблем в области анализа неструктурированной и слабоструктурированной информации. Оценка эффективности математического описания, алгоритмов и точность анализа данных. Особенности неструктурированной и слабоструктурированной информации.

Рубрика Производство и технологии
Вид реферат
Язык русский
Дата добавления 25.03.2019
Размер файла 13,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Исследование и разработка алгоритмов анализа неструктурированной и слабоструктурированной информации

Гнатюк Евгений

В связи с активным развитием информационных технологий, которые вошли абсолютно во все сферы бизнеса и ИТ-сферы, актуальной стала задача обработка неструктурированной и слабоструктурированной информации, представленной в самых различных её видах, такие как видео, аудио, речь, ФИО, строка с адресом, текст в прайс-листе, с целью извлечения из нее необходимой информации для быстрой и эффективной работой с ней.

Для извлечении данных, информацию необходимо извлечь системой обработки. Под системой обработки информации понимается совокупность средств и методов получения и преобразования информации, позволяющая на основе исходных данных получить совокупность выходных показателей, необходимых для анализа, контроля, планирования, управления. Создание систем преобразования, анализа, управления и обработки информации, позволяющих осуществлять комплексную оценку различного рода информации, поступающей из различных источников, собираемой и создаваемой в процессе функционирования сложных технических, экономических и социальных систем.

Многие коммерческие и некоммерческие организации ведут мониторинг отзывов и выполняют оценку качества своей деятельности на ее основе. Для решения задачи поиска и извлечения информации разработано множество программных продуктов и систем, некоторые из них представлены анализу в данной работе.

Архитектуры данных систем в настоящее время находятся на этапе бурного развития, т.к. применение подобных систем открывает более широкие аналитические возможности для исследования сложных предметных областей. Поэтому тематика данной работы, посвященная исследованию и разработке алгоритмов анализа неструктурированной и слабоструктурированной информации, является актуальной.

Целью данной работы является исследование и разработка системы анализа неструктурированной и слабоструктурированной информации.

Для достижения поставленной цели необходимо решение следующих исследовательских задач:

1. Провести обзор проблем в области анализа и неструктурированной и слабоструктурированной информации.

2. Выполнить математическое описание методов анализа

неструктурированной и слабоструктурированной информации.

3. Разработать алгоритмы и программную реализацию системы анализа неструктурированной и слабоструктурированной информации.

4. Провести оценку эффективности предлагаемого математического описания, алгоритмов и точность анализа данных.

К неструктурированным относятся данные, произвольные по форме, включающие тексты и графику, мультимедиа (видео, речь, аудио). Эта форма представления данных широко используется, например, в Интернете, а сами данные предоставляются пользователю в виде отклика поисковыми системами [1]. слабоструктурированная информация алгоритм

Слабоструктурированные данные -- это данные, для которых определены некоторые правила и форматы, но в самом общем виде. Например, строка с адресом, строка в прайс-листе, ФИО и т. п. В отличие от

неструктурированных, такие данные с меньшими усилиями преобразуются к структурированной форме, однако без процедуры преобразования они тоже непригодны для анализа по каким-либо признакам с целью выполнения некоторых действий над элементом [2].

Система анализа неструктурированной и слабоструктурированной информации может быть использована для широкого круга задач поиска и извлечения информации, а также для организаций, которые ведут мониторинг отзывов и выполняют оценку качества своей деятельности на ее основе.

СПИСОК ЛИТЕРАТУРЫ

1. Журавлев Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения. -- М.: Фазис, 2014.

2. Хачумов М.В. Задача кластеризации текстовых документов. -- Информационные технологии и вычислительные системы, № 2, 2013.

3. Кириченко К.М, Герасимов М.Б. Обзор методов кластеризации текстовой информации. - Режим доступа : http://www.dialog-

21.ru/Archive/2001/volume2/226.htm

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.