Internet Analyst

Функциональная структура информационной системы Internet Analyst. Получение необходимой информации, ее сортировка, рассылка и архивация. Выборка информации по определенному критерию, работа с контекстом. Анализ результатов и подготовка отчетности.

Рубрика Программирование, компьютеры и кибернетика
Вид контрольная работа
Язык русский
Дата добавления 23.08.2012
Размер файла 34,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Филиал Санкт-Петербургского государственного инженерно-экономического университета в г. Череповце

Кафедра « Естественнонаучных дисциплин»

Контрольная работа

По дисциплине «Информационные системы (технологии) в экономике»

Тема: Internet Analyst

Студентки 2 курса

Группы 1 ЭТП-07

Казаковой Е.

Череповец

2008

Содержание

Введение

1. Функциональная структура системы

2. Получение и первичная обработка информации

3. Выборка информации. Работа с контекстом

4. Анализ результатов и подготовка отчетности

Заключение

Список литературы

Введение

Управление любым бизнесом основано на постоянном сборе и анализе информации, необходимой для принятия своевременных решений. Качество управления напрямую зависит как от полноты исходной информация, так и от глубины ее анализа.

При этом должны учитываться как внутренние факторы бизнеса, так и параметры внешней бизнес среды, т.е. необходимую для принятия решений информацию можно разделить на две категории:

· информация о внутренних объектах организации (персонал, продукты, внутренние финансовые и товарные потоки и т.д.);

· информация о внешних объектах (технологии, рынки, конкуренты, клиенты, государство и т.д.).

Причем, характер информации о внешних и внутренний объектах бизнеса качественно различается. Это обусловлено как степенью нашего влияния на источники информации, так и степенью ее структурированности.

Информация о внутренних объектах организации является структурированной (все объекты имеют соответствующие им наборы формальных атрибутов) и контролируемой (мы сами можем определять ее структуру, формат и источники). Это позволяет организовать ее систематический учет и анализ с помощью различных модулей систем.

Информация о внешних объектах, напротив неструктурированна (представлена в виде текстов на естественном языке, рассчитанных на восприятие человеком, а не машиной) и неконтролируема

Между тем, количество информации в открытых источниках так велико, что ее просто невозможно обработать и систематизировать без специализированных инструментов, помогающих выделить в информационном потоке информацию, критически важную для ведения каждого конкретного бизнеса. В итоге, решения принимаются на основе неполной информации, что оборачивается для бизнеса потерями из-за упущенных возможностей и не замеченных вовремя угроз.

Internet Analyst позволяет:

· Всегда быть в курсе событий вокруг Вашего бизнеса

· «На лету» формировать досье по любому вопросу и на любого контрагента

· Находить связи между событиями, физическими и юридическими лицами

· Оценивать состояние дел и прогнозировать развитие событий в любой отрасли рынка

Система Internet Analyst является информационным «фильтром», который позволит вам, охватив весь объем доступной внешней информации, выбрать самое необходимо и важное для обеспечения процесса принятия решений.

1. Функциональная структура системы

Внешняя информация в ходе ее получения и переработки в системе Internet Analyst проходит три стадии:

· Получение и первичная обработка. Из всей доступной в сети Internet информации выбирается та, которая имеет отношение к Вашему бизнесу. Полученные документы проходят первичную очистку, рубрикацию и рассылаются заинтересованным в них респондентам в режиме «персональной газеты».

· Выборка информации. Для работы с накопленной информацией пользователь осуществляет выборки. В ходе «диалога» с системой, из всего информационного массива в Хранилище данных пользователь отбирает факты, необходимые ему для текущей работы.

· Анализ информации и Подготовка отчетов. При получении необходимой выборки документов пользователь работает с фактами и документами, а так же осуществляет подготовку аналитических отчетов.

2. Получение и первичная обработка информации

Цель данного этапа - получение необходимой информации, ее очистка, сортировка, рассылка и архивация.

Последовательно решаются следующие задачи:

· получение информации из внешних источников

· очистка документов от служебной информации и приведение их к единому формату

· индексирование документов в Хранилище (корпоративном Архиве)

· рубрикация и рассылка документов заинтересованным пользователям.

Получение информации из источников и ее очистка

Система Internet Analyst позволяет полностью автоматизировать рутинную работу по скачиванию и очистке первичных документов из внешних источников информации. За получение информации отвечает модуль Робот, который на основании заданного списка источников и графика загрузки автоматически загружает информацию в Модуль очистки.

Списки источников и график загрузки определяются администратором системы. Предварительная настройка осуществляется на этапе внедрения. Модуль очистки производит извлечение содержательной информации из поступающих в различных форматах документов. А именно:

· удаление служебной информации и элементов дизайна источника

· выявления атрибутов документов (название, дата публикации, источник и т.д.)

· форматирование документа для удобства дальнейшей работы пользователей

· индексирование содержания и атрибутов документов при помещение их в Хранилище данных

Для работы Модуля очистки в ходе внедрения системы разрабатываются сценарии очистки (различные для различных источников), которые, при необходимости, могут изменяться в процессе эксплуатации.

Рубрикация информации

Для удобства работы с большим количеством документов, получаемых из внешних источников, полезно сразу же по поступлении в систему разбивать их по темам корпоративного рубрикатора. Структура последнего определяется на этапе внедрения и отражает основные темы или субъекты рынка, мониторинг которых необходим для понимания внешней ситуации.

В зависимости от своего содержания, какие-то документы могут попасть одновременно в несколько рубрик, а какие-то не попасть ни в одну из них. Таким образом, происходит «фильтрация» информации и снижение уровня информационного шума от внешних Источников.

Например: сообщение о назначении нового полномочного представителя президента в регионе, может относиться как к категории «Регионы/Полпреды», так и к категории «Макроэкономика и структурные реформы». Над одним и тем же Хранилищем данных можно развернуть несколько рубрикаторов, так чтобы, например, каждое подразделение фирмы видело свой специфический срез внешней информации.

Создание рубрикаторов экспертами. Авто-рубрикация

Рубрикатор представляет собой иерархический набор информационных фильтров, которые формируются на этапе внедрения (а затем могут модифицироваться в процессе эксплуатации).

Фильтрация происходит с учетом атрибутов документов и их содержания. Содержание документов, в свою очередь, задается как обязательными фразами (и их сочетаниями), так и тематикой документа, определяемой произвольно большим списком контекстных терминов и словосочетаний, взвешенных в соответствии с их значимостью. Можно, например, отбирать все документы, в которых упоминается интересующая Вас фирма или субъект (в любом варианте его написания). А можно отслеживать любые документы по определенной, причем, весьма узкой, тематике. Гибкое сочетание обязательных и контекстных терминов и словосочетаний позволяет производить точную настройку информационных фильтров. Настройка рубрикатора производится экспертами совместно с предметными специалистами - пользователями Системы - на этапе ее внедрения. Создание рубрик кардинально упрощается тем, что происходит в диалоговом режиме, когда Система сама подсказывает эксперту понятия, уточняющие описание рубрики.

Для облегчения процесса создания больших рубрикаторов, в Системе предусмотрен Модуль кластеризации, способный автоматически строить тематические рубрикаторы. На вход этого модуля подается обучающий массив документов из заданной предметной области. Модуль автоматически организует эти документы в иерархическую систему кластеров, содержащих документы со схожей тематикой. Сформированная таким образом иерархическая структура тематик экспортируется в формате тематического рубрикатора и может быть загружена в Систему «как есть» или в качестве первого приближения для ее тонкой настройки экспертам.

Автоматическое создание рубрикаторов незаменимо при обработке больших архивов документов или баз данных, содержащих документы неизвестного заранее содержания.

Модуль кластеризации в этом случае создает иерархическую структуру тематик и помогает разобраться с истинным содержанием информационных массивов.

Расширение рубрикатора пользователями. Персональные профили

На стадии внедрения эксперты создают «постоянную часть» рубрикатора, общую для всех пользователей. Однако каждый пользователь Системы может самостоятельно создавать для себя дополнительные категории рубрикатора. Такие персональные категории называются профилями и, по сути, ничем не отличаются от рубрик, кроме того, что их создает, редактирует и использует каждый пользователь по своему усмотрению и для решения своих задач. Остальные пользователи не имеют к ним доступа.

При создании профиля задаются текстовый фильтр из ключевых словосочетаний, тематический контекст и пороговая релевантность (степень соответствия документов данному контексту). С помощью этих инструментов можно очень точно настроить свои персональные профили - рубрики своей персональной газеты.

Профиль представляет собой «замороженный» запрос, и процедура его создания будет более подробно описана в следующем разделе.

Кроме этого можно указать почтовый ящик, на который автоматически будут отсылаться документы, поступающие в данную рубрику-профиль.

Система автоматически наполняет профиль документами в момент его создания, после чего пользователь сразу может осуществлять выборки с учетом данного профиля.

Рубрикатор как средство мониторинга. Рассылка документов

Поскольку рубрикация документов происходит в момент их поступления в Систему, рубрикатор является идеальным средством для мониторинга внешней информации. Каждая рубрика (или персональный профиль) является одновременно тематической новостной лентой, показывающей развитие событий по данному вопросу.

Internet Analyst предоставляет очень удобную возможность подписаться на любой набор профилей и получать соответствующие документы в реальном времени по электронной почте, без необходимости обращаться к Системе с соответствующими запросами. Система генерирует название профилей в обратном адресе сообщения, позволяя сортировать полученные документы по тематическим папкам средствами почтового клиента.

Для любого руководителя естественно желание не пропустить какие-то «горячие» события, информационные всплески по любым вопросам, касающимся его бизнеса.

Система Internet Analyst обеспечивает автоматический режим отслеживания информационных всплесков по всему набору «объектов учета» (рубрик и профилей) Те категории, в которых в настоящий момент выявлено резкое изменение потока документов, подсвечиваются красным цветом. Порог чувствительности мониторинга, косвенно определяющий количество «горячих тем», определяется в настройках (при желании эту опцию можно отключить).

3. Выборка информации. Работа с контекстом

Выборка информации по определенному критерию фокусирует внимание аналитика на интересующем его вопросе, предлагая ограниченный набор документов для их изучения и анализа.

Получить набор необходимых документов можно различными способами. Например, просто «раскрыв» одну из папок рубрикатора, Вы получите подборку документов по данной тематике, отсортированную по времени. С помощью Панели запросов, можно формировать новые, весьма прецизионные выборки документов, комбинируя ключевые понятия с поясняющими их смысл контекстными терминами и словосочетаниями.

Любой такой запрос можно сохранить в качестве постоянно действующего профиля для мониторинга соответствующей темы. Кроме того, можно анализировать развитие этой темы во времени с помощью технологии временных рядов

Отличительной чертой системы Internet Analyst является диалоговый режим формирования контекста, при котором Система помогает сформулировать прецизионные информационные фильтры, содержащие до нескольких сотен контекстных терминов и словосочетаний буквально за несколько минут и с минимальными затратами усилий со стороны пользователя.

Поиск документов в Internet Analyst

Поиск документов в системе Internet Analyst реализуется Модулем поиска по Запросу пользователя. Запрос содержит как ключевые (обязательные), так и контекстные (поясняющие контекст запроса) слова и словосочетания. Ключевые слова и словосочетания работают как фильтр, пропуская через себя лишь документы, содержащие их определенные комбинации. Как у большинства поисковых машин, в поле ключевых терминов можно употреблять логические операторы (И, ИЛИ, НЕ и некоторые другие).

Контекстные слова и словосочетания ранжируют прошедшие через логический фильтр документы в соответствии с количеством и расположением этих терминов в документах. Чем больше контекст, тем точнее определены информационные потребности пользователя, и тем легче находятся нужные ему документы.

Отсутствие возможности определить контекст запроса в традиционных поисковых серверах является главной причиной низкого качества поиска - большого количества документов «не в тему». Действительно, по двум-трем ключевым словам в принципе невозможно понять, в каком из своих многочисленных смыслов (о многих из которых пользователь и не подозревал) употребляются эти слова в найденных документах. Контекстные слова и словосочетания помогают Системе понять, что именно интересует пользователя в данный момент

Важно, что Система постоянно подсказывает варианты уточнения контекста Запроса, превращая процесс поиска в человеко-машинный диалог. Машина становится своего рода «усилителем интеллекта» эксперта, мгновенно просматривая за него сотни документов в поисках наиболее характерных контекстных терминов и тем самым помогая пользователю наиболее точно сформулировать свои информационные потребности.

Работа в режиме человеко-машинного диалога открывает перед экспертами совершенно новые возможности. В качестве примеров, ниже мы рассмотрим несколько способов выборки документов в системе Internet Analyst:

· поиск известного (сужение контекста);

· поиск неизвестного (расширение контекста);

· поиск связей (пересечение контекстов).

Поиск известного (сужение контекста)

Этот вид поиска используется в тех случаях, когда эксперт понимает, какая информация ему в данный момент необходима. Пользователь задает нужную ему комбинацию обязательных ключевых терминов, а затем уточняет контекст запроса в специальном контекстном окне. При этом выборка сужается, и наверх «поднимаются» документы, соответствующие указанному контексту.

Например: количество документов по запросу «Финансы» составляет 10000, по запросу «Финансы» в контексте «Ипотечное кредитование» -1500, по запросу «Финансы» в контексте «Пенсионная реформа» -1000, по запросу «Финансы» в контексте «Банковская реформа» - 3000.

Поиск неизвестного (расширение контекста)

Менее очевидна, но гораздо более интересна возможность поиска неизвестного, когда эксперт НЕ ЗНАЕТ точно, что он ищет. Такая ситуация возникает в тех случаях, когда эксперт сталкивается в своей работе с новой предметной областью (например с новой технологией или с новым рынком) и, зная лишь узкий аспект предметной области, пытается охватить ее целиком.

Пример 1: Эксперт столкнулся в своей работе с компанией АИЖК и хочет понять суть работы компании. Для этого ему надо осознать, что она работает на рынке «ипотечного кредитования» (хотя до этого, эксперт мог даже не знать о таком понятии), занимаясь, по сути, созданием этого рынка в России.

Пример 2: Маркетолог работает над расширением рынка своей компании, однако в рамках его текущего видения рынка он не видит новых возможностей. Для того чтобы увидеть их, ему необходимо «подняться» над ситуацией - посмотреть на нее шире, чем он смотрит в настоящий момент. Другими словами - расширить контекст его текущего видения.

Система Internet Analyst позволяет решать задачи поиска неизвестных эксперту сущностей и понятий, расширения его кругозора. В такой ситуации пользователь просто оставляет поле ключевых слов свободным, и работает лишь с контекстными терминами и словосочетаниями.

При расширении контекста в отсутствии ключевых слов, объем начальной выборки увеличивается за счет привлечения дополнительных терминов и понятий, связанных с начальными. Однако, по мере роста числа контекстных терминов, первые места в Панели результатов занимают документы, наиболее отвечающие заданной тематике. Таким образом, расширение выборки не мешает пользователю получить, скажем “Top 10” лучших документов по любой тематике, даже если ее контекст содержит сотни понятий, и вся выборка целиком становится необозримой. Причем, чем больше контекст, тем более надежна выборка “Top 10”.

Интерактивное формирование богатого контекста позволяет легко и безошибочно находить документы по любой тематике.

Поиск связей (пересечение контекстов)

Работа с контекстом позволяет экспертам находить не только документы, но и понятия, связывающие различные информационные объекты.

Например: существует контекст «Александр Семеняка» - известный управленец, работавший на различных позициях в компании Газпром, и контекст «Ипотечное кредитование», содержащий документы по данной тематике. Между этими двумя контекстами существует соединяющий контекст «АИЖК» (в настоящий момент Александр Семеняка является генеральным директором компании АИЖК).

Internet Analyst позволяет выявлять связи между различными объектами за счет выявления связующих контекстов

Использование временных рядов

В системе Internet Analyst выборки документов можно представлять в виде временных рядов, показывающих каким образом документы распределены во времени. Это позволяет отслеживать информационные «всплески» и тренды в любых выборках выдаваемых системой.

4. Анализ результатов и подготовка отчетности

На этом результирующем этапе эксперт работает с документами из выборки, сформированной в ходе интерактивного уточнения запроса.

Выявление фактов

Панель результатов системы Internet Analyst предоставляет пользователю необходимый инструментарий для поиска фактической информации в документах из результирующей выборки.

Для каждого документа выборки указывается:

· Релевантность документа запросу

· Заголовок документа

· Источник документа

· Дата создания документа (или его получения от источника)

· Список категорий рубрикатора с указанием степени соответствия документа этой категории (документ может присутствует в нескольких категориях рубрикатора или не принадлежать ни одной из них)

· Набор наиболее насыщенных в контексте данного запроса фраз

Выборку можно отсортировать как по релевантности, так и по дате документов. При нажатии на заголовок документа в отдельном окне открывается оригинал документа. Однако пользователю нет необходимости просматривать каждый документ целиком. Частично фактический материал можно просматривать прямо в Панели результатов. Это существенно экономит время при просмотре содержания выборки.

Подсветка ключевых и контекстных терминов

Если какой-то документ заинтересовал пользователя, его можно просмотреть, выделив в тексте ключевые (и контекстные) слова. Это помогает быстро найти в документе пассажи, относящиеся к интересующему пользователя контексту.

Аннотирование документов

Существует и другая возможность - выделить в документе предложения, содержащие основные мысли документа (безотносительно к запросу). Такая аннотация помогает пользователю быстро понять, о чем говорится в данном документе. Обе описанных опции помогают просматривать гораздо больше документов и находить в них фактическую информацию в несколько раз быстрее, чем при чтении документов целиком. Это особенно важно в условиях жесткого лимита времени, отведенного на подготовку аналитических отчетов и принятие решений.

Выявление дубликатов

При работе с большим числом источников многие документы выборки могут освещать одно и то же событие, повторяя одну и ту же информацию зачастую почти дословно. Чтобы избавить экспертов от просмотра избыточной информации, в Internet Analyst реализован механизм выявления дубликатов.

При наличии дубликатов, Система отображает лишь один из них, помечая количество дубликатов. При желании всегда можно просмотреть (аннотированный) текст всех дубликатов, например, чтобы понять разницу в освещении одних и тех же событий разными источниками.

Поиск похожих документов

При работе с документами зачастую возникает необходимость в получении дополнительной информации - «поднять архивы» по данному вопросу. Система Internet Analyst предоставляет возможность выбрать из Хранилища данных все документы похожие по содержанию на заинтересовавший эксперта документ

Работа с Корзиной и подготовка итогового Отчета

Незаменимым инструментом для подготовки итогового отчета является Корзина. В нее по мере работы можно складывать все документы, содержащие ту или иную информацию, которая должна быть отражена в отчете

Корзина может накапливать документы из разных поисковых сессий, аккумулируя самые важные результаты из различных выборок, имеющих отношение к данной проблеме. В нее можно поместить любой найденный Системой документ, например, полученный при анализе временных рядов.

Когда в Корзине будет собран весь необходимый для подготовки отчета материал, эксперт может начать его обработку и осмысление в соответствующей панели. Для этого в Корзине предусмотрены сортировка документов по датам, удаления ненужных, и, главное - возможность выгрузить все документы корзины в MS Word.

Итоговый документ MS Word представляет собой компиляцию всех отобранных документов с подчеркнутыми Системой наиболее содержательными фразами. Его можно распечатать для дальнейшего ознакомления с предметом (например, в транспорте по пути на переговоры), отослать по электронной почте или использовать в качестве «полуфабриката» для его дальнейшей переработки в аналитический отчет. Например, в итоговом документе можно оставить лишь отрывки, содержащие необходимую для отчета информацию (со ссылками на первоисточники), отсортировать их в нужной последовательности, снабдить собранный фактический материал своими комментариями и соответствующими выводами.

Заключение

internet analyst

Создание информационной системы Internet Analyst принадлежит компании IQmen.

ЗАО «Айкумен» (IQmen), является одним из ведущих поставщиков систем обработки неструктурированной информации на Российский рынок. В 1994 г. При Физическом Институте Академии Наук была организована группа из специалистов по искусственному интеллекту. Группа занималась технологиями машинного обучения. Основными направлениями деятельности являлись:

- технологии прогнозирования;

- распознавание образов;

- решение задач оптимизации.

В числе прикладных задач, которые решила группа можно выделить:

- создание трехмерного нейродисплея;

- создание технологии рейтингования Российских банков;

- финансовое прогнозирование на фондовых, товарных и валютных рынках.

.

Результатом работы группы, стал ряд прикладных технологических решений, которые в дальнейшем были успешно коммерциализированы.

Одним из прикладных результатов работы группы является набор программных инструментов позволяющих осуществлять аналитическую обработку неструктурированных массивов текстовой информации.

В мае 2004 года была создана компания Айкумен, основной задачей которой является продвижение на Российский корпоративный рынок продуктов созданных на базе технологий разработанных в Физическом Институте Академии Наук.

Список литературы

1. Автоматизированные информационные технологии в экономике. Учебник / Под общ. ред. И.Т. Трубилина. - М.: Финансы и статистика, 2000.

2. Автоматизированные информационные технологии в экономике// Под ред. Г.А. Титоренко. - М.: ЮНИТИ., 2002

3. Информационные системы в экономике/ Под ред. В.В. Дика. - М.: Финансы и статистика, 1998.

4. Корнеев И.К., Машурцев В.А. Информационные технологии в управлении. - М: ИНФРА-М, 2001.

Размещено на Allbest.ru


Подобные документы

  • Что такое Internet? Internet, как средство массовой информации. Службы Internet. Сетевая пресса. Структура Полит.Ру. Статистика. Рейтинг. Из чего состоит Internet? ICQ – новая возможность общения. Административное устройство Internet.

    реферат [20,2 K], добавлен 10.05.2003

  • Исторические предтечи Интернет - ARPAnet, LAN, Ethernet, NSFNET. Взаимоотношение структуры Internet и пользователя. Потенциальные пользователи. Доступ в Internet. Работа Internet: организация, структура, методы.

    реферат [69,3 K], добавлен 12.06.2007

  • История развития сети Internet. Общая характеристика сети Internet. Протоколы. Услуги предоставляемые сетью. Internet - мировая сеть. Компьютерная зависимость. Internet-2. Нехватка мощностей Internet. Создание Internet-2. Структура Internet-2.

    контрольная работа [19,5 K], добавлен 06.10.2006

  • Административное устройство Internet. Потенциальные пользователи. Работа Internet: организация, структура, методы. Дозволенное в Internet. Наиболее распространенные возможности Internet. Удаленный доступ. Передача файлов. Электронная почта.

    статья [71,4 K], добавлен 28.11.2002

  • Несовместимость Internet и информационной безопасности. Необходимость ликвидации физической связи между будущей Internet, корпоративными и ведомственными сетями. Замена маршрутизаторов на коммутаторы. Выбор между защищенностью системы и ее открытостью.

    реферат [19,6 K], добавлен 26.11.2010

  • Создание цифровой модели рельефа топокарт, проектирование на ее основе 3D-модели и растрового изображения топокарты. Используемые средства и технологии, модуль ArcGIS Spatial Analyst. Последовательность и этапы создания геоинформационной модели.

    курсовая работа [4,1 M], добавлен 12.06.2013

  • Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.

    курсовая работа [918,3 K], добавлен 26.03.2011

  • Internet. Протоколы сети Internet. Принцип работы Internet. Прикладные программы. Возможности в Internet? Правовые нормы. Политика и Internet. Этические нормы и частная коммерческая Internet. Соображения безопасности. Объем сети Internet.

    дипломная работа [128,8 K], добавлен 23.06.2007

  • Всемирная система объединенных компьютерных сетей, построенная на использовании протокола IP и маршрутизации пакетов данных. Домен и его уровни. Основные сервисы Internet. Что нужно для подключения к сети Internet. Правила поиска информации в Интернете.

    курсовая работа [1,5 M], добавлен 10.01.2012

  • Gopher-система - предшественник World Wide Web. Электронная почта как вид Internet-сервиса. Телеконференции UseNet, протоколы передачи файлов FTP. Поиск информации в Интернет. Сервисы общения IRC и многопользовательские игры MUD. Internet-телефония.

    реферат [20,1 K], добавлен 14.05.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.