Модель слабоструктурированных текстовых документов
Модель представления структуры и содержимого слабоструктурированных текстовых документов в виде совокупности объектов. Два типа объектов: атомарные объекты и объекты контейнеры, а также свойства и отношения, в которых они могут находиться между собой.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 19.06.2018 |
Размер файла | 24,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Модель слабоструктурированных текстовых документов
В.А. Губин
Губін В.О. Модель слабоструктурованих текстових документів // Системи обробки інформації. - 2010. - Вип. 00 (00). - С. 00 - 00. - рос.
Запропоновано модель представлення слабоструктурованих текстових документів у вигляді сукупності об'єктів двох типів: атомарних об'єктів та об'єктів контейнерів.
Губин В.А. Модель слабоструктурированных текстовых документов // Системы обработки информации. - 2010. - Вып. 00 (00). - С. 00 - 00. - рус.
Предложена модель представления слабоструктурированных текстовых документов в виде совокупности объектов двух типов: атомарных объектов и объектов контейнеров.
Gubin V.A. Model Semi-Structured Text Documents // Sistemi obrobki informacii. - 2010. - Issue 00 (00). - Р. 00 - 00. - rus.
A model representation of semi-structured text documents as a set of objects of two types: atomic objects and container objects are represented.
Постановка проблемы
В данной статье рассматривается особый класс текстовых документов - слабоструктурированные текстовые документы.
В [1] отмечается, что для такого рода документов есть все предпосылки для того, чтобы осуществить процедуру автоматизированной идентификации данных, содержащимся в них, избегая необходимости решать при этом задачу понимания смысла текстов на естественном языке.
Для того, чтобы решить эту задачу, необходимо построить модель слабоструктурированных текстовых документов, учитывающую особенности их содержимого. Эта модель основана на представлении текстового содержимого и структуры документов в виде совокупности объектов.
Анализ последних достижений и публикаций
слабоструктурированный текстовый документ
Классическим подходом в Text Mining при построении моделей текстовых документов является подход, основанный на представлении их в виде совокупности входящих в них слов. Для повышения качества этой совокупности выполняют некоторые операции: удаление стоп-слов - слов, не оказывающих никакого влияния на тематику документа; стемминг или лемматизация - выделение значимой части слова; использование различных методов определения коэффициента значимости слов. Такая модель может использоваться при решении разнообразных задач, в частности, задач классификации, кластеризации документов.
В современных подходах при решении задач извлечения данных из документов преимущественно используются модели, основанные на представлении документов в виде совокупности более укрупненных структурных единиц. Так в [2] в документе исследуются содержащиеся в них таблицы различных типов; в [3] единицей исследования является фраза, таблица, колонка и т.п. При анализе изолированных документов такой подход является вполне удовлетворительным.
В случае же, когда обрабатывается совокупность документов, требуется найти компромисс между однородностью модели документа и тем, что модель должна отражает содержащиеся в документе различные обособленные структурные (абзац, список, таблица и т.п.) и текстовые (обособленные текстовые фрагменты) единицы. Однородность модели позволит, в частности, более эффективно сопоставлять между собой содержимое различных слабоструктурированных документов при решении задачи идентификации данных в них.
В данной работе предполагается модель слабоструктурированных текстовых документов, позволяющая добиться обозначенного выше компромисса.
Цели и задачи исследования
Целью статьи является построение математической модели слабоструктурированных текстовых документов. При этом каждый документ должен быть представлен в виде совокупности объектов, отражающих его структуру и текстовое содержимое. Необходимо также установить свойства этих объектов.
Предпосылками возможности решения этой задачи является то, что документы, относящиеся к классу слабоструктурированных, обладают следующими признаками и свойствами [1]:
1. Документ содержит внутреннюю разметку.
2. Содержимое документа разбито внутренним форматированием на обособленные текстовые фрагменты.
3. Каждый фрагмент объективно представляет собой либо значение данных, либо атрибут данных.
4. Во внутренней разметке документов нет формальных признаков, указывающих на то, что есть значение данных, а что есть атрибут данных.
Построение модели слабоструктурированных текстовых документов
Предположим, имеется совокупность электронных текстовых документов Щ, содержащая документы D1, D2, …, DN. В этом случае Щ можно интерпретировать как множество, содержащее элементы D1, D2, …, DN, где N - количество документов в совокупности документов Щ. Таким образом:
Считаем, что документы, входящие в это множество, являются слабоструктурированными. Это означает, что существует некоторая внутренняя разметка документа. Данное обстоятельство позволяет представить документ как набор образующих его элементов, которые могут иметь те или иные свойства, отличающие их от других элементов. К элементам документа, отражающим его структуру, можно отнести абзацы, заголовки, таблицы, нумерованные и ненумерованные списки и т.п. К элементам, отражающим текстовое содержимое документа, можно отнести обособленные текстовые фрагменты документа. Обособление при этом может происходить как посредством применения различного форматирования, так и расположением текстовых фрагментов в различных структурных элементах документа (в различных абзацах, ячейках таблицы и т.п.). Примерами документов, обладающими внутренней структурной разметкой, могут быть документы, представленные в формате html, doc, rtf и в других аналогичных форматах.
Если каждый структурный элемент документа или каждый его обособленный текстовый фрагмент интерпретировать как объект, то каждый документ можно представить в виде неупорядоченного множества объектов:
где ni- количество объектов в i - ом документе.
Из требований, предъявляемых к модели, следует, что данное представление включает в себя объекты двух типов, каждый из которых отражает либо структуру документа, либо его текстовое содержимое.
Будем называть объекты, отражающие структуру документа объектами контейнерами, а объекты, отражающие содержимое документа атомарными объектами. К объектам-контейнерам отнесем сам документ, абзац, заголовок, таблицу, строку таблицы, ячейку таблицы, нумерованный и ненумерованный список, элемент списка. К атомарным объектам отнесем выделенную тем или иным способом часть текстового содержимого абзаца, заголовка, текстовое содержимое ячейки таблицы, текстовое содержимое элемента списка. Таким образом, каждый атомарный объект представляет собой некоторый обособленный текстовый фрагмент документа.
Из такого определения объектов контейнеров и атомарных объектов следует, что объекты контейнеры могут содержать любое количество других объектов-контейнеров и любое количество атомарных объектов.
Обозначим объекты контейнеры как ц и атомарные объекты как ш. В этом случае каждый документ множества Щ может быть представлен в следующем виде:
где ki - количество объектов контейнеров,
li - количество атомарных объектов.
Каждый документ может быть представлен и в таком виде:
где , .
Можно сказать, что совокупность объектов контейнеров Цi отражает структуру документа. Совокупность же атомарных объектов Шi отражает его текстовое содержимое.
Для последующего использования данной модели для решения задачи идентификации данных в слабоструктурированных текстовых документах необходимо установить свойства атомарных объектов и объектов контейнеров.
Для объектов контейнеров необходимо установить:
* тип контейнера,
* контейнер - владелец,
* предшествующий контейнер,
* последующий контейнер.
Типом объекта контейнера может быть документ в целом, абзац, заголовок, список, элемент списка, таблица, строка таблицы, ячейка таблицы.
При этом объекты контейнеры могут находиться между собой в отношении владения или следования. Отношение следования между объектами контейнерами отражает взаимное расположение различных структурных элементов в документе. Отношение владения отражает вложенность одних структурных элементов документа в другие. Например, список может включать в качестве своего элемента другой список (случай вложенных списков), таблица состоит из строк и т.п.
Ключевым свойством атомарных объектов является текстовая строка, соответствующая некоторому обособленному фрагменту текстового содержимого документа. Собственно говоря, каждый атомарный объект и представляет собой некоторый обособленный текстовый фрагмент документа.
Необходимо установить следующие свойства для атомарных объектов:
* текстовая строка,
* документ владелец,
* контейнер владелец,
* свойства форматирования.
Целесообразно учитывать наиболее важные свойства форматирования, в частности: размер шрифта, гарнитура шрифта, полужирность, курсив, подчеркнутость.
Свойства форматирования необходимо учитывать для того, чтобы при необходимости различать атомарные объекты даже если они соответствуют одинаковым текстовым фрагментам.
Из определения слабоструктурированных документов и атомарных объектов следует, что каждый атомарный объект соответствует текстовому фрагменту документа, являющемуся либо атрибутом данного, либо значением данного.
После выделения в документе объектов необходимо установить между некоторыми атомарными объектами отношение ассоциации. Отношение ассоциации будет отражать наше предположение о том, что эти объекты соответствуют текстовым фрагментам исходного документа, образующим пару атрибут-значение данных, имеющихся в документе. В частности, отношение ассоциации необходимо установить между атомарными объектами, представляющими обособленные текстовые фрагменты одного и того же абзаца, заголовка, элемента списка более высокого уровня с каждым элементом вложенного списка, содержимое первой ячейки строки с содержимым ячеек соответствующей строки, содержимое первой ячейки столбца с содержимым ячеек соответствующего столбца, содержимое следующих друг за другом абзацев, и т.п.
Исходя из логики определения объектов-контейнеров и атомарных объектов, можно сделать вывод о том, что между собой эти объекты могут находиться только в отношении владения.
Выводы
В данной работе была предложена модель представления структуры и содержимого слабоструктурированных текстовых документов в виде совокупности объектов двух типов: атомарных объектов и объектов контейнеров. Приведены свойства этих объектов и отношения, в которых эти объекты могут находиться между собой.
Такая модель, в которой обособленные текстовые фрагменты документа представлены как единое целое, позволяет упростить последующее решение задачи идентификации данных в слабоструктурированных текстовых документах. Причиной этого является то, что в таких документах атрибуты данных и значения данных являются обособленными текстовыми фрагментами документа.
Научной новизной работы является следующее: впервые предложена модель слабоструктурированных текстовых документов в виде совокупности объектов двух типов: атомарных объектов и объектов контейнеров, отражающих текстовое содержимое документа и его структуру.
Список литературы
1. Губин В.А Cлабоструктурованные текстовые документы как источники данных. //Бионика интеллекта. - Х.: ХНУРЕ, 2010. - №3(74). - С.00 - 00.
2. David Eric Crestan, Patrick Pantel. Web-Scale Knowledge Extraction from Semi-Structured Tables. // Proceedings of World Wide Web Conference (WWW-10) - Raleigh, NC. 2010. - pp. 1081-1082.
3. David Urbansky, James A. Thom, Marius. Feldmann WebKnox: Web knowledge extraction. // Proceedings of the Thirteenth Australasian Document Computing Symposium - 2008.
Размещено на Allbest.ru
Подобные документы
Особенности разработки текстовых документов с помощью информационной технологии Microsoft Office Word с включением в текст графических объектов типа "скриншот". Инструкция по построению диаграммы с помощью пункта "Вид" главного меню приложения MS Excel.
лабораторная работа [444,7 K], добавлен 14.01.2010Создание и редактирование текстовых документов, содержащих таблицы, рисунки и другие мультимедийные объекты. Разница между текстовыми редакторами и текстовыми процессорами. Запуск Microsoft Word. Создание нового документа. Завершение работы в MS Word.
презентация [306,6 K], добавлен 19.12.2014Классификация программ обработки текстовых документов. Общие принципы оформления издания. Правила набора текста. Системы распознавания текста (OCR). Комплекс программного обеспечения для настольных издательских систем. Примеры текстовых редакторов.
презентация [75,0 K], добавлен 13.08.2013Усвоить технологию работы с объектами текстовых документов и документами в целом. Создать предпосылки для успешного усвоения процедур ввода, редактирования и форматирования данных в других дополнениях MS Office.
лабораторная работа [19,1 K], добавлен 22.05.2007Классы, объекты и объектные ссылки. Особенности статических методов. Конструкторы, специальные переменные, наследование. Создание объектов внутренних классов. Соглашения об именовании. Некоторые методы класса Object. Абстрактные классы и атрибуты.
лекция [130,6 K], добавлен 21.06.2014Понятие объектов конфигурации как составных элементов, из которых складывается прикладное решение. Состав основных объектов конфигурации, поддерживаемых технологической платформой "1С: Предприятие", и их характеристика. Анализ свойств конфигурации.
презентация [1,9 M], добавлен 12.06.2013Понятие компонентов как определенного типа объектов, их свойства и функции. Режимы создания: Design-time и Run-time, их сравнительная характеристика, условия и возможности использования, преимущества и недостатки. Контролеры за объектами, их значение.
презентация [1,3 M], добавлен 27.10.2013Miсrosoft Word 2000 – текстовый редактор, программа для создания и обработки текстовых документов. Специфика работы с окнами, режимы отображения документа. Операции с документами, с текстом. Оформление страниц документа. Вставка графических объектов.
учебное пособие [341,8 K], добавлен 05.12.2010Подсчет количества зарегистрированных в базе данных предприятия документов каждого типа, для каждого подписывающего лица, количества документов, которые он подписал. Подсчет для каждого ключевого слова количества документов, в которых оно встречается.
контрольная работа [813,1 K], добавлен 27.06.2013Типология свойств объекта, его связей и моделей представления информации. Изображение предметной области в виде логических и физических моделей. Требования к системам баз данных. Достоинства трехуровневой архитектуры. Процесс идентификации объектов.
лекция [60,0 K], добавлен 19.08.2013