Систематизация источников и данных по нанотехнологиям
Особенности наноматериалов и их классификация. Использование Uniform Description System, иерархия системы классификаторов. Разработка онтологии и графического интерфейса. Настройка веб-сервисов Open Semantic Framework, реализация Bootstrap Tree View.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 11.08.2017 |
Размер файла | 1,3 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Оглавление
Введение
1. Семантическое моделирование
2. Особенности наноматериалов и их классификация
2.1 Существующие онтологии в данной области, их особенности и недостатки
2.2 Использование стандарта UDS
2.3 Типология наноматериалов
2.3.1 Идентификация наноматериалов по совокупности физических свойств
2.3.2 Метаданные для производственной истории и условий поставки
2.3.3 Потенциал совершенствования системы UDS
3. Разработка онтологии и интерфейса
3.1 Разработка онтологии по наноматериалам
3.2 Разработка графического интерфейса для работы с онтологиями
3.2.1 Open Semantic Framework
3.2.2 Реализация на базе CMS Drupal
3.2.3 Настройка веб-сервисов OSF
4. Работа с таксономиями
4.1 Разработка собственной таксономии
4.2 Применение Bootstrap 3 для разработки интерфейса
4.3 Реализация Bootstrap Tree View
4.4 Экспорт и импорт таксономий
Заключение
Список использованных источников
Приложения
Приложение 1 - Код модуля export_taxonomy
Приложение 2 - Код модуля import_taxonomy
Приложение 3 - Пример экспортированного файла json
Введение
К настоящему времени накоплен большой объем знаний о свойствах индивидуальных веществ и материалов, таких как размеры и форма, структура, химическая природа, состояние поверхности, термодинамические свойства, условия синтеза и др. Эффективное использование этих знаний невозможно без систематизации и создания современных баз данных, предоставляющих пользователю возможности удобного поиска по различным критериям. Кроме того, последние достижения в области информационных технологий позволяют выйти за рамки восприятия информационной системы, как системы хранения данных, но также рассматривать ее в виде удаленного интеллектуального обработчика данных, который, наряду с функциями поиска и извлечения данных, решает также задачи анализа, прогнозирования и получения новых закономерностей.
Актуальность исследования наноматериалов обусловлена в первую очередь перспективой создания на их основе новых материалов и технологий. Еще молодая, но столь узкоспециализированная отрасль, носит крайне важный характер и имеет большой потенциал развития. Реализация возможности придать смысловую надстройку, а также конкретизировать и четко очертить границы понятий, относящихся к свойствам наноматериалов, позволит открывать новые свойства и характеристики объектов наномасштаба, что, в свою очередь повлечет еще больший прорыв в науке.
В последнее время наряду с обычными реляционными базами данных, локализованными на отдельных компьютерах (серверах) организации-разработчика, развивается концепция семантической сети (Semantic Web). Концепция была выдвинута создателем Всемирной паутины Тимом Бернерс- Ли и его командой в 2001 году [28]. В это понятие они вложили представление о будущем Интернета, когда содержимое веб-страниц имело бы особую структуру в виде онтологий, позволяющую программным агентам получать новую информацию из имеющихся данных, подобно человеку. Таким образом, целью внедрения данной надстройки является сделать существующий веб более понятным для машин.
В настоящей работе рассмотрена возможность создания онтологии (семантического моделирования) для свойств наноматериалов. В целом задачей данной работы является построить онтологическую модель свойств и характеристик наноматериалов, а также систематизировать данные по наноматериалам таким образом, чтобы они могли быть подвергнуты машинной обработке.
В качестве платформы был выбран открытый инструментарий Open Semantic Framework (OSF) [23], который спроектирован в виде платформы, интегрируемой с популярной системой управления контентом (CMS) Drupal 7. В свою очередь Drupal обеспечивает доступ интернет-пользователей к разрабатываемой системе. В CMS Drupal системе включена возможность создания такой структуры, как таксономия объектов - управляемого иерархически построенного словаря объектов рассматриваемой предметной области. наноматериал интерфейс semantic framework
Поскольку всякая таксономия - это элементарная онтологическая модель, то существует потребность в оперативной работе в ней: визуализации степени вложенности понятий, возможности обмена (выгрузка, загрузка данных) и т.д. Однако, в существующих решениях отсутствуют такие возможности, и по этой причине необходима модернизация и дополнение открытого кода по работе с таксономиями.
Помимо этого задача заключается в реализации механизма работы веб-сервисов OSF с последующей возможностью публикации, экспорта и импорта данных из системы в формате Json.
Выбранное программное обеспечение является удобным решением для организации гибкой системы управления онтологическими моделями.
1. Семантическое моделирование
Семантическое моделирование, на сегодняшний день является одним из перспективных развивающихся направлений в области обработки знаний, размещенных в сети Интернет. Под обработкой понимается не только считывание и выдача информации по запросу пользователя. Это широкий спектр задач, решаемый при помощи данной технологии.
Как таковая, сама идея Semantic Web зародилась в середине 90-х годов. Были изданы теоретические труды, которые, не представляли интереса для научной общественности за неимением практического применения. Важным моментом, изменившим отношение к наработкам, стала статья, опубликованная Т. Бернс-Ли в мае 2001 года [28]. Эта работа стала предпосылкой на пути к развитию концепции.
Описывая простыми словами, что такое Интернет, можно сказать, что это сеть компьютеров, связанных между собой посредством физических каналов связи, осуществляющих передачу данных по конкретным протоколам (TCP/IP, UDP и другие). Информация, публикуемая в Интернете, чаще всего хранится в базах данных, а ее визуализация реализуется с использованием сайтов. Традиционный сайт базируется на языке разметки документов HTML, который и описывает форму представления информации в Web-браузере.
Данный язык крайне сложно поддается автоматическому содержательному анализу. Поисковые машины, обращаясь к сайтам в поисках информации, не имеют возможности «понимать» смысл этой информации. Машинная обработка становится невозможной, так как компьютеры не умеют, подобно человеку, анализировать подаваемую на вход информацию и выводить, получать новые знания. Чтобы машины могли понимать смысл информации, необходимо, как минимум создать искусственный интеллект, который мог бы корректно воспринимать и обрабатывать данные. Указанная задача пока не решена в мировом сообществе, хотя попытки реализовать искусственный интеллект ведутся очень активно. Для решения именно данной проблемы и была разработана такая технология, как семантическая сеть, то есть, надстройка над Всемирной паутиной, которая представляет все данные в едином структурном формате, понятном машине.
Тот Интернет, которым мы привыкли пользоваться на сегодняшний день, носит негласное название «Web 2.0». В свою очередь, считается, что следующий этап развития Интернет (Semantic Web) - представляет собой переход на новый уровень визуализации данных - уровень знаний и автоматизированной обработки, и этот Интернет уже носит название «Web 3.0». Технология Semantic Web разрешит компьютеру интерпретировать информацию, представленную в веб, наравне с людьми, предусматривает приведение разных видов информации в одну конкретную структуру, где каждому элементу информации, понятной человеку, будет соответствовать машинный код - специальный смысловой тэг.
Если рассматривать понятие семантического веба в математической форме, то его можно представить в виде графа, имеющего набор вершин, соединенных между собой дугами. В качестве вершин выступают базы знаний из области науки, для которой ведется создание данной структурной формы. Дугами, имеющих направление, задаются отношения, существующие между этими базами знаний. Получаемая своеобразная семантическая сеть очень удобно и подробно отражает смысловое содержание - семантику - изучаемой предметной области в виде конкретных понятий и отношений.
Возможности, которые становятся доступны при реализации надстройки семантического веба, следующие:
? семантический поиск, т.е. поиск не по ключевым словам, а по смыслу;
? объединение данных, которое помогает находить ответы на вопросы, которых нет ни в одном источнике по отдельности, но есть в их совокупности;
? логический вывод, т.е. вычисление новых знаний на базе уже имеющихся;
? интеллектуальный агент -- программа, способная автономно выполнять указанное человеком задание по поиску и обработке информации.
В рамках проекта Semantic Web используются современные технологии, такие как: онтологии, XML, RDF и другие. «Рабочей» структурной единицей здесь выступает такое понятие как «ресурс». В качестве ресурса можно рассматривать любой объект, или, используя рабочую терминологию, сущность. Поскольку вся работа надстройки семантического веба ведется в интернете, логично, что в качестве ресурсов выступают веб-ресурсы: сайты, порталы, т.е. все возможные формы представления данных, публикуемых в Интернете.
Если рассматривать архитектуру семантического веба, можно выделить три основных «слоя»:
? RDF -- Resource Description Framework;
? OWL -- Web Ontology Language;
? SPARQL .
В связке эти технологии позволяют создавать машиночитаемые веб-приложения, которым понятна семантика публикуемой информации, т.е. ее смысл. Поговорим подробнее о каждой из указанных технологий.
RDF -- язык, позволяющий записать утверждения о ресурсах в определенном формате, называемом триплетами. Триплет это тройка высказываний, где указывается «что» имеет «какое-то свойство, осуществляет действие» по отношению к «чему-то». Триплет состоит из трех частей: (рис. 1)
? субъект -- описываемый ресурс,
? предикат -- свойство ресурса,
? объект -- значение свойства.
В качестве любого элемента этой тройки используются идентификаторы ресурсов (URI). А поскольку идентификаторы должны быть уникальными, то, как правило, в мировом сообществе используется URL адрес описываемого веб-ресурса. Возможные значения элементов триплета:
? ресурс, задаваемый по URI,
? анонимный ресурс,
? литерал в формате Unicode.
Рис. 1. Состав триплета
Подобным образом можно описать любую предметную область знаний. Язык описания словаря RDF определяет классы и свойства, которые могут быть использованы для описания других классов и свойств, а также производить некоторые более сложные вещи, такие, как создание диапазонов и областей для свойств.
Множество триплетов представляет собой граф, о котором говорилось ранее. Схематично это можно представить на примере следующим образом (рис. 2) [30]:
Рис.2 Граф триплетов
В свою очередь, много графов между собой образуют Giant Global Graph - объединение всех связанных данных. (рис. 3) [30]:
Рис. 3 Giant Global Graph - объединение всех связанных данных
Следующим важным понятием при описании архитектуры семантического веба является онтология. Данное понятие объединяет в себе концептуализацию описываемой предметной области. Говоря простыми словами, онтология позволяет задать общее представление о понятиях из изучаемой области знаний, информацией из которых могут обмениваться люди и приложения. Все понятия описываются с использованием языка OWL, который имеет конкретную структуру и формализованный вид. Онтологии содержат информацию о классах, их свойствах и частных случаях. По сути, OWL это расширенная версия известного XML представления данных. На основе онтологий с помощью логического вывода в RDF-графе вычисляются не существовавшие до этого триплеты. К наиболее главным особенностям OWL можно отнести некоторые следующие:
? имеет инструкции для представления дерева классов;
? имеет систему описания свойств: область определения, область значений;
? может задавать характеристики свойств: симметричность, транзитивность, функциональность;
? имеет инструкции для указания эквивалентности (склеивание) классов.
Также, одной из важных архитектурных составляющих семантического представления является SPARQL - язык запросов, при помощи которых происходит получение данных из описанных онтологий на языках OWL и RDF. Силами консорциума W3C в 2006 году была начата разработка SQL -подобного языка к хранилищам баз знаний, описанных на указанных технологиях. В результате работы был получен SPARQL Query Language for RDF, который на данный момент имеет статус рекомендованного кандидата. Данный язык запросов базируется на паттернах графов, является протоколом доступа к данным.
В мировом сообществе, подобные проекты можно встретить лишь на площадках очень крупных компаний. В качестве примера успешного применения надстройки Semantic Web на текущий момент можно привести веб-портал, посвященный нобелевским лауреатам http://www.nobelprize.org/. Визуально сайт не содержит признаков применения новой технологии. Однако, внутренняя структура портала построена на основе терминологии RDF, OWL, при помощи которых описаны связи между событиями, людьми, наградами и т.д. Информация о нобелевских лауреатах, начиная с 1901 года, хранится в специализированных словарях, созданных как на базе самого портала, а также с подключением внешних онтологий. В качестве еще одного примера можно привести компанию Google и их проект Swoogle Semantic Web Search Engine.
Стоит отметить, что в русскоязычном сообществе направление семантического моделирования распространено пока что очень слабо. На сегодняшний день существует крайне мало русскоязычных наборов данных, посвященным каким-то предметным областям. Среди русских компаний, которые предоставляют услуги по семантическому моделированию можно привести ООО "ТриниДата" [29].
2. Особенности наноматериалов и их классификация
Наноматериалы -- это материалы, созданные с использованием наночастиц и/или посредством нанотехнологий, обладающие какими-либо уникальными свойствами, обусловленными присутствием этих частиц в материале. К наноматериалам относят объекты, один из характерных размеров которых лежит в интервале от 1 до 100 нм.
2.1 Существующие онтологии в данной области, их особенности и недостатки
Касательно существующих решений по реализации онтологий в предметной области наноматериалов, нужно отметить, что на данный момент уже существует ряд пробных реализаций [12, 19]. Однако, их немного, в чем, очевидно, сказывается специфика данного направления. Как известно, область науки по наноматериалам достаточно молодая и находится в активной стадии изучения. Для создания корректно спроектированного веб-ресурса по наноматериалам требуется в первую очередь наличие высокофункциональных лабораторий для проведения необходимых опытов и сбора данных характеристик, а также грамотных специалистов, способных реализовать и персонализировать полученную информацию в нужном формате. Необходимые условия возможно реализовать лишь на базе крупного вычислительного центра.
Изучая статьи и доклады последних лет от русского научного сообщества, можно выделить несколько наработок. К примеру, в работе [22] авторы ставят своей целью определение математической модели онтологии сложноструктурированной предметной области «Наноматериалы», где используется терминология из онтологий органической и физической химии. В работе приведены три модуля разрабатываемой математической модели онтологии области нанотехнологий и наноматериалов. Предполагается, что такая модель будет использована при создании интеллектуальных систем моделирования, интегрирующих онтологии, знания, данные указанных областей, а также программные системы, предназначенные при решении прикладных задач (в том числе с использованием существующих программных систем).
Помимо этого научными сотрудниками МИСиС опубликован труд «Проблемы разработки прикладной онтологии для области наноматериалов»[21]. В работе описан подход к созданию прикладной онтологии по конструкционным наноматериалам, основанный на использовании методологии, предложенной Н. Ной и Д. МакГиннес. Рассмотрены основные онтологические ресурсы в данной предметной области: онтология наночастиц, онтология исследований в области нанотехнологий. Предлагаемая онтология содержит 168 классов, 138 свойств Из описания к статье «Проблемы разработки прикладной онтологии для области наноматериалов» . В рамках данного проекта был выполнен поиск и анализ схожих онтологий, которые могли бы послужить основой для формирования базисной структуры онтологии по конструкционным наноматериалам. Проведенный анализ выявил несколько ресурсов онтологического типа, относящихся к области материаловедения или наноматериалов и нанотехнологий. В своей работе команда проекта опиралась на онтологии наночастиц для исследований в области лечения рака (NanoParticle Ontology for Cancer Nanotechnology Research, NPO) и онтологию величин, единиц измерения и типов данных (Quantities, Units, Dimensions and Types, QUDT). Фактически, для своих целей авторы использовали ресурсы онтологии NPO.
Проблемы, с которыми пришлось столкнуться при создании являются типичными для онтологий широких предметных областей: отсутствие четких границ предметной области и ее пересечение со смежными областями, отсутствие точных определения значений терминов, наличие нескольких альтернативных классификаций ключевых понятий (таких как «наноматериал» или «нанотехнология») и в более широком смысле - наличие различных определений для одних и тех же понятий, а также наличие у одного понятия нескольких значений в зависимости от контекста употребления Фраза из статьи «Проблемы разработки прикладной онтологии для области наноматериалов».
В качестве примера онтологий, известных в мировом масштабе, можно выделить всего три онтологии при жестком сужении предметной области:
? NPO - nanoparticle ontology [11];
? онтология, встроенная в общехимическую БД ChEBI (chemical entities of biological interest) ;
? онтология по нанокомпозитам, созданная в Российском химико-технологическом университете им. Менделеева.
Первые две (NPO и ChEBI) включены в общедоступные библиотеки, снабженные средствами поиска и визуализации. Онтология NPO включает в себя 1900 классов, которые распределены по множеству уровней иерархии, связанных ассоциативными отношениями. Указанные отношения конкретизируют физико-химические свойства и возможное использование наночастиц.
Описание онтологии, подготовленной в Менделеевском институте, дано только в журнале «Информационные ресурсы России», 2011[19].
2.2 Использование стандарта UDS
При разработке онтологического представления предметной области по наноматериалам использовалась система идентификации наноструктур и наноматериалов Uniform Description System (UDS)[10].
С помощью анализа, выполненного в ряде исследований, были выявлены такие особенности, относящиеся к наноматериалам, как:
? объемность и нечеткие границы предметной области, где присутствует смешение разделов физики, биомедицины, химии и другие;
? быстрая эволюция дисциплины, сопровождающаяся появлением новых материалов, а также введением новых характеристик и концепций;
? многогранный характер описания объектов с учетом привлечения большого количества характеристик, которые определяют структуру, морфологию, состав и а также многие другие особенности;
В результате, процесс систематизации данных заметно превосходит по сложности, сформированные в традиционных областях знаний. Множественные попытки создания классификаторов для нанотехнологий были ограничены достаточно узким сегментом и ограниченностью задачи, что в свою очередь, тормозило развитие предметной области. Для решения данной проблемы были предприняты усилия со стороны участников комиссии по численным данным (CODATA) и Международного научного совета (ICSU), которые создали специальную группу по разработке единых рекомендаций, которыми могут пользоваться эксперты разных областей. В результате совместных усилий группы, в 2015 г. был выпущен документ под названием Uniform Description System (UDS). Этот документ призван обеспечить максимально универсальный подход для описания не только наноматериалов, а также их свойств, технологий производства, сертификации и другие немаловажные аспекты. При характеристике наноматериалов система UDS реализует однозначность в определении. Таким образом появилась возможность надежно выделить один из объектов из множества близких ему по свойствам или подтвердить идентичность объектов по совокупности признаков: размеры и форма, структура, химическая природа, состояние поверхности, условия синтеза и т.п.
Разработанный международный документ формирует систему метаданных, хотя и не обладает в достаточной мере их непосредственными признаками. Он представлен в виде текстового документа для проведения многоуровневого анкетирования. Вопросы, поставленные перед специалистом, который будет заниматься описанием наноматериалов, позволяют создать качественно полное представление о предметной области по наноматериалов в соответствии с положенной в основу структурой (рис. 4) [31].
Как и в случае большинства систем метаданных, предложенная система описания объектов построена в виде классической иерархии, состоящей из четырех категорий (рис. 4), которые максимально обеспечивают полноту данных, позволяющих детально предоставить информацию о конкретных типах наноматериалов.
Первая из четырех категорий - General Identifiers, дает формальное определение материала. С ее помощью происходит присвоение материалу названия, а также отнесение его к рубрикам выбранной классификационной схемы. General Identifiers является самым простейшим уровнем идентификации, который не затрагивает ни физические характеристики самого нанообъекта, ни сведения о его производстве.
Более полную идентификацию дает категория - Characterization. Здесь в мельчайших деталях перечисляются все позиции, требуемые для раскрытия сведений о свойствах объекта: форма и размеры, поверхностная и внутренняя структура, химический состав и другое. Именно указанная последовательно и совокупность данных призвана обеспечить полное однозначное выделение описываемого объекта из множества других среди других схожих, имеющих родственную структуру.
В конце ознакомления рассмотрим две последние категории - Production и Specification, которые охватывают вопросы, которые связаны с производством и поставкой материала на рынок.
Рис. 4. Иерархия системы классификаторов
Каждая из приведенных на рисунке категорий условно делится на несколько подкатегорий. В результате, первая из категорий - General Identifiers (рис. 4), разбивается на четыре категории, соответствующие различным типам именования и классификации наноматериалов.
Категория General Identifiers позволяет классифицировать описываемый наноматериал, а также присвоить ему подходящее уникальное название, которое может быть произвольным так и согласованным со стандартами. В случае присвоения произвольного названия, разрешается использовать английский алфавит, создавая английское название, которое встречается в литературе при описании данного объекта.
Когда же ведется разработка стандартизованного названия, то необходимо использовать принятые общедоступные классификаторы. В качестве примера, в случае создания подобных классификаторов можно привести мировые регистры, такие как: Beilstein для органических веществ, база NPO, которая охватывает больший перечень наноматериалов медико-биологического применения. Также стоит упомянуть очень популярную базу классификаторов ChEBI, в которой зарегистрирован достаточно широкий набор наноматериалов. Здесь, каждая из наноструктур определена пятизначным индексом, выступающего в роли стандартизованного названия. К примеру, индекс CHEBI : 50796 однозначно определяет нанотрубки.
В свою очередь, категория Characterization представлена тремя подкатегориями - Nano-Object, Collection of Nano-Object и Bulk Nano-Object. На следующем уровне введены категории, которые охватывают физические описательные характеристики материала: форму и размер, химический состав и другие. Способ применяемой характеризации зависит от типа описываемого материала, чем подтверждает взаимосвязь номенклатуры свойств и класса наноматериала.
Самый нижний уровень иерархии представлен дескрипторами, определяющих результат расчетов и измерений каждой конкретной характеристики. Необходимо отметить, что дескриптор также определяет текстовой или числовой формат представления данных. Заметим, дескрипторы, относящиеся к категориям Production и Specification, соответствуют технологиям или документам, а не физическим характеристикам.
Рассмотрим ситуацию, когда с помощью иерархии категорий и подкатегорий создается структура предметной области. В этом случае на уровне дескрипторов возможна реализация одного из самых важнейших требований к данным, обусловленных природой наноматериалов. Этим требованием является необходимость надстройки, которая связана с выбором конкретного класса наноматериалов и поставленными задачами, такими как: токсикология и экологическая оценка, фундаментальные исследования, технология производства, разработка коммерческого продукта и другие. По этой причине авторы документа отмечают, что в целом, в общем случае не требуется использование абсолютно всех дескрипторов и их выбор зависит от текущей потребности в определенных данных. В то же время, по мере открытия новых материалов, а также методов их производства, новых характеристик и явлений, иногда может возникнуть острая необходимость в расширении системы метаданных за счет новых дескрипторов.
2.3 Типология наноматериалов
Согласно рисунку 4, приведённая структура данных связана с определенным соглашением, которое неофициально носит название «нано-дерево». Оно было принято стандартом ISO для организации систематизации наноструктур по всему миру. В указанном соглашении главным является понятие «наноматериал», который может быть представлен в одной из двух возможных принятых форм: нанообъект и наноструктурированный материал. К типу «Нанообъект» относятся те объекты, у которых хотя бы одно измерение соответствует наноразмерной шкале, имеет размер до 100 нм. Ко второму типу формы можно отнести макроскопические объекты, у которых наношкале соответствует внутренняя или поверхностная структура. Авторы добавили ансамбли/коллекции к нанообъектам, которые образовались намеренно или случайно. При всех условиях, ансамбль должен соответствовать такому же определению, что и нанообъекты, то есть имеет от одного до трех размеров по наношкале.
Недостатком обеих систем является то, что они не касаются объемных наноматериалов (композиты, порошки, нанофлюиды и проч.), лежащих в основе большинства технологий и устройств.
2.3.1 Идентификация наноматериалов по перечню физических свойств
Главные идеи проведения многостороннего описания наноматериалов были озвучены авторами UDS в 2012 году при рабочей группе, в Париже, которая состоялась в Париже при организации собрания Международного научного совета ICSU и комиссии по численным данным CODATA. Они исходили из перечня факторов, которые определяли ключевые отличия наноматериалов от традиционных (стали, сплавы, керамика и т.д.). Сюда относится большая величина отношения поверхность/объем, отличия химической реактивности при сравнении наноматериалов с макроскопическим аналогом, различия в электронной структуре поверхности и объема, квантовые размерные эффекты, «висящие» компоненты на поверхности, синтез наноформ, ранее неизвестных в макромире (УНТ, графен и т.п.), сильное влияние малых примесей, самосборка упорядоченных наноструктур;
Помимо отличий в свойствах наноматериалов, авторы документа UDS учли многообразие дисциплин, которые неминуемо сталкиваются с необходимостью детального описания наноматериалов при решении таких задач, как: проектирование устройств, разработка стандартов, предсказание свойств, токсикологические и экологические оценки и др. Основываясь на этом, были сформулированы требования к перечню определяющих факторов, В соответствии с общей схемой метаданных на рис. 4, этот перечень различается для индивидуальных нанообъектов, их ансамблей (нанопродуктов) и макроскопических материалов.
Структура метаданных для индивидуальных нанообъектов. Итоговые требования представлены в виде иерархии категорий, определяющих наноматериалов по геометрии (форме и размеру), составу, физическим характеристикам и данным о поверхности. Отдельные аспекты каждой из характеристик раскрывают суб-категории, например, определяющие с одной стороны, тип формы (цилиндр, сфера и т.п.), а с другой - ее особенности. Следующий (самый нижний) уровень иерархии занят дескрипторами, которые определяют элемент данных, задаваемый экспертом. Число дескрипторов достаточно велико, в соответствии с общим требованием многофакторного описания наноматериалов. При этом, каждый из дескрипторов снабжен в UDS точной дефиницией, определяющей содержание и формат вводимых данных.
Помимо двух базовых (текстового и числового), используется формат, который именуется enumeration. При определении состава названия и обозначения атомов задаются в соответствии с таблицей Менделеева, а молекулы однозначно идентифицируются номером из регистра CAS. Рассматривая другие дескрипторы, которые используют данный формат описания, можно отметить, что они позволяют путем выбора из списка определить к примеру процентное содержание компонента, «тип состава» (отдельное измерение, вычисленное значение или результат усреднения). Крайне эффективен этот формат при детализации категории Physical structure; так, для того, чтобы раскрыть содержание Physical Features, предложено использовать предварительно составленный перечень (отверстие, ножка, отросток, наконечник и др.), которые позволяют описать морфологию нанообъекта.
2.3.2 Метаданные для производственной истории и условий поставки
Две последние категории верхнего уровня - production и specification. Они относятся к производству и проведению аттестации наноматериала в роли коммерческого продукта. Ключевой особенностью наноматериалов является мощная зависимость свойств от технологии изготовления, которая вынуждает отражать в системе метаданных неразрывную связь свойств и условий производства. Полнота информации в системе UDS обеспечивается путем разбиения категории Production на две, которые отражают начальную стадию и стадии, следующие за производственной. Метаданные для начальной стадии охватывают состав и количество исходных материалов, оборудование, данные по целевому продукту, характер и состояние среды. Похожая структура метаданных из категории Post-production history, содержит информацию о последующих стадиях жизненного цикла: очистка, хранение, транспортировка и другие.
После того как наноматериал становится коммерческим продуктом, возникает необходимость во множестве сопроводительных документов, которые объединены понятием «спецификация», отражающих историю развития от сырья до высокотехнологичного оборудования. Для каждой из отраслей требования к составу и содержанию спецификации регламентируются международными стандартами. Применительно к наноматериалам руководящим документом является стандарт ISO, определяющий нужный объем данных по свойствам, поставкам и условиям хранения, контрольным измерениям и другие. Касательно категории Specification, то она образует набор метаданных, которые определяют такие формальные сведения, как: название, версия и номер спецификации, дата выпуска, выпускающая организация и другие.
2.3.3 Потенциал совершенствования системы UDS
Безусловная сложность задачи, поставленная разработчиками системы - создание возможности однозначной исчерпывающей идентификации возможных типов наноматериалов. Помимо проблемы многообразия объектов, в стандартизации описания существует многообразие требований, которое создает определенные сложности для разработчиков продуктов, потребителей, создателей стандартов и другие. В документе часто подчеркивается, что по мере сбора знаний, могут потребоваться новые дескрипторы. А также, для некоторых наноматериалов, практически отсутствует научно-обоснованная база для стандартизации наноструктурированных объемных материалов или некоторых характеристик ансамблей. Поэтому созданная система метаданных способствует совершенствованию и адаптации к отдельным сегментам нанотехнологии.
При этом возможны два направления такой деятельности: ревизия и расширение логической структуры. Первое из направлений - необходимое условие при переходе к строго формализованным онтологиям или БД, что рассматривается в UDS как одно из важнейших применений разработанной системыФраза из раздела “Use of the Uniform Description System”: “The UDS provides a backbone for building the database schemas and ontologies that are at the core of a nanoinformatics resource so that information from different resources can be compared and contrasted correctly”. . Второе - широкое использование ссылок на внешние ресурсы в виде контролируемых словарей.
Таким образом, дальнейший возможный путь расширения системы метаданных состоит в максимальной интеграции с уже разработанными онтологиями.
3. Разработка онтологии и интерфейса
Первыми шагами после изучения описанного выше стандарта UDS и соответствующей литературы о концепции Semantic Web, было создание простой онтологии для предметной области «География», описывающей сущности: страна, город, столица, граница и т. д.
Для работы по созданию и редактированию онтологий используют онтологические редакторы, или онторедакторы. В настоящее время наиболее известные из них - Ontolingua, Protйgй, OntoEdit, WebOnto и др. Функциональность онторедактора можно определить по таким показателям, как:
? редактирование (ввод, корректировка, удаление);
? логический контроль при вводе.
? тестирование функциональности;
? взаимодействие с другими онтологиями - импорт, экспорт.
При выборе онторедактора необходимо учитывать несколько важных параметров: это должно быть свободно-распространяемое, бесплатное программное обеспечение, желательно кроссплатформенное. Также желательно, чтобы используемый онторедактор был частью крупного онтологического проекта, с активным развивающимся сообществом. Всем этим требованиям отвечает онтологический редактор Protйgй, разработанный в Стэнфордском университете. На рисунке 5 приведена схема онтологии, которая была создана в онторедакторе Protйgй.
Рис. 5. Структура классов онтологии «География»
В качестве объектных свойств были приведены такие как:
«Граничит с» - объектное свойство, которое отражает взаимосвязь между экземплярами классов.
«Имеет столицу» - свойство объекта, которое говорит о том, что у страны возможно наличие только одной столицы, это свойство функциональное. В свою очередь, объектное свойство «является столицей» является обратным для первого.
«Имеет президента» - объектное свойство, отражающее функциональную зависимость между объектами, показывает наличие президента в стране.
И другие объектные свойства (рис. 6).
Рис.6. Объектные свойства онтологии «География»
3.1 Разработка онтологии по наноматериалам
После успешной реализации онтологии на примере географической модели, было решено начать моделирование прикладной области по наноматериалам, для чего была задействована система идентификации наноматериалов и наноструктур UDS. В онторедакторе Protйgй были созданы классы (рис.7).
Рис.7 Создание классов для онтологии по наноматериалам
Помимо этого был подготовлен набор свойств-значений и объектныхсвойств, взятых из таблиц, приведенных в документе UDS (рис.8).
Рис. 8. Набор свойств-значений для онтологии по наноматериалам
3.2 Разработка графического интерфейса для работы с онтологиями
Следующим шагом по работе с онтологиями стала визуализация и представление разработанных онтологий в веб-пространстве. Данная работа включает в себя спектр задач, среди которых можно выделить следующие этапы:
? Изучение возможностей и методов открытого программного кода Open Semantic Web Framework (OSF);
? Развертывание программной платформы OSF c внешним IP адресом, настройка веб-сервисов ;
? Ввод онтологической модели по наноматериалам и создание наборов данных;
? Создание внутренних (административных) и внешних (публичных) рабочих страниц Web сервера по наноматериалам.
3.2.1 Open Semantic Framework
OSF представляет собой стек интегрированного программного обеспечения, использующего семантические технологии для управлениями знаниями. Имеет многоуровневую структуру, в которую входит уже существующее программное обеспечение с открытым исходным кодом и бесплатными дополнительными компонентами. OSF работает и доступна для использования по лицензии Apache 2.
OSF система обеспечивает:
? Интеграцию данных по всем материалам и типам данных.
? Управление знаниями.
? Семантический поиск в масштабах крупных коммерческих проектов.
? Дифференцированный доступ к данным и функциям.
? Публикация собственных материалов и управление ими.
С помощью OSF можно осуществлять внедрение и управление всеми типами материалов - неструктурированными документами, полу-структурированными файлами, таблицами, а также структурированными базами данных. Данная функциональность возможна благодаря использованию разнообразных методов индексации данных и систем управления. Все содержимое информации преобразуется в соответствии с канонической общепринятой моделью данных на языке RDF, получая возможность управления и теггирования общими средствами и методами, доступными в RDF. Онтологии, которые образуются в результате, представляют собой схематично представленные словари, которые включают в себя различные наборы данных.
Такой вариант представления данных может быть подключен к уже существующим наборам данных для более развернутого описания, а также для создания более мощной модели представления знания в той или иной предметной области. Вся информация, представленная посредством OSF, может быть проиндексирована для создания качественного поиска и более многогранного отображения информации, наборов информации, доступных для экспорта в различных форматах в виде связанных данных.
3.2.2 Реализация на базе CMS Drupal 7
Вначале необходимо сказать немного о том, почему для работы по реализации онтологического моделирования была выбрана система Drupal 7.
Ознакомившись с имеющимися решениями для организации веб-порталов, были выявлены существенные положительные отличительные черты рассматриваемого инструмента по созданию сайтов по сравнению с остальными. У Drupal в наличии база инструментов для управления единой базой пользователей, он идеально подходит для организации системы блогов, форумов, имеется активное сообщество разработчиков, богатая база знаний. Достаточно просто можно найти решение проблем по установке, обновлении сайта и его модулей. Для создания сайтов-визиток выбирать данную систему управления контентом не рекомендуется, в отличие от ситуации, когда необходимо создать солидный качественный портал, на котором пользователи смогут добавлять свой материал и комментировать его.
Drupal 7 является бесплатной средой для создания веб-приложений. В качестве хранилища данных здесь используется реляционная база данных MySQL. Является программным обеспечением с открытым исходным кодом ("open source"), распространяемыми по лицензии GPL. Функциональность можно увеличивать подключением дополнительных «модулей».
В стандартной конфигурации платформа OSF легко интегрируема с CMS Drupal 7 версии. Функционал данной CMS включает в себя наборы различных модулей, интерфейсов и конструкторов, с помощью которых можно управлять данными, представленными в онтологиях.
Все взаимодействия с OSF происходит через «прослойку» из 30 веб-сервисов и связанных с ними api, которые призваны упростить взаимодействие с набором возможностей OSF. За слой обеспечения OSF базовой функциональностью отвечает RDF и OWL посредством использования Virtuoso (RDF), Solr (поиск), OWL API (онтологии) и GATE (теггирование и NLP) в виде отдельных приложений. Немаловажно сказать о том, что Drupal и перечисленные инструменты, все остальные компоненты OSF и веб-сервисы, были разработаны специально для достижения более полной архитектуры открытой семантической базы.
В рамках поставленной задачи для онтологического моделирования базы знаний по наноматериалам появилась необходимость модернизировать и дополнить функционал используемых инструментов OSF и Drupal для работы с таксономиями. Поскольку OSF выступает в качестве обслуживающего сервиса, серверная часть которого была развернута на osfnano.thermophysics.ru, а Drupal выступает в качестве графической оболочки для работы пользователя с веб-сервисом OSF, то для демонстрации результатов работы было создано удаленное управление на бесплатном домене “семантик-веб.рус”.
3.2.3 Настройка веб-сервисов OSF
Как было сказано ранее, OSF работает посредством запуска порядка 30 веб-сервисов. На зарегистрированном домене «семантик-веб.рус», который доступен извне из сети, была развернута система Drupal 7 и установлены необходимые модули для работы OSF. Установщик был взят с официального сайта, версия 3.4. Нужно отметить, что для работы данного модуля требуется подключить порядка 15 дополнительных бесплатных модулей, которые можно найти и скачать с официального сайта drupal.org.
Работа по настройке веб-сервисов велась по официальной документации. Первым шагом, предлагается создать точку подключения, так называемый «End Point»(рис. 9).
Рис. 9 Создание точки подключения
На данном этапе возникла первая проблема - не удавалось создать новую точку подключения, которая является веб-сервисом, работающим под управлением системы Linux. Исходя из заявленной документации разработчиков, OSF веб-сервисы могут работать под управлением операционных систем Ubuntu 14.04, CentOS 7. Первой тестирование проходила ОС CentOS 7. При настройке веб-сервисов под управлением данной ОС были встречены описанные далее проблемы.
Первая - в файле конфигурации для данной ОС используются ссылки на списки репозиториев, которых уже не существует в Сети, вероятно, были удалены или размещены по другому url-адресу. Вторая проблема - во время установки не стартует ряд сервисов, в частности Virtuoso, без которых не может продолжаться установка и весь процесс прерывается. Ведь, как известно, OSF Web-Service это ряд сервисов, которые работают в связке друг с другом. После неудачной попытки настроить веб-сервис на CentOS 7 , была осуществлена настройка для решения поставленной задачи системы под управлением ОС Ubuntu 14.04. Попытку можно считать успешной.
4. Работа с таксономиями
Для приобретения опыта по работе с таксономиями, сначала была проведена работа по изучению веб-портала, созданного с использованием семантического моделирования, посвященного теме био-медицины BioPortal. База https://bioportal.bioontology.org является хорошим примером, на который стоит опираться при создании собственного ресурса для работы с онтологиями. (рис.10)
Рис. 10 Интерфейс онтологического моделирования с BIO портала
Данная система хорошо развита, имеет достаточно подробную документацию для ознакомления с работой, удобный интерфейс, хорошую техническую поддержку. Помимо этого, есть возможность получить код виджета, с помощью которого можно со страниц своего веб-портала обращаться к ресурсам онтологий BIO (рис.11). То есть разработчики готовы предоставлять исходный код, который просто нужно разместить в удобном для стороннего разработчика месте, на странице внешних порталов.
Рис. 11 Код виджета BIO онтологий для установки на сайт
Представление их онтологий можно получить в виде структуры на UML, развернутого дерева, а также виджет "живого" поиска, с помощью которого удобно перемещаться по дереву, искать необходимые элементы.
При попытке использовать реализацию "дерева" онтологии от разработчиков BIO портала к нашему представлению, это оказалось невозможным. Каждому пользователю, зарегистрированному в системе, выдается API KEY, по которому предоставляется доступ при помощи Rest Full Api Services лишь к базе BIO. Поэтому было решено перенять опыт только по организации внешнего интерфейса страницы с онтологиями по наноматериалам.
4.1 Разработка собственной таксономии
Первоначальная задача публикации таксономии по наноматериалам свелась к использованию модуля Views для Drupal, который позволяет отобразить таксономии в нужном формате на странице сайта. Дополнительно для отображения иерархии таксономии на сайт был установлен модуль View Tree. Визуализацию дерева решено было осуществлять на дополнительной отдельной странице сайта.
Следующая задача по работе с таксономиями заключалась в добавлении возможности сворачивать и разворачивать иерархию «дерева», поскольку настройки модуля Views не позволяли реализовать данный функционал.
Для решения этой задачи было решено создать свой модуль на базе Views Tree с помощью применения технологий javascript, css, jquery. Новый модуль называется "Views Tree Semantic". Весь базовый функционал в нем остался, «дерево» по прежнему отображается при помощи базового модуля, а программа на javascript позволяет добавить динамичности в работе. Однако, впоследствии, при тестировании данной реализации, было найдено функциональное несовершенство этого модуля: при клике на термин дерева происходило открытие страницы, которая размещается по этому адресу, и соответственно, происходил переход, перезагрузка страницы, что влекло за собой обновление страницы, обновление состояния дерева, оно вновь становилось закрытым. Конечно же, это не являлось корректной реализацией, поэтому было решено переработать механизм работы по сворачиванию дерева таксономии.
Был установлен дополнительный модуль Rest Full Api для Drupal, который позволяет получить содержимое страницы по указанному адресу, в формате .json. Была написана небольшая программа на Javascript, которая использует возможности данного модуля и реализует отображение таксономии в нужном формате.
В этой программы, при помощи get-запроса мы получаем список всех словарей, имеющихся в базе данных:
$.get("/taxonomy_vocabulary/0.json", getIdListNanomaterial);
Здесь используется терминология и синтаксис модуля Rest Full Api. Данный пример кода позволяет получить список всех словарей, имеющихся в базе данных сайта. Возвращаемый объект в формате Json содержит описание словарей, их терминов, ссылок, взаимоотношений, т.е. в этой структуре можно отследить, кто родитель, потомок в иерархии таксономии. Далее, начинается разбор этой структуры, анализируется, количество корневых элементов, их дочерних элементов. В результате, мы получаем объект, который имитирует исходную структуру дерева таксономии.
Превосходством данной реализации является полная свобода действий при работе с таксономиями. Drupal в данном случае выступает в качестве хранилища всей информации, объектов, которые потребуются для работы. Мы же обращаемся к ним, получаем в нужном виде необходимые элементы и отображаем, как то необходимо.
Соответственно, решается проблема, из-за которой пришлось отказаться от первого варианта визуализации иерархии таксономии: при переходе по ссылкам терминов, не происходит перезагрузка страницы, состояние дерева сохраняется, с учетом перехода по терминам словаря, информация отрисовывается на одной странице.
4.2 Применение Bootstrap 3 для разработки интерфейса
Создание интерфейса для отображения таксономий разработано с использованием технологии Bootstrap 3, которая использует самые современные технологии HTML и CSS. На момент написания магистерской работы существует версия Bootstrap 4, однако она находится еще в стадии доработки.
Bootstrap - простая мощная интерфейсная библиотека, которая значительно облегчает разработку веб-приложений. Библиотека спроектирована таким образом, что отображаемый контент всегда будет значительно лучше отображаться в новых браузерах, в то время, когда старые браузеры не всегда могут правильно отображать стили, хотя полностью функциональны в визуализации определенных компонентов
Небольшой пример кода, реализующего разметку страницы:
<div class="container">
<div class="row well">
<a class="navbar-brand" href="/"><img src="/sites/default/files/logo_osf_0.png"/></a>
<h1>Physical Entities of Nanomaterial Interest Ontology</h1>
</div>
<div class="row">
<div class="col-md-3">
<select id="listVocabulary" class="form-control"> </select>
<form class="form-inline" role="search">
<div class="input-group">
<input type="text" class="form-control " id="input-select-node" placeholder="Search...">
<span class="input-group-btn"><button type="button" class="select-node btn btn-default" id="btn-select-node">Search</button></span> </div> </form>…
Библиотека Bootstrap включает в себя все необходимые инструменты, с помощью которых можно создать адаптивный, то есть максимально корректно отображающийся макет сайта. В эти инструменты входят обёрточные контейнеры, мощная система сеток и отзывчивые служебные классы.
Оберточный контейнер является основным элементом адаптивного макета в Bootstrap. Именно с него начинается верстка страницы или самостоятельных её частей. Контейнер в Bootstrap бывает адаптивно-фиксированным (<div class="container">...</div>) или адаптивно-резиновым (<div class="container-fluid">...</div>).
Адаптивно-фиксированный контейнер характеризуется тем, что он имеет постоянную ширину. Адаптивно-резиновый контейнер отличается от адаптивно-фиксированного тем, что он занимает всю ширину (100%) окна в браузере.
Сетка Bootstrap - это список предопределённых классов, с помощью которых можно задать поведение необходимым блокам (HTML элементам) и построить с помощью них нужный макет сайта.
Кроме оберточных контейнеров, предназначенных для задания основной области содержимого, в системе сеток библиотеки Bootstrap существует два важных элемента. Это ряды (блоки div с классом row) и адаптивные блоки (блоки div с классом col-?-?). Ряд - это специальный блок, который применяется только для оборачивания адаптивных блоков. Адаптивные блоки Bootstrap - это элементы, которым установлены один или несколько классов col-?-?. Данные блоки являются основными строительными элементами макета, которые позволяют задать необходимую структуру страницы.
4.3 Реализация Bootstrap Tree View
Осуществляя работу по созданию интерфейса с использованием технологии Bootstrap 3, была найдена библиотека под названием Bootstrap Tree View. Этот вариант представления дерева таксономии с сохранением иерархии, обладает более богатым спектром возможностей по сравнению возможностями модуля Views Tree Semantic, на основе которого было создано первоначальное отображение дерева таксономии. Библиотека предоставляет возможность настроить и отобразить имеющееся дерево в различных форматах (рис. 12)
Подобные документы
История развития веб-технологий и существующие проблемы. Назначение и установка Symfony Framework. Создание приложения на основе технологий Symfony Framework. Установка дополнительных библиотек через composer, верстка шаблона, настройка сервисов.
дипломная работа [712,6 K], добавлен 05.07.2017Описание структуры обучающего блока. Проектирование его алгоритма и лингвистического и информационного обеспечения. Организация его взаимодействия с базой данных. Разработка графического интерфейса. Программная реализация основных функций приложения.
дипломная работа [2,1 M], добавлен 20.12.2015Разработка web-сервиса как услуги, предоставляемой пользователю. Продажа товара (автомобилей) в Интернете, проблема выбора. Онтологии как часть концепции Semantic Web. Применение онтологий, их основные типы и свойства. Особенности реализации онтологии.
курсовая работа [57,4 K], добавлен 17.04.2012Актуальность и значимость создания web-сайта образовательного учреждения - школы. Функциональное моделирование предметной области. Основные этапы разработки сайта. Программная реализация. Установка, настройка и работа с локальным сервером Open Server.
дипломная работа [990,5 K], добавлен 01.01.2018Роль распределенных вычислительных систем в решении современных задач. Инструментальная система DVM для разработки параллельных программ. Средства построения формальной модели графического интерфейса. Требования к графическому интерфейсу DVM-системы.
курсовая работа [2,7 M], добавлен 15.10.2010Разработка программы-модели в среде "Adamview" для имитации стратегии и наглядной иллюстрации работы программы. Настройка сети; описание эмулятора стратегии и экранных форм интерфейса оператора. Структурная схема распределённой системы управления.
курсовая работа [2,6 M], добавлен 21.01.2013Общие сведения о платформе Microsoft NET Framework. Разработка приложения "Поставка и реализация программного обеспечения", содержащего базу данных о каталогах адресов в Internet. Описание логической структуры. Требования к техническому обеспечению.
курсовая работа [2,4 M], добавлен 28.06.2011Характеристика основных потоков данных, существующих на предприятии. Способы и средства для разработки программного обеспечения. Проектирование пользовательского интерфейса. Разработка слоя взаимодействия с базой данных. Разработка слоя бизнес сервисов.
дипломная работа [750,8 K], добавлен 10.07.2017Сведения о платформе Microsoft.NET Framework, способы и методы доступа к базам данных и системам управления базами данных, особенности проектирования и программирования баз данных средствами выше упомянутой платформы. Спроектировано приложение "Articles".
курсовая работа [5,9 M], добавлен 20.03.2011Использование автоматизированных баз данных в деятельности бюро по найму - способ облегчения деятельности сотрудников и повышения качества обслуживания клиентов. Разработка пользовательского интерфейса главной кнопочной формы информационной системы.
курсовая работа [1,4 M], добавлен 25.04.2019