Использование информационных ресурсов в химии
Значимость разрабатываемых программ и баз данных. Методологические подходы, программные средства химических баз данных, классификация и синтез информации на основе формул Маркуша. Банк научно-технической информации "ВИНИТИ". Зарубежные базы данных.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 07.03.2010 |
Размер файла | 659,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Санкт-Петербургский государственный технологический институт
(Технический университет)
Кафедра систем автоматизированного проектирования и управления
Учебная дисциплина: Информатика
Курсовая работа
Тема:
Использование информационных ресурсов в химии
Студент(ка)
Дергунова О.С
Руководитель
Должность
Новожилова И.В.
Оценка
за курсовую
работу ……
Санкт-Петербург2010 г.
Введение
1 Значимость разрабатываемых программ и баз данных
2 Классификация баз данных
3 Зарубежные базы данных
4 Банк научно-технической информации ВИНИТИ
Заключение
Сетевые ресурсы
Список использованной литературы
Введение
Химия и химическая технология являются одними из крупнейших производителей информации и по своему информационному ресурсу значительно опережают большинство других естественнонаучных направлений. При этом химики были среди первых, кто оценил по достоинству преимущества сетевых технологий для работы с научной информацией и решения принципиально новых задач в образовании, которые позволили перейти в учебных курсах от рассмотрения простейших примеров к проведению полноценных научных или технологических экспериментов, компьютерному моделированию химических объектов и систем. Другими словами информационные технологии создали условия для качественного улучшения химического образования и подготовки специалистов, адаптированных к использованию технологий информационного общества.
Сейчас уже все крупнейшие международные справочные издания и журналы по химии доступны через Интернет. В то же время в сравнении с общемировым уровнем информационное обеспечение отечественной науки за последние годы значительно ухудшилось. Так почти втрое сократилось число химических журналов, реферируемых ВИНИТИ. Ощущается дефицит фактографических баз данных о свойствах химических веществ, их токсикологии и др. Российская информация по химии только в незначительной степени объединена в базы данных, которые доступны через Интернет. При этом не техническая сторона передачи информации является лимитирующим моментом. Проблема в наличии самой информации, представленной в интегрированной форме, то есть в том виде, когда для ее передачи и поиска могут быть использованы возможности телекоммуникации. Сейчас основные усилия должны быть направлены на информационное наполнение компьютерных сетей и эффективное использование информации.
Крупнейшим ресурсом является база ВИНИТИ "Химия", которая содержит около несколько миллионов документов и пополняется ежегодно. База данных "Сверхпроводимость", созданная сотрудниками Института физики твердого тела РАН и РНЦ "Курчатовский институт", содержит публикации по высокотемпературным и низкотемпературным сверхпроводникам, а также сверхпроводящим фуллеренам. Объем базы измеряется сотнями тысяч статей. В Институте катализа СО РАН им. Г.К.Борескова создается интегрированная система, где содержится информация, охватывающая широкий спектр сведений по физико-химическим свойствам веществ. Российский фонд фундаментальных исследований создал научную электронную библиотеку, ресурсы которой составляют полные тексты статей нескольких сот журналов, в том числе и химического профиля. Следует выделить каталоги журнальной периодики в БЕН РАН, ГПНТБ (Москва, Новосибирск), библиотеке Химфака МГУ. Эти библиотеки многие годы получают большое число зарубежных журналов, так что по электронному каталогу всегда можно установить наличие журнала и запросить копию статьи. Возможность оперативного распространения по сети, а с другой - стороны высокая стоимость печатной продукции, обусловили появление на сайтах образовательных заведений учебных материалов (учебники, лекции, учебные базы данных и др.), число которых постоянно растет. Наибольший фонд в области химического образования представлен на сайте Химического факультета МГУ http://www.chem.msu.su/rus/. Опубликованные материалы востребованы не только в МГУ, но используются и в других университетах (Алтайский, Дальневосточный, Удмуртский и другие). Аналогичные материалы имеются на сайтах Самарского и Омского университетов. На Химическом факультете МГУ и в Новосибирском научном центре имеется сетевой доступ к ряду зарубежных баз в области химии, как- то:Chemical Abstracts,., Inorganic Crystal Structure Database, Cambridge Structural Database System, Stabilitiy Constants Database IUPAC и др. Определенные ограничения в доступе к этим источникам через Интернет связаны с условиями лицензионного соглашения. Учитывая, что комплекты зарубежных баз данных имеются в ограниченном числе, библиотека МГУ оказывает помощь в поиске информации по запросам других организаций, используя электронную почту.
Сегодня в России нет научной или образовательной организации, в которой только за счет собственных ресурсов могут быть созданы полноценные базы данных в области химии. Решать поставленную задачу можно только коллективными усилиями. В реализацию должны быть включены вузы и институты РАН. Необходима интеграция информационных возможностей всех заинтересованных сторон. Эффективной может быть координирующая роль Министерства образования, например, в лице Учебно-методического объединения университетов. Через УМО можно организовать и последовательно осуществлять общий (включая университеты, технологические вузы, институты РАН) проект по созданию отечественных баз химической информации. При этом будет накапливаться опыт коллективной работы над совместным проектом с общим конечным результатом. В ходе выполнения совместных проектов предстоит освоить технологию создания распределенных баз химической информации (фактографической, полнотекстовой, библиографической), образующейся, в частности, непосредственно в процессе научного эксперимента. В Москве свои возможности в этом направлении объединили ВИНИТИ, Химический факультет МГУ, Институт органической химии РАН, Центр фотохимии РАН. В Новосибирске на базе Института катализа Сибирского отделения РАН при участии ГПНТБ СО РАН создается объединенная информационная система по химическим наукам СО РАН. Реализация совместного проекта позволит приблизить к международному уровню обеспечение отечественных химиков научной информацией, а также внесет вклад в информационную базу перехода в России к открытому образовательному пространству.
1 Значимость разрабатываемых программ и баз данных
В «Основах государственной политики в области обеспечения химической и биологической безопасности Российской Федерации на период до 2010 года и дальнейшую перспективу», утвержденных Президентом РФ В.В. Путиным (Пр-21944 от декабря 2003 г.), указывается на необходимость создания государственной системы обеспечения химической и биологической безопасности Российской Федерации (как подсистемы единой государственной системы предупреждения и ликвидации чрезвычайных ситуаций), предусматривающей категорирование, прогнозирование, предупреждение и парирование угроз химической и биологической безопасности, ликвидацию последствий чрезвычайных ситуаций в результате воздействия химических и биологических факторов.
Одним из важных направлений является разработка и внедрение информационных аналитических систем (ИАС) в сфере математического моделирования для выявления закономерностей в области обеспечения химической и биологической безопасности.
Информационное обеспечение по проблемам химической безопасности непосредственно связано с формированием фактографических баз данных по токсическим химическим веществам (АХОВ, СДЯВ, ПЛВ, НЛВ и др.) и их прекурсорам, а также баз знаний - моделей для классификации, прогноза восстановления пропущенных данных и выявления опасных химических веществ.
В настоящее время значительная часть фактографических данных, связанных с токсическими химикатами, рассредоточена по многочисленным информационным, медицинским, химическим, биологическим и технологическим базам данных, отдельным научным отчетам, технологическим регламентам, научным публикациям, патентам и нормативно-правовым/справочным документам. Зачастую, необходимая информация в этих ресурсах плохо формализована и не верифицирована, а иногда и просто отсутствует. Также, важно отметить, что использование таких ресурсов и зарубежных интегрированных информационных систем может быть ограничено конфиденциальностью как запрашиваемой информации (по совокупности), так и содержанием самого запроса, что не может не затрагивать интересы национальной безопасности. Сложившаяся в настоящее время ситуация в части доступности мировых информационных ресурсов, технологии их переработки и прогресса в программных и технических средствах позволяет поставить и быстро решить задачу создания и поддержки жизненного цикла фактографических баз данных с химико-структурными данными для информационного обеспечения по проблемам химической безопасности. Ключевыми компонентами при создании таких многоаспектных фактографических баз данных являются подсистемы регистрации и классификации химико-структурных данных. Их необходимость объясняется следующими причинами:
- Процедура регистрации объектов в базах данных решает как непосредственно задачу обеспечения уникальности (идентификации) информации (химикатов), так и задачу целостности баз данных.
- Процедура классификации данных является необходимой для эффективного использования данных при анализе и моделировании, в том числе для задач выявления вероятных прекурсоров синтеза опасных химических агентов.
2 Классификация баз данных
Как правило, процедура классификации в базе данных реализуется на основе создания системы таблиц - классификаторов (справочников, словарей, документов, каталогов, рубрикаторов и т.п.) и приписыванием на их основе химикатам определенных классов. Также данная задача может решаться на основе обработки химико-структурной составляющей химикатов.
Классификаторы баз данных представляют знания об информационных объектах системы, что ведет к повышению качества пространства данных (верификация данных, классификация новых объектов, восстановление пропущенных данных). Т.е. по сути дела классификаторы баз данных представляет собой элемент базы знаний. Принципиально важным подходом к решению вышестоящих задач является применение так называемых формул Маркуша (обобщенных химических структур).
Формула Маркуша (обобщенная химическая структура) представляет собой молекулярную структуру, состоящую из постоянной части и переменных заместителей. По сути, представляя собой обобщение индивидуальных химических структур, формулы Маркуша могут выступать в качестве:
- гибких классификаторов химических веществ на основе химико-структурной информации, в том числе по списочным классам и структурным аналогам опасных химикатов;
- моделей обобщения и классификации при создании базы знаний по свойствам химических веществ.
Особенно широкое применение формулы Маркуша нашли в патентной области. В настоящее время только патентные базы наиболее крупных зарубежных информационных центров (Derwent World Patents Index; INPI Merged Markush Service (MMS) в сотрудничестве с Derwent Information Ltd (Markush DARC); Chemical Abstracts Service MARPAT) обеспечивают регистрацию формул Маркуша и организацию доступа к ним широкого круга пользователей. Подобные же отечественные ресурсы отсутствуют, а публикации на эту тему носят единичный характер. Поэтому, включение в химические базы данных подсистем, способных обеспечить поддержку формул Маркуша, является весьма желательным.
Более широкое распространение в информационных технологиях Маркуш - формализации химических структур в настоящее время ограничено сложностью и трудоемкостью, как самой процедуры формализации, так и программно-методологическими средствами релевантного установления структурно - подструктурного соответствия в генерируемых информационных ресурсах. В должной степени это относится и к проблемам формирования баз знаний в области химии и релевантным ей областям науки и техники. Поэтому, необходимо уделять много внимания актуальным вопросам разработки методологических подходов и программных средств химических баз данных для классификации и синтеза информации на основе формул Маркуша.
Формула Маркуша определяется как множество, класс химических соединений, отражающий определенный способ формализации, классификации, интеграции, унификации химико-структурной составляющей информации в области химии и химической технологии, в том числе и как способ представления условий запроса на поиск химических соединений в базах данных. При этом регистрация формул Маркуша по своей сути является должным образом организованной процедурой хранения в базе данных соответствующих поименованных запросов.
Направления использования формул Маркуша в базах данных, предназначенных для решения задач в системе информационного обеспечения по проблемам химической безопасности:
1) разработка новой информационно - поисковой подсистемы обработки, хранения и манипулирования химико-структурной информацией в виде формул Маркуша;
2) разработка информационно - моделирующей подсистемы для прогнозной статистической классификации и оценки количественных свойств индивидуальных и обобщенных химических структур.
Применение формул Маркуша иллюстрируется конкретными примерами из эксплуатируемых химических информационных систем, например:
- редактор структурных данных MSE: формализация обобщенных химических структур с использованием формул Маркуша.
Рисунок 1 - Окно программы
- пакет химических приложений ChemOffice 2006 Ultra (разработчик: CambridgeSoftware) поможет избежать ученым, связанным с химией многих рутинных процессов и сосредоточиться на работе. Входящие в состав пакета модули превращают компьютер в рабочую станцию для проектирования и работы с базами данных и химической документацией. CambridgeSoft Desktop Software - ChemOffice
Рисунок 2 - Окно программы
3 Зарубежные базы данных
В области химии наиболее представительной и актуальной системой регистрации химико-структурных данных индивидуальных химикатов является CAS - Chemical Abstracts Service, база данных которого включает более 25 миллионов веществ (по состоянию на май 2005 года).
Основные БД CAS:
1) СА (реферативная база данных) - база данных с еженедельным обновлением (около 14 тысяч рефератов), содержащая более 21 млн. рефератов. В СА входят документы, опубликованные в печатном издании «Chemical Abstracts» с 1947 года по настоящее время. Источниками баз данных являются журналы (более 9000 наименований), патентные документы 29 национальных патентных ведомств и двух международных патентных организаций, технические отчеты, книги, труды конференций и диссертации.
2) СА REGISTRY (регистр химических веществ) -- база данных с ежедневным обновлением (более 4 тысяч соединений), содержащая более 25 млн. органических и неорганических веществ (более 56 млн. записей), однозначно идентифицированных регистрационной системой CAS с 1957 года.
3) СА REACT (регистр химических реакций) - база данных с еженедельным обновлением (от 600 до 1300 реакций), содержащая более 6 млн. одностадийных и многостадийных реакций, собранных с 1985 года (также БД французского института INPI с охватом с 1907 по 1985 год).
4) СА OLD (реферативная база данных) - база данных с периодическим обновлением, содержащая около 695 тысяч рефератов, опубликованные в печатном издании «Chemical Abstracts» с 1907 по 1966 год.
5) СА MARPAT (база данных формул Маркуша) - еженедельным обновлением (около 750 соединений), содержащая почти 500 тысяч формул Маркуша, собранных из опубликованных патентов в CAS с 1988 года (российские патенты с 2000 года).
Все выше перечисленные базы данных распространяются на компакт-дисках или на печатных носителях, а также доступны через службу международного оперативного сервиса STN International, одним из участников и учредителей которой является CAS. Кроме этого данная служба обеспечивает доступ еще приблизительно к 200 научным и патентным базам данных в Европе и Азии.
Сложившаяся за последние годы монополия CAS на оказание платной услуги на присвоение химикату уникального номера (до 9 знаков, разделенных на три части дефисами), не несущему никакой химической информации, во многих случаях затрудняет его использование в качестве кода/указателя для обращения к информации. В плане программной реализации регистрации химических структур в базах данных можно также выделить подходы, предлагаемые фирмами MDL и DayLight с более открытой и масштабируемой методологией. На первом этапе регистрации новому веществу по стандартному набору хэш-кодов сопоставляются вещества из базы данных, а на втором с помощью анализа молекулярных дескрипторов (метода «отпечатка пальца») подтверждается уникальность регистрируемого вещества. Различие подходов MDL и DayLight состоит в использовании для «отпечатка пальца» определенного набора дескрипторов и набора постоянно генерируемых дескрипторов, соответственно.
4 Банк научно-технической информации ВИНИТИ
Одним из крупнейших российских ресурсов научно-технической информации являются базы Всероссийского института научной и технической информации (ВИНИТИ). К большинству из них возможен сетевой доступ по протоколам HTTP и Telnet. Базы данных (БД) ВИНИТИ - это материалы Реферативного Журнала ВИНИТИ (с 1981 г), представленные в машиночитаемом виде. Общий объем БД более 18 млн. документов, ежемесячное пополнение - порядка 50 тыс. документов. БД, как и РЖ ВИНИТИ формируется по материалам периодических изданий, книг, фирменных изданий, материалов конференций, тезисов, патентов, нормативных документов, депонированных научных работ. За год ВИНИТИ обрабатывает около миллиона публикаций, 30% которых составляют российские источники. База ВИНИТИ "Химия" формируется с 1981 года, содержит около 4 млн. документов и ежегодно пополняется примерно на 150 тысяч. В настоящее время теледоступ возможен к массиву за 1995-2000 годы.
Доступ к базе ВИНИТИ возможен не только через компьютер головной организации. Фрагменты базы поставляются в региональные центры научной информации и другие организации машиночитаемом виде (на магнитных лентах и CD-ROM дисках). Так своя система доступа к базам ВИНИТИ функционирует в Сибирском отделении РАН, в Воронежском университете и так далее. В ВИНИТИ создана и скоро будет доступна через Интернет исключительно важная для химиков База Структурных Данных, в которой содержится более 6 млн. химических структур, 3 млн. химических реакций и 15 млн. свойств химических соединений. Система обеспечивает доступ к массивам структурных, библиографических и реферативных данных на основе поиска информации о классах химических веществ по фрагментам структур и физико-химическим свойствам. Работы по апробации базы и ее использованию в образовательных и научных целях проводятся совместно ВИНИТИ и Химическим факультетом МГУ.
Основные информационные ресурсы ВИНИТИ в области химии и химической технологии базируются на последовательном и аддитивном объединении, с одной стороны, реферативно-библиографических данных и, с другой стороны, химико-структурных данных обрабатываемых документов. При этом консолидация химико-структурных данных (химических структур) и реферативно-библиографических данных и возможность их совместного использования обеспечивается ВИНИТИ только в рамках специально формируемых полугодовых выпусков электронных формульных указателей.
Заключение
Таким образом, важным этапом развития информаци-онных технологий формирования крупных информационных ресурсов, базирующихся на унифицированном представлении, классификации и регистрации химических объектов (от структурных данных до материальной химии и технологии), являются проведенные опытные разработки и развитие программно технологических решений по регистрам химических соединений и реакций.
Основной задачей использования информационных ресурсов в химии, является опытная отработка и развитие программно-технологических решений на реальных информационных массивах ВИНИТИ и других производителей и/или поставщиков информации по химии, химической технологии и смежным об-ластям знаний, в том числе для обеспечения WWW-доступа к информационным ресурсам по химико-структурным данным.
Сетевые ресурсы
1. http://www.daylight.com
2. http://www.chem.msu.su/
3. http://www.cas.org
4. http://www.cambridgesoft.com
5. http://www.chemport.ru
6. http://www2.viniti.ru
7. http://www.acdlabs.com
8. http://www.chemcounter.ru
9. http://www.wikipedia.org
Список использованной литературы
1) Вашкевич Н. П. / Вычислительные системы и технологии обработки информации: По материалам 4 Международной научно-технической конференции "Новые информационные технологии и системы", Пенза, дек., 2000. / - Пенза, 2002. - 180 с.
2) Введение в системы баз данных, 8-е издание.: Пер. с англ. -- М.: Издательский дом «Вильяме», 2005. -- 1328 с.
3) Высочанская О.А., Зарубежные базы данных по естественным и техническим наукам. (Осн. характеристики) - 1986 (Препринт. Гос. ком. СССР по науке и технике, АН СССР, ВИНИТИ)
4) Кузнецов С. Д. / Базы данных: модели и языки: Учебное пособие для студентов вузов. / - М.: Бином-Пресс, 2008. - 720 с.
5) Мещерякова Т. В., Меньшутина Н. В., Василенко Е. А., Гордеева Ю. Л., Челноков В. В./ Информационные технологии в химии: Поисковые компьютерные системы и базы данных в области экологии. / - М.: Рос. хим.-технол. ун-т, 2000. - 51 с.
6) Сергеева Т. И./ Базы данных: Учебное пособие. канд. хим. наук. / Воронеж: Воронеж. гос. техн. ун-т, 2003. - 183 с.
7) Хомоненко А. Д., Цыганков В. М., Мальцев М. Г. / Базы данных: Учебник для вузов. / - М.: Бином-Пресс, 2006. - 736 с.
Подобные документы
Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.
лекция [15,5 K], добавлен 19.08.2013Что такое базы данных, визуализация информации базы. Структура и свойства простейшей базы данных. Характеристика определений, типов данных, безопасность, специфика формирования баз данных. Подходы к проектированию технического задания. Работа с таблицами.
презентация [4,3 M], добавлен 12.11.2010Использование средств вычислительной техники в информационных системах. Программно-аппаратные средства, обеспечивающие сбор, обработку и выдачу информации. Модели данных - списки (таблицы), реляционные базы данных, иерархические и сетевые структуры.
реферат [105,1 K], добавлен 08.11.2010Современные базы данных – многофункциональные программные системы, работающие в открытой распределенной среде изучении администрирования базы данных. Способы организации внешней памяти баз данных. Системы управления базами данных для хранения информации.
курсовая работа [185,6 K], добавлен 07.12.2010Исследование значения информации и информационных услуг в современном мире. Изучение истории хранения и обработки информации. Проектирование инфологической модели базы данных. Реляционная модель баз данных. Домены и отношения. Реляционное исчисление.
курсовая работа [47,9 K], добавлен 13.07.2015Ошибочные представления о XML. Языки разметки, базируемые на XML. Описание двухмерной векторной графики, математических обозначений, химических формул. Программные средства и интерфейсы для работы с XML. Способы хранить XML-данные в базе данных.
презентация [59,9 K], добавлен 11.10.2013Создание базы данных. Поиск, изменение и удаление записей. Обработка и обмен данными. Проектирование базы данных. Определение формул для вычисляемой части базы. Редактирование полей и записей. Формы представления информации, содержащейся в базе данных.
курсовая работа [67,0 K], добавлен 23.02.2009Понятие базы данных, модели данных. Классификация баз данных. Системы управления базами данных. Этапы, подходы к проектированию базы данных. Разработка базы данных, которая позволит автоматизировать ведение документации, необходимой для деятельности ДЮСШ.
курсовая работа [1,7 M], добавлен 04.06.2015Система управления базами данных (СУБД). Программные средства, предназначенные для создания, наполнения, обновления и удаления базы данных. Структура, модели и классификация баз данных. Создание каталогов, псевдонимов, таблиц, шаблонов и форм СУБД.
презентация [1,1 M], добавлен 09.01.2014Основные виды баз данных. Система управления базами данных. Анализ деятельности и информации, обрабатываемой в поликлинике. Состав таблиц в базе данных и их взаимосвязи. Методика наполнения базы данных информацией. Алгоритм создания базы данных.
курсовая работа [3,1 M], добавлен 17.12.2014