Консенсусный подход к созданию атом-атомного отображения в химических реакциях

Суть методологии для автоматического установления атом-атомного отображения в химических реакциях с использованием консенсуса нескольких алгоритмов. Анализ принципа наименьшей химической дистанции. Использование концепции конденсированных графов реакции.

Рубрика Химия
Вид статья
Язык русский
Дата добавления 02.12.2018
Размер файла 179,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Полная исследовательская публикация ___ Маджидов Т.И., Нугманов Р.И., Гимадиев Т.Р., Лиин А.И.,

Антипин И.С. и Варнек А.

Размещено на http://www.allbest.ru/

176 _____ http://butlerov.com/ _____ ©--Butlerov Communications. 2015. Vol.44. No.12. P.170-176. (English Preprint)

Полная исследовательская публикация Тематический раздел: Компьютерные химические исследования.

Регистрационный код публикации: 15-44-12-170 Подраздел: Хемоинформатика.

170 _________ ©--Бутлеровские сообщения. 2015. Т.44. №12. ________ г. Казань. Республика Татарстан. Россия.

УДК 544.412.

Кафедра органической химии. Химический институт

им. А.М. Бутлерова

Консенсусный подход к созданию атом-атомного отображения в химических реакциях

Маджидов Тимур Исмаилович

Атом-атомное отображение (ААО) является центральной проблемой компьютерного анализа данных по химическим реакциям [1]. Суть его заключается в установлении соответст-вия между атомами реагентов и продуктов (рис. 1). Без предварительного установления ААО невозможно автоматически определить, какая именно произошла трансформация в ходе хими-ческой реакции. По этой причине хранение данных по химическим реакциям, осуществление структурного поиска в реакциях (структурный, подструктурный и по схожести), определение типа и классификация реакций по механизмам требует предварительного установления ААО. В последнее время были предложены подходы, которые позволяют проводить моделирование связи «структура-реакционная способность» [2] в случае известного отображения атомов или связей в реакции.

Рис. 1. Атом-атомное отображение в реакциях. Цифрами указано соответствие атомов.

На рисунке приведено корректное ААО: разрывается связь C8-I7 и образуется связь C8-N4 (химическая дистанция равна 2).

Установление ААО является исключительно сложной задачей, поскольку она является NР-полной [3] (то есть решается за время, которое экспоненциально растет с числом атомов) и ее решение возможно только путем комбинаторной оптимизации. На данный момент имеется 2 основных способа установления ААО:

Ш Нахождение максимальной общей подструктуры (МОП) графов реагентов и продуктов, то есть атомов, окружение которых не изменилось в ходе реакции. В последующем это позво-ляет идентифицировать реакционный центр и создать ААО. Одним из наиболее известных алгоритмов такого типа является метод, предложенный М. Линчем и П. Виллетом [4]. В настоящее время существует несколько алгоритмов такого типа [5]. Основными недостат-ками их является вычислительная сложность определения МОП, зачастую имеется нес-колько эквивалентных решений. Методы такого типа субоптимальны (то есть нельзя быть уверенным, что предложенное решение является лучшим из потенциально возможных) и поэтому выдаваемое решение может зависеть от нумерации атомов, либо требуется боль-шое количество специальных правил (эвристик). Если реакционный центр захватывает большую долю атомов, то метод такого типа не способен дать корректное решение проб-лемы ААО.

Ш Оптимизационные алгоритмы основаны на принципе наименьшей химической дистанции (НХД) [6]. Принцип НХД гласит, что реакции зачастую идут с наименьшим числом изменившихся связей. Таким образом, методы такого типа минимизируют целевую функ-цию, зависящую от числа разорванных и образованных связей. Эта задача вычислительно еще более сложна, чем методы основанные на МОП. Для решения таких проблем исполь-зуются детерминистические методы комбинаторной оптимизации, например алгоритм А* [7], линейного ограниченного программирования [8], либо стохастической оптимизации, например, эволюционное программирование [9]. Преимуществом данных методов является то, что потенциально они могут давать лучшее решение из возможных (то есть решение с минимальным НХД). Проблема методов такого типа в том, что не всегда принцип НХД дает химически корректное отображение атомов и такая постановка вычислительно существенно затратнее, чем методы, основанные на МОП.

Поскольку все известные алгоритмы ААО в ряде случаев ошибаются, то автоматическое обнаружение некорректного отображения представляет особую важность. В статье [10] был предложен первый алгоритм для обнаружения некорректного ААО. Если находить реакции с ошибочными ААО, то в последующем можно использовать более строгие методы, или исправлять ошибки вручную.

Существуют и другие весьма эффективно работающие методы, зачастую являющиеся комбинацией известных [11], всего несколько десятков программ написано до настоящего времени, но подавляющее большинство из них не способны работать с незаполненными химическими реакциями. При этом основная часть (более 90%) реакций в базах данных приведена в незаполненном виде. Практически всегда отсутствует информация о низкомоле-кулярных продуктах и реагентах, атомы которых отсутствуют в описанном продукте. Для многостадийных реакций часто описываются только начальные и конечные молекулы и не соблюдаются стехиометрические коэффициенты. Поскольку, согласно концепции ААО, одному атому реагента может соответствовать один атом продукта, то формальное отображе-ние атомов одного реагента в атомы нескольких продуктов или наоборот может затруднять дальнейшую интерпретацию реакции. При этом нам известно 5 программ, которые позволяют проводить ААО в незаполненных реакциях: ICMap [12], Accelrys Automapper [13], ChemOffice [14], Indigo [15], ChemAxon JChem [16], причем только два последних доступны бесплатно для академического пользования. Все эти программы используют алгоритмы, основанные на поиске МОП.

В данной работе мы предлагаем подход, который позволяет использовать преимущества нескольких программ для создания ААО. Это подход может использоваться для уточнения атом-атомного отображения в незаполненных реакциях. Основная идея подхода заключается в том, что после проведения атом-атомного отображения несколькими различными алгорит-мами, можно выбрать наиболее корректное из нескольких вариантов. Чем большее коли-чество различных алгоритмов будет использовано, тем больше шанс получить корректное отображение. Таким образом, создаваемое отображение является «консенсусом» нескольких различных подходов.

Экспериментальная часть

В качестве алгоритмов для создания ААО использовались программы Indigo, версия 1.1.12 [15] и ChemAxon JChem, версии 6.1[16]. Еще одна программа RеactMap была разработана в нашей лабо-ратории и воплощает генетический алгоритм для комбинаторной оптимизации, предложенной в работе [9]. В настоящее время эта программа адаптирована только для стехиометрически уравновешенных реакций. Также в ряде случаев использовался общедоступный сервер DREAM [17, 18].

Для сравнения различных подходов использовалось 4 набора данных: реакции SN2 типа (всего 765 реакций), реакции Е2 типа (всего 709 реакций), реакции таутомеризации (всего 744 реакций) и набор из 50 000 разнообразных реакций из создаваемой в настоящее время базы данных ChemSpider Reactions. Первые 3 набора данных представляют собой собранные вручную данные, в которых приведены все реагенты и продукты. Последний набор данных является экстрактом из реальной базы данных и содержит, в основном, незаполненные реакции.

Предварительно проводилась стандартизация представления атомных группировок (нитро-, азидных и прочих групп), а также ароматизация, удаление явно указанных водородов в использован-ных наборах реакций с использованием ChemAxon JChem Standardizer, версии 6.1 [16].

Для выполнения работы было написано несколько скриптов с использованием языка Python 3.4.

Результаты и их обсуждение

Для решения поставленной цели необходимо определить, какой из предложенных про-граммами ААО является некорректным. Для этого мы использовали принцип наименьшей химической дистанции: наиболее верным является ААО, в котором число разорванных и об-разованных связей является наименьшим (рис. 2).

Рис. 2. Некорректное атом-атомное отображение для реакции, приведенной на рис. 1.

На данном рисунке ААО соответствует разрыву связей C8-I7, С15-Н и образованию связей C8-Н, С15-N4. Таким образом, химическая дистанция равна 4 (при корректном отображении - 2, см. рис. 1).

Оригинальный подход [6] наименьшей химической дистанции использовал матрицы связности атомов для вычисления значений и не работает с несбалансированными реакциями. Для решения этой проблемы предлагается использовать подход конденсированного графа реакции (КГР), который позволяет обойти это ограничение. В подходе КГР химической дистанцией является число динамических связей графа. Подход основан на работе Г. Владуца [19], который предложил вместо ансамбля молекулярных графов, математически кодирующих структуру молекул (вершины графа - атомы, ребра - связи) использовать один граф реакции, метки ребер которого могут обозначать образование, разрушение и изменение порядка связи. С. Фужита [20] расширил этот подход на представление реакционного превращения в целом (а не только реакционного центра) на одном графе, названного им «мнимым переходным состоянием», а позже - конденсированным графом реакции [21]. А. Варнек с соавт. [2, 22], предложили формально рассматривать конденсированный граф реакции как псевдомолекулу и использовать его для поиска по схожести и моделирования «структура-свойство». Для построения КГР достаточно наличие отображений атомов только реакционного центра (рис. 3). Далее наложением атомов можно получить конденсированный граф реакции, в котором легко посчитать число разорванных и образованных связей (то есть число динамических связей).

Если тип реакций известен, то число разорванных и образованных связей при правиль-ном отображении атомов известно, что позволяет идентифицировать реакции с ошибками ААО. В табл. 1 приведено сравнение различных подходов для создания ААО в сбалансиро-ванных реакциях. Видно, что даже в случае относительно простых реакций SN2, E2 и тауто-меризации, программы ошибаются в создании ААО в 2-24% случаев.

Рис. 3. (1) Атом-атомное отображение для стехиометрически неуравновешенной реакции нуклеофильного замещения. (2) Соответствующий данному отображению

Tабл. 1. Количество ошибок при создании ААО разными программами

Программа

SN2

E2

Таутомеризация

ChemAxon JChem

37 (4.8%)

12 (1.7%)

48 (6.5%)

GGA Indigo

92 (12.0%)

34 (4.8%)

83 (11.1%)

DREAM

247 (15.4%)

172 (24.0%)

0 (0%)

ReactMap

64 (8,4%)

76 (10,7%)

112 (15,0%)

НХД-консенсус (ChemAxon JChem + GGA Indigo)

0 (0%)

1 (0.1%)

18 (2,4%)

Было обнаружено, что зачастую ошибки не пересекаются, иначе говоря, программы делают ошибки на разных реакциях. Это можно использовать для последующего уточнения ААО. Реакции, в которых идентифицированы ошибки ААО, могут быть обработаны другим алгоритмом и так далее. Этот подход показывает очень хорошие результаты: даже при последовательном использовании трех программ количество ошибочно определенных ААО уменьшается до 0 (табл. 2). Используя наиболее времязатратные подходы на поздних этапах можно существенно улучшить качество выдаваемого ААО с минимальным приростом вре-мени расчета. Недостатком этого подхода является необходимость знания типа (механизма) реакции. Только в этом случае можно знать, какое количество динамических связей должно присутствовать в КГР при правильном отображении, и отсеивать ААО, для которых это число отличается. Последовательный подход можно использовать при создании ААО только в базах данных реакций известного типа.

Табл. 2. Количество ошибочных ААО при последовательном использовании программ ChemAxon JChem, Indigo и ReactMap

Реакции

ChemAxon JChem

(1 этап)

Indigo

(2 этап)

ReactMap

(3 этап)

SN2

37

0

0

E2

12

1

0

Таутомеризация

48

18

0

Предложенный подход не может быть использован на реакциях с неизвестным типом и, следовательно, не может применяться в большинстве реакционных баз. Как уже было сказано, принцип НХД используется в качестве критерия верности отображения в оптимизационных методах. Поэтому его можно использовать при сравнения отображений, полученных разными алгоритмами. В отличие от предыдущего (последовательного) подхода, для реакций с неизвестным механизмом можно создать ААО различными алгоритмами, построить КГР для каждого, вычислить число разорванных и образованных связей, и выбрать такой вариант, которому соответствует минимальное число динамических связей. Данный (параллельный) подход был применен на 3 наборах реакций известного типа с использованием двух программ для создания ААО - ChemAxon JChem и Indigo. Результаты приведены в табл. 1 в графе «НХД-консенсус». Из данных табл. 1 следует, что для реакций SN2-типа в результате кон-сенсуса не осталось ни одной ошибки ААО, существенное (в 10-40 раз) уменьшение количества ошибочных отображений наблюдается для других типов реакций. Вообще говоря, специфика данного метода консунсуса такова, что количество ошибок ААО, полученных в результате НХД-консенсуса не превышает (а обычно существенно меньше) количества ошибок лучшего из использованных в консенсусе алгоритмов.

Для проверки применимости данного подхода на реальном примере, он был применен для набора из 50 000 реакций из создаваемой в настоящее время базы данных ChemSpider Reactions. ААО для данных реакций было найдено с использованием двух имеющихся у нас программ ChemAxon JChem и GGA Indigo, которые могут корректно работать с несбалансиро-ванными реакциями. Для удобства сравнения, реакции, которые не могут быть обработаны какой-либо из программ, были удалены из набора. Всего было оставлено 45 092 реакций. В качестве консенсусного ААО было выбрано то, которое приводит к наименьшему числу разорванных или образованных связей. Для того, чтобы оценить качество созданного ААО на рис. 4 приведен график, отражающий процент реакций, в которых число разрывающихся и образованных связей (химическая дистанция) находится в заданном диапазоне. Поскольку механизм реакций, в основном, подчиняются принципу НХД, то чем точнее ААО, тем более этот график сдвинут влево и вверх (то есть больше площадь под кривой). На основании графика видно, что для данного набора программа ChemAxon JChem работает несколько менее точно, нежели GGA Indigo. Лучшие результаты показывает НХД-консенсус. атомный химический конденсированный граф

Количественно эти результаты можно охарактеризовать с использованием площади под кривой, которая для ChemAxon JChem равна 0.9167, для программы GGA Indigo-0.9238 и для НХД-консенсуса - 0.9257. Консенсусный подход улучшил описание для 404 ААО, найденных с использованием программы ChemAxon JChem, и для 81 ААО, созданного с использованием программы Indigo.

Рис. 4. График процента реакций, для которых химическая дистанция меньше заданной величины.

Для удобства приведена часть графика до химической дистанции 60. Максимальное значение химической дистанции для заданного набора - 132.

Заключение

Таким образом, предложенная методология к созданию консенсусного ААО показала свою применимость как на стехиометрически уравновешенных реакциях с известным механизмом, так и для набора реакций из реальной базы данных ChemSpider Reactions. Предложенный параллельный подход универсален, не требует знания механизма реакции, и с использованием концепции КГР может быть применен для несбалансированных реакций. Валидность этого метода ограничивается только применимостью принципа НХД. Однако реакций, для которых этот принцип не выполняется, относительно мало. Учитывая, что ААО в базах данных выполняется только один раз, предложенный подход может быть успешно использован для существующих реакционных баз данных. Метод дает тем меньше ошибок, чем большее количество разнообразных алгоритмов используется для консенсуса.

1. Было показано, что возможно улучшение атом-атомного отображения в химической реакции за счет использования консенсуса нескольких алгоритмов. Было показано, что, в основном, ошибки атом-атомного отображения, допущенные различными алгоритмами мало пересекаются.

2. Был предложен последовательный подход к улучшению атом-атомного отображения, который позволяет улучшить качество отображения за счет определения ошибок в созда-нии ААО одной программы и передачи реакций с ошибочным отображением на другую программу. Был предложен способ, позволяющий определять ошибки атом-атомного отображения для реакций известного типа на основании сопоставления числа разорванных и образованных связей для данной реакции и эталонного значения для данного механизма. Данный метод наименее времязатратен, однако, может быть применен только в базах данных, в которых тип реакций известен.

3. Для баз данных, содержащих реакции различного типа, был предложен другой консен-сусный подход, основанный на принципе наименьшей химической дистанции. Суть метода заключается в параллельном создании атом-атомного отображения несколькими програм-мами. В дальнейшем из них выбирается такое отображение, которое сопровождается минимальным числом разорвавшихся и образовавшихся связей. Данный подход был апро-бирован на тестовом наборе, содержащем реакции известного типа, и на наборе несбалан-сированных реакций неизвестного типа из базы данных ChemSpider Reactions. В обоих случаях подход показал улучшение качества получаемых атом-атомных отображений.

Литература

[1] W.L. Chen, D.Z. Chen, K.T. Taylor. Automatic reaction mapping and reaction center detection. Wiley Interdiscip. Rev. Comput. Mol. Sci. 2013. Vol.3. No.6. P.560-593.

[2] A. Varnek, D. Fourches, F. Hoonakker, V.P. Solov'ev, V.P. Solov'ev. Substructural fragments: an universal language to encode reactions, molecular and supramolecular structures. J. Comput. Aided. Mol. Des. 2005. Vol.19. No.9-10. P.693-703.

[3] J.W. Raymond, P. Willett. Maximum common subgraph isomorphism algorithms for the matching of chemical structures. J. Comput. Mol. Des. 2002. Vol.16. No.7. P.521-533.

[4] M.F. Lynch, P. Willett. The Automatic Detection of Chemical Reaction Sites. J. Chem. Inf. Model. 1978. Vol.18. No.3. P.154-159.

[5] H.-C. Ehrlich, Rarey M. Maximum common subgraph isomorphism algorithms and their applications in molecular science: a review. Wiley Interdiscip. Rev. Comput. Mol. Sci. 2011. Vol.1. No.1. P.68-79.

[6] C. Jochum, J. Gasteiger, I. Ugi. The principle of minimum chemical distance (PMCD). Angew. Chemie. 1980. Vol.1. No.7. P.495-505.

[7] M. Heinonen, S. Lappalainen, T. Mielikдinen, J. Rousu. Computing atom mappings for biochemical reactions without subgraph isomorphism. J. Comput. Biol. 2011. Vol.18. No.1. P.43-58.

[8] M. Mann, F. Nahar, N. Schnorr, R. Backofen, P.F. Stadler, C. Flamm. Atom mapping with constraint programming. Algorithms Mol. Biol. 2014. Vol.9. No.23. P.1-12.

[9] E. Fontain. The problem of atom-to-atom mapping. An application of genetic algorithms. Anal. Chim. Acta. 1992. Vol.265. P.227-232.

Аннотация

В работе была предложена методология для автоматического установлению атом-атомного отображения (ААО) в химических реакциях с использованием консенсуса нескольких алгоритмов. Центральным элементом предложенной методологии является принцип наименьшей химической дистанции.

Оригинальная формулировка принципа была расширена на случай стехиометрически не-уравновешенных реакций с помощью использования концепции Конденсированных графов реакции. В рамках использованной методологии было предложено два подхода к уточнению ААО: последова-тельный, который может использоваться для наборов реакций известного типа, и параллельный, при-годный для наборов реакций с неизвестным механизмом. Показано, что каждый из подходов позволяет уточнить ААО. Параллельный подход использовался для установления ААО для реакций из базы данных ChemSpider Reactions и проанализировано качество полученного отображения.

Ключевые слова: атом-атомное отображение, химические реакции, принцип наименьшей химической дистанции, базы данных, хемоинформатика.

In this paper, new methodology of atom-to-atom mapping (AAM) in chemical reactions based on consensus of different algorithms was proposed. Principle of minimal chemical distance is the cornerstone of the methodology.

Original formulation of the principle was made applicable to stoichiometrically unbalanced reactions using conception of Condensed Graph of Reaction. In the framework of proposed methodology two approaches for AAM refinement was proposed: sequential approach that could be used for reaction of known type, and parallel approach, applicable to reaction datasets of unknown mechanism. It was shown that both approaches reduce the number of errors in AAM. Parallel approach was used to find AAM in ChemSpider Reactions dataset and quality of the mapping was verified.

Размещено на Allbest.ru


Подобные документы

  • Закон сохранения массы как важнейшее открытие атомно-молекулярной теории. Особенности изменения массы в химических реакциях. Определение молярной массы вещества. Составление уравнения реакции горения фосфора. Решение задач на "избыток" и "недостаток".

    контрольная работа [14,2 K], добавлен 20.03.2011

  • Электронное строение атомов элементов периодической системы. Устойчивость электронных конфигураций. Характеристика семейств элементов. Изучение принципа наименьшей энергии и правила Хунда. Порядок заполнения атомных орбиталей в основном состоянии атома.

    презентация [676,5 K], добавлен 22.04.2013

  • Тепловой эффект химической реакции или изменение энтальпии системы вследствие протекания химической реакции. Влияние внешних условий на химическое равновесие. Влияние давления, концентрации и температуры на положение равновесия. Типы химических связей.

    реферат [127,3 K], добавлен 13.01.2011

  • Изменение энтропии в химических и фазовых переходах. Простые и сложные вещества. Скорость химической реакции. Смещение химического равновесия, принцип Ле Шателье. Модель атома Томсона. Классификация элементарных частиц. Двойственная природа электрона.

    шпаргалка [364,1 K], добавлен 12.01.2012

  • Атом как мельчайшая частица элемента, характеристика его структуры. Сущность и главные этапы развития науки о строении атома. Квантовая теория света. Основные положения современной концепции строения атома. Волновое уравнение Шредингера. Квантовые числа.

    презентация [744,7 K], добавлен 22.04.2013

  • Исследование физических и химических свойств хлорида натрия. Изучение правил техники безопасности при работе в химической лаборатории. Обзор титриметрического определения хлоридов, основанного на реакциях образования осадков малорастворимых соединений.

    курсовая работа [191,2 K], добавлен 21.05.2012

  • Классификация химических элементов, устанавливающая зависимость различных свойств элементов от заряда атомного ядра - графическое выражение периодического закона Д.И. Менделеева: история открытия, структура и роль в развитии атомно-молекулярного учения.

    презентация [401,4 K], добавлен 26.09.2012

  • Характеристика химического равновесия в растворах и гомогенных системах. Анализ зависимости константы равновесия от температуры и природы реагирующих веществ. Описания процесса синтеза аммиака. Фазовая диаграмма воды. Исследование принципа Ле Шателье.

    презентация [4,2 M], добавлен 23.11.2014

  • Общее понятие о химической реакции, ее сущность, признаки и условия проведения. Структура химических уравнений, их особенности и отличия от математических уравнений. Классификация и виды химических реакций: соединения, разложения, обмена, замещения.

    реферат [773,3 K], добавлен 25.07.2010

  • Определение возможного направления реакции водяного газа при заданных температурах. Произведение расчета равновесного состава газа в реакциях Бела-Будуара (при различных давлениях) и восстановления оксидов железа водородом и монооксидом углерода.

    контрольная работа [239,6 K], добавлен 31.05.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.