Дескрипторы водородной связи и количественные модели "структура–свойство" органических соединений

Разработка методов дескрипторов для количественной оценки протонодонорной и протоноакцепторной способности органических соединений. Создание локальных и глобальных систем острой токсичности веществ. Анализ модели липофильности химических соединений.

Рубрика Химия
Вид автореферат
Язык русский
Дата добавления 29.10.2018
Размер файла 1,8 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

На правах рукописи

2.00.04 - физическая химия

Автореферат

диссертации на соискание ученой степени доктора химических наук

ДЕСКРИПТОРЫ ВОДОРОДНОЙ СВЯЗИ И КОЛИЧЕСТВЕННЫЕ МОДЕЛИ «СТРУКТУРА-СВОЙСТВО» ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ

Григорьев Вениамин Юрьевич

Черноголовка - 2012

Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте физиологически активных веществ РАН

Научный консультант:

доктор химических наук, профессор Раевский Олег Алексеевич Официальные оппоненты:

Касаикина Ольга Тарасовна, доктор химических наук, профессор, Федеральное государственное бюджетное учреждение науки Институт химической физики им. Н.Н. Семенова РАН, г. Москва, зав. лабораторией жидкофазного окисления

Дьячков Павел Николаевич, доктор химических наук, профессор, Федеральное государственное бюджетное учреждение науки Институт общей и неорганической химии РАН, г. Москва, ведущий научный сотрудник лаборатории квантовой химии

Поройков Владимир Васильевич, доктор биологических наук, профессор, Федеральное государственное бюджетное учреждение Научно-исследовательский институт биомедицинской химии им. В.Н. Ореховича РАМН, г. Москва, зав. отделом биоинформатики

Ведущая организация:

Федеральное государственное образовательное учреждение высшего профессионального образования Московский государственный университет им. М.В. Ломоносова, г. МоскваЗащита состоится «24» октября 2012 г. в 10:00 на заседании диссертационного совета Д 002.082.02 при Институте проблем химической физики РАН по адресу: 142432, Московская обл., г. Черноголовка, проспект академика Семенова, д.1, корпус общего назначения ИПХФ РАН.

С диссертацией можно ознакомиться в библиотеке ИПХФ РАН.

Автореферат разослан «___» __________ 2012 г.

Ученый секретарь диссертационного совета, доктор химических наук Джабиев Т.С.

1. Общая характеристика работы

Актуальность темы. Явление «водородной связи» известно уже более девяноста лет и интерес исследователей к нему никогда не пропадал ввиду многообразия проявлений Н-связи и той важности, которую она играет в природе. Водородная связь изучается с использованием различных физико-химических методов, среди которых термодинамические методы занимают одно из первых мест. Исследование термодинамики водородной связи между молекулами протонодонора и протоноакцептора позволяет ответить на вопросы, касающиеся ее прочности (энтальпия), количества образующихся молекул Н-комплексов (энергия Гиббса или константа равновесия) и дает информацию о структурных изменениях (энтропия).

К настоящему времени в мире синтезировано около 20 миллионов химических соединений, большинство из которых относится к органическим веществам способным к образованию Н-связи. В сферу интересов человека вовлечено около 60 тысяч органических соединений, которые широко применяются в быту, медицине, на производстве и в сельском хозяйстве. Для многих из используемых соединений отсутствуют экспериментальные данные о некоторых их свойствах, например, об их биологической активности. Среди различных видов активности особое место занимает острая токсичность соединений in vivo, знание количественных характеристик которой необходимо для оценки опасности веществ по отношению к здоровью человека и к состоянию окружающей среды. Для определения величин LC50 и LD50 необходимы большие материальные и временные затраты, кроме того, это связано с использованием большого количества живых организмов.

Оценка количественных характеристик острой токсичности может осуществляться с использованием экспериментальных методов и математических моделей. При создании статистических моделей токсичности хорошие результаты были получены на основе междисциплинарного подхода «количественная связь структура - активность» (QSAR)/«количественная связь структура - свойство» (QSPR) При этом актуальными, требующими разрешения, являются вопросы, связанные с количественным учетом влияния водородной связи и разработкой соответствующих дескрипторов (факторов Н-связи).

Работа выполнена в соответствии с планами научно-исследовательских работ Института физиологически активных веществ РАН «Компьютерный молекулярный дизайн, включая количественную связь структура-свойство (активность) и молекулярное моделирование взаимодействия лиганд-мишень для структурной генерации соединений с заданными свойствами» (№ госрегистрации 0120.0 504023) при финансовой поддержке Российского фонда фундаментальных исследований: проект № 97-03-33068-а «Молекулярное моделирование связи структура-активность с учетом трехмерности структур и их способности к образованию водородных связей» и Международного научно-технического центра: проект № 888 «Компьютерное предсказание химической экотоксичности» и проект № 3777 «Развитие и применение КССА моделей токсичности химических соединений по отношению к грызунам».

Цель и задачи работы. Основная цель - создание основ физико-химического подхода для оценки протонодонорной и протоноакцепторной способности соединений и разработка количественных моделей острой токсичности in vivo органических соединений с использованием факторов водородной связи и других молекулярных дескрипторов.

Для достижения намеченной цели необходимо было решить следующие задачи:

1) разработать методы и дескрипторы для количественной оценки протонодонорной и протоноакцепторной способности органических соединений;

2) создать базу данных по термодинамическим характеристикам образования Н-комплексов и базу данных по факторам Н-связи;

3) разработать модель липофильности органических соединений;

4) создать и протестировать локальные и глобальные модели острой токсичности органических соединений;

5) разработать фрактальный дескриптор и модифицированную линейную динамическую модель для установления количественной связи между структурой и свойствами химических соединений;

6) сконструировать алгоритмы QSAR/QSPR моделирования и реализовать их в виде компьютерных программ.

Научная новизна. Разработан подход для расчета дескрипторов (факторов) водородной связи органических соединений, заключающийся в использовании аддитивно-мультипликативной модели и термодинамических характеристик Н-комплексов.

Предложена модель липофильности органических соединений, основанная на линейной комбинации двух молекулярных дескрипторов: поляризуемости и протоноакцепторного фактора водородной связи.

Разработаны локальные модели неполярного и полярного наркоза, основанные на молекулярной поляризуемости и факторах Н-связи.

Созданы и применены алгоритмы для классификации химических соединений по типу токсического действия, отличающиеся от известных алгоритмов тем, что они используют локальные регрессионные модели наркоза.

Предложены глобальные модели острой токсичности, основанные на молекулярном сходстве, физико-химических дескрипторах и перекрывающихся кластерах.

Разработана рекуррентная модель для описания токсичности органических соединений, отличающаяся от известных моделей отсутствием дескрипторов.

Разработана модель ретардантной активности солей четвертичного аммония на основе факторов водородной связи и других физико-химических дескрипторов.

Впервые предложен и разработан фрактальный 3D дескриптор молекулярной структуры, представляющий из себя фрактальную размерность гистограмм межатомных расстояний.

Впервые разработан и применен подход для установления количественной связи между структурой и свойством (активностью), выраженными в виде двумерных кривых.

Практическая значимость работы. Значительная часть диссертационной работы была выполнена в рамках участия в разработке в ИФАВ РАН двух баз данных по Н-комплексообразованию органических соединений. При этом база данных по термодинамическим характеристикам образования Н-комплексов, насчитывающая свыше 13000 записей, нашла использование в качестве источника информации при проведении теоретических и практических исследований в области физической органической химии. База данных по протонодонорным и протоноакцепторным факторам Н-связи, содержащая свыше 50000 записей, а также компьютерная программа HYBOT, созданная на ее основе, служит для количественной оценки способности органических соединений к образованию водородной связи и нашла применение при проведении физико-химических расчетов. Разработанные в диссертации модели острой токсичности могут использоваться для количественной оценки токсического эффекта новых неисследованных органических соединений. Созданные компьютерные программы являются инструментом для проведения QSAR/QSPR исследований.

Личный вклад автора. Общее направление работы, включая постановку задач исследования, было определено совместно с научным консультантом. Все результаты диссертации получены лично автором или в соавторстве при его непосредственном участии. В работах, выполненных в соавторстве, вклад автора состоял в непосредственном участии во всех этапах работы начиная от постановки задачи и завершая обсуждением результатов. Синтез, очистку и идентификацию новых физиологически активных соединений выполнили сотрудники ИФАВ РАН: Иванов А.Н., Соколов В.Б., Чепакова Л.А., Брель В.К., Додонов М.В., Прошин А.Н., Чистяков В.Г. Биологические испытания на ретардантную активность провел Кокурин А.В. (ВНИИСБ РАСХН). Вклад автора в программный комплекс HYBOT заключался в создании базы факторов и термодинамической базы данных (совместно с Раевской О.Е., ИФАВ РАН).

Автор выражает глубокую признательность своему научному консультанту доктору химических наук, профессору Раевскому О.А.

Апробация работы. Результаты исследования и основные положения работы были представлены на следующих конференциях, симпозиумах и конгрессах: 11 Международная конференция по химии фосфора (Таллинн, 1989); IX Всесоюзная конференция «Химическая информатика» (Черноголовка, 1992); 12 Международный симпозиум по медицинской химии (Базель, Швейцария, 1992); 9 Европейский симпозиум по количественным соотношениям структура-активность (Страсбург, Франция, 1992); IV Российский конгресс «Человек и лекарство» (Москва, 1997); VI Российский конгресс «Человек и лекарство» (Москва, 1999); 4 Международный симпозиум по компьютерным методам в токсикологии и фармакологии (Москва, 2007); XVII Российский конгресс «Человек и лекарство» (Москва, 2010); 18 Европейский симпозиум по количественным соотношениям структура-активность (Родес, Греция, 2010); XVIII Российский конгресс «Человек и лекарство» (Москва, 2011), XIX Российский конгресс «Человек и лекарство» (Москва, 2012).

Публикации. По теме диссертации опубликовано 46 печатных работ, включая 1 учебное пособие, 24 статьи в российских и международных журналах, получено 2 свидетельства об официальной регистрации программ для ЭВМ.

Объем и структура диссертации. Работа изложена на 328 страницах машинописного текста, содержит 39 таблиц и 33 рисунка. Диссертация состоит из введения, пяти глав, заключения, списка литературы из 433 наименований.

2. Основное содержание работы

Во введении обоснована актуальность работы, сформулированы цель и задачи исследования, показана научная новизна и практическая значимость полученных результатов.

Глава 1. Современное состояние в области QSAR моделирования острой токсичности in vivo органических соединений. (Обзор литературы). Из анализа литературы следует, что во многих публикациях отмечается важная роль водородной связи при проявлении токсических эффектов. Однако, при этом способность соединений к образованию Н-связи выражается на полуколичественном уровне в виде числа доноров и акцепторов, без учета молекулярного окружения. По-видимому, качество моделей токсичности может быть значительно улучшено при применении адекватных количественных характеристик протонодонорной и протоноакцепторной способности органических соединений.

Наиболее часто используемым дескриптором для конструирования моделей острой токсичности органических соединений, относящихся по типу токсического действия к наркозу, является коэффициент распределения вещества в системе н-октанол-вода (Kow). Однако, применение этого дескриптора приводит к появлению вопросов, связанных с объяснением различий между типами наркоза, главным образом, между неполярным и полярным наркозом. Одним из путей для решения этой проблемы может служить замена Kow другими дескрипторами.

Число глобальных моделей токсичности, играющих важную роль при быстрой предварительной оценке токсичности большого числа разнообразных органических соединений, мало по сравнению с большим числом локальных моделей. Главным образом, это относится к изучению токсичности соединений по отношению к мышам и крысам.

Также можно сделать вывод о недостаточном числе исследований в области развития методологии QSAR. В первую очередь, это относится к разработке новых дескрипторов и способов установления связи между структурой и свойствами (активностью).

Глава 2. Экспериментальная часть. Описаны физико-химические и биологические данные; расчет, преобразование и отбор дескрипторов; меры сходства химических соединений; статистические методы исследования и валидация моделей; методика проведения спектральных и калориметрических измерений.

Глава 3. Количественные характеристики протонодонорной и протоноакцепторной способности органических соединений

Энтальпийные и свободноэнергетические факторы водородной связи монофункциональных соединений

Для расчета факторов (дескрипторов) водородной связи органических соединений были использованы литературные данные, содержащие сведения о Н-комплексах и удовлетворяющие следующим условиям: 1) Н-комплекс состава 1:1, с одним водородным мостиком; 2) растворитель CCl4; 3) для каждой реакции имеются значения H (кДж/моль) и G (кДж/моль); 4) H и G рассчитаны на основе экспериментальных данных и соответствуют температуре 298 К. Общее число Н-комплексов, образованных с участием 163 Н-доноров (NH-, OH-, SH-, CH-доноры) и 195 Н-акцепторов (N-, O-, S-, -акцепторы), составило 936. Расчет факторов был выполнен с использованием аддитивно-мультипликативной модели:

H = k1EaEd + k0

G = k1`CaCd + k0`

где k0, k1, k0', k1' - параметры; Ea - энтальпийный протоноакцепторный фактор; Ed - энтальпийный протонодонорный фактор; Ca - свободноэнергетический протоноакцепторный фактор; Cd - свободноэнергетический протонодонорный фактор. Для расчета E и C факторов необходима фиксация этих величин для одного Н-донора и одного Н-акцептора. Эти соединения должны удовлетворять двум требованиям: 1) для них должно быть описано достаточно большое количество Н-комплексов и 2) они должны быть удобными при экспериментальном применении. В качестве стандартного Н-донора был выбран фенол (Ed=-2.50; Cd=-2.50), в качестве стандартного Н-акцептора - гексаметилфосфортриамид (ГМФТА) (Ea=2.50; Ca=4.00). Величины факторов для стандартных соединений были выбраны таким образом, чтобы сделать шкалу с интервалом изменения факторов от 0.00 до ( -5.00) для Н-доноров и от 0.00 до ( 5.00) для Н-акцепторов. Алгоритм расчета протонодонорных факторов включал в себя следующие шаги: 1) найти протоноакцепторы, которые имеют реакции с фенолом; 2) найти протонодоноры, которые имеют реакции с этими Н-акцепторами; 3) сконструировать и решить систему уравнений для каждой пары реакций, образованной фенолом и данным Н-донором с тем же самым протоноакцептором. Протоноакцепторные факторы рассчитывались с использованием того же самого алгоритма, используя ГМФТА в качестве стандартного Н-акцептора.

В результате удалось рассчитать величины факторов для 347 соединений. При этом величины Ed варьировали от -0.34 (C6HCl5) до -3.93 (CCl3COOH), Cd от -0.00 (C6HCl5) до -4.78 (CCl3COOH), Ea от 0.50 (C6H6) до 5.21 ((C4H9)2NH), Ca от 0.43 (CCl3CN) до 4.99 (1,4-диазобицикло[2,2,2]октан). Путем варьирования были определены коэффициенты моделей (1) и (2) и получены уравнения:

H(кДж/моль) = 4.96 EaEd

G(кДж/моль) = 2.43 CaCd + 5.70

С учетом рассчитанных коэффициентов и используя полученные нами величины факторов для 163 протонодоноров и 195 протоноакцепторов, можно оценить значения энтальпии и свободной энергии Гиббса для 163х195=31785 реакций на основе уравнений (3) и (4). Для имеющихся в нашем распоряжении 936 экспериментальных и рассчитанных величин H и G были получены следующие соотношения:

Hрасч = -0.27(±0.45) + 1.00(±0.02) Hэксп

n=936; r=0.954; s=2.70; F=9553

Gрасч = -0.07(±0.12) + 1.00(±0.01) Gэксп

n=936; r=0.984; s=1.11; F=28556

Статистические характеристики уравнений (5) и (6) свидетельствуют о том, что рассчитанные факторы дают возможность реальной оценки энтальпии и свободной энергии Гиббса Н-связи. При этом анализ остатков показал, что 842 из 936 рассчитанных величин G имеют менее чем 10% отклонение от экспериментальных величин.

В литературе, кроме данных по образованию Н-комплексов в CCl4, приводятся величины H и G в других неполярных растворителях. С этими данными была проведена работа аналогичная рассмотренной выше. Из анализа полученных результатов можно сделать вывод о том, что факторы соединений сохраняют приблизительно одинаковое значение в разных растворителях, при этом происходит только изменение коэффициентов в уравнениях (1) и (2).

Энтальпийные и свободноэнергетические факторы водородной связи полифункциональных соединений

Для проверки работоспособности аддитивно-мультипликативной модели и факторов в случае сложных органических соединений были проведены экспериментальные исследования с использованием ИК-спектроскопии и калориметрии. Они включали в себя установление стехиометрии, определение взаимодействующих атомов и групп, расчет величин H, G для Н-комплексов и оценку величины факторов. В исследовании принимали участие 22 фосфорилированных и тиофосфорилированных оксима общей формулы: (R1)(R2)P(X)ONC(R3)(R4) (где R1=Me, MeO, EtO, PrO, BuO; R2=MeO, EtO, PrO, i-PrO, BuO, AmO; R3=Me, Et, Pr, CH2Cl; R4=Me, Et, Pr, Cl; X=O, S), которые можно рассматривать в качестве аналогов инсектицида «валексон» (EtO)2P(S)ONC(C6H5)CN и 10 дифторнитроацетанилидов общей формулы: (4-R5)(3-R6)C6H3NHC(O)CF2NO2 (где R5=H, CH3, OCH3, F, Cl, NO2; R6=H, CH3, CF3, F, NO2), которые можно рассматривать в качестве аналогов гербицида «пропанид» 3,4-Cl2-C6H3NHC(O)C2H5.

При изучении ИК спектров растворов комплексов фосфорилированных оксимов с фенолом и NH-донорами наблюдается картина типичная при образовании водородной связи. На рис. 1 изображен ИК спектр системы фенол + соединение (Me)(EtO)P(O)ONC(Me)(Cl) (I) в гексане. Узкая полоса при 3624 см-1 соответствует валентным колебаниям гидроксильной группы мономерных молекул фенола, а широкая полоса в области 3315-3325 см-1 соответствует валентным колебаниям гидроксильных групп фенола, связанного в комплекс с соединением (I). Наряду со сдвигом полосы (OH) в область низких частот наблюдается усиление интенсивности этой полосы. Так, молярный коэффициент экстинкции полосы (OH) свободных от ассоциации молекул фенола составляет величину 202 л/(моль см), а связанных в комплекс - 387 л/(моль см), т.е. возрастает в (387/202)=1.92 раза. Исходя из структурной формулы фосфорилированных оксимов можно заключить, что, очевидно, наиболее сильным Н-акцепторным центром в молекулах этих соединений является фосфорильный атом кислорода. Это подтверждает изученный ИК-спектр комплекса соединения (I) с фенолом в области валентных колебаний фосфорильной группы (рис. 1). Полоса при 1275 см-1 отвечает валентным колебаниям (PO). При комплексообразовании происходит сдвиг этой полосы на 3050 см-1 в область низких частот, что свидетельствует об участии фосфорильной группы в Н-связывании. На основе полученных данных были рассчитаны термодинамические характеристики образования Н-комплексов состава 1:1, которые менялись от -18.5 до -28.3 кДж/моль для H и от -6.05 до -16.3 кДж/моль для G.

1. ИК-спектры растворов соединений в гексане. а) ИК-спектры растворов фенола в области (OH). 1) 0.0219 моль/л PhOH; 2) 0.0110 моль/л PhOH + 0.0250 моль/л (Me)(EtO)P(O)ONC(Me)(Cl) (I). б) ИК-спектры растворов дифениламина в области (NH). 1) 0.0944 моль/л Ph2NH; 2) 0.0472 моль/л Ph2NH + 0.0250 моль/л (I). в) ИК-спектры растворов анилина в области (NH). 1) 0.0769 моль/л PhNH2; 2) 0.0769 моль/л PhNH2 + 0.0250 моль/л (I). г) ИК-спектры растворов уретана в области (NH). 1) 0.0177 моль/л C2H5OC(O)NH2 (ус. Х1); 2) 0.0018 моль/л C2H5OC(O)NH2 (ус. Х5); 3) 0.0018 моль/л C2H5OC(O)NH2 + 0.0250 моль/л (I) (ус. Х5); д) ИК-спектры растворов соединения (I) в области (PO). 1) 0.0054 моль/л (I); 2) 0.0054 моль/л (I) + 0.0107 моль/л PhOH

При взаимодействии дифторнитроацетанилидов с ГМФТА образуются Н-комплексы состава 1:1, в которых группа NH выступает в качестве Н-донора, а фосфорильный кислород - в качестве Н-акцептора. H меняется в пределах от -24.9 до -30.5 кДж/моль, а G от -15.0 до -20.8 кДж/моль. С использованием полученных экспериментальных величин были рассчитаны факторы фосфорилированных оксимов и дифторнитроацетанилидов.

Следующим шагом стало изучение комплексообразования с участием этих соединений, в котором фосфорилированные оксимы выступали в качестве Н-акцепторов, а дифторнитроацетанилиды - в качестве Н-доноров (табл. 1).

Экспериментальные и рассчитанные термодинамические характеристики (H, G) Н-комплексов фосфорилированных оксимов с дифторнитроацетанилидами (бензол; 298 К; состав 1:1) и факторы Н-связи (Ea, Ca, Ed, Cd)

Н-акцептор

Н-донор

-H, кДж/моль

-G, кДж/моль

Ea

Ca

-Ed

-Cd

Эксп.

Расч.*

Эксп.

Расч.*

II

1.71±0.09

3.08±0.11

V

2.71±0.06

2.41±0.07

18.9±1.0

20.2±1.5

10.5±0.6

10.4±1.0

II

1.71±0.09

3.08±0.11

V

2.71±0.06

2.41±0.07

18.9±1.0

20.2±1.5

10.5±0.6

10.4±1.0

II

1.71±0.09

3.08±0.11

VI

2.48±0.02

3.01±0.06

18.9±1.0

18.5±1.1

13.8±0.6

14.4±1.1

III

1.73±0.09

2.84±0.11

V

2.71±0.06

2.41±0.07

19.4±1.0

20.4±1.5

9.98±0.6

9.24±1.0

III

1.73±0.09

2.84±0.11

VI

2.48±0.02

3.01±0.06

18.9±1.0

18.7±1.1

13.5±0.6

12.4±1.1

IV

1.75±0.09

3.04±0.11

V

2.71±0.06

2.41±0.07

19.8±1.0

20.6±1.5

11.0±0.6

10.3±1.0

IV

1.75±0.09

3.04±0.11

VI

2.48±0.02

3.01±0.06

19.6±1.0

18.9±1.1

15.3±0.6

14.2±1.1

Примечание: *H = 4.35 Ea Ed; G = 5.70 + 2.17 Ca Cd; (Me)(BuO)P(O)ONC(Me)(Cl) (II); (Me)(BuO)P(O)ONC(Et)(Cl) (III); (Me)(BuO)P(O)ONC(Pr)(Cl) (IV);

4-CH3-C6H4NHC(O)CF2NO2 (V); 4-NO2-C6H4NHC(O)CF2NO2 (VI).

При сравнении экспериментальных и рассчитанных на основе факторов Н-связи термодинамических величин можно установить, что в случае H минимальное отклонение (по абсолютной величине) составляет 0.2 кДж/моль, максимальное 1.3 кДж/моль и среднее 0.6 кДж/моль, а для G 0.1 кДж/моль, 1.1 кДж/моль и 0.8 кДж/моль соответственно. Таким образом, можно констатировать вполне удовлетворительное совпадение экспериментальных и рассчитанных термодинамических характеристик образования Н-комплексов.

QSPR модель липофильности органических соединений

Для количественного описания липофильности (Kow, коэффициент распределения вещества в системе октанол-вода) было отобрано 71 простое органическое соединение, содержащее по одной Н-акцепторной группе. В состав этих групп входили атомы O, N, S, F, Cl, Br, C. В качестве независимых переменных были использованы молекулярная поляризуемость (б) и свободноэнергетические Н-акцепторные факторы (Ca). Интервал изменения этих величин составлял 3.2521.44 Е3 и 0.203.12 соответственно. Величины logKow менялись в пределах от -0.97 до 4.75. В результате была получена следующая модель:

logKow = 0.266(±0.006) б - 1.00(±0.05) Ca

n=71; r2=0.982; s=0.18; F=3829; q2=0.981

Статистические критерии уравнения (7) свидетельствуют о возможности количественной оценки значений logKow на основе рассчитанных величин б и Ca. Внешняя валидация модели была проведена путем расчета аналогичной модели с использованием другого ряда из 98 соединений, содержащих протоноакцепторные атомы O, N, Cl, Br, I, C. Интервал изменения величин составлял -1.015.15, 2.2528.77 Е3, 0.002.96 для logKow, б, Ca соответственно. Полученные параметры оказались близки к соответствующим параметрам модели (7):

logKow = 0.276(±0.008) б - 1.01(±0.07) Ca

n=98; r2=0.961; s=0.29; F=1191; q2=0.959

Преобразование уравнения (7) к следующему виду:

Ca* = 0.266 б - logKow

дает возможность рассчитать свободноэнергетические протоноакцепторные факторы (Ca*) соединений, основываясь на экспериментальных данных по их липофильности.

Имеется много опубликованных данных по экспериментальным величинам logKow как простых, так и сложных нейтральных и ионизированных соединений. И это дает возможность на основе уравнения (9) оценить протоноакцепторную способность тех атомов и функциональных групп, которые не могли быть определены в рамках шкалы, основанной на термодинамических параметрах (табл. 2).

Свободноэнергетические Н-акцепторные факторы, полученные на основе липофильности (Ca*), свободной энергии (Ca) и их разность (Ca) для органических соединений, содержащих функциональные группы с несколькими гетероатомами

Соединение

Ca*

Ca

Ca

1

м-Нитробензойная кислота

0.62

0.47

0.15

2

Бензойная кислота

1.03

0.76

0.27

3

Этилтрихлорацетат

1.21

1.11

0.10

4

Уксусная кислота

1.47

1.10

0.37

5

Метилацетат

1.60

1.40

0.20

6

Бутиролактон

2.71

2.05

0.66

7

N,N-Диметилацетамид

3.02

2.76

0.26

8

Мочевина

3.06

2.50

0.56

9

N-Метилацетамид

3.15

2.70

0.45

10

2-Пиперидон

3.34

2.95

0.39

Представленные данные свидетельствуют о том, что в случае сложных органических соединений величина Ca* превышает значение фактора для наиболее сильного Н-акцептора (Ca) и, вероятно, соответствует сумме свободноэнергетических протоноакцепторных факторов в молекуле, в то время как их разность (Ca) характеризует потенциальную возможность к образованию Н-связи слабых Н-акцепторных центров в молекуле. Это положение открывает широкие возможности для существенного увеличения числа соединений с количественно охарактеризованной протоноакцепторной способностью.

Компьютерный программный комплекс HYBOT

HYBOT состоит из трех главных компонентов. Во-первых, это база данных (БД) по термодинамике водородной связи, которая содержит экспериментальные величины энтальпии и свободной энергии Гиббса образования Н-комплексов в различных средах. В настоящее время эта БД насчитывает 13688 записей (т.е. сведений об одной паре реакций Н-донор/Н-акцептор). БД содержит ряд полей: свободная энергия Гиббса образования Н-комплекса; энтальпия образования Н-комплекса; метод определения свободной энергии Гиббса; метод определения энтальпии; разница в химических сдвигах между свободными и связанными Н-донорными группами; разница между частотами колебаний свободных и связанных Н-донорных групп; тип водородного мостика в комплексе AH…B, где AH - протонодонорная группа, B - протоноакцепторный атом; температура, к которой относятся H и G; растворитель; стехиометрия Н-комплекса; число водородных мостиков в Н-комплексе; комментарии к ссылке и данным; авторы публикации; наименование источника данных; год публикации; том журнала; номер журнала; страницы публикации; молекулярная масса соединения; название химического соединения; номер CAS; название; брутто-формула соединения; химическая структура Н-донора; химическая структура Н-акцептора.

Другой составной частью HYBOT является факторная база данных, содержащая протонодонорные и протоноакцепторные факторы органических соединений, рассчитанных в рамках общей шкалы водородной связи. Эта БД содержит 4 библиотеки факторов: Ed (1025 факторов), Ea (2060 факторов), Cd (2835 факторов), Ca (46372 фактора). БД содержит ряд полей: химическая структура соединения; название соединения; брутто-формула соединения; молекулярная масса соединения; номер CAS; величина фактора; активный центр.

Третьей составной частью HYBOT является программа, которая рассчитывает факторы и дескрипторы органических соединений на основе их химической структуры с использованием баз данных, содержащих термодинамические характеристики Н-комплексов и факторы Н-связи.

Глава 4. QSAR модели острой токсичности органических соединений

Классификационные и регрессионные модели неполярного наркоза

В работе были использованы данные по острой токсичности (LC50, ммоль/л, 96 час.) 118 органических соединений с типом токсического действия (МОА, Мode of action) неполярный наркоз по отношению к рыбам Poecilia reticulata (Pr), Pimephales promelas (Pp) и Oncorhynchus mykiss (Om). В качестве независимых переменных при конструировании регрессионных моделей были использованы экспериментальные величины logKow и три физико-химических дескриптора: б, ?Ca, ?Cd. Химические соединения относились к трем структурным областям: хлоралканы и хлорбензолы (слабые Н-акцепторы), эфиры и кетоны (средние Н-акцепторы) и соединения с ОН-группами. Интервал изменения величин составлял для log(1/LC50): -2.963.15, logKow: -1.365.18, б: 3.2523.43 Е3, ?Ca: 0.185.77, ?Cd: -4.160.00. Для проведения классификации рассчитывались дескрипторы соединений с использованием программ HYBOT (32 дескриптора), DNESTR (48 дескрипторов) и SYBYL (9 дескрипторов). Фрагментные дескрипторы были рассчитаны с помощью программы MOLDIVS. Классификация выполнена на основе линейного дискриминантного анализа (LDA) с применением ряда из 4-х HYBOT дескрипторов б, ?q-, ?Ca, ?Cd (LDA_4D), ряда из 10-12 главных компонент, полученных из 89 дескрипторов (LDA_PC) и метода структурного сходства, (аналог метода k-ого ближайшего соседа) с использованием фрагментных дескрипторов и метрики в виде коэффициентов Танимото (SS).

По сравнению с другими используемыми подходами метод SS оказывается наиболее эффективным при дискриминации соединений с МОА неполярный наркоз и соединений с другими типами токсического действия (табл. 3). Действительно, общая степень правильного распознавания составляет 0.932 и 0.864 в обучающей выборке, 0.914 и 0.881 в тестовой выборке для данных по отношению к Pr и (Pr + Pp + Om) соответственно.

Учитывая высокую степень межвидовой корреляции значений токсичности для трех рыб (r2=0.940.99), вполне возможно построение общей регрессионной модели токсичности:

log(1/LC50) = -1.75(±0.05) + 0.89(±0.03) logKow

n=150; r2=0.936; s=0.36; F=2171

Уравнение (10) не является новым с позиции описания неполярного наркоза на основе экспериментальных величин logKow. Однако, общая модель для трех видов рыб позволяет предсказывать величины острой токсичности для одного из видов на основе экспериментальных величин токсичности для других видов, используя logKow.

Чувствительность (Sn), специфичность (Sp) и точность (Acc) при бинарной классификации химических соединений с МОА неполярный наркоз (класс 1) и другие МОА (класс 2) по отношению к рыбам P. reticulata (Pr), P. promelas (Pp) и O. mykiss (Om) с использованием методов линейного дискриминантного анализа (LDA) и структурного сходства (SS)

Объект

Метод

Обучающая выборка

Тестовая выборка

n1/n2

Sn

Sp

Acc

n1/n2

Sn

Sp

Acc

1

Pr

LDA_4D

72/163

0.472

0.859

0.740

18/40

0.333

0.850

0.690

2

Pr

LDA_PC

72/163

0.639

0.834

0.774

18/40

0.556

0.825

0.741

3

Pr

SS_3

72/163

0.986

0.908

0.932

18/40

0.944

0.900

0.914

4

Pr+Pp+Om

LDA_4D

95/244

0.263

0.877

0.705

23/61

0.261

0.934

0.750

5

Pr+Pp+Om

LDA_PC

95/244

0.505

0.857

0.758

23/61

0.348

0.934

0.774

6

Pr+Pp+Om

SS_1

95/244

0.842

0.873

0.864

23/61

0.913

0.869

0.881

Примечание: n1 - число соединений в первом классе, n2 - число соединений во втором классе.

Подобная процедура возможна для конструирования общей QSAR модели на основе молекулярной поляризуемости и Н-акцепторных факторов:

log(1/LC50) = -1.96(±0.09) + 0.258(±0.006) б - 0.88(±0.03) ?Ca

n=150; r2=0.943; s=0.34; F=1211

Статистические характеристики уравнения (11) несколько лучше, чем характеристики уравнения (10). Однако, главное преимущество уравнения (11) состоит в использовании не экспериментальных, а рассчитанных дескрипторов. Кроме того, уравнение (11) дает возможность количественной оценки вкладов с противоположными эффектами: молекулярной поляризуемости соединений, которая увеличивает токсичность, и Н-акцепторной способности, которая уменьшает ее. Включение в модель дополнительного дескриптора ?Cd не улучшало статистические характеристики, а соответствующий коэффициент в модели незначимо отличался от нуля. Валидация уравнений (10) - (11) была выполнена с использованием тестового ряда:

log(1/LC50)эксп = -0.05(±0.06) + 1.02(±0.05) log(1/LC50)расч

n=37; r2=0.930; s=0.36; F=462

log(1/LC50)эксп = 0.00(±0.05) + 0.99(±0.06) log(1/LC50)расч

n=37; r2=0.942; s=0.33; F=564

Полученные результаты свидетельствуют о хорошей описательной и предсказательной способности моделей неполярного наркоза в пределах области применимости, определяемой интервалами изменения соответствующих величин.

Классификационные и регрессионные модели полярного наркоза

Для исследования была использована выборка, содержащая данные по острой токсичности (LC50, ммоль/л, 96 час.) 134 соединений с МОА полярный наркоз по отношению к трем рыбам (Pr, Pp и Om). Анализируемые соединения можно отнести к двум структурным областям: соединения без Н-донорной способности (нитробензолы) и соединения с Н-донорной способностью (амины, анилины, фенолы). Интервал изменения величин составлял для log(1/LC50): -1.543.58, logKow: -1.496.32, б: 5.8030.26 Е3, ?Ca: 0.484.18, ?Cd: -6.520.00.

Использование метода LDA_4D привело к получению удовлетворительной дискриминации между соединениями с МОА полярный наркоз и соединениями с другими МОА (табл. 4). Так, например, степень общего правильного распознавания в случае данных для Pr составила 0.855 и 0.860 в обучающей и тестовой выборках соответственно. Использование для дискриминации соединений метода SS на основе первого структурного соседа (SS_1) приводило к получению хороших результатов. Например, применение SS_1 для обучающего ряда в тестовом ряду соединений по отношению к Pr обеспечивало общую степень правильного распознавания равную 0.894.

log(1/LC50) = -0.78(±0.06) + 0.72(±0.02) logKow

n=169; r2=0.860; s=0.37; F=1022; q2=0.857

log(1/LC50) = -1.02(±0.14) + 0.192(±0.007) б - 0.68(±0.04) ?Ca - 0.11(±0.02 ) ?Cd

n=169; r2=0.886; s=0.34; F=427; q2=0.879

Чувствительность (Sn), специфичность (Sp) и точность (Acc) при бинарной классификации химических соединений с МОА полярный наркоз (класс 1) и другие МОА (класс 2) по отношению к рыбам P. reticulata (Pr) и P. promelas (Pp) с использованием методов линейного дискриминантного анализа (LDA) и структурного сходства (SS)

Высокий коэффициент корреляции межвидовой токсичности между рыбами P. reticulata и P. promelas (r2=0.91) свидетельствует о возможности создания общей регрессионной модели:

Необходимо отметить, что дескриптор logKow не дает информации о механизме действия, потому что он является композитным дескриптором, включающим в себя несколько физико-химических дескрипторов. С другой стороны, модели, использующие HYBOT дескрипторы для описания неполярного и полярного наркоза, позволяют заглянуть внутрь механизма неспецифической токсичности. Целесообразно сравнить соответствующие модели по отношению к P. reticulata + P. promelas для полярного наркоза (уравнение (15)) и неполярного наркоза (уравнение (16)).

Объект

Метод

Обучающая выборка

Тестовая выборка

n1/n2

Sn

Sp

Acc

n1/n2

Sn

Sp

Acc

1

Pr

LDA_4D

96/138

0.792

0.899

0.855

23/34

0.826

0.882

0.860

2

Pr

LDA_PC

96/138

0.833

0.899

0.872

23/34

0.870

0.882

0.877

3

Pr

SS_1

96/138

0.896

0.913

0.906

23/34

0.957

0.941

0.947

5

Pr+Pp

LDA_4D

106/280

0.623

0.925

0.842

26/70

0.654

0.871

0.812

6

Pr+Pp

LDA_PC

106/280

0.594

0.921

0.832

26/70

0.538

0.857

0.771

7

Pr+Pp

SS_1

106/280

0.868

0.904

0.894

26/70

0.923

0.914

0.917

Примечание: n1 - число соединений в первом классе, n2 - число соединений во втором классе.

log(1/LC50) = -2.01(±0.09) + 0.256(±0.006) б - 0.84(±0.02) ?Ca

n=156; r2=0.946; s=0.32; F=1336; q2=0.943

«Чистый» эффект полярного наркоза (полярный наркоз - неполярный наркоз):

log(1/LC50) = 0.99(±0.23) - 0.064(±0.013) б + 0.16(±0.06) ?Ca - 0.11(±0.02) ?Cd

Из представленного уравнения ясно, что рост поляризуемости молекул ведет к уменьшению разницы токсичностей, вычисленных по модели полярного и неполярного наркоза, в то время как рост числа Н-акцепторных и Н-донорных центров в молекуле приводит к увеличению этой разницы. Полученный результат вместе с заметным вкладом протонодонорного фактора ?Cd в полярный наркоз, свидетельствует о существовании различия между соединениями, относящимися по типу токсического действия к неполярному и полярному наркозу и обусловленному дополнительным межмолекулярным взаимодействием с клеточными мембранами.

Модель АЛБТ

Исследование было проведено на основе ряда из 9618 разнообразных органических соединений, обладающих острой внутривенной токсичностью по отношению к мышам (LD50, ммоль/кг, 24 час.). Интервал изменения величины log(1/LD50) составлял -2.236.73. б и ?Ca менялись в пределах от 3.25 до 132 Е3 и от 0.00 до 30.6 соответственно.

Алгоритм классификации с использованием анализа локальной базовой токсичности (АЛБТ) может быть описан в виде следующих шагов: расчет величин молекулярной поляризуемости б, суммы свободноэнергетических протоноакцепторных факторов ?Ca и коэффициентов Танимото Тс для исходной выборки молекул; деление исходной выборки на обучающую и тестовую; задание шага изменения величин Д?Ca, Дб и токсичности Дlog(1/LD50); кластеризация молекул обучающей выборки с применением в качестве ведущей характеристики ?Ca (генерация интервалов с шагом Д?Ca от 0 до max ?Ca); разбиение каждого молекулярного кластера на ячейки с использованием б (интервалы с шагом Дб от 0 до max б); идентификация в каждой ячейке молекул с минимальной величиной log(1/LD50); создание для каждого кластера ряда молекул с минимальными величинами токсичности; расчет линейных или параболических регрессионных зависимостей log(1/LD50) от б для созданного ряда молекул; расчет на основе полученных моделей величин острой токсичности для всех молекул кластера; классификация молекул кластера на две группы: (неполярный наркоз)/(все остальное) путем сравнения экспериментальных (log(1/LD50)эксп) и рассчитанных (log(1/LD50)расч) значений токсичности с учетом «коридора» токсичности (интервалы log(1/LD50)расч ± Дlog(1/LD50) с шагом Дlog(1/LD50) от 0 до max Дlog(1/LD50)); отнесение каждой молекулы обучающей выборки к соответствующему кластеру обучающей выборки на основе величины ?Ca; определение для каждой молекулы обучающей выборки ближайшего соседа с максимальной величиной Тс из соответствующего кластера; классификация молекул обучающей выборки на две группы: (неполярный наркоз)/(все остальное) на основе принадлежности ближайшего соседа к той или иной группе; расчет характеристик бинарной классификации молекул; сортировка характеристик бинарной классификации молекул; выбор лучшей модели; повторение шагов для молекул тестовой выборки. органический токсичность липофильность химический

В настоящей работе в качестве сравнительных методов классификации химических соединений использованы такие методы, как линейный дискриминантный анализ (LDA), к-ближайший сосед (KNN), структурное сходство (SS), опорные вектора (SVM), нейронная сеть (ANN). Классификационные методы требуют априорного знания о принадлежности соединений обучающей выборки к тому или иному классу. Так как для исследуемых 9618 органических соединений такая информация отсутствовала, то для их разделения на два класса (неполярный наркоз)/(все остальное) мы использовали метод аналогии, основываясь на данных по типам токсического действия органических соединений по отношению к водным организмам. Для этого были отобраны 42 классических инертных соединения с типом токсического действия неполярный наркоз, которые включали в себя спирты, кетоны, эфиры. Для них была сконструирована билинейная модель зависимости острой токсичности от расчетных величин коэффициента распределения вещества в системе н-октанол-вода (P):

log(1/LD50) = -1.54(±0.08) + 0.82(±0.05) logP -1.399(±0.118) log[0.001607 P+ 1]

n = 42; r2 = 0.868; s = 0.24; F = 129; q2 = 0.852

Необходимо подчеркнуть, что в указанной выборке из 42 соединений представлены данные для мышей различного пола, возраста, условий содержания и эксперимента. Влияние этих факторов может давать различия в значениях log(1/LD50) на уровне ±0.50. Поэтому к 42 соединениям с МОА неполярный наркоз мы добавили все соединения, которые имеют экспериментальные величины токсичности, попадающие в коридор (уравнение (18)) ±0.50. Вошедшие в базовый коридор 3568 соединений имеют значения logP в интервале -0.81 ч 5.42. Оставшиеся 6050 соединений расположены вне базового коридора: 5833 - над ним, 217 - под ним.

В табл. 5 представлены результаты бинарной классификации 9618 органических соединений с использованием различных методов в пространстве из 16 HYBOT дескрипторов (LDA, KNN, SVM, ANN), фрагментных дескрипторов (SS), б и ?Ca дескрипторов (АЛБТ). Следует отметить, что среди использованных методов самые худшие результаты показывает метод LDA, а самые лучшие - АЛБТ. Так, в случае LDA, величина Acc, составляет 0.666 (обучающая выборка) и 0.652 (тестовая выборка). При использовании АЛБТ Acc достигает 0.998 и 0.824 соответственно. Подходы, основанные на анализе ближайшего соседа (KNN_7 и SS_5), показывают промежуточные результаты.

Чувствительность (Sn), специфичность (Sp) и точность (Acc) при бинарной классификации химических соединений с МОА неполярный наркоз (класс 1) и другие МОА (класс 2) по отношению к мышам с использованием методов линейного дискриминантного анализа (LDA), k-ближайшего соседа (KNN), структурного сходства (SS), опорных векторов (SVM), нейронных сетей (ANN) и анализа локальной базовой токсичности (АЛБТ)

Примечание: n1 - число соединений в первом классе, n2 - число соединений во втором классе.

Модель AMT

Метод

Обучающая выборка

Тестовая выборка

n1/n2

Sn

Sp

Acc

n1/n2

Sn

Sp

Acc

1

LDA

2811/4884

0.291

0.881

0.666

757/1166

0.284

0.890

0.652

2

KNN_7

2811/4884

0.605

0.807

0.733

757/1166

0.594

0.813

0.727

3

SS_5

2811/4884

0.587

0.798

0.721

757/1166

0.568

0.810

0.715

4

SVM

2811/4884

0.855

0.947

0.913

757/1166

0.567

0.852

0.739

5

ANN

2811/4884

0.406

0.853

0.690

757/1166

0.394

0.846

0.668

6

АЛБТ

1959/5715

0.992

1.000

0.998

509/1405

0.650

0.887

0.824

АМТ (арифметическая средняя токсичность) подход был использован для предсказания острой внутривенной токсичности (LD50, ммоль/кг, 24 час.) 10241 органического соединения по отношению к мышам. Полный интервал величин log(1/LD50) составлял 7.49 единиц (-3.144.35). Для описания структуры соединений были рассчитаны 32 HYBOT дескриптора и коэффициенты Танимото (Тс).

Алгоритм модели АМТ может быть описан в виде четырех шагов. Шаг 1. Для каждой анализируемой молекулы определялась величина структурного сходства с остальными молекулами. Полученные величины Тс упорядочивались по убыванию. Путем задания минимального граничного значения Тс* формировались различного размера первичные кластеры ближайших структурных соседей. Шаг 2. Для всех молекул рассчитывался ряд дескрипторов. Шаг 3. С использованием каждого дескриптора в отдельности и первичного структурного кластера для каждой молекулы рассчитывался вторичный кластер. Для этого из молекул первичного кластера выбирались такие пары ближайших соседей, которые имели значение дескриптора больше и меньше, чем у анализируемой молекулы. Размер вторичного кластера регулировался путем задания числа молекулярных пар (NP). Шаг 4. Токсичность анализируемой молекулы рассчитывалась как арифметическое среднее токсичностей молекулярных пар. Наилучшие результаты были получены на основе HYBOT дескриптора ?Cad/б. Поэтому этот дескриптор был использован, чтобы получить результаты, описанные ниже.

Путем варьирования значений Тс* (0.00, 0.40, 0.50, 0.60, 0.70, 0.80) и NP (1, 2, 3, 4, 5) был проведен расчет величин log(1/LD50). Качество полученных моделей оценивалось путем сравнения экспериментальных и рассчитанных величин токсичности с использованием уравнения:

log(1/LD50)эксп = a0 + a1 log(1/LD50)расч

Интервал изменения параметров и статистических характеристик полученных уравнений был следующим: a0: -0.020.15; a1: 0.771.10; n: 49110228; r2: 0.4560.783; s: 0.330.52; F: 15679672; q2: 0.4560.773. При возрастании границы структурного сходства и числа пар, свободный член уравнения (19) приближается к 0, а угловой коэффициент приближается к 1. В то же самое время, коэффициент линейной корреляции возрастает, а стандартное отклонение убывает. Однако, этот процесс сопровождается уменьшением числа соединений, вовлеченных в расчет.

В принципе, почти для всех химических соединений изучаемого ряда могут быть рассчитаны величины токсичности на основе модели АМТ с использованием Тс?0.00 и NP=2. Только 14 соединений из 10241 не имеют двух пар соседей с большим и меньшим значением выбранного дескриптора (?Cad/б). Параметры уравнения (19) в этом случае удовлетворительные и стандартное отклонение сравнимо с ожидаемыми экспериментальными ошибками измерения токсичности. Тем не менее, статистические характеристики этого уравнения, являясь средними величинами, не отражают специфических отклонений и ошибок оценивания из-за различных уровней структурного сходства. По этой причине мы разработали каскадный расчет токсичности, в котором АМТ модели появляются последовательно.

На самом высоком уровне А (табл. 6) граница структурного сходства Тс?0.80 и число вовлеченных в расчет структурных пар NP=2. Этому уровню соответствует 491 соединение (4.79% от общего числа соединений). При этом токсичность этих соединений может быть оценена со стандартным отклонением s=0.33. Следующий уровень B включает в себя соединения с Тс?0.70 и NP=2, исключая соединения уровня А. Для таких 832 соединений (8.12% от общего числа соединений) стандартное отклонение равно 0.39. Подобным образом были получены модели для последующих уровней с исключением соединений предыдущего уровня.

Использование каскадной модели АМТ (уровни A-E) позволило оценить острую токсичность 7085 соединений (около 69% от анализируемого ряда данных) по отношению к мышам со стандартным отклонением, сравнимым с экспериментальной ошибкой определения токсичности. Для оставшихся 3142 соединений (уровень F) стандартное отклонение равно 0.64, что эквивалентно приблизительно одной трети интервала токсичности для 97% изученных соединений. Поэтому это лучше, чем предсказание токсичности таких соединений качественным образом (низкая, средняя или высокая токсичность).

Модель АМТ: параметры и статистические характеристики уравнения log(1/LD50)эксп = a0 + a1 log(1/LD50)расч при различных уровнях структурного сходства (Tc) и числе структурных пар NP=2

Уровень

Tc

ao

a1

n

r2

s

F

q2

A

?0.80

0.03(±0.02)

1.00(±0.03)

491

0.762

0.33

1567

0.756

B

?0.70

0.04(±0.02)

0.96(±0.02)

832

0.673

0.39

1708

0.671

C

?0.60

0.01(±0.02)

0.97(±0.02)

1291

0.673

0.38

2654

0.671

D

?0.50

0.04(±0.01)

0.94(±0.02)

2010

0.581

0.44

2785

0.580

E

?0.40

0.10(±0.01)

0.82(±0.02)

2461

0.442

0.48

1947

0.440

F

?0.00

0.16(±0.01)

0.83(±0.02)

3142

0.337

0.64

1593

0.335

Для валидации модели исследуемый ряд из 10241 соединений был разделен на обучающую (8193 соединения) и тестовую (2048 соединений) выборки. В результате было установлено, что статистические критерии полученных уравнений для обучающей и тестовой выборок близки к критериям общей модели. В частности, величины s составили 0.260.35, 0.40, 0.370.40, 0.430.48, 0.460.52, 0.600.65 для уровней A, B, C, D E, F соответственно.

Модель ЛРМПК

Модель локальных регрессионных моделей в перекрывающихся кластерах (ЛРМПК) стала результатом дальнейшего развития концепции дискретно-непрерывных QSAR моделей. Для ее тестирования был использован тот же ряд из 10241 соединения, дескрипторы и мера структурного сходства, что и в модели АМТ. Алгоритм ЛРМПК может быть представлен следующим образом. 1. Для рассматриваемого (i-го) соединения из выборки, содержащей n соединений, рассчитываются меры структурного сходства (Тс) с остальными n-1 соединениями. Полученные величины ранжируются по убыванию. Процедура повторяется для каждого соединения. В результате получается n отдельных рядов соединений. 2. Фиксируется минимальный порог структурного сходства Тс*, и в каждом из n рядов отбираются структурно-родственные соединения, имеющие Тс выше фиксированного уровня. Таким образом, формируются n перекрывающихся кластеров. 3. Для всех анализируемых соединений рассчитываются дескрипторы. 4. Для каждого кластера производится отбор дескрипторов на основе парных коэффициентов линейной корреляции и генерируются отдельные локальные регрессионные QSAR модели с использованием полного перебора всех возможных комбинаций из одного (M=1), двух (M=2) или трех (M=3) дескрипторов. Выбирается лучшее уравнение на основе критерия Фишера (F). В работе использовались линейные регрессионные модели при наличии в кластере (5 M + 1) и более структурных соседей. Это обеспечивает наличие минимум 5 соединений на один дескриптор в процессе перекрестного контроля с исключением по одному. 5. Полученные QSAR уравнения используются для расчета активности рассматриваемых соединений.

Из данных табл. 7 следует, что при задании в качестве граничного значения Тс?0.3 и с учетом необходимого минимального числа структурных соседей, было получено 7759 кластеров, для которых было сконструировано 6425 однопараметровых, 1176 двухпараметровых и 158 трехпараметровых регрессионных уравнений для расчета токсичности выбранных соединений. Для оставшихся 2482 соединений не было обнаружено достаточного числа структурных соседей, необходимого для оценки токсичности с помощью описанного метода. В полученном уравнении свободный член и угловой коэффициент оказались близкими к идеальным (0.01±0.01 и 0.99±0.01 соответственно), а стандартное отклонение (0.51) - на уровне ошибки экспериментального измерения этого свойства для мышей разного возраста, пола с учетом условий их содержания и методики измерений.

Модель ЛРМПК: параметры, статистические характеристики уравнения log(1/LD50)эксп = a0 + a1 log(1/LD50)расч при различных уровнях структурного сходства (Тс) и распределение числа моделей при использовании одного (М=1), двух (М=2) и трех (М=3) дескрипторов

Тс

a0

a1

n

r2

s

F

q2

M=1

M=2

M=3

1

?0.3

0.01(±0.01)

0.99(±0.01)

7759

0.434

0.51

5958

0.434

6425

1176

158

2

?0.4

0.06(±0.01)

0.91(±0.01)

5011

0.530

0.46

5646

0.529

4074

810

127

3

?0.5

0.06(±0.01)

0.90(±0.01)

3157

0.621

0.40

5170

0.620

2514

540

103

4

?0.6

0.09(±0.01)

0.87(±0.02)

1748

0.621

0.40

2862

0.618

1457

260

31

5

?0.7

0.15(±0.02)

0.76(±0.02)

924

0.618

0.38

1490

0.613

814

99

11

6

?0.8

0.10(±0.03)

0.88(±0.03)

346

0.659

0.37

666

0.643

272

74

0

Зависимость значений коэффициента корреляции (r2) и стандартного отклонения (s) моделей ЛРМПК от величины порога структурного сходства (Tc) при использовании HYBOT и DRAGON дескрипторов

Для сравнения были проведены расчеты токсичности на основе дескрипторов, полученных с помощью компьютерной программы DRAGON. Очевидно, что порог структурного сходства имеет существенное влияние на точность расчетов (рис. 2). Статистические критерии уравнений становятся лучше при большем значении данного порога. Но одновременно количество получаемых уравнений, а, следовательно, и число соединений с рассчитанным значением токсичности уменьшается. Это явно демонстрирует эффективность использования концепции структурного сходства для оценки свойств/активности соединений. Также очевидно, что лучшие результаты расчетов получаются при использовании дескрипторов программы HYBOT.


Подобные документы

  • Окислительная димеризация метана. Механизм каталитической активации метана. Получение органических соединений окислительным метилированием. Окислительные превращения органических соединений, содержащих метильную группу, в присутствии катализатора.

    диссертация [990,2 K], добавлен 11.10.2013

  • Химическое строение - последовательность соединения атомов в молекуле, порядок их взаимосвязи и взаимного влияния. Связь атомов, входящих в состав органических соединений; зависимость свойств веществ от вида атомов, их количества и порядка чередования.

    презентация [71,8 K], добавлен 12.12.2010

  • Основные операции при работе в лаборатории органической химии. Важнейшие физические константы. Методы установления строения органических соединений. Основы строения, свойства и идентификация органических соединений. Синтезы органических соединений.

    методичка [2,1 M], добавлен 24.06.2015

  • Сравнительная характеристика органических и неорганических химических соединений: классификация, строение молекулярной кристаллической решетки; наличие и тип химической связи между атомами; относительная молекулярная масса, распространение на планете.

    презентация [92,5 K], добавлен 11.05.2014

  • Изомерия как явление существования соединений, одинаковых по составу, но разных по строению и свойствам. Межклассовая изомерия, определяемая природой функциональной группы. Виды пространственной изомерии. Типы номенклатуры органических соединений.

    презентация [990,3 K], добавлен 12.03.2017

  • Рассмотрение реакций, основанных на образовании комплексных соединений металлов и без их участия. Понятие о функционально-аналитической и аналитико-активной группах. Использование органических соединений как индикаторов титриметрических методов.

    курсовая работа [1,5 M], добавлен 01.04.2010

  • Изучение водородной связи, которая образуется между электроотрицательными атомами, из которых хотя бы один имеет свободную электронную пару. Особенности внутримолекулярной и межмолекулярной водородной связи, анализ ее энергии и органических соединений.

    курсовая работа [301,9 K], добавлен 14.03.2010

  • Определение типа химической связи в соединениях. Особенности изменения электроотрицательности. Смещение электронной плотности химической связи. Понятие мезомерного эффекта. Устойчивость сопряженных систем, их виды. Возникновение циклических соединений.

    презентация [1,8 M], добавлен 10.02.2014

  • Сущность и природа водородной связи. Водородные связи и свойства органических соединений. Метод инфракрасной спектроскопии. Инфракрасное излучение и колебания молекул. Анализ спектральных характеристик растворов пространственно-затрудненных фенолов.

    курсовая работа [1,1 M], добавлен 28.04.2010

  • Жизнь как непрерывный физико-химический процесс. Общая характеристика природных соединений. Классификация низкомолекулярных природных соединений. Основные критерии классификации органических соединений. Виды и свойства связей, взаимное влияние атомов.

    презентация [594,7 K], добавлен 03.02.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.