Белки-гомологи и их анализ

Выяснение доменной структуры белка и выбор исследуемого домена. Составление и уточнение списка белков. Множественное выравнивание белков, построение филогенетических деревьев анализируемого семейства. Выделение подсемейств и поиск родственных семейств.

Рубрика Биология и естествознание
Вид реферат
Язык русский
Дата добавления 03.06.2010
Размер файла 265,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

2

Реферат

На тему: «Белки-гомологи и их анализ»

2010 г.

Оглавление

1. Объект исследования

2. Выяснение доменной структуры белка и выбор исследуемого домена

3. Составление списка белков исследуемого семейства

4. Уточнение списка белков исследуемого семейства

5. Множественное выравнивание белков

6. Построение филогенетических деревьев анализируемого семейства белков

7. Выделение подсемейств

8. Поиск родственных семейств

9. Другие методы анализа семейств белков-гомологов

Заключение

Список литературы

1. Объект исследования

Белки-гомологи -- группа белков из одного и/или разных организмов, гены которых с большой степенью вероятности имеют общее эволюционное происхождение. Причины появления белков-гомологов могут быть различными: дивергенция организмов (вертикальный перенос), дупликация генов и геномов, горизонтальный перенос.

Семейством белков-гомологов 15-20 лет назад могла быть названа вся совокупность гомологичных между собой белков. Однако повышение чувствительности методов сравнения аминокислотных последовательностей и быстрое накопление данных о более консервативных трёхмерных структурах белков, выявило эволюционное родство между многими ранее известными семействами. Термин "семейство" стал более размытым, и разные авторы могут его неодинаково трактовать. Часто принадлежность белка к конкретному семейству подразумевает известное или предполагаемое наличие у него определённой энзиматической активности (или другой биологической функции), по которой и даётся название семейству. Однако данная неоднозначность обычно приводит лишь к тому, что два отдельных семейства, выделенных одним автором, другими исследователями могут рассматриваться как одно семейство. С точки зрения проведения филогенетического анализа это существенного значения не имеет. Принципиально важным является то, чтобы белки одного семейства образовывали монофилетическую группу, а уровень сходства их аминокислотных последовательностей был достаточно велик для построения глобального множественного выравнивания. Общее число известных к настоящему времени семейств белков составляет около 10 тысяч, например, в базе данных Pfam приведён список из 8183 семейств.

Ещё одной проблемой при выделении семейств оказывается сложная доменная структура у многих белков. Структурные домены белков лучше всего выявляются при анализе их пространственной организации. Наличие экспериментальных данных о трёхмерных структурах позволяет определить число доменов и границы между ними в первичной структуре белка. Разные структурные домены, как правило, выполняют различные биологические функции, являясь тем самым и функциональными доменами. Отсутствие информации о пространственной структуре белка существенно затрудняет определение его доменной структуры. Часто разные домены одного белка имеют независимую эволюционную историю. В таких случаях они являются одновременно и эволюционными доменами. Однако во многих случаях два структурных домена почти всегда присутствуют в белках одновременно, образуя один эволюционный домен. Например, такими парными структурными доменами обладают гликозил-гидролазы семейств GH27 (Рис. 1) и GH32.

Крупные семейства белков-гомологов принято подразделять на подсемейства на основе сравнения уровня сходства их аминокислотных последовательностей, однако специальных общих правил тут не существует. Эволюционно родственные семейства часто объединяют в суперсемейства (или кланы). Например, в базе данных Pfam в 206 кланов сгруппированы 1396 семейств.

2. Выяснение доменной структуры белка и выбор исследуемого домена

Для работы необходимо выбрать белок с известной аминокислотной последовательностью. Как правило, молекула белка состоит из нескольких сот аминокислотных остатков. Возможно, что исследуемый белок (или какие-то из его гомологов) образованы несколькими структурными доменами. Вероятность этого резко возрастает с увеличением длины аминокислотной последовательности (один домен обычно не бывает больше 300 аминокислот).

В зависимости от решаемой задачи, может потребоваться:

i. проанализировать филогению какого-то одного из доменов исследуемого белка, например каталитического;

ii. проанализировать все его домены;

iii. проанализировать всё разнообразие доменов, встречающихся у представителей соответствующего семейства белков-гомологов.

Филогенетический анализ каждого из доменов нужно проводить независимо, используя соответствующее множественное выравнивание. Если какие-то два структурных домена образуют общий эволюционный домен, то их филогенетические деревья должны иметь сходную топологию. В такой ситуации имеет смысл построить и общее древо всего эволюционного домена. В других случаях эволюционная история разных доменов, скорее всего, будет существенно различаться, и сопоставление их филогенетических деревьев поможет это проиллюстрировать. Следует отметить, что построение филогенетических деревьев возможно лишь при наличии не менее четырёх представителей анализируемого семейства белков (доменов).

Рисунок 1. Доменная структура белков семейства GH27 гликозил-гидролаз [1].

Большинство белков этого семейства состоят из двух доменов: GH27N и GH27C. Лишь несколько белков содержат только каталитический домен GH27N. Ряд белков также имеют дополнительные домены нескольких типов.

Рисунок 2. Схема, показывающая результат поиска гомологов с помощью программы PSI-BLAST. В качестве запроса был выбран белок, состоящий из трёх гомологичных между собой доменов.

В том случае, когда доменная структура исследуемого белка исходно неизвестна, её можно ориентировочно определить с помощью простого скрининга базы данных аминокислотных последовательностей программой blastp. Если при попарном сравнении аминокислотных последовательностей белка и его гомологов выяснится, что разные фрагменты исследуемого белка проявляют сходство с различными белками и границы между этими фрагментами могут быть достаточно чётко определены, то каждый из этих фрагментов может рассматриваться как отдельный эволюционный домен.

3. Составление списка белков исследуемого семейства

На этом этапе предстоит найти максимально большое количество белков, содержащих домены, гомологичные анализируемому домену. То есть, составить полный список представителей исследуемого семейства. Возможно, что исследуемый белок принадлежит хорошо известному семейству. В этом случае есть хорошие шансы найти в интернете хорошо аннотированный список его представителей. Например, в случае гликозил-гидролаз на сайте CAZy существует подробная классификация этих ферментов, построенная на основе гомологии и содержащая регулярно обновляемые списки представителей каждого из сотни семейств гликозил-гидролаз. В такой ситуации надо только обновить представленный в интернете список белков соответствующего семейства, добавив в него недостающих представителей. Главным образом это будут недавно появившиеся в базах данных белки, которые ещё не успели отнести к конкретным семействам. Если же исследуемый белок относится к малоизвестному семейству, то список его гомологов можно попытаться найти в одной из нескольких глобальных белковых классификаций, примерами которых могут служить базы данных:

o Pfam: http://pfam.wustl.edu/

o COG/KOG: http://www.ncbi.nlm.nih.gov/COG/

o InterPro: http://www.ebi.ac.uk/interpro/

o PUMA2: http://compbio.mcs.anl.gov/puma2/cgi-bin/index.cgi

o HOMSTRAD: http://www-cryst.bioc.cam.ac.uk/homstrad/

o SCOP: http://scop.mrc-lmb.cam.ac.uk/scop/

o CATH: http://www.biochem.ucl.ac.uk/bsm/cath/cath.html

o PIR: http://pir.georgetown.edu/

Возможно, что исследуемый белок принадлежит к ещё не охарактеризованному семейству, в этом случае список его гомологов, придётся составлять самостоятельно "с нуля".

В любом случае, удастся ли найти относительно полный список белков исследуемого семейства или не удастся и придётся начинать с единственного представителя, предстоит провести скрининг одной или нескольких баз данных с помощью программ семейства blast (Basic Local Alignment Search Tool). В простейшем случае можно обойтись программой PSI-BLAST (Position-Specific Iterated BLAST), которая позволит в результате первой своей итерации найти в базе данных аминокислотных последовательностей GenPept достаточно полный список белков данного семейства. Практически исчерпывающий список семейства может быть получен после её второй итерации (дополнительно будут обнаружены наиболее дивергентные представители семейства). Существенную проблему при этом может представлять разграничение представителей исследуемого семейства от белков-гомологов из других семейств. Практика показывает, что в первом приближении представителями одного семейства можно считать белки, выявляемые в результате первой итерации. Для составления более полного списка имеет смысл в качестве запроса (query) для скрининга базы данных использовать несколько разных (желательно максимально дивергировавших) белков анализируемого семейства. Именно поэтому очень полезно исходно иметь хотя бы неполный список представителей данного семейства. Может быть использован список белков, найденных во время первой итерации. Важно не включить ошибочно в исследуемое семейство белки со слишком низким уровнем сходства с исходным белком, использованным в качестве "query". Поэтому в данном случае следует использовать относительно жёсткий статистический порог для разграничения "свои-чужие" (например, E-value < 10-5).

При необходимости найти дополнительное число представителей исследуемого семейства, имеет смысл провести скрининг базы данных нуклеотидных последовательностей GenBank с помощью программ tblastn и Genomic BLAST. Возможно, что некоторые из генов, кодирующих белки исследуемого семейства пока не были обнаружены и аннотированы в уже известных нуклеотидных последовательностях (это в первую очередь касается незавершённых геномных проектов). Однако к полученным таким образом последовательностям надо относится с осторожностью, так как они могут содержать относительно большой процент ошибок, а часть из них может соответствовать псевдогенам.

4. Уточнение списка белков исследуемого семейства

Среди обнаруженных белков исследуемого семейства могут оказаться и посторонние белки. Одной из причин этого является завышенная статистическая оценка сходства последовательностей с вырожденным аминокислотным составом -- эта проблема может быть частично решена путём использования специального фильтра "Low complexity" при скрининге с помощью программ семейства blast. Особого внимания при этом заслуживают белки, имеющие наименьший уровень сходства с остальными членами семейства, а также белки, у которых удаётся выравнить участок, соответствующий лишь части анализируемого домена. Хорошим тестом на принадлежность какого-то конкретного белка (домена) к данному семейству является использование его в качестве запроса при скрининге базы данных аминокислотных последовательностей с помощью программы blastp. Все статистически лучшие результаты скрининга должны соответствовать белкам этого семейства. В противном случае анализируемый белок имеет смысл исключить из дальнейшего рассмотрения.

Среди обнаруженных белков исследуемого семейства почти наверняка имеются очень схожие белки. Например, копии одного и того же белка из разных штаммов одного вида бактерий или аллельные варианты. Для филогенетического анализа семейства такие представители ценности не представляют и подобные дубли желательно удалить на данном этапе. Однако следует помнить, что в одном геноме могут быть закодированы несколько паралогов, аминокислотные последовательности которых существенно отличаются. Поэтому недопустимо формальное удаление белков, относящихся к уже представленному в списке семейства организму. В качестве критерия для удаления очень близких по аминокислотной последовательности белков может служить уровень идентичности от 95% и выше.

5. Множественное выравнивание белков

Множественное выравнивание белков (доменов) одного семейства может быть проведено автоматически, например, с помощью программы ClustalW. Однако такое выравнивание будет близким к оптимальному лишь при высоком уровне идентичности всех анализируемых последовательностей (свыше 50%) и отсутствии в них существенного количества инсерций/делеций. В следующих случаях:

· при уровне идентичности ниже 30%,

· при наличии протяжённых инсерций,

· при наличии факультативных N-концевых участков

Получаемые машинные выравнивания не пригодны для корректного филогенетического анализа и выравнивания следует делать (или редактировать) вручную. В качестве подходящей для этого программы-редактора можно рекомендовать BioEdit. При этом в качестве основы имеет смысл использовать полученные автоматически попарные и/или множественные выравнивания белков.

Рисунок 3. Фрагмент множественного выравнивания аминокислотных последовательностей в программе BioEdit.

После получения множественного выравнивания имеет смысл его внимательно просмотреть. При этом особое внимание следует обратить на белки, имеющие аномальные участки в своей последовательности:

· уникальные только для данного белка делеции,

· локально низкий уровень сходства с остальными белками на высоко консервативном у них участке,

· наличие у двух очень схожих белков существенных локальных различий.

Следует выяснить причины появления таких аномальных участков. Это могут быть ошибки секвенирования (например, локальные сдвиги рамки считывания), ошибочное предсказание экзон-интронной структуры и т.д. Выявленные ошибки следует устранить или соответствующие последовательности вовсе исключить из дальнейшего анализа. Это же касается и белков, не имеющих полноразмерного анализируемого домена (фрагмент белковой последовательности).

На последней стадии из готового множественного выравнивания следует удалить те позиции (столбики аминокислот), которые в большинстве белков соответствуют делециям, а так же наиболее вариабельные позиции, правильность (однозначность) выравнивания в которых вызывает сомнение.

6. Построение филогенетических деревьев анализируемого семейства белков

Полученное множественное выравнивание может быть использовано для построения филогенетических деревьев. Для этого мы рекомендуем воспользоваться, например, программами PROTPARS (Protein Sequence Parsimony method) и NEIGHBOR (Neighbor-Joining method) из пакета PHYLIP, позволяющими проводить бутстреп-анализ. Целесообразно использовать как минимум два разных алгоритма для постройки деревьев одного и того же семейства белков. При этом общие топологические свойства обоих деревьев будут являться более надёжными критериями для выводов о филогенетических взаимоотношениях между соответствующими белками. Бутстреп-анализ позволит оценить статистическую надёжность каждого из узлов построенного древа. Для предварительных выводов вполне достаточно получить по сто псевдореплик для каждого древа, в то время как научные публикации следует иллюстрировать деревьями с 1000 псевдорепликами. Небольшие изменения набора последовательностей и/или числа позиций множественного выравнивания позволят дополнительно проверить устойчивость деревьев. Программа TreeView позволит получить графические изображения построенных деревьев.

7. Выделение подсемейств

Многие семейства белков являются достаточно многочисленными и среди них часто обнаруживаются белки, выполняющие различные биологические функции, например, ферменты с различными биохимическими активностями. Это не позволяет однозначно предсказывать роль экспериментально не исследованных белков на основе уже известных данных для других членов данного семейства. Эта проблема отчасти может быть решена путём разбиения семейств белков-гомологов на подсемейства, объединяющих эволюционно наиболее близкие белки.

Предварительное разбиение семейств белков на подсемейства может быть сделано на основании попарного сравнения последовательностей. При этом выбирается минимальный уровень идентичности аминокислотных последовательностей (в процентах), который будет соответствовать белкам одного подсемейства в пределах анализируемого семейства. Адекватность выбранного уровня оценивается с помощью скрининга базы данных аминокислотных последовательностей с помощью разных представителей одного подсемейства в качестве запросов (query). Во всех случаях наилучшие значения статистической поддержки сходства (E-value) должны иметь только белки данного подсемейства. То есть все они должны идти в списке результатов программы blastp до белков других подсемейств данного семейства. Если такой картины не наблюдается, то целесообразно пересмотреть пороговый уровень отнесения белков данного семейства к одному подсемейству. Результаты, полученные при анализе целого ряда семейств гликозидаз, показали, что для них таким адекватным уровнем является 30% идентичности аминокислотных последовательностей. Однако для других семейств белков этот уровень вполне может быть и иным.

Окончательный вывод о правильности предложенного разделения данного семейства белков на подсемейства должен быть сделан на основе данных филогенетического анализа. В идеальном варианте все подсемейства должны образовывать на древе отдельные кластеры ветвей, то есть являться монофилетическими группами (при выборе в качестве внешней группы любого из подсемейств). Результаты филогенетического анализа могут уточнить предварительно сделанное на основе попарного сравнения аминокислотных последовательностей разделение семейства на подсемейства, пересмотрев положение отдельных "атипичных" представителей. Отдельные подсемейства имеет смысл выделять при наличии не менее двух известных представителей. Одиночные белки, имеющие уровень идентичности со всеми остальными представителями данного семейства ниже пороговой, следует рассматривать как "пока" не принадлежащие ни к одному из известных подсемейств, так в их сиквенсах могут содержаться ошибки (например, локальные сдвиги рамок считывания), приведшие к заниженному уровню идентичности с остальными последовательностями.

Рисунок 4. Филогенетическое древо семейства GH97 гликозидаз, подтверждающее правомерность предложенного разбиения на пять подсемейств. Рисунок иллюстрирует результаты, опубликованные в работе [2].

8. Поиск родственных семейств

Часто оказывается, что в составе какого-то семейства нет ни одно детально исследованного белка. В такой ситуации определённые выводы о структуре и функциях белков этого семейства можно сделать исходя из информации о белках из эволюционно родственных семейств. Например, наличие экспериментальных данных о третичной структуре какого-то белка позволяет предсказать пространственное строение не только других белков того же семейства, но и для представителей родственных семейств.

Для поиска эволюционно родственных семейств белков целесообразно использовать программу PSI-BLAST. В результате своей первой итерации она обычно находит почти исключительно белки данного семейства, а дальнейшие итерации выявляют представителей родственных семейств. В качестве порогового значения E-value для включения последовательности в следующую итерацию имеет смысл использовать 0.01 или 0.001. Итерации стоит проводить до прекращения появления новых белков с заданным уровнем сходства. Белки, найденные в каждой из итераций, надо исследовать на принадлежность к известным или новым семействам. При этом следует учитывать тот факт, что белки могут содержать более одного домена, а также возможность появления среди результатов скрининга базы данных аминокислотных последовательностей и негомологичных белков. Следует ожидать того, что родство двух семейств белков должно быть взаимным, то есть если использование последовательностей белков одного семейства позволяет найти среди гомологов членов второго семейства, то и использование представителей второго семейства должно обнаруживать белки первого.

Рисунок 5. Schematic representations of the evolutionary relationships established using PSI-BLAST. An arrow from family A to family B means that PSI-BLAST analysis of family A produced family B members among significant hits. The numbers x/y associated with each arrow are the number of iterations required to demonstrate each relationship using E-value cut-offs of 0.001 (x) or 0.01 (y). A dash in place of x signifies that the relationship was not apparent at the stricter E-value cut-off and these weaker relationships are shown as dotted lines. Note that not all relationships were demonstrable bidirectionally.

Рисунок и подпись к нему воспроизведены из работы [3].

В качестве примера исследования, где были предложены конкретные статистические критерии для объединения группы родственных семейств в один клан можно привести работу [4]. Однако общепринятой точки зрения по этому вопросу не существует.

9. Другие методы анализа семейств белков-гомологов

В процессе анализа семейства белков-гомологов в качестве составной части исследования можно выявить характерные для семейства в целом или для отдельных образующих его подсемейств консервативные паттерны аминокислотных остатков. Наличие такого паттерна (консенсуса) в аминокислотной последовательности белка может быть основанием для выяснения его возможного отнесения к соответствующему семейству (или подсемейству). Также могут представлять интерес характерные позиции в аминокислотных последовательностях, которые позволяют различать представителей разных подсемейств. Поиск консервативных позиций во множественном выравнивании у выбранной группы последовательностей может быть автоматически проведён с помощью программы BioEdit. Использование таких критериев для отнесения белка к ранее известному подсемейству может быть обосновано, если имеется лишь сравнительно короткий фрагмент аминокислотной последовательности, не позволяющий проведения филогенетического анализа.

Исследование белкового семейства также может включать предсказание и дальнейшее сравнение вторичных и третичных структур его членов, как между собой, так и с представителями родственных семейств.

Заключение

Результаты филогенетического анализа могут быть опубликованы в виде отдельной статьи, посвящённой эволюции определённого белкового семейства. Примером таких работ могут служить статьи [1] и [2]. В других случаях филогенетический анализ является лишь составной частью более масштабного исследования. Он может проводиться на начальном этапе работы, предшествуя постановке экспериментальной задачи. Это позволит более адекватно выбрать конкретного представителя интересующего белкового семейства для более подробного изучения:

· предсказать его трёхмерную структуру и доменную организацию,

· предсказать строение активного центра и наметить мишени для сайт-направленного мутагенеза,

· предсказать возможные энзиматические активности.

Филогенетический анализ может быть проведён и на заключительном этапе исследования, позволяя определить место обнаруженного и исследованного белка в иерархической системе ранее известных белков. В такой ситуации филогенетическое древо, показывающее положение исследованного белка может стать хорошей иллюстрацией для статьи или диссертации. Филогенетическое древо каждого домена имеет смысл сравнить с эволюционном древом организмов-хозяев, что позволит сделать вывод о характере эволюции доменов: какую роль в ней играли дупликация, потеря и слияние генов, а также их горизонтальные переносы.

Список литературы

1. Наумов Д.Г. 2004. Филогенетический анализ б-галактозидаз семейства GH27. Молекулярная биология. Т.38. N.3. С.463-476. Abstract; PDF

2. Naumoff DG. 2005. GH97 is a new family of glycoside hydrolases, which is related to the б-galactosidase superfamily. BMC Genomics. V.6. Art.112. Abstract; PDF

3. Rigden DJ. 2002. Iterative database searches demonstrate that glycoside hydrolase families 27, 31, 36 and 66 share a common evolutionary origin with family 13. FEBS Lett. V.523. N.1-3. P.17-22. Abstract; PDF

4. Finn RD, Mistry J, Schuster-Bockler B, Griffiths-Jones S, Hollich V, Lassmann T, Moxon S, Marshall M, Khanna A, Durbin R, Eddy SR, Sonnhammer ELL and Bateman A. 2006. Pfam: clans, web tools and services. Nucleic Acids Research. V.34. Database issue. D247-D251. Abstract; PDF


Подобные документы

  • Аминокислотный состав белков в организмах, роль генетического кода. Комбинации из 20 стандартных аминокислот. Выделение белков в отдельный класс биологических молекул. Гидрофильные и гидрофобные белки. Принцип построения белков, уровень их организации.

    творческая работа [765,3 K], добавлен 08.11.2009

  • Белки как источники питания, их основные функции. Аминокислоты, участвующие в создании белков. Строение полипептидной цепи. Превращения белков в организме. Полноценные и неполноценные белки. Структура белка, химические свойства, качественные реакции.

    презентация [896,5 K], добавлен 04.07.2015

  • Физические, биологические и химические свойства белков. Синтез и анализ белков. Определение первичной, вторичной, третичной и четвертичной структуры белков. Денатурация, выделение и очистка белков. Использование белков в промышленности и медицине.

    реферат [296,5 K], добавлен 10.06.2015

  • Белок – неотъемлемая составляющая нашего организма, нарушение которой может вызвать его разрушение. Исторический анализ открытия и исследований белков. Свойства белка, выделение. Биосинтез и химический синтез белка - практическое применение и значение.

    реферат [23,5 K], добавлен 18.05.2008

  • Белки (протеины) – высоко молекулярные, азотосодержащие природные органические вещества, молекулы которых построены из аминокислот. Строение белков. Классификация белков. Физико-химические свойства белков. Биологические функции белков. Фермент.

    реферат [4,0 M], добавлен 15.05.2007

  • Физические и химические свойства, цветные реакции белков. Состав и строение, функции белков в клетке. Уровни структуры белков. Гидролиз белков, их транспортная и защитная роль. Белок как строительный материал клетки, его энергетическая ценность.

    реферат [271,2 K], добавлен 18.06.2010

  • Структура молекулы тайтина. Структура и функции молекул С-белка, Х-белка и Н-белка. Белки семейства тайтина в норме, при адаптации и патологии. Амилоидозы. Современные представления о строении, формировании амилоидных фибрилл. Патологические проявления.

    дипломная работа [975,8 K], добавлен 15.12.2008

  • Изучение кодирования аминокислотной последовательности белков и описание процесса синтеза белка в рибосомах. Генетический код и синтез рибонуклеиновой кислоты. Построение цепи матричной РНК и синтез протеина. Трансляция, сворачивание и транспорт белков.

    реферат [3,5 M], добавлен 11.07.2015

  • История исследования белков. Белки: строение, классификация, обмен. Биосинтез белка. Функции белков в организме. Роль в жизнедеятельности организма. Высокомолекулярные органические соединения. Болезни, связанные с нарушением выработки ферментов.

    реферат [29,2 K], добавлен 05.10.2006

  • Электрофоретическая подвижность белка, влияющие факторов и условия электрофореза. Сущность метода полного разделения сложной смеси белков. Извлечение белков из геля после электрофореза. Гели агарозы и их применения. Влияние вторичной структуры ДНК.

    реферат [37,9 K], добавлен 11.12.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.