Биоинформатика в селекции растений: типы баз данных, основные этапы биоинформатического проекта

Понятие и история развития биоинформатики, ее назначение и подходы к обработке данных, роль и значение в генетике растений. Механизм определения и выравнивания биологических последовательностей. Точечная матрица сходства. Структура генетических карт.

Рубрика Сельское, лесное хозяйство и землепользование
Вид контрольная работа
Язык русский
Дата добавления 01.11.2016
Размер файла 27,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Биоинформатика в селекции растений: типы баз данных, основные этапы биоинформатического проекта

Введение

генетика биоинформатика растение

Главное значение биоинформатики - способствовать пониманию биологических процессов. Отличие биоинформатики от других подходов состоит в том, что она фокусируется на создании и применении интенсивных вычислительных методов для достижения этой цели.

Биоинформатика стала важной частью многих областей биологии. В экспериментальной молекулярной биологии методы биоинформатики, такие как создание изображений и обработка сигналов позволяют получать полезные результаты из большого количества исходных данных. В области генетики и геномики, биоинформатика помогает в упорядочивании и аннотировании геномов и наблюдаемых мутаций. Она играет роль в анализе данных из биологической литературы и развитии биологических и генетических онтологии по организации и запросу биологических данных. Она играет роль в анализе гена, экспрессии белка и регуляции. В общем виде, она помогает анализировать и каталогизировать биологические пути и сети, которые являются важной частью системной биологии. В структурной биологии, она помогает в симуляции и моделировании ДНК, РНК и белковых структур а также молекулярных взаимодействий

1. Что такое биоинформатика

совокупность методов и подходов, включающих в себя:

Ш математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика).

Ш разработка алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика).

Ш исследование стратегий, соответствующих вычислительных методологий, а также общее управление информационной сложности биологических систем

В биоинформатике используются методы прикладной математики, статистики и информатики.

Наиболее часто используемыми инструментами и технологиями в этой области являются языки программирования Java, C#, Perl, C, C++, Python, R; язык разметки - XML; базы данных - SQL; программно-аппаратная архитектура параллельных вычислений - CUDA; пакет прикладных программ для решения задач технических вычислений и одноимённый язык программирования, используемый в этом пакете - MATLAB, и электронные таблицы.

1.1 Особенности биоинформационных данных

Первая особенность состоит в том, что данные стали не только количественными, но и более точными. (расшифровать геномную последовательность организма стало возможно не только полностью, но и точно.)

Вторая особенность биоинформационных данных - это их огромное количество

1.2 Цели биоинформатики

Ш организовать данные таким образом, чтобы исследователи имели доступ к текущей информации, хранящейся в базах данных, и могли вносить в неё новые изменения по мере получения новых сведений.

Ш развивать программные средства и информационные ресурсы, которые помогают в управлении данными и в их анализе.

Ш Применять средства для анализа данных и интерпретации таким образом, чтобы они имели биологический смысл

1.3 Задачи биоинформатики

Ш Обнаружить гены в последовательностях ДНК разных организмов

Ш Развивать методы изучения структуры и / или функции новых расшифрованных последовательностей и соответствующих структурных областей РНК

Ш Определять семейства родственных последовательностей и строить модели

1.4 Основное ПО

ACT (Artemis Comparison Tool) - геномный анализ

BioEdit - редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей

BLAST - поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей

Clustal - множественное выравнивание нуклеотидных и аминокислотных последовательностей

DnaSP - анализ полиморфизма последовательностей ДНК

JalView - редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей

Mesquite - программа для сравнительной биологии на языке Java

Muscle - множественное сравнение нуклеотидных и аминокислотных последовательностей. Более быстрая и точная по сравнению с ClustalW

PAUP - филогенетический анализ с использованием метода парсимонии (и других методов)

PHYLIP - пакет филогенетических программ

Phylo_win - филогенетический анализ. Программа имеет графический интерфейс.

Populations - популяционно-генетический анализ

PSI Protein Classifier - обобщение результатов, полученных с помощью программы PSI-BLAST

Seaview - филогенетический анализ (с графическим интерфейсом)

Sequin - депонирование последовательностей в GenBank, EMBL, DDBJ

SPAdes - сборщик бактериальных геномов

SplitsTree

T-Coffee - множественное прогрессивное выравнивание нуклеотидных и аминокислотных последовательностей. Более чувствительное, чем в ClustalW/ClustalX.

UGENE - свободный русскоязычный инструмент, множественное выравнивание нуклеотидных и аминокислотных последовательностей, филогенетический анализ, аннотирование, работа с базами данных.

Velvet - сборщик геномов

ZENBU - обобщение результатов

2. Методы

2.1 Распознавание образов

Распознавание образов - это отнесение исходных данных к определенному классу с помощью выделения существенных признаков, характеризующих эти данные, из общей массы несущественных данных.

Классическая постановка задачи распознавания образов: Дано множество объектов. Относительно них необходимо провести классификацию. Множество представлено подмножествами, которые называются классами. Заданы: информация о классах, описание всего множества и описание информации об объекте, принадлежность которого к определенному классу неизвестна. Требуется по имеющейся информации о классах и описании объекта установить - к какому классу относится этот объект.

2.2 Data minig (добыча данных)

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).

Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий достаточного размера базы данных.

Задачи, решаемые методами Data Mining, принято разделять на описательные (англ. descriptive) и предсказательные (англ. predictive).

В описательных задачах самое главное - это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет

К описательным задачам относятся:

Ш поиск ассоциативных правил или паттернов (образцов);

Ш группировка объектов, кластерный анализ;

Ш построение регрессионной модели.

Ш К предсказательным задачам относятся:

классификация объектов (для заранее заданных классов);

регрессионный анализ, анализ временнымх рядов.

Использование алгоритмов Data Mining

Перед использованием алгоритмов Data Mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объём, чтобы эти закономерности в них присутствовали, а с другой - быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных.

Далее данные очищаются. Очистка удаляет выборки с шумами и пропущенными данными.

Очищенные данные сводятся к наборам признаков (или векторам, если алгоритм может работать только с векторами фиксированной размерности), один набор признаков на наблюдение. Набор признаков формируется в соответствии с гипотезами о том, какие признаки сырых данных имеют высокую прогнозную силу в расчете на требуемую вычислительную мощность для обработки

3. Биоинформационные данные

3.1 Обработка и сохранение

Последовательность ДНК хранится и обрабатывается в компьютере в виде ряда 8-битовых слов в двоичном формате. Белковая последовательность представлена как ряд 8-битовх слов, состоящих из буквенных обозначений аминокислот в двоичной форме.

Информацию о последовательности ДНК или белка записывают в текстовый файл в стандартном формате ASCII или в формате программы FASTA (быстрое выравнивание)

Файл данных в формате FASTA включает в себя строку-титр (заголовок) и строки данных о последовательности. Описание последовательности следует за строкой-титром, в начале которой стоит «>».Первое слово в этой строке-название последовательности, далее идет описание последовательности. Остальные строки содержат саму последовательность. При чтении файла данных программа FASTA игнорирует пустые строки, а так же все знаки пробелов или пропусков в последовательности. Файл, объединяющий в себе множество последовательностей, построен по тому же принципу-строки, содержащие описание последовательностей идут друг за другом.

3.2 Базы данных

Первый тип - архивные базы данных. К таким базам относятся

Ш GeneBank & EMBL - здесь хранятся первичные последовательности

Ш PDB - пространственные структуры белков, и многое другое.

Второй тип - курируемые базы данных, за достоверность которых отвечает хозяева базы данных. Туда информацию никто не присылает, ее из архивных баз данных отбирают эксперты, проверяя достоверность информации - что записано в этих последовательностях, какие есть экспериментальные основания для того, чтобы считать, что эти последовательности выполняют ту или иную функцию.

К базам данных такого типа относятся:

Ш Swiss - Prot - наиболее качественная база данных, содержащая аминокислотные последовательности белков

Ш KEGG - информация о метаболизме

Ш FlyBase - информация о Drosophila

Ш COG - информация об ортологичных генах.

Ш Поддержание базы требует работы кураторов или аннотаторов.

Третий тип - производные базы данных. Такие базы получаются в результате обработки данных из архивных и курируемых баз данных. Сюда входит:

Ш SCOP - База данных структурной классификации белков (описывается структура белков)

Ш PFAM - База данных по семействам белков

Ш GO (Gene Ontology) - Классификация генов (попытка создания набора терминов, упорядочивания терминологии, чтобы один ген не назывался по разному, и чтобы разным генам не давали одинаковые названия)

Ш ProDom - белковые домены

Ш AsMamDB - альтернативный сплайсинг у млекопитающих

Ш NCBI Entrez - доступ к информации о нуклеотидных и аминокислотных последовательностях и структурах

Ш Ecocyc - все о E. coli - гены, белки, метаболизм и пр.

4. Биологические последовательности

4.1 Выравнивание биологических последовательностей

Выравниванием (alignment) последовательностей азотистых оснований в нуклеиновых кислотах или аминокислот в полипептидных цепях белков называют определение взаимного соответствия остатков (нуклеиновых оснований или аминокислотных остатков, соответственно) в этих двух или нескольких последовательностях, при котором сохраняется исходный порядок остатков в последовательностях.

Выравнивание последовательностей - это основной инструмент биоинформатики, его проводят с целью установления структурных, функциональных и эволюционных отношений между последовательностями.

Выравнивание последовательностей - это процедура сравнения двух (попарное выравнивание) или нескольких (множественное выравнивание) последовательностей путём поиска рядов отдельных элементов или характерных комбинаций элементов последовательностей, которые расположены в выравниваемых последовательностях в одинаковом порядке. При выравнивании двух последовательностей их помещают в две строки друг над другом, записывая их с помощью букв алфавита. Идентичные или подобные «буквы» (элементы) этих строк (последовательностей) сдвигают в пределах строки (не меняя исходного порядка следовании «знаков») таким образом, чтобы они выстраивались друг под другом в соответствующих столбцах. Неидентичные, или различные знаки либо помещают в одни и те же столбцы как несовпадения, либо вставляют напротив них во второй последовательности пропуски.

Одна из целей выравнивания последовательностей состоит в том, чтобы определить степень подобия двух последовательностей и, если она достаточно высока, сделать правдоподобное заключение об их гомологичности.

4.2 Точечная матрица сходства

Точечная матрица (dot plot) - это простейшее изображение, которое даёт представление о сходстве между двумя последовательностями.

Точечная матрица сходства (или совпадений) представляет собой таблицу или матрицу, в которой строки соответствуют элементам одной последовательности, а колонки - элементам другой последовательности.

В простейшем варианте ячейки точечной матрицы оставляют пустыми, если сравниваемые элементы различны, и заполняются, если они совпадают. Совпадающие фрагменты последовательностей отображаются в виде диагоналей, идущих из верхнего левого угла в нижний правый.

5. Биоинформационный анализ, применение в селекции

5.1 Геномика

Предметом геномики является развитие и применение методов молекулярной картографии и секвенирования, а также методов описания, расшифровки и анализа целых геномов организмов и полных наборовгенных продуктов.

Под геномом организма понимают суммарную ДНК гаплоидного набора хромосом и каждого из внехромосомных генетических элементов, содержащуюся в отдельной клетке зародышевой линии многоклеточного организма. Анализ полных геномов даёт информацию о глобальной организации, экспрессии, регулировании и эволюции наследственных материалов.

Разделяют структурную, функциональную и сравнительную геномику.

Структурная геномика занимается составлением генетических и физических карт, а также расшифровкой полных геномов.

Генетические карты служат исходным материалом для построения физических карт и карт последовательностей с более высоким разрешением и, кроме того, указывают молекулярные точки входа приклонировании генов

Физические карты дают представление о том, как именно клоны из библиотек геномных клонов распределены в целом геноме. Они обеспечивают информацию для позиционного клонирования. Последовательности ДНК генома необходимы при описании функций всех генов, включая экспрессию и регуляцию генов.

Функциональная геномика занимается общим изучением структуры, картин экспрессии, взаимодействий и регуляции молекул РНК и белков, кодируемых геномом. Это всесторонний функциональный анализ генов и не содержащих гены последовательностей, проводимый на уровне целых геномов.

Сравнительная геномика рассматривает методы сравнения полных геномов различных биологических видов с целью определения функций каждого гена, а также эволюционных связей организмов-носителей этих геномов

5.2 Биоинформационные проекты

1-обследуют несколько экземпляров растений с имеющимся признаком, чтобы узнать, с какими другими признаками он связан (порядок определения нуклеотидов)

2-Гены любых признаков, имеющих тенденцию наследоваться вместе с искомым с большой долей вероятности могут быть локализованы на одной хромосоме рядом с генами искомого признака, Их выбирают в качестве маркеров для искомого гена. Определив несколько маркеров с известным расположением на хромосоме, можно с большой точностью (до нескольких миллионов п.о.) установить расположение нужного нам гена (работа с генетичексими картами)

Секвенирование

Секвенирование биополимеров (белков и нуклеиновых кислот - ДНК и РНК) - определение их аминокислотной или нуклеотидной последовательности В результате секвенирования получают формальное описание первичной структуры линейной макромолекулы в виде последовательности мономеров в текстовом виде. Размеры секвенируемых участков ДНК обычно не превышают 100 пар нуклеотидов (next-generation sequencing).В результате секвенирования перекрывающихся участков ДНК, получают последовательности участков генов, целых генов, тотальной мРНК и даже полных геномов организмов

Секвенирование ДНК по методу дидезокси-терминации цепи, предложенному Сангером, начинается с денатурации двойной спирали ДНК-фрагмента для того, чтобы получить одиночные матричные нити для синтеза ДНК in vitro. Синтетический олигодезоксинкулеотид используется в качестве праймера для четырёх независимых реакций полимеризации, каждая с использованием малой концентрации одного из четырёх ддНТФ в допол-нение к высокой концентрации нормальных дНТФ) В каждой из реакций ддНТФ случайным образом присоединяется к растущей цепи ДНК в позиции соответствующего дНТФ, прекращая дальнейшую полимеризацию в данной позиции. В каждой из четырёх реакционных смесей синтезируется набор фрагментов ДНК разной длины: с общим началом и концами в определённых (одного и того же вида, но стоящих в разных позициях последовательности) основаниях. Полученную в каждой реакции смесь укороченных фрагментов денатурируют и анализируют методом гель-электрофореза. Дидезокси-метод секвенирования ДНК полностью автоматизирован. Каждую реакционную смесь метят специфической флуоресцентной меткой (или на праймере, или на субстрате одного из нуклеотидов.

Таким методом набор фрагментов ДНК разделяется по размеру.

Разрешающая способность метода PAGE позволяет разделять полинук леотиды при разнице длин всего лишь в один остаток. Около конца дорожек сканер (фотодетектор) считывает флуоресцентную метку с проходящего мимо фрагмента ДНК, и эта информация преобразуется в данные сопоставления дорожек, представленные в виде графика, построенного из группы цветных пиков, соответствующих определённым основаниям

Генетические карты

Генетическая карта - это изображение относительных расстояний между генами, оцениваемых на основании измеренных частот рекомбинации этих генов.

Составление генетических карт - это процесс установления принадлежности генов к определённым хромосомам и приписывания им генетических расстояний относительно других (уже известных) генов. Генетические карты геномов строят по данным генетических скрещиваний. Генетические скрещивания позволяют установить местоположения генетических маркеров на хромосомах и определить генетическое расстояние между ними.

Генетический маркер - это участок ДНК с известной локализацией. Им может служить аллель с известной локализацией, определяющая какой-либо признак; отличительный морфологический признак какой-либо хромосомы, напри-мер, перетяжка (морфологический маркер); полиморфные фрагменты ДНК (молекулярные маркеры). Генетические маркеры служат опорными точками для картирования генов.

На генетической карте каждая хромосома в зависимости от длины имеет свой порядковый номер. Самая длинная в гаплоидном наборе хромосом обозначена как первая, остальные получают порядковые номера по мере уменьшения их длины. Каждая хромосома обозначена в виде прямой линии, на которой черточками указанно местоположение тех или иных генов, или локус гена. Около черточки цифрами показано число морганид от начала хромосомы до данного локуса и буквенными символами обозначен находящийся в нём ген. За начало хромосомы принят конец левого короткого плеча хромосомы. Для обозначения гена используют первые одну две буквы латинского или английского названия признака, определяемого геномом. Если признак доминантный, его обозначают прописной буквой, На генетической карте гены в хромосоме располагаются не в зависимости от линейного расстояния между ними, а в зависимости от частоты кроссинговера между их локусами.

5.3 Значение в генетике растений

Геномы растений очень разнообразны по размерам, что связано с различиями в числе хромосом, плоидностью и наличием протяженных межгенных повторяющихся последовательностей. Эти особенности структурной организации хромосом растений существенно затрудняют состыковку секвенированных фрагментов ДНК в последовательно расположенные блоки (контиги) при построении полных физических карт хромосом. Однако установлено, что у таксономически близких видов растений наблюдается высокая степень консерватизма в составе генов, их линейном расположении и ориентации в хромосомах. Поэтому сравнив вновь полученные сегменты геномов с гомологичными сегментами какого-либо стандартного секвенированного генома (например, Arabidopsis thaliana) можно получить информацию о структурно-функциональной организации геномов.

Информацию о характере функционирования генома можно получить с помощью анализа баз данных кДНК и EST (частично секвенированных последовательностей кДНК) Получение EST и кДНК осуществляется на основе мРНК. В качестве источника мРНК используются разные части растений или культуры клеток. Анализируют функции генов растений, выращенных в определенных условиях (при воздействии стрессовых факторов, высоких и низких температур, разных условий освещения) или растений, находящихся на определенных стадиях развития. Поэтому, при наличии представительных баз данных по частоте встречаемости EST, соответствующих одному и тому же гену, можно судить о специфичности генной экспрессии. Сравнение баз данных EST разных видов растений позволяет выявлять гены, контролирующие особенности метаболизма, как общие, так и специфические для разных видов. Например, по данным 2007 года база Sputnik (http://mips.gsf.de/proj/sputnik/) содержит сведения о 4 млн. EST из 65 видов растений.

Размещено на Allbest.ru


Подобные документы

  • Формы проявления болезней растений, их симптомы и основные причины. Типы бактериозов и борьба с ними. Характерная особенность базидиомицетов, механическая и химическая природа антропогенных болезней растений и их роль. Биологические меры защиты растений.

    контрольная работа [45,5 K], добавлен 14.07.2010

  • Роль улучшение роста культурных растений для повышения их конкурентоспособности. История развития биологических методов борьбы с вредителями и сорняками. Понятие устойчивости растений к насекомым-вредителям, сущность химических и физических барьеров.

    доклад [31,8 K], добавлен 11.12.2011

  • Устойчивость к вредным организмам в агроэкосистемах по мере развития земледелия и селекции. Типы устойчивости растений к вредным организмам в агроэкосистемах. Методология систем земледелия. Приемы сохранения устойчивости сортов к вредным организмам.

    реферат [22,4 K], добавлен 12.07.2010

  • Исследование инфекционных болезней и поражения насекомыми-фитофагами растений, восприимчивых к патогенным организмам и вредителям. Описания селекции растений, выведения новых сортов с высокой и устойчивой урожайностью, скрещивания и получения мутаций.

    реферат [246,3 K], добавлен 20.07.2011

  • Роль живых растений в жизни и здоровье человека, их санитарное значение, борьба с производственными и уличными шумами. Общая характеристика вечнозеленых растений, их особенности и отличительные черты. Приемы при выращивании комнатных растений, их виды.

    реферат [19,5 K], добавлен 17.02.2009

  • Основные направления в интегрированной системе защиты растений как средство повышения урожайности сельскохозяйственных культур. Роль интегрированной защиты растений в охране окружающей среды. Классификация методов, принципы проведения защиты растений.

    реферат [19,7 K], добавлен 23.03.2012

  • Достоинства агротехнического метода защиты растений. Современная классификация, симптомы (типы) болезней растений. Общий признак инфекционных болезней. Патофизиологические (физиологические и биохимические) изменения, возникающие под влиянием патогена.

    реферат [24,9 K], добавлен 12.07.2010

  • Инфекционные болезни и патофизиологические изменения растений. Грибы как возбудители болезней растений. Болезни, связанные с неблагоприятным условиям питания калием, кальцием, железом и микроэлементами. Основные методы защиты растений от болезней.

    реферат [870,0 K], добавлен 14.07.2010

  • Правила отбора средних образцов из партии семян. Создание, приемы использования, экономическая эффективность культурных сенокосов и пастбищ. Кукуруза, ее значение и питательная ценность. Особенности биологии люцерны посевной. Методы селекции растений.

    контрольная работа [32,5 K], добавлен 07.10.2013

  • Определение понятия и функций селекции в современном сельском хозяйстве. Рассмотрение генетического процесса появления мутаций. Изучение особенностей эффекта гетерозиса. Применение основных методов клеточной инженерии в селекции растений и животных.

    презентация [898,2 K], добавлен 11.05.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.