Основы корреляционного анализа в биометрии
Применение статистических методов изучения живых организмов. Определение перспектив использования биометрического метода. Функциональная зависимость и корреляция в биометрических исследованиях. Рассмотрение примеров корреляционных зависимостей.
Рубрика | Математика |
Вид | реферат |
Язык | русский |
Дата добавления | 16.03.2021 |
Размер файла | 357,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Оглавление
Введение
1. Корреляции. Положительная и отрицательная корреляция
2. Связь корреляции по форме
3. Ложная корреляция
4. Множественная корреляция
Заключение
Библиографический список
Введение
У истоков биометрии стоял Фрэнсис Гальтон (1822 - 1911гг.). Первоначально Гальтон готовился стать врачом. Однако, обучаясь в Кембриджском университете, он увлекся естествознанием, метеорологией, антропологией, наследственностью и теорией эволюции. В его книге, посвященной природной наследственности, изданной в 1889 году, им впервые было введено в употребление слово biometry; в это же время он разработал основы корреляционного анализа. Гальтон заложил основы новой науки и дал ей имя.
Однако превратил её в стройную научную дисциплину математик Карл Пирсон (1857 - 1936гг.). В 1884 году Пирсон получил кафедру прикладной математики в Лондонском университете, а в 1889 году познакомился с Гальтоном и его работами. Пирсон в 1898 г. разработал основы множественной регрессии. В 1903 г. разработал основы теории сопряженности признаков, а в 1905 г. опубликовал основы нелинейной корреляции и регрессии
Основная задача биометрии - науки о применении статистических (математических) методов изучения живых организмов заключается в получении комплекса параметров и коэффициентов, характеризующих членов изучаемой группы по одному или нескольким признакам. В биометрии такой массовый материал называется генеральной совокупностью, которая и составляет цель изучения.
Биометрия позволяет систематизировать и обрабатывать числовые данные, получаемые при изучении биологических объектов в условиях экспериментов, а также при обобщении производственных первичных записей, проводимых в животноводстве или других отраслях сельского хозяйства. Особенно большие перспективы для использования биометрического метода даёт племенная документация, обобщение которой позволяет решать ряд вопросов племенного дела, селекции и генетического анализа.
1. Понятие о корреляции
Функциональная зависимость и корреляция
Методы анализа биологических данных дают возможность изучать вариацию по каждому отдельному признаку. Вместе с тем, биологические объекты характеризуются многообразием признаков. Например, организмы можно характеризовать возрастом, весом, размерами и т.д. При этом описываемые признаки часто бывают взаимообусловлены. Например, чем старше организм, тем большими размерами он характеризуется. В простейшем случае связь между переменными строго однозначна. Например, вес древесины одного вида полностью определяется ее объемом. Такого рода зависимость называют функциональной, когда каждому значению независимой переменной соответствует вполне определенное значение зависимой.
Для биологических объектов нередко связь между их характеристиками бывает менее «жесткой»: объекты с одинаковыми значениями одного признака имеют, как правило, разные значения по другим признакам. Такую связь между вариациями разных признаков называют статистической: для такой связи характерно то, что с изменением значения одной переменной меняется распределение другой. Разновидностью статистической связи является корреляция: с изменением значения одной переменной меняется среднее значение другой.
Взаимная связь (взаимная зависимость) двух признаков при их изменчивости, т. е. сопряженность их вариации, называется корреляцией. Корреляция имеет место в тех случаях, когда признаки изменяются не автономно, а согласованно. Если с увеличением одного признака происходит соответствующее увеличение другого, говорят о положительной корреляции, и коэффициент корреляции имеет в этом случае положительный знак (+). Если же по мере увеличения первого признака второй уменьшается, то это отрицательная корреляция, коэффициент корреляции пишется со знаком минус (?). Полная положительная корреляция выражается единицей r = 1, полная отрицательная r = ?1. В природе такая ситуация встречается редко, и степень связи выражается той или иной долей единицы. При этом о тесной (сильной) корреляции обычно говорят в тех случаях, когда коэффициент корреляции не ниже ±0,6; значения ниже ± 0,6 указывают на среднюю связь, а ниже ±0,3 - на слабую.
Коэффициент корреляции призван численно выражать долю сопряженной вариации двух признаков в общей их вариации:
Например, для любого животного можно определить массу (M) и длину (L) тела; отдельная варианта будет нести два значения (L, M). При этом множество вариант выборки можно отобразить графически как точки на плоскости осей двух признаков M и L. Вся выборка предстанет в виде множества точек на плоскости (двумерное рассеяние). Как видно на диаграмме (рис. 1), «облако» вариант вытянуто в направлении диагонали облака точек. Справа вверху находятся варианты с высокими значениями и размеров и массы тела, в левом нижнем углу - с наименьшими значениями. В центре расположены варианты с промежуточными, средними значениями.
Рис. 1 Область рассеяния вариант
В двумерном распределении проявляются два эффекта: синхронное изменение двух признаков и размывание этой синхронности, т. е. действие факторов сопряжения признаков вдоль оси эллипса и действие случайных факторов - поперек нее.
Рис. 2 Двумерное распределение
2. Связь корреляции по форме
По форме связь может быть прямолинейной (линейной), которая аналитически и графически выражается прямой линией, и криволинейной (нелинейной).
Определить, существует ли связь между переменными и является ли она линейной, прямой или обратной, проще всего по диаграмме рассеяния, или корреляционной решетке. Это график, отражающий взаимное расположение вариант в корреляционном поле. По оси абсцисс откладывают значения одной переменной, по оси ординат - другой. В графическом поле координат каждой паре значений будет соответствовать одна точка. Их совокупность - корреляционное поле, по его форме можно судить о характере связи (рис. 3).
Линейная связь является полной, если все точки на диаграмме рассеяния лежат на прямой; сильной или тесной, если облако точек прилегает к прямой достаточно близко; слабой, если облако точек по отношению к прямой широко разбросано.
а) линейная положительная; б) линейная отрицательная;
в) нелинейная; г) отсутствует связь;
Рис. 3 Корреляции между значениями X и У.
3. Ложная корреляция
Когда величина коэффициента корреляции определяется в первую очередь способом подбора вариант в выборку, а не реальной зависимостью между изучаемыми признаками, то говорят о «ложной корреляции».
Величина коэффициента корреляции зависит от вытянутости эллипса рассеяния: чем больше длина главной оси эллипса отличается от сечения, тем выше значение коэффициента. Случайные единичные, а тем более парные значения могут резко повысить показатель силы связи признаков. Особенно чувствителен коэффициент корреляции к нулям, которые могут попасть в исходную матрицу при переносе данных между электронными таблицами.
Явление ложной корреляции возникает и в том случае, когда исследуемые показатели имеют в сумме постоянное значение, например 100%. Рассмотрим соотношение численности грызунов и насекомоядных в разных биотопах (табл. 1). Представители и первого, и второго отрядов чаще встречаются в коренных хвойных лесах, нежели в антропогенных стациях, тем более в агроценозах. Синхронность их реакции на трансформацию ландшафтов выражается высоким коэффициентом корреляции их численности r = 0,85.
Таблица 1
Если же оценить зависимость между долей грызунов (Рг = Nг/Nо) и долей бурозубок (Рб = Nб/Nо) в этих стациях (между индексами доминирования), она составитr = ?1,00. Дело в том, что эти показатели рассчитываются относительно общей суммы, поэтому доля полевок составляет разницу между 1 и долей бурозубок: Рг = 1?Рб. По существу, мы имеем уравнение строго функциональной обратной регрессии (у = 1?1•х), которому соответствует, естественно, максимальный отрицательный коэффициент корреляции. Требование неизменности суммы двух показателей (1 или 100%), принятое для вычисления процентов, оказывается причиной постоянной обратной пропорции между этими показателями. Такая корреляция должна быть названа ложной, потому что характеризует не биологическую зависимость показателей, а способ их расчета. Когда общую сумму образуют три и более признаков, ложная корреляция будет отличаться от r = ?1, но от этого не утратит своей природы математического артефакта.
4. Множественная корреляция
корреляционный статистический биометрический зависимость
Разобранные выше примеры корреляционных зависимостей касались главным образом взаимосвязи двух сопряженных процессов, явлений или варьирующих признаков. Между тем в практике биологических исследований нередко приходится сталкиваться с более сложными случаями, например, когда сопряжены не два, а три или более изменчивых фактора (признака). В такой ситуации возникает необходимость изучить множественные связи между большим числом взаимодействующих переменных, выступающих как в виде целой системы коррелированных признаков организма, так и в форме совместного влияния сложной совокупности факторов на определенное явление. Корреляционная зависимость нескольких переменных носит название множественной корреляции и оценивается коэффициентом, определяемым на основе корреляций между всеми парами признаков. Например, коэффициент множественной корреляции между тремя признаками А, В и С вычисляется по формуле:
Полученная величина характеризует связь первого признака (A) с двумя другими (B и C). Покажем этот способ на примере совокупного действия двух факторов, В и С (температуры и влажности), на суточную активность травяных лягушек (A). Определение парных корреляций дало следующие результаты (n= 110):rАB = +0,58; rАC = +0,80; rBC= ?0,45.
Отсюда
= 0,86
Сводный коэффициент корреляции оказался довольно высоким и, как показывает его сопоставление со стандартным значением, вполне достоверным.
Заключение
Корреляционная связь - это согласованные изменения двух признаков или большего количество признаков (множественная корреляционная связь). Корреляционная связь отражает тот факт, что изменчивость одного признака находиться в некотором соответствии с изменчивостью другого.
Данный метод обработки статистических данных весьма популярен в биометрии, экономике, астрофизике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.
Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.
Библиографический список
1. Бейли Н. Статистические методы в биологии. М.: Мир, 2010. 208 с.
2. Браунли К.А. Статистическая теория и методология в науке и технике. М.: Наука, 2009. 256 с.
3. Гроссман С., Терней Дж. Математика для биологов. М.: Высшая школа, 2011. 325 с.
4. Животовский Л.А. Популяционная биометрия. М.: Наука, 2010. 310 с.
5. Зайцев Г.Н. Математика в экспериментальной ботанике. М.: Наука, 2013. 198 с.
6. Лакин Г.Ф. Биометрия. М.: Высшая школа, 2012. 352 с.
7. Меркурьева Е.К. Биометрия в селекции и генетике сельскохозяйственных животных. М.: Колос, 2009. 424 с.
8. Плохинскнй Н.А. Биометрия. М.: Изд-во МГУ, 2011. 402 с.
9. Соболев А.Д. Основы вариационной статистики. М.: МГАВМиБ им. К.И.Скрябина, 2013. 182 с.
10. Урбах В.Ю. Биометрические методы. М.: Наука, 2010. 377 с.
Размещено на Allbest.ru
Подобные документы
Анализ исследований в области лечения диабета. Использование классификаторов машинного обучения для анализа данных, определение зависимостей и корреляции между переменными, значимых параметров, а также подготовка данных для анализа. Разработка модели.
дипломная работа [256,0 K], добавлен 29.06.2017Дисперсионный анализ. Применение дисперсионного анализа в различных задачах и исследованиях. Дисперсионный анализ в контексте статистических методов. Векторные авторегрессии. Факторный анализ.
курсовая работа [139,8 K], добавлен 29.05.2006Вычисление приближенных величин и погрешностей. Решение алгебраических и трансцендентных уравнений, интерполяция функций и методы численного интегрирования. Применение метода наименьших квадратов к построению эмпирических функциональных зависимостей.
курсовая работа [378,5 K], добавлен 08.01.2013Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.
курсовая работа [304,0 K], добавлен 02.03.2017Понятие корреляционного момента двух случайных величин. Математическое ожидание произведения независимых случайных величин Х и У. Степень тесноты линейной зависимости между ними. Абсолютное значение коэффициента корреляции, его расчет и показатель.
презентация [92,4 K], добавлен 01.11.2013Топологическое определение гомотопии. Смысл, преимущества и недостатки гомотопного метода анализа. Уравнения деформации нулевого и старшего порядка. Особенности теоремы сходимости и значение трех фундаментальных правил, полиномиальное выражение.
доклад [168,7 K], добавлен 13.08.2011Рассмотрение примеров задач и теорем, доказываемых при помощи контрпримера. Применение терминов "производная" и "дифференцируемая функция". Построение немецким математиком Вейерштрассом первого примера непрерывной нигде не дифференцируемой функции.
курсовая работа [400,6 K], добавлен 07.10.2013Ознакомление с историей появления метода золотого сечения. Рассмотрение основных понятий и алгоритма выполнения расчетов. Изучение метода чисел Фибоначчи и его особенностей. Описание примеров реализации метода золотого сечения в программировании.
курсовая работа [416,0 K], добавлен 09.08.2015Значение математической статистики для анализа закономерностей массовых явлений. Основные теоретические выкладки корреляционного анализа. Применение его инструментария в контексте металлургической промышленности в среде программного средства Statistica 6.
реферат [261,4 K], добавлен 03.08.2014Понятие интерполяций функций и их роль в вычислительной математике. Рассмотрение метода интерполяции кубическими сплайнами, составление алгоритма и программного модуля. Описание тестовых примеров. Достоинства и недостатки метода сплайн-интерполяции.
курсовая работа [195,1 K], добавлен 08.06.2013