Статистический анализ данных на примере дендроклиматологических рядов
Основные понятия теории вероятности и математической статистики, классическое определение вероятности. Нахождение формального критерия сравнения дендроклиматологических рядов деревьев. Проверка гипотезы о влиянии климата на рост древесных колец.
Рубрика | Математика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 26.03.2019 |
Размер файла | 1,1 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Курсовая работа на тему:
«Статистический анализ данных на примере дендроклиматологических рядов»
Калинин Андрей
Руководитель: В.С. Маргаритов
Введение
Дендроклиматология - направление в дендрохронологии, занимающееся изучением закономерностей в годичных кольцах деревьев, росших в одной местности для установления климата в прошлые годы или даже эпохи. Основное преимущество дендрохронологических методов - возможность точно определить даты климатических событий, однако продолжительность жизни большинства растений относительно геологических периодов времени мала. Поэтому необходимо совместить ряды деревьев, росших в разное время, и на их основе построить один ряд временной протяженности.
Годичные кольца - зоны прироста древесины, вызванные сезонной периодичностью деятельности камбия в результате смены тёплого и холодного времён года. Они хорошо различимы на поперечных разрезах ствола, ветвей и корней древесных растений в виде не совсем правильных колец[1]. Камбий - образовательная ткань в стеблях и корнях растений, дающая начало вторичным проводящим тканям и обеспечивающая рост их в толщину[2].
Целью моей работы будет нахождение формального критерия сравнения дендроклиматологических рядов деревьев, росших в одном месте и в одно время, чтобы проверить гипотезу о влиянии климата на рост древесных колец. Моими исходными данными для исследования является накопленная за много лет деятельности летней естественно-научной Горелецкой школы и требующая обработки информация.
В своей работе я буду с помощью элементов теории вероянотности и математической статистики изучать вопрос о росте древесных колец и факторах, которые влияют на рост древесных колец.
Одним из критериев для сравнения дендроклиматологических рядов можно считать нахождение общих скачков (положительных и отрицательных) в массиве индексов прироста в росте нескольких деревьев, растущих недалеко друг от друга и ничем не угнетенных. Именно поэтому для исследований я брал исходные данные для елей 308ЕА, 309ЕА, 310ЕА, 311ЕА, которые росли недалеко друг от друга и являлись доминирующими деревьями.
Однако для нахождения общих скачков прироста надо сначала произвести первичную обработку данных, а именно найти тренд каждого дендроклиматологического ряда, затем индекс, и только потом уже посчитать скачки.
1. Основные понятия теории вероятности и математической статистики [4]
Классическое определение вероятности
Вероятность случайного события
О случайном событии нельзя можем сказать заранее, произойдет оно или нет, но можно говорить о шансах наступления этого события.
Некоторые случайные события происходят очень редко. Поэтому мало шансов, что они произойдут. Маловероятно, например, что 31 января будет дождь. Другие случайные события происходят очень часто, почти всегда. Таким, например, является событие «31 января грозы не будет».
В теории вероятностей шансы того, что случайное событие произойдет, выражают числом. Это число называют вероятностью случайного события. Если событие никогда не наступает (его шансы равны нулю), то вероятность этого события полагают равной 0. Такое событие называют невозможным. Если же событие наступает всегда, его вероятность полагают равной 1. Такое событие называют достоверным. Вероятности остальных событий -- это числа между 0 и 1.
Вероятность случайного события --это числовая мера его правдоподобия.
Иногда вероятности событий можно рассчитать математически, а иногда необходимо узнавать их из экспериментов. Всякое случайное событие связано с определенными условиями. Вне этих условий это событие вообще невозможно. Если мы создаем такие условия, мы тем самым производим некоторый случайный эксперимент, или опыт. Повторяя этот опыт много раз, мы увидим, сколько раз интересующее нас событие происходит, а сколько раз -- не происходит.
Частота случайного события
Отношение числа тех опытов, в которых событие произошло, к общему числу проведенных опытов называется частотой случайного события в этой серии опытов.
Например, если событие не наступило ни разу, то его частота равна 0. Если событие наступало каждый раз, то его частота равна 1. Вероятности и частоты связаны. Если опыт повторять достаточно много раз, то частота события будет близка к его вероятности. Если вероятность события мала (например, 0,01), то событие будет наступать редко и его частота будет мала. Такие события называют маловероятными. Маловероятными событиями часто принебрегают, но надо учитывать возможные последствия.
Пример: Пусть, например, мы провели опыт 100 раз и некоторое событие С произошло в этих опытах 45 раз. Отношение числа тех опытов, в которых событие С произошло, к общему числу проведенных опытов равно в данном случае 45/100 = 0,45.
Случайные опыты
Случайное событие может осуществиться только при определенных условиях. Если таких условий нет, то нет и события.
Те условия и действия, при которых может осуществиться случайное событие, принято называть случайным опытом или экспериментом.
Пример: О случайном событии «электрическая лампочка прослужит более 100 часов» можно говорить, только если имеется лампочка, которую включают в сеть.
Элементарные события
В результате случайного опыта могут произойти различные случайные события. События, которые нельзя разделить на более простые, называются элементарными событиями.
В каждом опыте можно выделить такие элементарные события, из которых состоят все остальные события. В результате случайного опыта обязательно наступает только одно элементарное событие.
Пример: При подбрасывании игральной кости элементарных событий шесть: «выпало одно очко», «выпало два очка» и т. д.
Равновозможные элементарные события
Элементарные события, шансы которых одинаковы, называются равновозможными.
Пример: Элементарные события при одном бросании игральной кости - это 1, 2, 3,4,5 или 6 очков. Если кость правильная, то шансы этих элементарных событий одинаковы.
Вероятности элементарных событий
Каждое элементарное событие случайного опыта может осуществиться с некоторой вероятностью. У разных элементарных событий эти вероятности могут быть разными. В некоторых случаях вероятности элементарных событий можно рассчитать. В других случаях их приближенно можно найти из наблюдений. А в некоторых случайных опытах эти вероятности так и остаются неизвестными.
Вероятности одинаковы, если элементарные события равновозможны. Число элементарных событий равно N, вероятность каждого из них равна 1/N. В каждом опыте сумма вероятностей всех элементарных событий равна 1
Пример: Рассмотрим случайный эксперимент, в котором три элементарных события. Обозначим их латинскими буквами а, b, с. Вероятности этих элементарных событий обозначим Р(a), Р(b), Р(с). Каждая из этих вероятностей -- это число от 0 до 1. (P(a) + P(b) + P(c) = 1)
Благоприятствующие элементарные события
В ходе опыта могут возникать более сложные случайные события. Например, при бросании игральной кости возможно событие «выпало четное число очков» или событие «выпало более двух очков». У таких событий тоже есть вероятности. Для обозначения случайных событий будем употреблять прописные латинские буквы А, В, С, D. Каждое событие состоит из элементарных событий. Например, событие «выпало четное число очков» при бросании игральной кости состоит из трех эментарных событий: «выпало два очка», «выпало четыре очка», «выпало шесть очков».
Элементарные события, при которых наступает событие А, называются элементарными событиями, благоприятствующими событию А.
Случайное событие может иметь несколько благоприятствующих элементарных событий. Два различных события могут произойти одновременно. Это не относится к элементарным событиям. Элементарное событие всегда наступает только одно.
Вероятности событий
Вероятности элементарных событий обозначается буквой Р (по начальной букве латинского слова «probabilitas» - вероятность.) Вероятность события А обозначаем Р(a), вероятность события В - это Р(b).
Вероятность события равна сумме вероятностей элементарных событий, благоприятствующих этому событию.(P(A) =P(a) + P(b) + P(c) + P(d))
Вероятности всех элементарных событий неотрицательны и в сумме равны единице. Поэтому вероятность любого события А неотрицательна и не превосходит 1. (0 <= P(a) <=1)
Если Р(А) = 0, то событие называют невозможным, а если Р(a) = 1, то событие называется достоверным. Событие, которому благоприятствуют все элементарные события, является достоверным.
События, которые имеют одинаковые вероятности, называются равновероятными. Равновозможные элементарные события являются равновероятными событиями.
Пример: Автомобиль подъезжает к перекрестку. Вероятность элементарного события «автомобиль свернет вправо» равна 0,5, вероятность элементарного события «автомобиль свернет влево» равна 0,3, вероятность элементарного события «автомобиль поедет прямо» равна 0,18. Нужно найти вероятность события А «автомобиль не поедет обратно». Этому событию благоприятствуют три перечисленных элементарных события. Р(А) = 0,5 + 0,3 + 0,18 = 0,98.
Измерение вероятностей
Узнать или измерить вероятности мы не можем. Прибора для прямого измерения вероятностей нет.
Есть только косвенный путь к измерению вероятностей. Он основан на испытаниях Бернулли и свойствах математического ожидания и дисперсии.
Предположим, что нас интересует вероятность определенного события А. В результате некоторого опыта событие А либо происходит, либо нет. Предположим, что мы можем проводить этот опыт многократно и независимо. Во всех этих опытах нас интересует только, произошло событие А или нет. Поэтому эти опыты являются испытаниями Бернулли, в которых успех -- это осуществление события А. Вероятность этого успеха равна p. Допустим, что мы провели n опытов и событие А наступило S раз, т. е. S -- число успехов в n испытаниях Бернулли.
Частотой события А (частота успеха) называют дробь S/n.Частота -- это доля опытов, закончившихся успехом, среди всех проведенных опытов.
Теория множеств
Противоположное событие
Возьмем какое-либо событие А. Ему благоприятствуют некоторые элементарные события. Рассмотрим теперь все прочие элементарные события этого опыта, т. е. те, которые не благоприятствуют событию А. Соберем эти элементарные события вместе. Так мы получим новое событие. Оно состоит из тех элементарных событий, которые не благоприятствуют событию А. Это событие называется событием, противоположным событию А. Событием, противоположным событию А, называют событие, которому благоприятствуют все элементарные события, не благоприятствующие событию А.
Событие, противоположное событию А, обозначают А'. Если событие В противоположно событию А, т. е. В = А', то событие А противоположно событию В:А = В'. Поэтому события А и А' называют взаимно противоположными или дополнениями друг для друга.
Пример: Бросают игральную кость. Рассмотрим событие А «выпало число, большее 3». Этому событию благоприятствуют элементарные события «выпала четверка», «выпала пятерка» и «выпала шестерка». Не благоприятствуют событию А следующие элементарные события: «выпала единица», «выпала двойка», «выпала тройка». Для события А противоположным событием А' является событие «выпало число, меньшее или равное трем».
Взаимно противоположные события одновременно произойти не могут, но какое-либо из них происходит обязательно.
Поэтому Р(А) + Р(А) = 1. Это означает, что сумма вероятностей взаимно противоположных событий равна единице. Следовательно, Р(А') = 1 -- Р(А) и Р(А) = 1 --Р(А').
Диаграммы Эйлера
Соотношения и связи между событиями можно изобразить с помощью схематических рисунков. Такие рисунки называются диаграммами Эйлера.
Пусть прямоугольник изображает все элементарные события. Событие А изобразим в виде круга внутри прямоугольника. В этом случае оставшаяся часть прямоугольника изображает событие А', противоположное событию А.
На рисунке с помощью диаграмм Эйлера изображены два события: событие А и противоположное событие А'.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Объединение событий
Возьмем два события А и В, относящиеся к одному случайному опыту. Рассмотрим те элементарные события, которые благоприятствуют событию А, и те элементарные события, которые благоприятствуют событию В. Все вместе эти элементарные события благоприятствуют новому событию. Это новое событие называют объединением событий А и В или A U В.
Событие A U B наступает, если наступает хотя бы одно из событий А и В. Это означает, что наступает либо А, либо В, либо А и В вместе.
Пример: Игральную кость бросают дважды. Событие А состоит в том, что в первый раз выпало больше очков, чем во второй. Событие В состоит в том, что во второй раз выпало больше очков, чем в первый.
Событие A U В наступает, если при двух бросаниях кости выпали не равные числа очков. В таблице элементарных событий эксперимента событию A U В благоприятствуют все элементарные события, кроме стоящих на диагонали.
На диаграмме Эйлера показаны события А, В и их объединение. Левый круг изображает событие А, правый круг -- событие В, а выделенная фигура, включающая в себя оба круга -- это событие A U В.
Независимые события. Умножения вероятностей
Бывают также события, которые явно не связаны друг с другом. По наступлению одного из них нельзя судить о вероятности другого. Например, при бросании двух костей результат бросания первой кости не влияет на результат бросания второй кости. Про такие события в жизни обычно говорят, что они независимы. Следовательно, Р (А ? В) = Р (А) -- Р (В).
События A и B называются независимыми, если вероятность их пересечения равна произведению их вероятностей.
Пример: рассмотрим бросание двух игральных костей. В этом опыте 36 элементарных событий. Каждое элементарное событие -- это пара чисел. Первое число -- это число очков на первой кости; второе число -- число очков на второй.
Каждое число может принимать значения 1, 2, 3, 4, 5, 6 с вероятностью 1/6. Ясно, что результат бросания первой кости не влияет на результат бросания второй. Верно и обратное: результат бросания второй кости не влияет на результат бросания первой.
Пусть событие «A» - «на первой кости выпало 6», событие «B» - «на второй кости выпало 6». Тогда P (A) = 1/6, P (A) = 1/6. Тогда верятность события «выпало две 6» равна 1/36.
Пересечение событий
Возьмем два события А и В. Предположим, что есть элементарные события, благоприятствующие и событию А, и событию В. Взяв все элементарные события, которые благоприятствуют и событию А, и событию В, мы получим новое событие. Это новое событие называют пересечением событий А и В. Его обозначают А ? В. Оно наступает, если наступают оба события А и В.
Если события А и В не имеют общих благоприятствующих элементарных событий, то они не могут наступить одновременно в ходе одного и того же опыта. Такие события называют несовместными, а их пересечение -- пустое событие. Оно обозначается символом ш.
Правило сложения вероятностей для несовместимых событий: P (A U B) = P (A) + P (B).
Для событий, которые не являются несовместными: P (A U B) = P (A) + P (B) - P (A ? B)
Случайный выбор
Случайный выбор одного предмета из группы -- это выбор, при котором все предметы имеют равные шансы быть выбранными.
Если группа -- это 5 карандашей, то каждый карандаш может быть выбран с вероятностью 1/5. Если в группе N предметов, то при случайном выборе каждый из них может быть выбранным с вероятностью 1/N.
Случайный выбор (или выбор наудачу) -- разновидность случайного опыта с равновозможными элементарными событиями. Элементарным событием в таком опыте является извлечение одного предмета из группы.
После выбора наудачу одного предмета случайный выбор можно продолжить: из оставшихся предметов выбрать еще один. Затем из оставшихся предметов случайно выбрать третий и т. д. Собранную таким способом группу называют случайной выборкой. Случайную выборку можно получить иначе: сразу выбрать наудачу из общей совокупности нужное число предметов.
Правило умножения
Если число предметов первого типа равно n, а число предметов второго типа равно m. то число их комбинаций равно nm. Чтобы найти число комбинаций предметов двух типов, нужно число предметов первого типа умножить на число предметов второго типа.
Такое же правило действует, если имеются предметы трех, четырех или более типов. Чтобы найти число комбинаций из предметов нескольких типов, нужно перемножить количества предметов каждого типа.
Пример: Государственные регистрационные автомобильные номера состоят из буквы, трех цифр, еще двух букв и номера региона. Буквы и цифры могут повторяться. Можно использовать только 12 букв: А, В, Е, К. М, Н, О, Р, С, Т, У, X. Цифры можно брать любые от 0 до 9. В качестве номера региона для московских автомобилей используется одно из чисел 77, 99 или 97. Значит всего существует 12*10*10*10*12*12*3=5184000 вариаттов номеров.
статистика вероятность дендроклиматологический
Факториал. Перестановки
Факториалом натурального числа n называется произведение всех натуральных чисел от 1 до n. Обозначается факториал Итак, n!=1*2*3*…*(n-1)*n
Перестановкой из n предметов называется любой способ нумерации этих предметов (способ их расположения в ряд). Число перестановок n предметов равно n!
Сочетания
Если есть n предметов, то число способов, которыми можно выбрать ровно k из них, называется числом сочетаний из n по k и обозначается Сkn.
Сkn = n! / (k! * (n-k)!)
Таким образом, с помощью факториала число сочетаний выражается через числа n и k. Пример: Найдем C49. C49 = (9*8*7*6*5*4*3*2*1) / ((4*3*2*1) * (5*4*3*2*1)) = 126
Случайные величины
Случайная величина -- это величина, значение которой зависит от случая. В ходе некоторого случайного опыта или наблюдения случайная величина принимает то или иное числовое значение.
Пример: Кидают игральную кость. Случайная величина X - число выпавших очков. Кубик имеет шесть граней и число очков на каждой грани -- целое число от 1 до 6, случайная величина X принимает значения из множества {1;2;3;4;5;6}. Случайная величина X равна числу очков, выпавших при однократном бросании игрального кубика.
Значение |
1 |
2 |
3 |
4 |
5 |
6 |
|
Вероятность |
1/6 |
1/6 |
1/6 |
1/6 |
1/6 |
1/6 |
Пример случайной величины
Одним из самых простых примеров случайных величин могут служить испытания Бернулли.
Испытанием Бернулли называют случайный опыт, который может закончиться одним из двух элементарных событий.
Например, подброшенная монета падает либо орлом, либо решкой вверх. Одно из двух элементарных событий в таких опытах условно называют успехом, а другой -- неудачей.
Вероятность того, что опыт закончится успехом, обычно обозначают буквой р. Вероятность неудачи обозначают q. Числа р a q положительные, при этом p + q = 1.
В серии из n испытаний вероятность получить каждое элементарное событие, в котором успех наступает k раз, равна pk*q(n-k).
Вероятность события «наступило k успехов» равна Сkn*pk*q(n-k).
Пусть случайная величина S -- число успехов в серии из n испытаний Бернулли. S может принимать целые значения от 0 до n.
Тогда событие (S = k) состоит в том, что в результате серии испытаний наступило k успехов. Поэтому,
P(S = k) = Ckn*pk*q(n-k).
Эта формула дает распределение случайной величины S.
Распределение вероятностей случайной величины S называют распределением Бернулли.
Пример: Распределение Бернулли для n = 3 при p = 0,2.
По формуле q = 1 -- р находим, что q = 0,8.
Р(5 = 0) = C03*p0*q3 = 1 * 1 * 0,83 = 0,512
P(S = 1) = C13*p1*q2 = 3 * 0,2 * 0,82 = 0,384
P(S = 2) = C23*p2*q1 = 3 * 0,22 * 0,8 = 0,096
P(S = 3) = C33*p3*q0 = 1 * 0,23 * 1 = 0,008
k |
0 |
1 |
2 |
3 |
|
P(S = k) |
0,512 |
0,384 |
0,096 |
0,008 |
Характеристики случайных величин
Математическое ожидание случайной величины
Рассмотрим случайную величину X. Ее математическое ожидание обозначают Е (X). Распределение вероятностей случайной величины X задано таблицей:
Значение величины X |
x1 |
x2 |
x3 |
… |
xn |
|
Вероятность |
p1 |
p2 |
p3 |
… |
pn |
Математическим ожиданием случайной величины X называют число
E (X) = x1*p1 + x2*p2 + x3*p3 + … + xn*pn
Математическое ожидание Е(Х) называют также ожидаемым значением случайной величины X, средним значением случайной величины X.
Пример: В качестве случайной величины X возьмем число очков, выпавших на одной игральной кости. Вероятности выпадения каждой грани одинаковы и равны 1/6.
Поэтому, E (X) = 1*(1/6) + 2*(1/6) + 3*(1/6) + 4*(1/6) + 5*(1/6) + 6*(1/6) = 3,5
Свойства математического ожидания
1. Пусть X -- случайная величина, а -- некоторое число. Рассмотрим случайную величину Y = а*Х. Тогда E (Y) = a*E(X).
2. Пусть U и V -- две случайные величины. Тогда U + V -- также случайная величина, и при этом: E(U + V) = E(U) + E(V).
Математическое ожидание суммы случайных величин равно сумме их математических ожиданий.
Пример: Найдем математическое ожидание сумме числа очков, выпавших на двух игральных костях. Обозначим число очков, выпавших на первой кости, через U, а на второй -- через V. Найдем математическое ожидание случайной величины S = U + V. Известно, что Е(U) = E(V) = 3,5. Следовательно, Е(5) = Е(U) + E(V) = 3,5 + 3,5 = 7
Дисперсия и стандартное отклонение
Дисперсией случайной величины X называют математическое ожидание случайной величины (X - Е(Х))2. Дисперсию случайной величины обозначают D(X).
D(X) = E((X - E(X))2). D(X) >= 0.
Чем меньше дисперсия, тем более кучно значения случайной величины группируются около математического ожидания Е(Х). Если же D(X) = 0, то случайная величина X принимает единственное значение.
Пример: Найдем дисперсию случайной величины X «число очков при однократном бросании игральной кости».
Известно, что Е(Х) = 3,5. Построим распределение случайной величины X - Е(Х):
Значение |
-2,5 |
-1,5 |
-0,5 |
0,5 |
1,5 |
2,5 |
|
Вероятность |
1/6 |
1/6 |
1/6 |
1/6 |
1/6 |
1/6 |
D(X) = (1/6) * ((-2,5)2 + (-1,5)2 + (-0,5)2 + 0,52 + 1,52 + 2,52) = 2,917
Существует более удобная формула для нахождения дисперсии - D(X) = E(X2) - E2(X). Дисперсия числа успехов S в серии из n испытаний Бернулли вычисляется по формуле D(S) = npq.
Свойства дисперсии
Пусть X - случайная величина. Рассмотрим случайную величину Y=a*X, где a - некоторое число. D(Y) = a2*D(X)
Пусть X - случайная величина. Рассмотрим случайную величину Y=a + X, где a - некоторое число. D(Y) = D(X)
Часто вместо дисперсии пользуются средним квадратичным (или стандартным отклонением), которое равно квадратному корню из дисперсии. Стандартное отклонение обозначается греческой буквой у (сигма).
Обработка данных и статистика
Среднее значение
Средним арифметическим нескольких чисел называется число, равное отношению суммы этих чисел к их количеству.
Пример: Возьмем какой-нибудь набор различных чисел, например 1, 3, 6, 8, 11, 18. Найдем их среднее значение. Оно будет равно сумме этих чисел поделить на их количество. (1+3+6+11+18)/5=7,8
Итак, число 7,8 является средим значением этого набора чисел.
Медиана
Не только среднее арифметическое показывает, где на числовой прямой располагаются числа какого-либо набора. Другим показателем является медиана -- число, которое разделяет этот набор на две части, одинаковые по численности. Поясним на примерах, как найти медианы разных наборов чисел.
Пример: Возьмем какой-нибудь набор различных чисел, например 1, 4, 7, 9, 11. Подберем число m так, чтобы в наборе оказалось поровну чисел, которые меньше и которые больше чем m.
На пробу возьмем m = 5. Два числа в наборе меньше чем 5, но три числа больше чем 5. Значит, число 5 не годится.
Теперь возьмем m = 7. Меньше числа 7 два числа, больше числа 7 тоже два числа. Следовательно, число 7 делит этот набор чисел на две равные по численности части. Число 7 --медиана набора чисел 1, 4, 7, 9, 11.
В этом примере набор состоял из 5 чисел, записанных в порядке возрастания. Медианой в этом случае оказывается число, стоящее в точности посередине.
Размах
Размах - разность между наибольшим и наименьшим числом называется набора чисел. Размах дает представление о разбросе данных.
Пример: Вычислим размах на примере данных о производстве пшеницы в России
Год |
1995 |
1996 |
1997 |
1998 |
1999 |
2000 |
2001 |
|
Производство, млн. тонн |
30,1 |
34,9 |
44,3 |
27,0 |
31,0 |
34,5 |
47,0 |
Самый большой урожай пшеницы был получен в 2001 г. Он составил 47,0 млн. тонн. Самый маленький урожай 27,0 млн. тонн был собран в 1998 г. Размах производства пшеницы в эти годы составил 20 млн. тонн.
Отклонение
Отклонения показывают как числа некоторого набора расположены по отношению к своему среднему арифметическому. Зная только размах, разность между наибольшим и наименьшим значением, нельзя сказать, как расположены числа в имеющемся наборе.
Пример: Возьмем набор 2, 5, 8, 10, 15. Вычислим среднее арифметическое: (2+5+8+10+15):5 = 8. Отклонение каждого числа от среднего:
8 - 2 = 6
8 - 5 = 3
8 - 8 = 0
8 - 10 = -2
8 - 15 = -7
Получился новый набор, который состоит из отклонений. Если число меньше среднего, то его отклонение отрицательно, если число больше среднего, то его отклонение положительно. По набору отклонений можно судить о том, насколько разнообразны числа в наборе. Если отклонения малы, то числа в наборе расположены близко к среднему арифметическому. А если среди отклонений есть большие по модулю, то числа в наборе сильно разбросаны.
Для любого набора часть отклонений будет положительна, а часть -- отрицательна. При этом сумма всех отклонений равна 0 (-7 - 2 + 0 + 3 + 6 = 0).
Дисперсия
Наиболее полной характеристикой разброса набора чисел является набор их отклонений от среднего значения. Но когда набор чисел велик, рассматривать набор отклонений неудобно. Нужно описать разнообразие чисел в наборе одной характеристикой.
Размах -- слишком неточная мера разброса чисел в наборе, поскольку учитывает только два из них -- наименьшее и наибольшее. Можно попробовать взять среднее отклонение. Но сумма отклонений всегда равна нулю, поэтому среднее арифметическое отклонений тоже равно нулю и его нельзя использовать как меру разброса. Поэтому, чтобы судить о разбросе, принято складывать не сами отклонения, а их квадраты. Чем больше отклонения чисел от среднего арифметического, тем больше будет сумма квадратов отклонений. Для того чтобы мера разброса чисел не зависела от их количества в наборе, в качестве такой меры берут среднее арифметическое квадратов отклонений. Эту величину называют дисперсией.
Среднее арифметическое квадратов отклонений от среднего значения называется в статистике дисперсией набора чисел.
Пример: Снова возьмем таблицу производства пшеницы в России.
Год |
1995 |
1996 |
1997 |
1998 |
1999 |
2000 |
2001 |
|
Производство, млн. тонн |
30,1 |
34,9 |
44,3 |
27,0 |
31,0 |
34,5 |
47,0 |
Среднее производство пшеницы составило 35,5 млн. тонн в год. Вычислим дисперсию. Составим таблицу, разместив данные по производству не в строке, а в столбце. Вычислим отклонения от среднего и их квадраты. Полученные числа занесем в два новых столбца.
Год |
Производство |
Отклонение от среднего |
Квадрат отклонения |
|
1995 |
30,1 |
-5,4 |
29,16 |
|
1996 |
34,9 |
-0,6 |
0,36 |
|
1997 |
44,3 |
8,8 |
77,44 |
|
1998 |
27,0 |
-8,5 |
72,25 |
|
1999 |
31,0 |
-4,5 |
20,25 |
|
2000 |
34,5 |
-1,0 |
1,00 |
|
2001 |
47,0 |
11,5 |
132,25 |
Для расчета дисперсии следует сложить все значения в столбце «Квадрат отклонения» и разделить на количество слагаемых:
(29,16 + 0,36 + 77,44 + 72,25 + 20,25 + 1,00 + 132,25):7 = 47,53.
2. Программа нахождения общих скачков
Подготовка данных
В нашей программе обрабатывается не исходная информация, а данные, прошедшие первичную обработку. А первичной обработкой является вычисление тренда и индекса прироста.
Вычисление тренда
Одним из способов сравнения дендроклиматологических рядов может являться вычисление тренда. Наша программа позволяет производить усреднение на выборочную величину.
Тренд вычисляется как скользящее среднее для исходных данных. Допустим, имеется ряд данных a1, a2, a3…an и коэффициент усреднения Т.
Тогда для i=1….T, ti = *
Для i=T+1….n-T, ti = *
Для i=n-T+1…n, ti = *
К примеру, для нахождения 8-ого элемента при усреднении на 3 значения будут использованы 7-ой, 8-ой и 9-ый элементы.
Сначала же я считал тренд иным образом - значение 8-го элемента находилось путем вычисления среднего значения для 6-го, 7-го и 8-го элемента. При вычислении тренда таким образов возникало несколько проблем:
1. Появление задержки на графиках на количество лет, равное размеру усреднения (т.е. при усреднении на 20 значений, временная задержка составляла 20 лет).
2. На полученных графиках колебания в начале в конце более частые, чем по середине.
Вычисление индекса прироста
Для вычисления индекса необходимо из исходных данных отнять значения тренда.
Принцип работы программы нахождения общих скачков
C самого начала программа открывает файл (list_reper), в котором записаны имена исследуемых деревьев и их последние годы жизни. Затем открытый файл сканируется и имена деревьев записываются в массив. Далее программа считает количество деревьев, а также определяет максимальный и минимальный последний год жизни.
После этого с клавиатуры вводится значение скользящего коэффициента усреднения и вызывается функция вычисления тренда и индекса. Эта фукция открывает файлы, содержащие данные о величине прироста древесных колец, записывает данные в массив и высчитывает возраст дерева по количеству древесных колец. Затем программа вычисляет значения тренда и индекса.
Затем включается функция нахождения общих скачков. Сперва она находит минимальное и максимальное значения в массиве индексов, соответствующих данному дереву. Затем вычисляется диапазон всех значений и «порог», который считается как диапазон умножить на коэффициет. Значение коэффициента увеличивается в цикле от 0 до 1 по 0,01. Если изменение индекса прироста больше порога, то считается, что произошел скачок. После того, определяется количество лет, для которых индексы прироста каждого из деревьев изменились относительно предыдущего года больше, чем на заданное количество процентов от размаха (т.е. когда произошел скачок). Далее находится знак каждого скачка путем деления значения скачка на его модуль.
Для сравнения запускается программа проделывает такую же операцию с рядами случайных данных. Количество данных соответствует времени общей жизни исследуемых деревьев, операция повторяется в цикле 300 раз, для наглядности каждый раз строится гистограмма, которая показывает какое количество данных попало каждый промежуток.
В конце программа строит диаграмму, показвающую вероятность того, что наши дендроклиматологические ряды являются случайными данными. На этом графике показана частота выпадения наших данных при каждом из коэффициентов. Затем выводится итоговое значение вероятности, которое считается как среднее арифметическое для всех вероятностей при каждом значении коэффициента. Она показывает какова вероятность получить наши данные в предположении, что исходные данные - случайная равномерно распределенная величина.
3. Результаты, полученные с помощью программы
Одним из самых главных результатов является опровержение идеи, что дендроклиматологические ряды - случайная равномерно распределенная величина. В среднем для 2-х деревьев вероятность «случайности» равна 0,34.
Так же доказано, что при специальном смещении деревьев на один год относительно друг друга, количество общих скачков падает до 2-х раз. Насколько уменьшается количество совпадений зависит от величины Т - чем Т меньше, тем меньше становится количество совпадений.
Ниже представлена таблица зависимости самого большого количества совпадений в скачках для 2-х деревьев (308ЕА, 309ЕА) при коэффициенте равном 0,01.
Т |
Исходные |
Измененные на 1 |
|
1 |
0,615 |
0,45 |
|
2 |
0,57 |
0,47 |
|
10 |
0,525 |
0,52 |
Такая же тенденция наблюдается и для других пар деревьев. Вот таблица для различных деревьев при Т=1:
Номера деревьев |
Исходные |
Измененные на 1 |
|
308ЕА, 309ЕА |
0,6 |
0,35 |
|
308ЕА, 310ЕА |
0,6 |
0,375 |
|
309ЕА, 310ЕА |
0,55 |
0,475 |
|
310ЕА, 311ЕА |
0,5 |
0,45 |
Примеры тренда и индекса для одной ели при Т=1
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Примеры тренда и индекса для одной ели при Т=5
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Примеры тренда и индекса для одной ели при Т=10
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Примеры гистограмм
В заголовке показаны номера сравниваемых елей и значение коэффициента. По оси x результаты, полученные в результате обработки случайных данных, поделенные на 20 участков. По оси y показана частота попадания значений в каждый промежуток.
Примеры итогового графика вероятности
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Ниже представлениы графики итоговой вероятности для елей 308ЕА, 309ЕА. По оси x отложены значения коэффициента. По оси y взято частота выпадения наших данных при каждом коэффициенте. Как видно из этих примеров графиков, на участке [0,25; 0,5] обязательно присутствуют отрезки, на которых отличие дендроклиматологических рядов от случайных данных максимально.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Текст программы
Наиболее часто используемые команды в программе нахождения общих скачков:
mopen - команда, открывающая файл
mclose - команда, закрывающая файл
mfscanf - команда, сканирующая содержимое файла
max - команда, находящая максимальный элемент массива
min - команда, находящая минимальный элемент массива
zeros - команда, создающая матрицу из нулей
ones - команда, создающая матрицу из единиц
disp - отображение содержимого переменной на экран
plot2d - постоение двухмерного графика
xs2gif - сохранение графика в формате gif
clf - очистка окошка, отображающего график
clear - очистка памяти
function universal_jumps
[Главная программа]
list_reper=mopen('E:\sci\data\list_reper.txt','r');
[Открытие файла, в котором указаны имена деревьев и год смерти]
list_=mfscanf(-1,list_reper,'%s');
[Сканирование открытого файла - имена деревьев записываются в массив строк]
mclose(list_reper);
[Закрытие файла]
n=size(list_);
N=n(1)/2;
[Определение количества деревьев]
clear list_;
[Очистка переменой]
list_reper=mopen('E:\sci\data\list_reper.txt','r');
[Открытие файла, в котором указаны имена деревьев и последний год]
fir_list=mfscanf(N,list_reper,'%s');
[Сканирование открытого файла для того, чтобы узнать имя дерева]
YEARS=mfscanf(N,list_reper,'%f');
[Сканирование открытого файла для того, чтобы узнать последний год жизни дерева]
maxyears=max(YEARS);
[Определение маскимального из последних годов жизни]
minyears2=min(YEARS);
[Определение минимального из последних годов жизни]
mclose(list_reper);
[Закрытие файла]
T=input('input T');
[Ввод с клавиатуры числа усреднения - скользящее усреднение по 2*T+1]
[Ages,Source]=trend_index(fir_list,N,T);
[Вызов функции вычисления тренда и индекса (3)]
for i=1:N,
YEARS(i)=YEARS(i)-Ages(i)+1;
[Вычисление первого года жизни дерева (год образования первого кольца)]
end;
minyears=min(YEARS);
[Определение минимального из первых годов жизни]
maxyears2=max(YEARS);
[Определение максимального из первых годов жизни]
num=minyears2-maxyears2+1;
[Вычисление диапазона общей жизни всех деревьев]
timeline=maxyears-minyears+1;
[Вычисление временного интервала жизни рассматриваемых деревьев]
Shifts=zeros(1,N);
[Создание матрицы из 1 стоки и N столбцов - матрица сдвигов]
Shifts=YEARS-min(YEARS);
[Нахождение сдвигов относительно начала временного интервала]
Jump_rez=jumps_rez(Source,Shifts,Ages,num);
[Вызов программы нахождение общих скачков (4)]
Probability=ones(1,101);
[Создание матрицы из единиц]
for g=0:100,
[Цикл увеличения относительной велчины скачка - от 1% до 100%]
cff=g*0.01;
Iter=zeros(1,300);
[Создание матрицы из нулей]
for j=1:300,
Iter(j)=random(timeline,cff,N)/timeline;
[Вызов функции применения критерия к случайным величинам]
end;
Probability(g+1)=histogramma(Iter,Jump_rez(g+1));
[Вызов функции построения гистограммы (2)]
end;
jrez=mopen('E:\sci\universal_jumps\'+'universal_jumps'+string(T)+name+'.txt','w');
[запись вероятносией в файл]
for c=0:100, mfprintf(jrez,'%2.3f ---- %2.3f\n',c*0.01,Probability(c+1)); end;
mclose(jrez);
clf(0);
[Построение общего графика вероятностей]
plot2d([0:100]*0.01,Probability);
xs2gif(0,'E:\sci\universal_jumps\'+'universal_jumps'+string(T)+name+'.gif');
mn=0;
for k=0:100, mn=mn+Probability(k+1); end;
[Нахождение средней по всем скачкам вероятности]
mn=mn/101;
disp(mn);
[Вывод итоговой вероятности на экран]
clear;
chdir('E:\sci\');
endfunction;
-------------------------------------------------------------------- (1)
function Count=random(timeline,cff,N)
[Функция применения критерия к случайным величинам. Работает по такому же принципу, что и функция (4)]
Source=rand(N,timeline,'uniform');
Res=zeros(N,timeline);
for i=1:N,
min_=min(Source(i,:));
max_=max(Source(i,:));
diap=max_-min_;
board=cff*diap;
for I=1:timeline-1,
if abs(Source(i,I+1)-Source(i,I))>board,
Res(i,I)=(Source(i,I+1)-Source(i,I))/abs(Source(i,I+1)-Source(i,I));
end,
end;
end;
Count=0;
for g=1:timeline,
kr1=%T;
kr2=%T;
for j=1:N, kr1=kr1&(Res(j,g)==1); kr2=kr2&(Res(j,g)==-1); end;
if kr1|kr2, Count=Count+1; end,
end;
clear Res;
clear Res;
clear Source;
endfunction;
------------------------------------------------------------------------ (2)
function p=histogramma(Iter,point)
[Функция построения гистограммы]
Par=20;
[Количество участков, в которое может попасть число]
min_=min(Iter);
[Нахождение минимума из всех значений]
max_=max(Iter);
[Нахождение максимума из всех значений]
diap=(max_-min_)/Par;
if diap~=0,
Hist=zeros(1,Par);
[Создание матрицы]
for k=1:300,
Interval=max([ceil((Iter(k)-min_)/diap),1]);
[Определение номера интервала, в который папало значение Iter(k)]
Hist(Interval)=Hist(Interval)+1;
[Счетчик значений, попавших в данный интервал]
end;
Hist=Hist/300;
[Вычисление вероятности попадения в интервал]
if (point>max_) | (point<min_), p=0;
[Если значение point выходит за диапазон, значит p=0]
else
Interval=max([ceil((point-min_)/diap),1]);
p=Hist(Interval);
end,
clf();
plot2d2([1:20]*diap,Hist);
clear Hist;
else if point==min_, p=1; else p=0; end,
[Если все Iter(k) равны между собой, то диапазон сводится к единому числу]
end,
endfunction;
------------------------------------------------------------------------- (3)
function [Ages,Source]=trend_index(fir_list,N,T)
[Функция вычисления тренда. Использует fir_list,N,T. Возвращает Ages,Source.]
Source=zeros(N,300);
[Создание матрицы нулей из N строк и 300 столбцов]
Trend=zeros(N,300);
[Создание матрицы нулей из N строк и 300 столбцов]
Ages=zeros(1,N);
[Создание матрицы нулей из 1 строки и N столбцов]
for i=1:N,
name=fir_list(i);
fdata=mopen('E:\sci\data\'+name+'.txt');
[Открытие файла с исходной информацией]
data=mfscanf(-1,fdata,'%f');
[Сканирование файла, запись данных в массив]
mclose(data);
[Закрытие файла]
ag=size(data);
[Определение размера созданного массива]
age=ag(1);
[Определение количества колец для i-ого дерева]
Ages(i)=ag(1);
[Запись возраста i-ого дерева в массив]
for n=1:age,
Trend(i,n)=data(n);
lim=min([n-1,T,age-n]);
[Определение параметра для вычисления скользящего среднего (усреднение по 2*T+1)]
for k=1:lim, Trend(i,n)=Trend(i,n)+data(n-k)+data(n+k);end;
Trend(i,n)=Trend(i,n)/(2*lim+1);
[Усреднение по 2*lim+1]
Source(i,n)=data(n)-Trend(i,n);
[Вычисление индекса (исходные значения минус тренд)]
end;
end;
clear data;
[Очиска памяти]
clear Trend;
[Очиска памяти]
endfunction;
----------------------------------------------------------------------------- (4)
mfscanf
function Jump_rez=jumps_rez(Source,Shifts,Ages,num)
[Программа нахождение общих скачков. Использует Source,Shifts,Ages,num. Возвращает Jump_rez.]
Jump_rez=zeros(1,101);
[Создание матрицы из нулей]
for c=0:100,
cff=c*0.01;
Res=zeros(N,300);
for i=1:N,
min_=min(Source(i,:));
[Нахождение минимального значения в i-ой строке]
max_=max(Source(i,:));
[Нахождение максимального значения в i-ой строке]
diap=max_-min_;
[Вычисление диапазона всех значений в i-ой строке]
board=cff*diap;
[Вычисление "порога" - если изменение больше порога, то считается, что произошел скачок]
for I=1:Ages(i)-1,
if abs(Source(i,I+1)-Source(i,I))>board,
Res(i,I+Shifts(i)+1)=(Source(i,I+1)-Source(i,I))/abs(Source(i,I+1)-Source(i,I));
[Нахождение знака скачка]
end,
end;
end;
Count=0;
for g=1:300,
kr1=%T;
[kr1 - истина]
kr2=%T;
[kr2 - истина]
for j=1:N, kr1=kr1&(Res(j,g)==1); kr2=kr2&(Res(j,g)==-1); end;
[Нахождение общих скачков. kr1 остается истиной, если Res(j,g)=1. kr2 остается истиной, если Res(j,g)=-1.]
if kr1|kr2, Count=Count+1; end,
[Подсчет количества общих скачков]
end;
Jump_rez(c+1)=Count/num;
[Количество общих скачков делится на количество общих лет жизни]
clear Res;
end;
endfunction;
Список литературы
1. Электронная версия третьего издания Большой Советской Энциклопедии http://bse.sci-lib.com/article011213.html
2. Электронная версия третьего издания Большой Советской Энциклопедии
http://bse.sci-lib.com/article058149.html
3. Электронная энциклопедия Глоссарий.ru
http://www.glossary.ru/cgi-bin/gl_sch2.cgi?RKuwwlr9.o9
4. Ю.Н.Тюрин, А.А.Макаров, И.Р.Высоцкий, И.В.Ященко «Теория вероятностей и статистика» - М.: МЦНМО, 2004.
5. Дж.Бендат, А.Пирсол «Измерение и анализ случайных процессов» - М.,1974
6. Е.Н.Львовский «Статистические методы построения эмпирических формул» - М., 1988
7. Е.С.Вентцель «Теория вероятностей» - М., 1969
Размещено на Allbest.ru
Подобные документы
Определение вероятности наступления определенного события по законам теории вероятности. Вычисление математического ожидания, дисперсии и среднего квадратичного отклонения. Нахождение выборочного уравнения регрессии по данным корреляционной таблицы.
контрольная работа [212,0 K], добавлен 01.05.2010Теория вероятности, понятие вероятности события и её классификация. Понятие комбинаторики и её основные правила. Теоремы умножения вероятностей. Понятие и виды случайных величин. Задачи математической статистики. Расчёт коэффициента корреляции.
шпаргалка [945,2 K], добавлен 18.06.2012Основные методы формализованного описания и анализа случайных явлений, обработки и анализа результатов физических и численных экспериментов теории вероятности. Основные понятия и аксиомы теории вероятности. Базовые понятия математической статистики.
курс лекций [1,1 M], добавлен 08.04.2011Основные понятия комбинаторики. Определение теории вероятности. Понятие математического ожидания и дисперсии. Основные элементы математической статистики. Условная вероятность как вероятность одного события при условии, что другое событие уже произошло.
реферат [144,6 K], добавлен 25.11.2013Возникновение теории вероятности как науки. Классическое определение вероятности. Частость наступления события. Операции над событиями. Сложение и умножение вероятности. Схема повторных независимых испытаний (система Бернулли). Формула полной вероятности.
реферат [175,1 K], добавлен 22.12.2013Определение условий сходимости положительного ряда и описание свойств гармонических рядов Дирихле. Изучение теорем сравнения рядов и описание схемы Куммера для вывода из нее признаков сравнения ряда. Вывод признаков сравнения Даламбера, Раабе и Бертрана.
курсовая работа [263,6 K], добавлен 14.06.2015Показатели безотказности как показатели надежности невосстанавливаемых объектов. Классическое и геометрическое определение вероятности. Частота случайного события и "статистическое определение" вероятности. Теоремы сложения и умножения вероятностей.
курсовая работа [328,1 K], добавлен 18.11.2011Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.
задача [409,0 K], добавлен 17.10.2012Предмет и метод математической статистики. Распределение непрерывной случайной величины с точки зрения теории вероятности на примере логарифмически-нормального распределения. Расчет корреляции величин и нахождение линейной зависимости случайных величин.
курсовая работа [988,5 K], добавлен 19.01.2011Определение вероятности случайного события, с использованием формулы классической вероятности, схемы Бернулли. Составление закона распределения случайной величины. Гипотеза о виде закона распределения и ее проверка с помощью критерия хи-квадрата Пирсона.
контрольная работа [114,3 K], добавлен 11.02.2014