Математическая статистика
Математическая статистика как наука об общих способах результатов экспериментов. Установление закономерностей, которым подчинены массовые случайные явления. Понятие систематической и случайной ошибок. Сущность выборочной и генеральной совокупностей.
Рубрика | Математика |
Вид | реферат |
Язык | русский |
Дата добавления | 12.09.2019 |
Размер файла | 79,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Негосударственное частное образовательное учреждение
высшего профессионального образования
“Национальный открытый институт России
г. Санкт-Петербург”
Кафедра: Психологии управления
Дисциплина: Математическая статистика
Студента группы: Ппу-141СА/3
Студент: Важинская Марина Александровна
Санкт - Петербург
2019 год
Математическая статистика - наука о математических методах систематизации, обработки и использовании статистических данных для научных и практических выводов.
Поговорим об этом подробнее.
Общепринятой сейчас является точка зрения на математическую статистику как на науку об общих способах обработки результатов эксперимента. Решая эти проблемы, каким должен обладать эксперимент, чтобы сделанные на его основании суждения были правильными. Математическая статистика отчасти становится наукой о планировании эксперимента.
Значение слова “статистика” за последние два столетия претерпело значительные изменения, - пишут известные современные учёные Ходжес и Леман, - слово “статистика” имеет один корень со словом “государство” (state) и первоначально означало искусство и науку управления: первые преподаватели статистики университетов Германии 18-го века сегодня назывались бы специалистами по общественным наукам. Поскольку решения правительства до некоторой степени основываются на данных о населении, промышленности и т.д. статистики, естественно, стали интересоваться и такими данными, и постепенно слово “статистика” стало означать сбор данных о населении, о государстве, а затем вообще сбор и обработку данных. Нет смысла извлекать данные, если из этого не извлекается какая-то польза, и статистики, естественно, начинают заниматься интерпретацией данных.
Современный статистик изучает методы, при помощи которых можно сделать выводы о популяции на основе данных, которые обычно получают из выборки “популяции”.
Определение. Статистик - человек, который занимается наукой о математических методах систематизации, обработке и использования статистических данных для научных и практических выводов.
Математическая статистика возникла в 17 веке и развивалась параллельно с теорией вероятностей. Дальнейшее развитие математической статистики (вторая половина 19 начало 20-ых веков) обязано в первую очередь, П.Л. Чебышеву, А.А. Маркову, А.М. Ляпунову, К. Гауссу, А. Кетле, Ф.Гальтону, К Пирсону, и др. В 20 -ом наиболее существенный вклад в математическую статистику был сделан А.Н. Колмогоровым, В.И. Романовским, Е.Е. Слуцким, Н.В. Смирновым, Б.В. Гнеденко, а также английскими Стъюдентом, Р. Фишером, Э. Пурсоном и американскими (Ю. Нейман, А Вальд) учёными.
Задачи математической статистики и значение ошибки в мире науки
Установление закономерностей, которым подчинены массовые случайные явления, основаны на изучении методами теории вероятностей статистических данных результатов наблюдений.
Первая задача математической статистики - указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.
Вторая задача математической статистики - разработать методы анализа статистических данных в зависимости от целей исследования.
Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования (планирования эксперимента), в ходе исследования (последовательный анализ). Её можно определить как науку о принятии решений в условии неопределённости.
Кратко, можно сказать, задача математической статистики состоит в создании методов сбора и обработки статистических данных.
При изучении массового случайного явления предполагается, что все испытания производятся при одинаковых условиях, т.е. группа основных факторов, поддающихся учёту (измерению) и оказывающих существенное влияние на результат испытания, сохраняет по возможности одинаковые значения.
Случайные факторы искажают результат, который получился бы при наличии только основных факторов, делают его случайным. Отклонение результата каждого испытания от истинного называется ошибкой наблюдения, которая представляет собой случайную величину. Необходимо различать систематические ошибки и случайные.
Научный эксперимент немыслим без ошибки как океан, без соли. Любой поток фактов, пополняющий наше знание, приносит какую-то ошибку. Согласно известной поговорке в жизни у большинства людей ни в чём нельзя быть уверенным, кроме смерти и налогов, а учёный добавляет: “И ошибок опыта”.
Статистик - это “ищейка”, которая охотится за ошибкой. Статистика инструмент для обнаружения ошибки.
Слово “ошибка” не означает простой “просчёт”. Последствия просчёта - это небольшой и сравнительно неинтересный источник ошибки эксперимента.
Действительно, наши инструменты ломаются; наши глаза и уши могут обмануть нас; наши измерения никогда не бывают совершенно точными, иногда даже наши арифметические подсчёты бывают ошибочными. Ошибка эксперимента есть нечто более существенное, чем неточная рулетка или обман зрения. И так как важнейшее дело статистики помочь учёным проанализировать ошибку эксперимента, то мы должны попытаться понять, что же такое ошибка в действительности.
Над какой бы проблемой учёный не работал, она, безусловно, окажется более сложной, чем ему бы хотелось. Предположим, он измеряет выпадение радиоактивных осадков в разных широтах. Результаты будут зависеть от высоты над уровнем моря тех мест, где собраны образцы, от количества местных осадков и от высотных циклонов на более широких пространствах.
Экспериментальная ошибка - это неотъемлемая часть всякого подлинно научного опыта.
Один и тот же результат может быть ошибкой и информацией в зависимости от проблемы и точки зрения. Если биолог желает исследовать, как изменение в питании влияют на рост, то наличие родственной конституции являются источником ошибки; если же он изучает зависимость между наследственностью и ростом, источником ошибки будут различия в питании. Если физик хочет исследовать зависимость между электропроводностью и температурой, различия в плотности, служащего проводником материала, являются источником ошибки; если же он изучает зависимость между этой плотностью и электропроводностью, температурные изменения будут источником ошибки.
Это употребление слова ошибка может показаться сомнительным, и, возможно, предпочтительным было бы сказать, что полученные эффекты искажены “непредполагаемыми” или “нежелательными” воздействиями. Мы планируем эксперимент для изучения известных влияний, но случайные факторы, которые мы не в состоянии предвидеть или проанализировать, искажают результаты, добавляя к ним свои собственные эффекты.
Различия между запланированными эффектами и эффектами, обусловленными случайными причинами, подобно различию между движениями судна в море, плывущего по определённому курсу, и судна, дрейфующего бесцельно по воле изменчивых ветров и течений. Движение второго судна можно назвать движением случайным. Не исключено, что это судно может прийти в какой - либо порт, но более вероятно, что оно, ни в какое определённое место не придёт.
Статистики употребляют слово “случайный” для обозначения явления, исход которого в предстоящий момент времени совершенно невозможно предсказать.
Ошибка, обусловленная предусмотренными в опыте эффектами, бывает иногда скорее систематической, нежели случайной.
Систематическая ошибка вводит в заблуждение больше, чем случайная. Помехи, идущие от другой радиостанции, могут создать систематический музыкальный аккомпанемент, который вы иногда можете предсказать, если вы знаете мелодию. Но этот “аккомпанемент” может быть причиной того, что мы можем составить неправильное суждение о словах или о музыке программы, которую мы пытаемся услышать.
Однако обнаружение систематической ошибки часто наводит нас на след нового открытия. Знания, каким образом появляются случайные ошибки, помогают нам обнаружить систематические ошибки и, следовательно, исключить их.
Тот же характер рассуждений обычен и в наших житейских делах. Как часто мы замечаем: “Это не случайность!”. Всякий раз, когда мы можем это сказать - мы находимся на пути к открытию.
Например, А.Л. Чижевский, анализируя исторические процессы: увеличение смертности, эпидемии, начала войн, великие перемещения народов, резкие изменения климата и т.д. открыл зависимость между этими, не связанными между собой процессами и периодами солнечной активности, которые имеют циклы: 11 лет, 33 года.
Определение. Под систематической ошибкой понимается ошибка, повторяющаяся и одинаковая для всех испытаний. Она обычно связана с неправильным ведением эксперимента.
Определение. Под случайными ошибками понимаются ошибки, возникающие под влиянием случайных факторов и меняющихся случайным образом от опыта к опыту.
Обычно распределение случайных ошибок симметрично относительно нуля, откуда вытекает важный вывод: при отсутствии систематических ошибок истинный результат испытаний есть математическое ожидание случайной величины, конкретное значение которой фиксируется в каждом испытании.
Объектами изучения в математической статистике могут быть качественные или количественные признаки изучаемого явления или процесса.
В случае качественного признака подсчитывается число появлений этого признака в рассматриваемой серии опытов; это число и представляет собой изучаемую (дискретную) случайную величину. Примерами качественных признаков могут служить дефекты на готовой детали, демографические данные и т.д. Если признак является количественным, то в опыте производится прямое или косвенное измерения путём сравнения с некоторым эталоном - единицей измерения - с помощью различных измерительных приборов. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным - контролируемый размер детали.
Основные определения
Значительная часть математической статистики связана с необходимостью описать большую совокупность объектов.
Определение. Всю совокупность объектов, подлежащих изучению, называют генеральной совокупностью.
Генеральной совокупностью могут быть всё население страны, месячная продукция завода, популяция рыб, живущих в данном водоёме и т.д.
Но генеральная совокупность - это не просто множество. Если интересующая нас совокупность объектов слишком многочисленна, или объекты труднодоступны, или имеются другие причины, не позволяющие изучить все объекты, прибегают к изучению какой-то части объектов.
Определение. Та часть объектов, которая попала на проверку, исследование и т.п., называется выборочной совокупностью или просто выборкой. математический статистика ошибка совокупность
Определение. Число элементов в генеральной совокупности и выборке называется их объёмами.
Как добиться, чтобы выборка наилучшим образом представляло целое, т.е. была бы репрезентативной?
Если целое, т.е. если генеральная совокупность нам мало известна или совсем неизвестна, не удаётся предложить ничего лучшего, чем чисто случайный выбор. Большая осведомлённость позволяет действовать лучше, но всё равно на некоторой стадии наступает незнание и, как результат - случайный выбор.
Но как осуществить чисто случайный выбор? Как правило, отбор идёт по легко наблюдаемым признакам, ради изучения которого ведётся исследование.
Нарушение же принципов случайного выбора приводило к серьезным ошибкам. Стал знаменитым своей неудачей опрос, проведённый американским журналом “Литературное обозрение” относительно исхода президентских выборов в 1936 году. Кандидатами на этих выборах были Ф.Д. Рузвельт и А.М. Ландон.
Кто победил?
В качестве генеральной совокупности редакция использовала телефонные книги. Отобрав случайно 4 миллиона адресов, она разослала открытки с вопросами об отношении к кандидатам в президенты по всей стране. Затратив большую сумму на рассылки и обработку открыток, журнал объявил, что на предстоящих выборах в президенты с большим перевесом победит Ландон. Результат выборов оказался противоположенным этому прогнозу.
Здесь были совершенны сразу две ошибки. Во-первых, телефонные книги не дают репрезентативную выборку из населения США - в основном зажиточные главы семейств. Во-вторых, прислали ответы не все люди, а в значительной части представители делового мира, которые и поддерживали Ландона.
В то же время социологи Дж. Гэллан и Э. Уорнер правильно предсказали победу Ф.Д. Рузвельта, основываясь только на четырёх тысячах анкетах. Причиной этого успеха было не только правильное составление выборки. Они учли, что общество распадается на социальные группы, которые более однородны по отношению к кандидатам в президенты. Поэтому выборка из слоя может быть относительно малочисленной с тем же результатом точности. Победил в итоге Рузвельт, который был сторонником реформ для менее богатых слоёв населения.
Имея результаты обследования по слоям, можно характеризовать общество в целом.
Что представляют собой выборки?
Это ряды чисел.
Более подробно остановимся на основных понятиях, характеризующих ряд выборки.
Из генеральной совокупности извлечена выборка объёмом n> n1, где n1 - столько раз наблюдалось появление x1, n 2 - x2 и т.д.
Наблюдаемые значения хi называют вариантами, а последовательность вариантов, записанных в возрастающем порядке - вариационным рядом. Числа наблюдений ni называют частотами и ni/n - относительными частотами (или частостями).
Определение. Различные значения случайной величины называются вариантами.
Определение. Вариационным рядом называется ряд, расположенный в порядке возрастания (или убывания) вариантов с соответствующими им частотами (частостями).
При изучении вариационных рядов наряду с понятиями частоты используется понятие накопленной частоты. Накопленные частоты (частости) для каждого интервала находятся последовательным суммированием частот всех предшествующих интервалов.
Определение. Накопление частот или частостей называют кумуляцией. Кумулировать можно частоты вариант и интервалов.
Характеристики ряда могут быть количественные и качественные.
Количественные (вариационные) характеристики - это характеристики, которые можно выразить числами. Их подразделяются на дискретные и непрерывные.
Качественные (атрибутивные) характеристики - это характеристики, которые не выражаются числами.
Непрерывные переменные - это переменные, которые выражаются действительными числами.
Дискретные переменные - это переменные, которые выражаются только целыми числами.
Выборки характеризуются центральными тенденциями: средним значением, модой и медианой. Средним значением выборки называют среднее арифметическое всех её значений. Мода выборки - те её значения, которые встречаются чаще всего. Медиана выборки - это число, “разделяющее” пополам упорядоченную совокупность всех значений выборки.
Вариационный ряд может быть дискретным или непрерывным.
Задача
Дана выборка: 1,3; 1,8; 1,2; 3,0; 2,1; 5; 2,4; 1,2; 3,2;1,2; 4; 2,4.
Это ряд вариантов. Расположив эти варианты в возрастающем порядке, мы получим вариационный ряд: 1,2; 1,2; 1,2; 1,3; 1,8; 2,1; 2,4; 2,4; 3,0; 3,2; 4; 5.
Среднее значение этого ряда равно 2,4.
Медиана ряда 2,25.
Мода ряда -1,2.
Дадим определения этим понятиям.
Определение. Медианой вариационного ряда называется то значение случайной величины, которое приходится на средину вариационного ряда (Ме).
Медианой упорядоченного ряда чисел с нечетным числом членов называется число, записанное посередине, а медианой упорядоченного ряда чисел с четным числом членов называется среднее арифметическое двух чисел, записанных посередине. Медианой произвольного ряда чисел называется медиана соответствующего упорядоченного ряда.
Определение. Модой вариационного ряда называют вариант (значение случайной величины), которому соответствует наибольшая частота (Мо), т.е. которая встречается чаще других.
Определение. Среднеарифметическим значением вариационного ряда называется результат деления суммы значений статистической переменной на число этих значений, то есть на число слагаемых.
Правило нахождения среднеарифметического значения выборки:
1. каждую варианту умножить на её частоту (кратность);
2. сложить все полученные произведения;
3. поделить найденную сумму на сумму всех частот.
Определение. Размахом ряда называется разность между R=xmax -xmin, т.е. наибольшим и наименьшим значениями этих вариантов.
Проверим, правильно ли мы нашли среднее значение этого ряда, медиану и моду, опираясь на определения.
Сосчитали число членов, их 12 - чётное число членов, значит надо найти среднее арифметическое двух чисел записанных посередине, то есть 6 и 7-ой варианты. (2,1+2,4)\2=2.25 - медиана.
Мода. Модой является 1.2, т.к. только это число встречается 3 раза, а остальные встречаются меньше, чем 3 раза.
Среднеарифметическое значение находим так:
(1,2*3+1,3+1,8+2,1+2,4*2+3,0+3,2 +4+5)\12=2,4
Составим таблицу:
Такие таблицы называют частотными. В них числа второй строки - частоты; они показывают, как часто встречаются в выборке те или другие её значения.
Определение. Относительной частотой значений выборки называют отношение её частоты к числу всех значений выборки.
Относительные частоты иначе называют частостями. Частоты и частости называют весами. Найдём размах ряда: R=5-1,2=3,8; Размах ряда равен 3,8.
Информация к размышлению
Среднее арифметическое - это условная величина. Реально она не существует. Реально существует общая сумма. Поэтому среднее арифметическое не есть характеристика одного наблюдения; она характеризует ряд в целом.
Среднее значение можно трактовать как центр рассеивания значений наблюдаемого признака, т.е. значения, около которого колеблются все наблюдаемые значения, причём алгебраическая сумма отклонений от среднего, всегда равна нулю, т.е. сумма отклонений от среднего в большую или меньшую сторону равны между собой.
Среднее арифметическое является абстрактной (обобщающей) величиной. Даже при задании ряда только из натуральных чисел, среднее значение может выражаться дробным числом. Пример: средний балл контрольной работы 3,81.
Среднее значение находится не только для однородных величин. Средняя урожайность зерновых по всей стране (кукуруза-50-60 ц. с га. и гречиха-по5-6 ц. с га, рожь, пшеница и т.д.), среднее потребление продуктов питания, средняя величина национального дохода на душу населения, средний показатель обеспеченности жильём, средний взвешенный показатель стоимости жилья, средняя трудоёмкость возведения здания и т.д. - это характеристики государства как единой народнохозяйственной системы, это так называемые системные средние.
В статистике широкое применение находят такие характеристики, как мода и медиана. Их называют структурными средними, т.к. значения этих характеристик определяются общей структурой ряда данных.
Иногда ряд может иметь две моды, иногда ряд может не иметь моды.
Мода является наиболее приемлемым показателем при выявлении расфасовки некоторого товара, которой отдают предпочтение покупатели; цены на товар данного вида, распространённый на рынке; как размер обуви, одежды, пользующийся наибольшим спросом; вид спорта, которым предпочитают заниматься большинство населения страны, города, посёлка школы и т.д.
В строительстве существует 8 вариантов плит по ширине, и более часто применяются 3 вида:1 м. 1,2 м. и 1,5 м. По длине 33 варианта плит, но чаще других применяются плиты длиной 4,8 м.; 5,7 м. и 6,0 м., мода на плиты чаще всего встречается среди этих 3-х размеров. Аналогично можно рассуждать и с марками окон.
Моду ряда данных находят тогда, когда хотят выявить некоторый типичный показатель.
Мода может быть выражена числом и словами, с точки зрения статистики мода - это экстремум частоты.
Медиана позволяет учитывать информацию о ряде данных, которую даёт среднее арифметическое и наоборот.
Задачи
Задача 1. В данной выборке найти моду, медиану, среднее арифметическое, разброс, дисперсию: 3, 2, 15, 5, 10, 8, 6, 3, 10, 8, 15, 5, 10, 8, 5, 3.
Решение.
Группируем данные:
Значение |
Частота |
|
2 |
1 |
|
3 |
3 |
|
5 |
3 |
|
6 |
1 |
|
8 |
3 |
|
10 |
3 |
|
15 |
2 |
|
Всего |
16 |
Составляем расчетную таблицу:
Значение, n |
Частота, f |
Накопленная частота |
n*f |
(n-nср)2 * f |
|
2 |
1 |
1 |
2 |
27,5 625 |
|
3 |
3 |
4 |
9 |
54,1 875 |
|
5 |
3 |
7 |
1 |
15,1 |
|
5 |
875 |
||||
6 |
1 |
8 |
6 |
1,56 25 |
|
8 |
3 |
11 |
2 4 |
1,68 75 |
|
10 |
3 |
14 |
3 0 |
22,6 875 |
|
15 |
2 |
16 |
3 0 |
120 125 |
|
сумма |
16 |
1 6 |
243 |
Среднееарифметическое = 7, 25
Дисперсия = 15,1875
Среднееквадратичное отклонение (средний разброс): 3, 8971
Коэффициент вариации: 53, 7%
Вариативность достаточно сильная. Мода определяется по максимальной частоте, но поскольку таких значений в ряду несколько, то наиболее часто встречающихся значений несколько - это 3, 5, 8, 10. Медиана определяется по значению, следующему за серединой ряда накопленных частот. Середина ряда = 16/2 = 8, следующее за ним значение 8 (с накопленной частотой 11). Следовательно, половина выборки меньше (больше) 8.
Задача 2. Даны две независимые выборки объема 11 и 14, извлеченные из нормальных совокупностей X, Y. Известны также исправленные дисперсии, равные соответственно 0,75 и 0,4. Необходимо проверить нулевую гипотезу о равенстве генеральных дисперсий при уровне значимости г=0,05. Конкурирующую гипотезу выбрать по желанию.
Решение
Нулевая гипотеза для нашей задачи записывается следующим образом:
В качестве конкурирующей гипотезы рассмотрим следующую
Вычислим отношение большей исправленной дисперсии к меньшей и получим наблюдаемое значение критерия:
Так как конкурирующая гипотеза, которую мы выбрали, имеет вид
то критическая область является правосторонней. По таблице для уровня значимости 0,05 и числам степеней свободы равным 10 (11 - 1 = 10) и 13 (14 - 1 = 13) соответственно найдем критическую точку:
Так как наблюдаемое значение критерия меньше критического значения (1,875<2,67), то нет оснований отвергнуть гипотезу о равенстве генеральных дисперсий. Таким образом, исправленные дисперсии различаются между собой незначимо.
Рассмотренная задача непроста на первый взгляд, но вполне стандартна и решается по шаблону. Друг от друга такие задачи отличаются, как правило, значениями критериев и критической областью.
Размещено на Allbest.ru
Подобные документы
Математическая статистика как наука, методы ее изучения, история становления и развития, новейшие направления исследований. Порядок и этапы статистической обработки экспериментальных данных. Установление законов распределения выборочных совокупностей.
курсовая работа [122,3 K], добавлен 09.08.2009Основные методы формализованного описания и анализа случайных явлений, обработки и анализа результатов физических и численных экспериментов теории вероятности. Основные понятия и аксиомы теории вероятности. Базовые понятия математической статистики.
курс лекций [1,1 M], добавлен 08.04.2011Теория вероятностей и математическая статистика являются науками о методах количественного анализа массовых случайных явлений. Множество значений случайной величины называется выборкой, а элементы множества – выборочными значениями случайной величины.
реферат [77,8 K], добавлен 26.12.2008Сущность закона распределения и его практическое применение для решения статистических задач. Определение дисперсии случайной величины, математического ожидания и среднеквадратического отклонения. Особенности однофакторного дисперсионного анализа.
контрольная работа [328,2 K], добавлен 07.12.2013Анализ случайных явлений, статистическая обработка результатов численных экспериментов. Способы вычисления наступления предполагаемого события. Решение задач, связанных с теорией вероятности. Вероятность попадания случайной величины в заданный интервал.
контрольная работа [43,8 K], добавлен 21.09.2013Предмет, методы и понятия математической статистики, ее взаимосвязь с теорией вероятности. Основные понятия выборочного метода. Характеристика эмпирической функции распределения. Понятие гистограммы, принцип ее построения. Выборочное распределение.
учебное пособие [279,6 K], добавлен 24.04.2009Пространство элементарных событий. Понятие совместных и несовместных событий и их вероятностей. Плотность распределения вероятностей системы двух случайных величин. Числовые характеристики системы. Закон генеральной совокупности и его параметры.
контрольная работа [98,1 K], добавлен 15.06.2012Понятие, происхождение и предмет статистики с точки зрения современной науки и практики; стадии и методы статистического исследования, математическая составляющая. Метод главных компонент, его применение. Закон больших чисел, парадокс сэра Гиффена.
курсовая работа [955,2 K], добавлен 17.05.2012Примеры пространства элементарных событий. Вероятность появления одного из двух несовместных событий. Функция распределения F(x,y) системы случайных величин. Расчет математического ожидания и дисперсии. Закон генеральной совокупности и его параметры.
контрольная работа [178,1 K], добавлен 15.06.2012Правила выполнения и оформления контрольных работ для заочного отделения. Задания и примеры решения задач по математической статистике и теории вероятности. Таблицы справочных данных распределений, плотность стандартного нормального распределения.
методичка [250,6 K], добавлен 29.11.2009