Общая теория статистики
Статистическое наблюдение, формы, способы наблюдения и ошибки. Определение числа групп и величины интервала статистической группировки. Понятие, формы выражения и виды статистических показателей. Средние величины, показатели вариации, формы распределения.
Рубрика | Математика |
Вид | учебное пособие |
Язык | русский |
Дата добавления | 13.09.2017 |
Размер файла | 906,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Таблица 8. 3 Формулы расчета средней ошибки выборки м
Способ отбора |
Для средней |
Для доли |
|
Собственно-случайный повторный |
|||
Случайный и механический бесповторный |
|||
Типологический бесповторный |
|||
Серийный бесповторный с равновеликими сериями |
где - средняя из выборочных дисперсий типических групп;
- средняя дисперсия доли признака в выборочной совокупности;
r - число серий в выборочной совокупности;
R - число серий в генеральной совокупности;
- межсерийная дисперсия средних;
- межсерийная дисперсия доли.
Пример 1: При проверке веса импортируемого груза на таможне методом случайной повторной выборки было отобрано 200 изделий. В результате установлен средний вес изделий - 30 грамм, при среднем квадратическом отклонении - 4 грамма. С вероятностью 0,997 определите пределы, в которых находится средний вес изделий в генеральной совокупности.
Дано: n = 200 изделий г г P = 0,997 Найти: |
Решение: для определения интервала среднего веса изделий в генеральной совокупности необходимо знать величину предельной ошибки выборки, которая определяется по формуле: . Так как по условию задачи вероятность Р = 0,997, то по табл. 8.2 ей соответствует следующее значение коэффициента доверия : t = 3. Был произведен случайный повторный отбор, по табл. 8.3 выбираем формулу для расчета средней ошибки выборки: г. Зная t и определим величину предельной ошибки выборки: г. Тогда интервал среднего веса изделий в генеральной совокупности будет таким: ; ; . |
Ответ: с вероятностью 0,997 можно утверждать, что средний вес изделий в генеральной совокупности находится в пределах от 29,151 г до 30,849 г.
3. Определение необходимого объема выборки
Очень важное значение имеет определение оптимальной численности выборки, которая с определенной вероятностью обеспечит заданную точность результатов наблюдения. При увеличении численности выборки ошибка выборки уменьшается. Но так как отобранные единицы для обследования часто разрушаются, то нормы отбора единиц в выборку должны быть оптимальными. Оптимальную численность выборки можно получить из формул ошибок выборки.
Таблица 8.4 Формулы определения оптимальной численности выборки
Способ отбора |
Для средней |
Для доли |
|
Собственно-случайный повторный |
|||
Случайный и механический бесповторный |
|||
Типологический бесповторный |
|||
Серийный бесповторный с равновеликими сериями |
Формулы показывают, что с увеличением предполагаемой ошибки выборки значительно уменьшается необходимый объём выборки.
Для расчета объёма выборки нужно знать дисперсию. Она может быть заимствована из проводимых ранее обследований данной или аналогичной совокупности или можно провести специальное выборочное обследование небольшого объёма.
Пример 2: На предприятии в порядке случайной бесповторной выборки были опрошены 100 рабочих из 1000 и получены следующие данные об их доходе за октябрь (табл. 8.5).
Таблица 8.5 Распределение рабочих по размеру среднего месячного дохода
Месячный доход, тыс. руб. |
15-17 |
17-19 |
19-21 |
21-23 |
|
Число рабочих, чел. |
12 |
60 |
20 |
8 |
Определить:
1) среднемесячный размер дохода у работников данного предприятия, гарантируя результат с вероятностью 0,997;
2) долю рабочих предприятия, имеющих месячный доход 19 тыс. руб. и выше, гарантируя результат с вероятностью 0,954;
3) необходимую численность выборки при определении среднего месячного дохода работников предприятия, чтобы с вероятностью 0,954 предельная ошибка выборки не превышала 200 руб.
Решение:
1) Определим среднемесячный размер дохода у работников данного предприятия, гарантируя результат с вероятностью 0,997.
Дано: n = 100 чел. N = 1000 чел. P = 0,997 Найти: |
Решение: для определения интервала среднемесячного дохода работников данного предприятия в генеральной совокупности необходимо знать величину предельной ошибки выборки и размер среднемесячного дохода рабочих по данным выборочного обследования . Предельная ошибка выборки определяется по формуле . Она зависит от величины коэффициента доверия t и средней ошибки выборки . Поскольку P = 0,997, то (по табл. 8.2) t = 3. Был произведен случайный бесповторный отбор, по табл. 8.3 выбираем формулу для расчета средней ошибки выборки для средней: , где - дисперсия по выборке. Размер среднемесячного дохода рабочих по данным выборочного обследования определим по формуле средней арифметической взвешенной: . Дополнительные расчеты проведем в следующей таблице: Месячный доход, тыс. руб. Число рабочих, чел. Середина интервала 15 - 17 17 - 19 19 - 21 21 - 23 12 60 20 8 16 18 20 22 192 1080 400 176 75 15 45 98 Итого 100 Х 1848 233 тыс. руб. тыс. руб. Зная t и определим величину предельной ошибки выборки: тыс. руб. Тогда интервал среднего месячного дохода рабочих данного предприятия будет таким: ; ; . |
Ответ: среднемесячный размер дохода у работников данного предприятия с вероятностью 0,997 находится в пределах от 18,08 тыс. руб. до 18,92 тыс. руб.
2) Определим долю рабочих предприятия, имеющих месячный доход 19 тыс. руб. и выше, гарантируя результат с вероятностью 0,954.
Дано: n = 100 чел. N = 1000 чел. P = 0,954 Найти: |
Решение: для определения интервала доли рабочих, имеющих месячный доход 19 тыс. руб. и выше необходимо, знать величину предельной ошибки выборки доли и долю рабочих с таким среднемесячным доходом по данным выборки W. Предельная ошибка выборки определяется по формуле . Она зависит от величины коэффициента доверия t и средней ошибки выборки . Поскольку P = 0,954, то (по табл. 8.2) t = 2. Был произведен случайный бесповторный отбор, по табл. 8.3 выбираем формулу для расчета средней ошибки выборки для доли: , где W - доля рабочих предприятия, имеющих среднемесячный доход 19 тыс. руб. и выше по выборке. Выборочная доля определяется отношением числа единиц, обладающих изучаемым признаком m к общему числу единиц выборочной совокупности n, или . Тогда средняя ошибка доли равна . Зная t и определим величину предельной ошибки выборки для доли: . Тогда интервал доли рабочих с месячным доходом 19 тыс. руб. и выше в генеральной совокупности будет таким: ; ; . |
Ответ: доля рабочих предприятия, имеющих месячный доход 19 тыс. руб. и выше, с вероятностью 0,954 находится в пределах от 19,4% до 36,6%.
3) Определим необходимую численность выборки при определении среднего месячного дохода работников предприятия, чтобы с вероятностью 0,954 предельная ошибка выборки не превышала 200 руб.
Дано: N = 1000 чел. P = 0,954 = 200 руб. Найти: n - ? |
Решение: необходимая численность выборки для определения среднего месячного дохода определяется по формуле (по табл. 8.4): . По условию задачи известны: при вероятности Р = 0,954 t = 2 (см. табл. 8.2) ; = 0,2 тыс. руб.; (по данным предыдущей выборки). чел. |
Ответ: чтобы с вероятностью 0,954 предельная ошибка выборки не превышала 200 руб., должны быть обследованы 189 чел.
Тест к теме 8
1. Выборочное наблюдение - это:
а) вид несплошного наблюдения;
б) способ несплошного наблюдения;
в) форма несплошного наблюдения.
2. О величине средней ошибки выборки можно судить с постоянной степенью вероятности, равной:
а) 0,954; б) 0,683; в) 0,997.
3. Способы отбора единиц в выборочную совокупность:
а) механический; б) простой; в) структурный.
4. По способу формирования выборочной совокупности различают выборку:
а) альтернативная; в) сложная; д) собственно-случайная;
б) типическая; г) комбинационная; е) серийная.
5. Средняя ошибка выборки при серийном отборе зависит только
а) от межгрупповой дисперсии;
б) средней из внутригрупповых дисперсий;
в) общей дисперсии.
6. Если вероятность, с которой гарантируется предельная ошибка выборки, равна 0,954, то «коэффициент доверия» равен:
а) 1; б) 2; в) 3.
7. Проведено собственно-случайное бесповторное обследование заработной платы сотрудников аппарата управления двух финансовых корпораций. Обследовано одинаковое число сотрудников. Дисперсия заработной платы для двух финансовых корпораций одинакова. А численность аппарата управления больше в первой корпорации. Средняя ошибка выборки:
а) больше в перовой корпорации; в) больше во второй корпорации;
б) в обеих корпорациях одинакова; г) данные не позволяют сделать вывод.
8. По данным 10%-го выборочного обследования, дисперсия средней заработной платы сотрудников первого туристического агентства - 225, а второго - 100. Численность сотрудников первого туристического агентства в четыре раза больше, чем второго. Ошибка выборки:
а) больше в первом туристическом агентстве;
б) больше во втором туристическом агентстве;
в) в обоих туристических агентствах одинакова;
г) данные не позволяют сделать вывод.
9. При выборочном обследовании продуктивности скота в фермерских хозяйствах вначале отбирались группы фермерских хозяйств определенного производственного направления, а в отобранных группах - отдельные хозяйства. Этот отбор является:
а) серийным; б) типическим; в) двухступенчатым; г) двухфазным.
10. При отборе рабочих экспедиторских фирм для обследования причин потерь рабочего времени были заведомо исключены рабочие, имеющие сокращенный рабочий день. Результаты обследования содержат:
а) систематическую ошибку регистрации;
б) систематическую ошибку репрезентативности.
12. На таможенном посту проверено 36% ручной клади пассажиров. Ошибка собственно-случайной бесповторной выборки меньше ошибки повторной выборки
а) на 10%; б) 19%; в) 20%; г) 1%; д) определить результат невозможно.
13. Недостающим элементом в формуле расчета объема выборки при бесповторном случайном отборе (для средней величины) является:
а) (N - 1); б) Д; в) у ; г) у2 ; д) Д2; е) (1 - n/N).
14. Средняя ошибка при случайной повторной выборке …, если ее объем увеличится в четыре раза…
а) уменьшится в 4 раза; б) уменьшится в 2 раза;
в) увеличится в 4 раза; г) не изменится.
15. Средняя ошибка выборки (м) для средней величины характеризует:
а) тесноту связи между двумя факторами;
б) среднее значение признака;
в) вариацию признака;
г) темп роста;
д) среднюю величину всех возможных расхождений выборочной и генеральной средней.
16. Формулу используют для расчета средней ошибки
а) при уточнении данных сплошного наблюдения;
б) малой выборке;
в) наличии высокого уровня вариации признака;
г) изучении качественных характеристик явлений.
Задачи для решения
1. По городской телефонной сети в порядке случайной бесповторной выборки произвели 100 наблюдений и установили среднюю продолжительность одного телефонного разговора - 5 мин. При среднем квадратическом отклонении - 2 мин.
Определить:
1) пределы средней продолжительности одного телефонного разговора с вероятностью 0,954;
2) как изменится предельная ошибка выборки, если вероятность будет принята равной 0,997.
2. Из партии изготовленных изделий общим объемом 2000 единиц проверено посредством механической выборки 30% изделий, из которых бракованными оказались 12 изделий.
Определить:
1) долю бракованных изделий по данным выборки;
2) пределы, в которых находится процент бракованных изделий, для всей партии (с вероятностью 0,954).
3. На предприятии в порядке случайной бесповторной выборки были опрошены 100 рабочих из 1000 и получены следующие данные об их доходе за октябрь:
Месячный доход, тыс. руб. |
10,2-12,0 |
12,0-12,8 |
12,8-13,6 |
13,6-14,4 |
|
Число рабочих, чел. |
12 |
60 |
20 |
8 |
Определить:
1) среднемесячный размер дохода у работников данного предприятия, гарантируя результат с вероятностью 0,997;
2) долю рабочих предприятия, имеющих месячный доход 12,8 тыс. руб. и выше, гарантируя результат с вероятностью 0,954.
4. С целью определения средней фактической продолжительности рабочего дня в государственном учреждении с численностью служащих 480 человек в июне 2006 г. была проведена 25%-я механическая выборка. По результатам наблюдения оказалось, что у 10% обследованных потери времени достигали более 45 мин в день. С вероятностью 0,683 установите пределы, в которых находится генеральная доля служащих с потерями рабочего времени более 45 мин в день.
5. С целью определения средних затрат времени при поездках на работу населением города планируется выборочное наблюдение на основе случайного повторного отбора. Сколько людей должно быть обследовано, чтобы с вероятностью 0,954 ошибка выборочной средней не превышала 1 мин при среднем квадратическом отклонении 15 мин?
6. Что произойдет с величиной предельной ошибки выборки, если вероятность, гарантирующую результат, увеличить с 0,954 до 0,997?
7. Определите, как изменится средняя ошибка случайной повторной выборки, если необходимую численность выборочной совокупности уменьшить в 2,5 раза; на 40%?
8. В каком соотношении находятся при прочих равных условиях ошибки собственно-случайной бесповторной и повторной выборок при 5%-м отборе?
Тема 9. Корреляционный и многомерный статистические методы анализа
1. Понятие корреляционной связи
При характеристике количественной связи между явлениями и отдельными признаками различают два вида связи:
функциональная;
стохастическая (корреляционная).
Функциональная - это полная связь, при которой определенному значению одного признака (факторного) соответствует одно и только одно значение другого признака (результативного).
Признак, характеризующий следствие, называется результативным; признак, характеризующий причину, - факторным.
Функциональные связи чаще всего встречаются в области естественных и технических наук, и особенно в неорганическом мире (например, связь между радиусом и площадью круга).
Характерной особенностью функциональных связей является то, что в каждом отдельном случае известен полный перечень факторов, определяющих значение результативного признака, а также точный механизм их влияния, выраженный определенным уравнением:
у = f(x),
где у - результативный признак;
f(x) - известная функция связи результативного и факторного признаков;
x - факторный признак.
Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической. При этом неизвестен ни полный перечень факторов, определяющих значение результативного признака, ни точный механизм их функционирования и взаимодействия с результативным.
Модель стохастической связи:
= f(x) + ,
где - расчетное значение результативного признака;
f(x) - часть результативного признака, сформировавшаяся под взаимодействием учтенных известных факторных признаков;
- часть результативного признака, возникшая вследствие действия неконтролируемых или неучтенных факторов, а также изменение признаков, неизбежно сопровождающееся некоторыми случайными ошибками.
Частным случаем стохастической связи является корреляционная, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков (стохастическая связь может выражаться не только в изменении средней величины, но и любой другой характеристики вариации результативного признака).
Применение корреляционного анализа позволяет решать следующие задачи:
определять значение переменных под влиянием одного или нескольких факторов;
устанавливать тесноту связи результативного признака с отдельным фактором или с комплексом факторов, включенных в анализ;
анализировать общий объем вариации зависимой переменной и оценивать роль каждого фактора в этой вариации.
Данные задачи решаются с помощью соответствующих показателей.
2. Этапы корреляционного анализа
Статистическое исследование ставит своей конечной целью получение модели зависимости для ее практического использования. Решение этой задачи осуществляется в такой последовательности.
1) Логический анализ сущности изучаемого явления и причинно-следственных связей.
В результате устанавливаются результативный показатель (у), факторы его изменения, характеризуемые показателями (х1, х2, х3,…, хn).
В статистике принято различать следующие варианты зависимостей:
• Парная корреляция - связь между двумя признаками (результативным и факторным или двумя факторными).
• Множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование.
• Частная корреляция - зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.
По направлению выделяют связь прямую и обратную. При прямой связи с увеличением признака х увеличивается и признак у, при обратной - с увеличением признака х признак у уменьшается.
По аналитическому выражению (форме) выделяют связь прямолинейную (или просто линейную) и нелинейную (криволинейную).
Рис. 1. Примеры криволинейных зависимостей
По количеству факторов, действующих на результативный признак, различают однофакторные и многофакторные связи.
2) Сбор первичной информации и проверка ее на однородность и нормальность распределения.
Для оценки однородности совокупности рассчитывается коэффициент вариации по каждому факторному признаку:
.
Совокупность считается однородной, если коэффициент вариации не превышает 33%. Проверка нормальности распределения исследуемых факторных признаков (х1, х2, х3,…, хn) проводится с помощью правила «трех сигм». Результаты проверки на нормальность распределения следует представлять в табличной форме (табл. 9.1).
Таблица 9.1
Интервалы значений признака фактора |
Число единиц, входящих в интервал |
Удельный вес единиц, входящих в интервал, в общем их числе, % |
Удельный вес единиц, входящих в интервал, при нормальном распределении, % |
|
68,3 95,4 99,7 |
Сопоставление данных граф 3 и 4 позволяет судить о наличии или отсутствии нормальности распределения.
На практике часто встречаются случаи отклонения от этих двух предпосылок. Однако это не означает, что следует отказаться от применения корреляционного анализа.
3) Исключение из массива первичной информации всех резко выделяющихся (аномальных) единиц по уровню признаков-факторов.
Исключаются все единицы, у которых уровень признака-фактора не попадает в интервал ,
и формируется новый массив для последующего анализа.
4) Установление факта наличия и направления корреляционной зависимости между результативным (у) и факторным (х) признаками.
Для установления наличия корреляционной связи используется ряд специфических методов: параллельное сопоставление рядов результативного и факторного признака, графическое изображение фактических данных с помощью поля корреляции, построение корреляционной таблицы.
Основным методом выявления наличия корреляционной связи является метод аналитической группировки и определения групповых средних. Он заключается в том, что все единицы совокупности разбиваются на группы по величине признака-фактора и для каждой такой группы определяется средняя величина результативного признака. На основе данных аналитической группировки строится график эмпирической линии связи (линии регрессии), вид которой не только позволяет судить о возможном наличии связи, но и дает некоторое представление о форме корреляционной связи. Если эмпирическая линия связи по своему виду приближается к прямой линии, то можно предположить наличие прямолинейной корреляционной связи; если эмпирическая линия приближается к какой-либо кривой, то это связано с наличием криволинейной связи.
5) После установления факта наличия связи и ее формы измеряется степень тесноты связи и проводится оценка ее существенности.
Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции (r); при любой форме зависимости (линейной и криволинейной) - эмпирическое корреляционное отношение ().
Линейный коэффициент корреляции характеризует тесноту и направление связи между двумя признаками. Для расчета линейного коэффициента корреляции по несгруппированным данным может быть использована следующая формула:
,
где - среднее квадратическое отклонение факторного признака;
среднее квадратическое отклонение результативного признака.
Свойства линейного коэффициента корреляции
1) Линейный коэффициент корреляции может принимать значения в пределах от -1 до +1.
2) Если , то связь между признаками функциональная, т. е. на результативный признак влияет только рассматриваемый факторный признак и больше ничего, если r = 0, то связь между признаками отсутствует.
3) Если r > 0, то связь между признаками прямая, если r < 0, то связь - обратная.
4) Выделяют следующие промежутки для r:
связь между признаками фактически отсутствует;
связь слабая;
связь умеренная;
связь сильная.
Размещено на http://www.allbest.ru/
[Введите текст]
Рис. 2. Примеры расположения точек на графике и значений коэффициента корреляции
Для оценки существенности линейного коэффициента корреляции r используют t - критерий Стьюдента. При этом выдвигается гипотеза о равенстве коэффициента корреляции нулю.
Проверка гипотезы:
1. Вычисляют фактические значения t-критерия для r:
(такая формула применяется при небольшом объеме выборки).
2. По таблице t-распределения Стьюдента с учетом принятого уровня значимости или и числе степеней свободы определяют .
3. Если , то гипотеза отвергается, что свидетельствует о значимости коэффициента корреляции.
Корреляционное отношение определяется по формулам:
з = или з = ,
где - межгрупповая дисперсия результативного признака, вызванная влиянием признака-фактора;
- общая дисперсия результативного признака;
- средняя из внутригрупповых дисперсий результативного признака.
Вычисление корреляционного отношения требует достаточно большого объема информации, которая должна быть представлена в форме групповой таблицы или в форме корреляционной таблицы, т. е. обязательным условием является группировка данных по признаку-фактору.
По несгруппированным данным эмпирическое корреляционное отношение может быть рассчитано по следующей формуле:
.
где y - эмпирические (фактические) значения результативного признака;
- среднее значение результативного признака;
- выравненные значения результативного признака, вычисленные по аналитическому уравнению.
Корреляционное отношение в квадрате (), а для парной связи линейный коэффициент корреляции в квадрате () называют коэффициентом детерминации (причинности), он отражает долю факторной дисперсии в общей дисперсии.
Коэффициент детерминации (D) показывает, на сколько процентов изменение среднего значения результативного признака определяется влиянием данного факторного признака.
В практике могут быть использованы и другие показатели для определения степени тесноты связи.
Элементарной характеристикой степени тесноты связи является коэффициент Фехнера:
,
где na - количество совпадений знаков отклонений индивидуальных величин факторного признака х и результативного признака у от их средней арифметической величины (например, «плюс» и «плюс», «минус» и «минус», «отсутствие отклонения» и «отсутствие отклонения»);
nb - количество несовпадений знаков отклонений индивидуальных значений признаков от значения их средней арифметической.
Коэффициент Фехнера используют при небольшом объеме исходной информации. Он изменяется в пределах от -1 до 1.
Для определения тесноты связи как между количественными, так и между качественными признаками, при условии, что значения этих признаков можно проранжировать по возрастанию или убыванию, используется коэффициент корреляции рангов Спирмэна:
,
где di - разность между величинами рангов признака-фактора и результативного признака;
n - число показателей (рангов) изучаемого ряда.
Он варьирует в пределах от -1 до 1.
6) После установления достаточной степени тесноты связи выполняется построение модели связи (уравнения регрессии).
Тип модели выбирается на основе сочетания теоретического анализа и исследования эмпирических данных посредством построения эмпирической линии регрессии. Чаще всего используются следующие типы функций:
а) линейная - ;
б) гиперболическая - ;
в) параболическая - ;
г) показательная - .
Так как параметр а0 является средним значением результативного признака в точке, где факторный признак равен нулю (х = 0), то экономическая интерпретация этого параметра часто затруднена или вообще невозможна.
Параметры а1, а2, … называются коэффициентами регрессии. Они характеризуют силу связи между факторными и результативным признаками.
При анализе парной связи коэффициент а1 получил название коэффициента полной регрессии. Он показывает, насколько изменится в среднем значение результативного признака при увеличении факторного на единицу собственного измерения.
При изучении множественной связи коэффициенты а1, а2,… называются коэффициентами чистой регрессии. Они отражают степень среднего изменения результативного признака при изменении данного факторного признака на единицу, при условии, что остальные факторы, включенные в модель, остаются неизменными.
Для определения численных значений параметров уравнения связи (линии регрессии) используется метод наименьших квадратов. Суть этого метода состоит в выполнении следующего требования: , т. е. остаточная сумма квадратов отклонений фактических значений результативного признака от их выровненных значений должна быть минимальна. Для определения параметров а0 и а1 уравнения прямолинейной корреляционной связи в условие метода наименьших квадратов вместо подставляем выражение a0+a1x: . Для нахождения минимума данной функции S приравняем к 0 её частные производные по a0 и a1 и получим систему двух линейных уравнений, которая называется системой нормальных уравнений:
где n - число уровней (членов) ряда (в нашем примере 10);
Уx - сумма значений факторного признака;
Уy - сумма значений результативного признака;
Уx2 - сумма значений квадратов факторного признака;
Ухy - сумма произведений значений факторного признака на значение результативного признака.
Решая эту систему, получаем значения параметров уравнения прямой линии.
Значимость коэффициентов простой линейной регрессии (применительно к совокупностям, у которых n < 30) осуществляют с помощью t-критерия Стьюдента.
Алгоритм:
1. Вычисляют фактические значения t-критерия:
• для параметра а0 : , где - остаточное среднее квадратическое отклонение;
• для параметра а1: , где - среднее квадратическое отклонение факторного признака.
2. Вычисленные и сравниваются с , которое определяется по таблице t-распределения Стьюдента с учетом принятого уровня значимости или и числом степеней свободы , где k - число факторных признаков.
3. Параметры а0 и а1 признают значимыми, если и .
Для определения параметров гиперболической функции система нормальных уравнений следующая:
Для определения параметров параболы второго порядка система нормальных уравнений такова:
В качестве меры достоверности уравнения корреляционной зависимости используется процентное отношение средней квадратической ошибки уравнения (Se) к среднему уровню результативного признака ():
,
где у - фактические значения результативного признака;
- значения результативного признака, рассчитанные по уравнению регрессии;
m - число параметров в уравнении регрессии.
Если это отношение не превышает 10-15%, то следует считать, что уравнение регрессии достаточно хорошо отображает изучаемую взаимосвязь.
7) Изучение множественной корреляционной зависимости начинается с анализа матрицы парных коэффициентов корреляции, что позволяет произвести отбор факторов, включаемых в модель множественной зависимости.
Матрица имеет следующий вид (табл. 9.2).
Таблица 9.2
Признак |
y |
x1 |
x2 |
… |
xk |
|
y |
1 |
… |
||||
x1 |
1 |
… |
||||
x2 |
1 |
… |
||||
… |
… |
… |
… |
… |
… |
|
xk |
… |
1 |
Анализ первой строки матрицы позволяет выявить факторы, у которых степень тесноты связи с результативным показателем значительна, а поэтому они могут быть включены в модель. Однако при построении многофакторных моделей должно соблюдаться требование возможно меньшей коррелированности (зависимости) включенных в модель признаков-факторов (отсутствие мультиколлинеарности). В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:
; .
Если приведенные неравенства (или хотя бы одно из них) не выполняются, то исключается тот фактор или , связь которого с результативным признаком у будет менее тесной.
8) Отобранные факторы включаются в модель множественной зависимости. При этом следует учитывать, что число факторов, включаемых в модель, должно быть в 5-6 раз меньше, чем число единиц, входящих в совокупность.
Угадать функцию, которая наилучшим образом отображала бы взаимосвязь между признаками, бывает очень сложно. Обычно проверяют пять основных видов функций:
а) - линейная;
б) - квадратическая;
в) - гиперболическая;
г) - показательная;
д) - степенная.
Мерой достоверности уравнения является процентное отношение средней квадратической ошибки уравнения к среднему уровню результативного показателя, так же как в случае парной корреляции.
9) Для измерения степени тесноты связи между изменениями величины результативного признака (у) и изменениями значений факторных признаков определяется коэффициент множественной (совокупной) корреляции (R).
Для случая зависимости результативного признака от двух факторных признаков формула коэффициента корреляции имеет вид:
Величина R2 называется коэффициентом детерминации; она показывает, в какой мере вариация результативного признака обусловлена влиянием признаков-факторов, включенных в уравнение множественной зависимости.
Величина совокупного коэффициента корреляции изменяется в пределах от 0 до 1 и численно не может быть меньше, чем любой из образующих его парных коэффициентов корреляции. Чем ближе он к единице, тем меньше роль неучтенных в модели факторов и тем более оснований считать, что параметры регрессионной модели отражают степень эффективности включенных в нее факторов.
Для оценки существенности (значимости) совокупного коэффициента корреляции используется критерий F-Фишера.
Алгоритм:
1. Определяется F-расчетное по следующей формуле:
,
где
факторная дисперсия результативного признака, обусловленная вариацией признаков-факторов;
- остаточная дисперсия;
n - число данных;
m - число параметров уравнения.
2. По таблице F-распределения с учетом принятого уровня значимости и числом степеней свободы , находим табличное значение .
3. Если , то с вероятностью 0,95 можно утверждать, что связь между результативным и факторными признаками существенна.
Кроме совокупного коэффициента корреляции познавательное значение имеют частные коэффициенты корреляции, позволяющие установить степень тесноты связи между результативным признаком у и каждым из факторных признаков при исключении искажающего влияния других факторных признаков. Следовательно, коэффициенты частной корреляции отражают степень «чистого» влияния факторного признака на результативный признак. Для их расчета могут быть использованы парные коэффициенты корреляции.
Для случая зависимости результативного признака у от двух признаков-факторов (х1 и х2) определяются два коэффициента частной корреляции:
1) частный коэффициент корреляции между результативным признаком у и фактором х1 при элиминировании фактора х2 :
;
2) частный коэффициент корреляции между результативным признаком у и фактором х2 при элиминировании фактора х1:
.
Величина частного коэффициента корреляции лежит в пределах от 0 до 1, а знак определяется знаком соответствующих параметров регрессии.
Рассчитывая величины частных коэффициентов корреляции, следует иметь в виду, что каждый из них по своей абсолютной величине не может быть больше величины коэффициента множественной (совокупной) корреляции.
10) Для сравнения роли различных факторов в формировании моделируемого показателя определяется коэффициент эластичности (Эj) или коэффициент ().
Частный коэффициент эластичности показывает, на сколько процентов в среднем изменяется результативный признак у с изменением признака-фактора х на 1%, и определяется по формуле:
,
где - коэффициент регрессии при j-м факторе.
коэффициент показывает, на какую часть среднего квадратического отклонения изменится результативный показатель при изменении соответствующего фактора х на величину его среднего квадратического отклонения. Его формула имеет вид:
.
Пример: Рассмотрим построение однофакторного уравнения регрессии зависимости производительности труда (y) от стажа работы (x) 10 рабочих одной бригады:
Таблица 9.3
Стаж работы, лет |
х |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
Дневная выработка рабочего, шт. |
y |
4 |
5 |
6 |
7 |
7 |
8 |
8 |
9 |
10 |
9 |
1) Для уточнения формы связи между рассматриваемыми признаками используем графический метод.
Графически взаимосвязь признаков изображается с помощью поля корреляции.
Область, которую образуют эмпирические точки на поле корреляции, близка к прямой линии. Следовательно, можно считать наличие прямолинейной корреляции.
2) Для измерения степени тесноты связи между признаками используем линейный коэффициент корреляции:
.
Для расчета r использована вспомогательная таблица (табл. 9.4)
Поскольку r > 0, то связь между стажем работы и выработкой рабочих прямая, то есть с увеличением стажа работы средняя дневная выработка рабочего увеличивается. Так как линейный коэффициент корреляции находится в промежутке , то связь между факторным и результативным признаками сильная.
Проверяем значимость коэффициента корреляции:
.
По таблице t-распределения Стьюдента с учетом принятого уровня значимости и числа степеней свободы =10 - 2 = 8 определяем = 3,355. Так как , следовательно, можно утверждать существенность коэффициента корреляции.
Рассчитаем коэффициент детерминации по следующей формуле: , т. е. на 92% изменение производительности труда рабочего обусловлено изменением его стажа работы. Остальные 8% связаны с другими факторами, которые мы не рассматриваем.
3) Определяем модель связи. График показывает наличие линейной связи (рис. 3), поэтому используется функция
=a0+a1x,
где - выравненные значения результативного признака;
a0 - значение y при х = 0;
a1 - коэффициент регрессии (пропорциональности), характеризующий изменение значения y при изменении х на 1 единицу.
Параметры уравнения a0 и a1 находим методом наименьших квадратов.
Для линейной функции условие метода наименьших квадратов равносильно следующей системе нормальных уравнений:
где n - число уровней (членов) ряда (в нашем примере 10);
Уx - сумма значений факторного признака;
Уy - сумма значений результативного признака;
Уx2 - сумма значений квадратов факторного признака;
Ухy - сумма произведений значений факторного признака на значение результативного признака.
Чтобы решить данную систему, построим вспомогательную таблицу (табл. 9.4).
Таблица 9.4 Вспомогательная таблица для расчета линейного коэффициента корреляции и уравнения связи
x |
y |
xy |
x2 |
y2 |
|||
1 |
4 |
4 |
1 |
16 |
4,6 |
0,36 |
|
2 |
5 |
10 |
4 |
25 |
5,2 |
0,04 |
|
3 |
6 |
18 |
9 |
36 |
5,8 |
0,04 |
|
4 |
7 |
28 |
16 |
49 |
6,4 |
0,36 |
|
5 |
7 |
35 |
25 |
49 |
7,0 |
0,00 |
|
6 |
8 |
48 |
36 |
64 |
7,6 |
0,16 |
|
7 |
8 |
56 |
49 |
64 |
8,2 |
0,04 |
|
8 |
9 |
72 |
64 |
81 |
8,8 |
0,04 |
|
9 |
10 |
90 |
81 |
100 |
9,4 |
0,36 |
|
10 |
9 |
90 |
100 |
81 |
10,0 |
1,00 |
|
55 |
73 |
451 |
385 |
565 |
73,0 |
2,40 |
Полученные в итоговой строке значения подставляем в систему нормальных уравнений и решаем ее.
Вычитая из первого уравнения второе, получаем:
, откуда
Подставляем числовое значение в одно из уравнений (например, в первое) и получаем:
, откуда .
Таким образом, нами получено следующее линейное уравнение регрессии:
=4+0,6x.
Коэффициент регрессии a1 показывает, что при увеличении стажа рабочих на 1 год их производительность труда в среднем возрастает на 0,6 шт.
Если перед угловым коэффициентом прямой a1 знак «-», то наблюдается тенденция к снижению (связь между признаками обратная).
Для проверки значимости параметров уравнения а0 и а1 рассчитаем:
,
где (предварительные расчеты см. в табл. 9.4).
В формуле - значения результативного признака, рассчитанные по уравнению связи. Так, для х = 1 ; для остальных значений х расчет выполняется аналогично. Результаты расчета записаны в табл. 9.4
,
где .
По таблице t-распределения Стьюдента с учетом принятого уровня значимости и числом степеней свободы =10 - 1 - 1 = 8 (где k - число факторных признаков) определяем tкрит = 2,306.
Поскольку и , то параметры а0 и а1 признаем значимыми.
Средняя квадратическая ошибка уравнения
.
Тогда отношение меньше 15%, поэтому уравнение достаточно хорошо отображает взаимосвязь двух признаков и может быть использовано в практической работе.
3. Методы изучения связи социальных явлений
Применение корреляционного и регрессионного анализа требует, чтобы все признаки были количественно измеримы. Построение аналитических группировок предполагает, что количественным должен быть результативный признак.
Вместе с тем в статистике применяются также непараметрические методы, с помощью которых устанавливается связь между качественными (атрибутивными) признаками. Сфера их применения шире, поскольку не требуется соблюдения условия нормальности распределения зависимой переменной, однако при этом снижается глубина исследования связей. При изучении зависимости между качественными признаками не ставится задача представления ее уравнением. Здесь речь идет об установлении наличия связи и измерения ее тесноты.
Коэффициенты ассоциации и контингенции
Для определения тесноты связи двух качественных признаков, каждый из которых состоит только из двух групп, применяются коэффициенты ассоциации и контингенции. При исследовании связи числовой материал располагается в виде таблиц сопряженности, например табл. 9.5:
Таблица 9.5 Таблица для вычисления коэффициентов ассоциации и контингенции
a |
b |
a+b |
|
c |
d |
c+d |
|
a+c |
b+d |
a+b+c+d |
Для вычисления строится таблица, которая показывает связь между двумя явлениями, каждое из которых должно быть альтернативным, т. е. состоящим из двух качественно отличных друг от друга значений признака (например, хороший, плохой).
Коэффициенты определяются по формулам:
• ассоциации
• контингенции
Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь считается подтвержденной, если или .
Пример. Исследовалась связь между успеваемостью студентов-заочников и работой их по специальности. Результаты обследования характеризуются следующими данными (табл. 9.6).
Таблица 9.6 Зависимость успеваемости студентов-заочников от работы их по специальности
Студенты-заочники |
Число студентов |
Из них |
||
получившие положительные оценки |
получившие неудовлетворительные оценки |
|||
Работающие по специальностиНе работающие по специальности |
200200 |
180140 |
2060 |
|
Итого |
400 |
320 |
80 |
Таким образом, связь между успеваемостью студентов-заочников и работой их по специальности существенная.
Коэффициенты взаимной сопряженности Пирсона и Чупрова
Когда каждый из качественных признаков состоит более чем из двух групп, то для определения тесноты связи возможно применение коэффициентов взаимной сопряженности Пирсона и Чупрова (табл. 9.7).
Таблица 9.7 Вспомогательная таблица для расчета коэффициентов взаимной сопряженности
у х |
I |
II |
III |
всего |
|
I II III |
nxy |
nx nx nx |
|||
Итого |
ny |
ny |
ny |
n |
Эти коэффициенты вычисляются по следующим формулам:
где - показатель взаимной сопряженности, определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки. Вычитая из этой суммы 1, получим величину .
;
К1 - число значений (групп) первого признака;
К2 - число значений (групп) второго признака.
Чем ближе величины КП и КЧ к 1, тем связь теснее.
Пример: С помощью коэффициентов взаимной сопряженности исследовать связь между себестоимостью продукции и производительностью труда.
себестоимость |
Производительность труда |
итого |
|||
высокая |
средняя |
низкая |
|||
Низкая Средняя Высокая |
19 7 4 |
12 18 10 |
9 15 26 |
40 40 40 |
|
итого |
30 |
40 |
50 |
120 |
Связь средняя.
Для определения тесноты связи между произвольным числом ранжированных признаков применяется множественный коэффициент ранговой корреляции (коэффициент конкордации), который вычисляется по формуле:
,
где m - количество факторов;
n - число наблюдений;
S - отклонение суммы квадратов рангов от средней рангов в квадрате.
Значимость коэффициента конкордации проверяется на основе - критерия Пирсона:
.
По таблице -распределения Пирсона при уровне значимости =0,05 и числе степеней свободы находим . Если , то значимость коэффициента конкордации подтверждается.
В случае наличия связных рангов (т. е. одинаковых рангов) коэффициент конкордации определяется по формуле:
,
где ;
- количество связных рангов по отдельным показателям.
Проверка значимости осуществляется по формуле
Коэффициент конкордации принимает любые значения в интервале .
4. Методы многомерного статистического анализа
Встречаются такие ситуации, в которых случайная изменчивость была представлена одной-двумя случайными переменными, признаками.
Например, при исследовании статистической совокупности людей нас интересуют рост и вес. В этой ситуации, сколько бы людей в статистической совокупности ни было, мы всегда можем построить диаграмму рассеяния и увидеть всю картину в целом. Однако если признаков три, например, добавляется признак -- возраст человека, тогда диаграмма рассеяния должна быть построена в трехмерном пространстве. Представить совокупность точек в трехмерном пространстве уже довольно затруднительно.
В реальности на практике каждое наблюдение представляется не одним-двумя-тремя числами, а некоторым заметным набором чисел, которые описывают десятки признаков. В этой ситуации для построения диаграммы рассеяния потребовалось бы рассматривать многомерные пространства.
Раздел статистики, посвященный исследованиям экспериментов с многомерными наблюдениями, называется многомерным статистическим анализом.
Измерение сразу нескольких признаков (свойств объекта) в одном эксперименте в общем более естественно, чем измерение какого-либо одного, двух. Поэтому потенциально многомерный статистический анализ имеет широкое поле для применения.
К многомерному статистическому анализу относят следующие разделы:
факторный анализ;
дискриминантный анализ;
кластерный анализ;
многомерное шкалирование;
методы контроля качества.
Факторный анализ
При исследовании сложных объектов и систем (например, в психологии, биологии, социологии и т. д.) величины (факторы), определяющие свойства этих объектов, очень часто невозможно измерить непосредственно, а иногда неизвестно даже их число и содержательный смысл. Но для измерения могут быть доступны иные величины, так или иначе зависящие от интересующих факторов. При этом когда влияние неизвестного интересующего нас фактора проявляется в нескольких измеряемых признаках, эти признаки могут обнаруживать тесную связь между собой и общее число факторов может быть гораздо меньше, чем число измеряемых переменных.
Для обнаружения факторов, влияющих на измеряемые переменные, используются методы факторного анализа.
Примером применения факторного анализа может служить изучение свойств личности на основе психологических тестов. Свойства личности не поддаются прямому измерению, о них можно судить только по поведению человека или характеру ответов на те или иные вопросы. Для объяснения результатов опытов их подвергают факторному анализу, который и позволяет выявить те личностные свойства, которые оказывают влияние на поведение испытуемых индивидуумов.
В основе различных моделей факторного анализа лежит следующая гипотеза: наблюдаемые или измеряемые параметры являются лишь косвенными характеристиками изучаемого объекта или явления, в действительности существуют внутренние (скрытые, латентные, не наблюдаемые непосредственно) параметры и свойства, число которых мало и которые определяют значения наблюдаемых параметров. Эти внутренние параметры принято называть факторами.
Задачей факторного анализа является представление наблюдаемых параметров в виде линейных комбинаций факторов и, быть может, некоторых дополнительных, несущественных возмущений.
Первый этап факторного анализа, как правило, - это выбор новых признаков, которые являются линейными комбинациями прежних и «вбирают» в себя большую часть общей изменчивости наблюдаемых данных, а потому передают большую часть информации, заключенной в первоначальных наблюдениях. Обычно это осуществляется с помощью метода главных компонент, хотя иногда используют и другие приемы (метод максимального правдоподобия).
Метод главных компонент сводится к выбору новой ортогональной системы координат в пространстве наблюдений. В качестве первой главной компоненты избирают направление, вдоль которого массив наблюдений имеет наибольший разброс, выбор каждой последующей главной компоненты происходит так, чтобы разброс наблюдений был максимальным и чтобы эта главная компонента была ортогональна другим главным компонентам, выбранным ранее. Однако факторы, полученные методом главных компонент, обычно не поддаются достаточно наглядной интерпретации. Поэтому следующий шаг факторного анализа -- преобразование, вращение факторов для облегчения интерпретации.
Дискриминантный анализ
Пусть имеется совокупность объектов, разбитая на несколько групп, и для каждого объекта можно определить, к какой группе он относится. Для каждого объекта имеются измерения нескольких количественных характеристик. Необходимо найти способ, как на основании этих характеристик можно узнать группу, к которой относится объект. Это позволит указывать группы, к которым относятся новые объекты той же совокупности. Для решения поставленной задачи применяются методы дискриминантного анализа.
Дискриминантный анализ -- это раздел статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам.
Рассмотрим некоторые примеры.
Дискриминантный анализ оказывается удобным при обработке результатов тестирования отдельных лиц, когда дело касается приема на ту или иную должность. В этом случае необходимо всех кандидатов разделить на две группы: «подходит» и «не подходит».
Использование дискриминантного анализа возможно банковской администрацией для оценки финансового состояния дел клиентов при выдаче им кредита. Банк по ряду признаков классифицирует их на надежных и ненадежных.
Дискриминантный анализ может быть привлечен в качестве метода разбиения совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйственной деятельности.
Методы дискриминантного анализа позволяют строить функции измеряемых характеристик, значения которых и объясняют разбиение объектов на группы. Желательно, чтобы этих функций (дискриминантных признаков) было немного. В этом случае результаты анализа легче содержательно толковать.
Благодаря своей простоте особую роль играет линейный дискриминантный анализ, в котором классифицирующие признаки выбираются как линейные функции от первичных признаков.
Кластерный анализ
Методы кластерного анализа позволяют разбить изучаемую совокупность объектов на группы «схожих» объектов, называемых кластерами.
Слово кластер английского происхождения -- cluster переводится как кисть, пучок, группа, рой, скопление.
Кластерный анализ решает следующие задачи:
* проводит классификацию объектов с учетом всех тех признаков, которые характеризуют объект. Сама возможность классификации продвигает нас к более углубленному пониманию рассматриваемой совокупности и объектов, входящих в нее;
* ставит задачу проверки наличия априорно заданной структуры или классификации в имеющейся совокупности. Такая проверка дает возможность воспользоваться стандартной гипотетико-дедуктивной схемой научных исследований.
Большинство методов кластеризации (иерархической группы) являются агломеративными (объединительными) -- они начинают с создания элементарных кластеров, каждый из которых состоит ровно из одного исходного наблюдения (одной точки), а на каждом последующем шаге происходит объединение двух наиболее близких кластеров в один.
Момент остановки этого процесса может задаваться исследователем (например, указанием требуемого числа кластеров или максимального расстояния, при котором достигнуто объединение).
Графическое изображение процесса объединения кластеров может быть получено с помощью дендрограммы -- дерева объединения кластеров.
Рассмотрим следующий пример. Проведем классификацию пяти предприятий, каждое из которых характеризуется тремя переменными:
х1 - среднегодовая стоимость основных производственных фондов, млрд руб.;
х2 - материальные затраты на 1 руб. произведенной продукции, коп.;
х3 - объем произведенной продукции, млрд руб.
В таблице приведены соответствующие значения для каждого из предприятий:
Исходные данные |
||||
предприятие |
х1 |
х2 |
х3 |
|
№ 1 |
120 |
94,0 |
164 |
|
№ 2 |
85 |
75,2 |
92 |
|
№ 3 |
145 |
81,0 |
120 |
|
№ 4 |
78 |
76,9 |
86 |
|
№ 5 |
70 |
75,9 |
104 |
На рис. 5 приведена искомая дендрограмма, демонстрирующая объединение предприятий-кластеров на базе оценки евклидова расстояния между ними в пространстве переменных х1 , х2 и х3.
Изучение дендрограммы на рис. 5 приводит к следующим выводам. Среди пяти предприятий, если следовать слева направо, можно обнаружить следующие два кластера:
кластер № 1: предприятия: № 5, № 4, № 2;
кластер № 2: предприятия: № 3, № 1.
Рис. 5. Дендрограмма пяти предприятий
Обратными агломеративным методам кластеризации являются дивизивные методы. В этом подходе исходят из того, что вначале все объекты относят к одному кластеру, далее по определенным правилам появляются два и более кластера и т. д. вплоть до количества кластеров, равного количеству объектов.
Подобные документы
Исторические аспекты развития статистики, ее предмет. Понятие статистической методологии. Организация государственной и международной статистики. Программа и формы статистического наблюдения. Формы вариационного ряда. Средняя арифметическая и ее свойства.
шпаргалка [37,9 K], добавлен 12.12.2010Получение статистических данных для обобщенной характеристики состояния и развития явления. Виды, способы и организационные формы статистического наблюдения. Статистический формуляр, сводка и группировка данных. Статистические таблицы и графики.
реферат [33,3 K], добавлен 12.11.2009Понятия теории вероятностей и математической статистики, применение их на практике. Определение случайной величины. Виды и примеры случайных величин. Закон распределения дискретной случайной величины. Законы распределения непрерывной случайной величины.
реферат [174,7 K], добавлен 25.10.2015Предмет и метод математической статистики. Распределение непрерывной случайной величины с точки зрения теории вероятности на примере логарифмически-нормального распределения. Расчет корреляции величин и нахождение линейной зависимости случайных величин.
курсовая работа [988,5 K], добавлен 19.01.2011Закон и свойства нормального распределения случайной величины. На основе критерия согласия Пирсона построение гистограммы, статистической функции и теоретической кривой и определение согласованности теоретического и статистического распределения.
курсовая работа [894,5 K], добавлен 30.10.2013Дискретные случайные величины и их распределения. Формула полной вероятности и формула Байеса. Общие свойства математического ожидания. Дисперсия случайной величины. Функция распределения случайной величины. Классическое определение вероятностей.
контрольная работа [33,8 K], добавлен 13.12.2010Вероятность попадания случайной величины Х в заданный интервал. Построение графика функции распределения случайной величины. Определение вероятности того, что наудачу взятое изделие отвечает стандарту. Закон распределения дискретной случайной величины.
контрольная работа [104,7 K], добавлен 24.01.2013Непрерывная случайная величина и функция распределения. Математическое ожидание непрерывной случайной величины. Среднее квадратичное отклонение. Кривая распределения для непрерывной случайной величины. Понятие однофакторного дисперсионного анализа.
контрольная работа [165,5 K], добавлен 03.01.2012Методы регистрации, описания и анализа статистических экспериментальных данных, получаемых в результате наблюдения массовых случайных явлений. Обзор задач математической статистики. Закон распределения случайной величины. Проверка правдоподобия гипотез.
презентация [113,3 K], добавлен 01.11.2013Понятие и виды статистических рядов распределения, основные формы их представления. Расчет и анализ показателей, характеризующих центральную тенденцию, вариацию, структуру и форму ряда распределения. Проведение сглаживания эмпирического распределения.
курсовая работа [698,3 K], добавлен 07.06.2011