Статистика как наука

Основные понятия и категории статистики. Построение интервальных рядов распределения случайной величины. Графические представления рядов распределений случайной величины, их назначение и правила построения. Дисперсия и среднее квадратическое отклонение.

Рубрика Экономика и экономическая теория
Вид курс лекций
Язык русский
Дата добавления 04.04.2012
Размер файла 388,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Лекции к курсу "Статистика"

Оглавление

Статистика как наука. Предмет, метод и задачи статистики

Основные понятия и категории статистики

Этапы статистического исследования

Статистическое наблюдение

Статистическая сводка

Построение интервальных рядов распределения случайной величины

Статистические таблицы

Графические представления рядов распределений случайной величины, их назначение и правила построения

Систематизация и обобщение данных. Параметры распределений

Виды средних и методы их расчета

Параметры вариаций. Дисперсия и среднее квадратическое отклонение

Оценка достоверности (значимости) результата. Доверительные оценки параметров

Нахождение взаимосвязи между явлениями

Двумерные ряды распределения случайных величин

Исходные формы выявления и представления связей

Метод наименьших квадратов для построения линии регрессии

Линейная парная корреляция

Статистика как наука. Предмет, метод и задачи статистики

Статистика - самостоятельная, имеющая свой предмет и метод исследования наука. Возникла она из практических потребностей общественной жизни. Уже в древнем мире появилась потребность подсчитывать численность жителей государства, учитывать людей, пригодных к военному делу, определять количество скота, размеры земельных угодий и другого имущества. Информация такого рода была необходима для сбора налогов, ведения войн и т.п. В дальнейшем, по мере развития общественной жизни, круг учитываемых явлений постепенно расширяется.

Особенно возрастает объем собираемой информации с развитием капитализма и мирохозяйственных связей. Потребности этого периода вынуждали органы государственного управления и капиталистические предприятия собирать для практических нужд обширную и разнообразную информацию о рынках труда и сбыта товаров, сырьевых ресурсах.

В середине 17-го века в Англии возникло научное направление, получившее название "политической арифметики". Начало этому направлению положили Вильям Петти (1623-1687 гг.) и Джон Граунт (1620-1674 гг.). "Политические арифметики" на основе изучения информации о массовых общественных явлениях стремились открыть закономерности общественной жизни и, таким образом, ответить на вопросы, возникавшие в связи с развитием капитализма.

Наряду со школой "политических арифметиков" в Англии, в Германии развивалась школа описательной статистики или "государствоведения". Возникновение этой науки относится к 1660 г.

Развитие политической арифметики и государствоведения привело к появлению науки статистики.

Понятие "статистика" происходит от латинского слова "status", которое в переводе означает - положение, состояние, порядок явлений.

В научный оборот термин "статистика" ввел профессор Геттингенского университета Готфрид Ахенваль (1719-1772 гг.) в середине 18 века.

Предмет статистики

Статистика, вернее ее методы исследования, широко применимы в различных областях человеческих знаний. Однако, как любая наука, она требует определения предмета исследования. Статистика как наука исследует не отдельные факты, а массовые явления и процессы, выступающие как множество отдельных факторов, обладающих как индивидуальными, так и общими признаками.

Предмет (объект) статистического исследования в статистике называют статистической совокупностью. Статистическая совокупность - это множество единиц, обладающих массовостью, однородностью, определенной целостностью, взаимозависимостью состояния отдельных единиц и наличием вариации.

Каждый отдельный элемент данного множества называется единицей статистической совокупности.

В зависимости от объекта (предмета) изучения статистика как наука подразделяется на социальную, демографическую, экономическую, промышленную, торговую, банковскую, финансовую, медицинскую и т.д. Общие свойства статистических данных, независимо от их природы, и методы их анализа рассматриваются математической статистикой и общей теорией статистики.

В нашем курсе речь будет идти о так называемой прикладной статистике т.е. только о сущности специальных методов сбора, обработки и анализа информации и, кроме того, о практических приемах выполнения связанных с этим расчетов.

Статистика как наука имеет дело прежде всего с количественной стороной явлений и процессов в конкретных условиях места и времени. Одной из характерных особенностей статистики является то, что при изучении количественной стороны явлений и процессов она всегда отображает качественные особенности исследуемых явлений, т.е. изучает количество в неразрывной связи, единстве с качеством.

Статистическая методология

Свой предмет статистика изучает при помощи специфических статистических методов. Важнейшими составными элементами статистической методологии являются:

1) массовое статистическое наблюдение (сбор первичных данных);

2) статистическая сводка (группировка) первичных данных, получение обобщающих (сводных) характеристик;

3) получение обобщающих статистических параметров, их анализ и обнаружение закономерностей в изучаемых явлениях;

4). оценка достоверности (значимости) обнаруженных закономерностей.

Содержание перечисленных выше статистических методов определяют собой этапы проведения любого статистического исследования:

Чтобы охарактеризовать с количественной стороны любое массовое явление, необходимо сначала собрать информацию о составляющих его элементах. Это и достигается при помощи массового наблюдения, осуществляемого на основе выработанных статистической наукой правил и способов.

Собранные в процессе статистического наблюдения сведения подвергаются в дальнейшем статистической сводке (первичной научной обработке), в процессе которой из всей совокупности обследованных единиц выделяются характерные части (группы). Выделение групп единиц из всего обследуемого множества называется в статистике группировкой. Группировка в статистике является основой обработки и анализа собранной информации. Осуществляется она на основе определенных принципов и правил.

В процессе обработки статистической информации совокупность обследованных единиц и выделенные ее части на основе применения метода группировок характеризуются системой цифровых показателей: абсолютных и средних величин, относительных величин, показателей вариации и динамики и т.д.

Современная статистика добилась больших успехов в разработке объективных методов проверки значимости результатов. Основной задачей многих статистических исследований является отделение действительных эффектов от случайных.

Задача статистики

Основной задачей статистики является сбор, учет, обработка и хранение данных (информации) из области человеческой деятельности и природных явлений.

Основные понятия и категории статистики

Человек воспринимает окружающую среду как непрерывную последовательность событий. Он анализирует поступающую информацию и (хотя и не всем это удается) делает выводы из такого анализа и учитывает их в своей сознательной деятельности. Поэтому можно смело утверждать, что во все времена люди занимались и занимаются статистическими “исследованиями”, даже не зная иногда такого слова “статистика”.

Случайное событие - событие, которое при заданном комплексе факторов может произойти, а может не произойти.

Не задерживаясь на раскрытии философской сущности термина “случайность” (вполне достаточно обычное, житейское представление), обратимся к чрезвычайно важному понятию вероятность. Этот термин обычно используют по отношению к событию и определяют числом (от 0 до 1), выражающим степень нашей уверенности в том, что данное событие произойдет.

Вероятность - числовая характеристика степени возможности наступления какого-либо определенного события в тех или иных определенных условиях, могущих повторяться неограниченное число раз. Вероятность (Р) равна отношению числа благоприятных для данного события исходов (m) к общему числу равновозможных исходов (n).

Достоверное событие - событие, которое при заданном комплексе факторов обязательно произойдет (хотя это уже - неслучайное, детерминированное события). Р(А) = 1.

Невозможное событие - событие, которое не может осуществиться при заданном комплексе факторов. Р(В) = 0.

Независимые события - события, для которых появление или отсутствие одного из них никак не сказывается на вероятности появления другого.

Несовместные события - события, одновременное осуществление которых невозможно.

Противоположные события А и - события, для которых одно из них проявляется тогда и только тогда, когда другое отсутствует. = 1. Если Р(А) = р, то = q = 1-р.

Иногда в прикладной статистике приходится иметь дело с так называемыми редкими маловероятными событиями. К ним принято относить события, значение вероятности которых не превышает определенного уровня, чаще всего - 0.05 или 5 %.

Наблюдаемые в ходе случайных событий значения показателей, характеризующих присущие событиям свойства, называются в статистике признаками. По форме выражения признаки делятся на атрибутивные (описательные, качественные) и количественные.

Атрибутивные (качественные) признаки не поддаются количественному (числовому) выражению. Количественные признаки выражают через числа, которые являются случайными величинами (далее везде - СВ).Случайные величины делят на две разновидности:

Случайная величина - это некоторая переменная величина, принимающая в зависимости от случая те или иные значения Хi (X1, X2, …, Xn) с определенными вероятностями Pi (P1, P2, …, Pn). Случайные величины могут также называться данными.

Дискретные СВ могут принимать только конкретные, заранее оговоренные значения (например, значения чисел на верхней грани брошенной игральной кости или порядковые значения текущего месяца). Дискретная случайная величина - это СВ, для которой совокупность возможных значений конечна или поддается счислению.

Непрерывные СВ (чаще всего значения некоторых физических величин: веса, расстояния, температуры и т.п.) могут принимать любые значения, хотя бы и в некотором интервале. Непрерывная случайная величина - это СВ, совокупность возможных значений которых бесконечна или не поддается счислению.

Ранее уже говорилось, что предметом статистического исследования является статистическая совокупность случайных величин Хi..

Генеральная совокупность - это все множество возможных значений случайных величин Хi.

На практике мы имеем дело с некоторыми выборками (рядами распределения, рядами данных, выборочными совокупностями) из генеральной совокупности.

Объем выборки n (число данных, длина ряда) - это число случайных величин в исследуемой выборке.

Единицы статистической совокупности характеризуются общими свойствами - признаками, которые делятся на атрибутивные (описательные, качественные) и количественные (дискретные и непрерывные).

Единицы совокупности наряду с общими для всех единиц признаками, обусловливающими качественную определенность совокупности, также обладают индивидуальными особенностями и различиями, отличающими их друг от друга, т.е. существует вариация признаков. Именно наличие вариации предопределяет необходимость статистики.

Этапы статистического исследования

Начинается любое статистическое исследование со сбора сведений (фактов) об изучаемых явлениях и процессах. Эта стадия исследования называется статистическим наблюдением.

Затем следует этап статистической обработки - упорядочения и обобщения первичного материала и получение на этой основе обобщенной характеристики исследуемой совокупности. Этот этап в статистике называется статистической сводкой.

Статистическое наблюдение

Статистическое наблюдение - это массовое, планомерное, научно организованное наблюдение за явлениями (например, природы, социальной и экономической жизни), которое заключается в регистрации отобранных признаков у каждой единицы совокупности.

Статистическое наблюдение может проводиться органами государственной статистики, научно-исследовательскими институтами, специализированными службами фирм, банков, бирж и т.д. Получение сведений в ходе статистического наблюдения требует немалых затрат финансовых и трудовых ресурсов, а также времени.

Собираемые данные должны отвечать двум основным требованиям:

достоверности;

сопоставимости.

Достоверность - это соответствие данных тому, что есть на самом деле. Вся методика, организация и техника проведения статистического наблюдения должны быть нацелены на обеспечение достоверных данных. На достоверность данных во многих случаях сильно влияет социальная функция исследуемого показателя. Например, недостоверными могут быть данные различных рейтингов, опросов общественного мнения, данные о характере и числе преступлений, профессиональной заболеваемости, младенческой смертности и т.п., т.е. те данные, которые свидетельствуют о "здоровье" общества. Общими условиями обеспечения достоверности является полнота охвата наблюдаемого объекта, полнота и точность регистрации данных по каждой единице наблюдения.

Чтобы данные об отдельных явлениях можно было обобщать, они должны быть сопоставимы друг с другом, т.е. собираться в одно и то же время, по единой методике. Кроме того должна быть обеспечена сопоставимость с прошлыми исследованиями, чтобы можно было понять, как изменяется явление (т.е. установлена динамика явления). Сравнимость данных разных наблюдений выполняется, если использовались одно и то же определение единицы наблюдения, одна и та же методика регистрации первичных признаков и одна и та же методика расчета вторичных признаков. Важным условием сравнимости является сохранение времени проведения наблюдения и периода или момента, к которому относятся регистрируемые данные.

Виды статистического наблюдения классифицируются чаще всего по трем следующим признакам:

систематичность;

охват наблюдением единиц совокупности;

источник сведений, на основании которых устанавливаются факты, подлежащие регистрации.

По признаку систематичности регистрации фактов различают следующие виды наблюдений:

непрерывное (или текущее);

периодическое (проводящееся регулярно через равные промежутки времени);

единовременное.

По охвату единиц совокупности статистическое наблюдение может быть:

сплошное;

несплошное.

Задачей сплошного наблюдения является получение информации обо всех без исключения единицах исследуемой совокупности. Несплошное наблюдение изначально предполагает, что обследованию подлежит лишь часть единиц изучаемой совокупности, отобранная определенным образом.

Несплошное наблюдение может иметь несколько разновидностей:

выборочное;

метод основного массива;

монографическое обследование.

При методе основного массива обследованию подвергаются самые существенные, обычно наиболее крупные единицы изучаемой совокупности, которые по основному (для конкретного обследования) признаку имеют наибольший удельный вес в совокупности. В случае же монографического обследования тщательному отбору подвергаются отдельные единицы изучаемой совокупности, представляющие какой-либо новый тип явлений. Оно проводится для выявления намечающихся тенденций в развитии данного явления.

По источнику сведений различают наблюдения:

непосредственное, когда факты, подлежащие регистрации, устанавливаются лицами, проводящими наблюдение (путем замера, подсчета числа каких-либо предметов и т.п.);

документированное, при котором необходимые сведения берутся из соответствующих документов;

опрос, особенность которого состоит в том, что сведения фиксируются со слов опрашиваемого. Применяются следующие виды опросов: экспедиционный (устный, саморегистрации, явочный способ, корреспондентский, анкетный.

Процесс проведения статистического наблюдения включает следующие этапы:

подготовка наблюдения (решение методологических и организационных вопросов);

проведение массового сбора данных;

подготовка данных к автоматизированной обработке;

разработка предложений по совершенствованию статистического наблюдения.

Этап 1. Любое статистическое наблюдение требует тщательной, продуманной подготовки. От нее во многом будут зависеть надежность и достоверность информации, своевременность ее получения. Подготовка статистического наблюдения - процесс, включающий разные виды работ:

Сначала необходимо решить методологические вопросы, важнейшим из которых являются определение цели и объекта наблюдения; состава признаков, подлежащих регистрации; разработка документов (форм) для сбора данных, а также методов и средств получения данных.

Цель наблюдения чаще всего практическая - получение достоверной информации для выявления закономерностей развития явлений и процессов. Например, целью переписи населения является получение данных о численности и составе населения, их динамике, возрастной, социальной структуре, условиях проживания, уровне жизни и т.д.

Под объектом наблюдения понимается некоторая статистическая совокупность, в которой протекают исследуемые явления и процессы. Объектом наблюдения могут быть:

физические единицы (показания измерительных приборов, станки, машины, жилые дома, заводы и т.п.);

совокупность физических лиц (население отдельного региона, страны; лица, занятые на предприятиях отрасли и т. п.);

юридические лица (предприятия, фермерские хозяйства, коммерческие организации, банки, учебные заведения и т.п.).

Всякий объект статистического наблюдения состоит из отдельных элементов - единиц наблюдения (в зарубежной литературе используется термин "элементарная единица"). В статистике единицей наблюдения называют составной элемент объекта, являющийся носителем признаков, подлежащих регистрации. Например, при демографических наблюдениях единицей наблюдения может быть человек, но может быть и семья; при бюджетных исследованиях - семья или домашнее хозяйство.

Необходимо также решить вопросы организационного характера, например, определить состав служб, проводящих наблюдение; подобрать и подготовить кадры для проведения наблюдения; составить календарный план работ; определить форму проведения статистического наблюдения; тиражировать документы для сбора данных.

В статистике используются три основные организационные формы (типа) статистического наблюдения:

Отчетность - это основная форма статистического наблюдения, с помощью которой статистические органы в определенные сроки получают от предприятий, организаций, учреждений и т.п. необходимые данные в виде установленных в законом порядке документов, скрепленных подписями ответственных лиц. Таким образом, отчетность - это официальный документ, для которого, во-первых, характерно то, что он утверждается органами государственной статистики и предоставляется в утвержденной форме, во-вторых, он носит обязательный характер.

Существует государственный орган статистики (Госкомстат России), главная задача которого - удовлетворение потребностей органов власти и управления, средств массовой информации, населения, научной общественности, коммерческих организаций и предпринимателей, международных организаций в разнообразной, объективной и полной информации.

Специально организованное статистическое наблюдение (единовременные обследования различного характера, периодические обследования - переписи). Единовременное обследование дает сведения о количественных характеристиках какого-либо явления или процесса в момент его исследования.

Перепись - это специально организованное наблюдение, повторяющееся, как правило, через равные промежутки времени, с целью получения данных о численности, составе и состоянии объекта наблюдения по ряду признаков.

Всероссийская перепись населения - процесс сбора статистической информации, организованный по единой государственной статистической методологии на всей территории Российской Федерации в целях получения обобщенных демографических, экономических и социальных данных в отношении всех лиц, находящихся на определенную дату в стране.

Регистровое наблюдение - это форма непрерывного сплошного статистического наблюдения за долговременными процессами, имеющими фиксированное начало, стадию развития и фиксированный конец. Оно основано на ведении регистра. Регистр представляет собой систему, постоянно следящую за состоянием единицы наблюдения и оценивающую систему воздействия различных факторов на изучаемые показатели. Например, регистр населения - поименованный и регулярно уточняемый перечень жителей страны, характеризующийся такими общими признаками, как пол, дата и место рождения, дата вступления в брак (эти данные остаются неизменными в течение всего периода наблюдения), брачное состояние (переменный признак). Ведением регистра населения занимаются органы ЗАГС.

Этап 2. Проведение массового сбора данных включает работы, связанные непосредственно с распространением статистических анкет, бланков статистической отчетности, их заполнением и заканчивается их сдачей в органы, проводящие наблюдение.

Этап 3. Собранные данные на этапе их подготовки к автоматизированной обработке подвергается контролю, который осуществляется в двух направлениях:

Счетный или арифметический контроль - исполняется с целью проверки именно счетной согласованности данных, помещенных в формулярах статистического наблюдения, а также правильности подсчета итогов.

Логический контроль ведется для проверки правильности самого содержания сведений, собранных по каждой единице наблюдения. Логический контроль осуществляется различными способами:

сравниваются ответы на различные вопросы одного и того же формуляра, например сопоставляются в бланке переписи населения сведения о профессии, возрасте, семейном положении;

сопоставляются записи, относящиеся к отчетному периоду, с аналогичными записями предшествующих периодов или же с плановыми данными отчетного периода;

сравниваются фактические данные статистического наблюдения с разработанными нормативами: затрат времени, удельного расхода материалов и др.;

сопоставляются данные проведенных статистических наблюдений с результатами специальных наблюдений выборочного характера, в силу своих особенностей, позволяющих получить более полные данные по отобранной массе единиц.

Работники Госкомстата РФ и его местных органов, получая статистическую отчетность предприятий и организаций, проверяют полноту поступления и правильность заполнения утвержденных форм отчетности. В случае неполного поступления материалов или наличия в них ошибочных записей принимают меры к устранению ошибок путем повторных запросов, специальных проверок или прямого исключения неверных сведений.

Этап 4. На заключительном этапе проведения статистического наблюдения анализируются причины, которые привели к неверному заполнению статистических бланков, и разрабатываются предложения по совершенствованию наблюдения. Это очень важно для организации будущих исследований.

Статистическая сводка

Собранные в процессе первого этапа статистического исследования - статистического наблюдения - данные о величине какого-либо признака изучаемой совокупности должны быть обработаны так, чтобы получился точный и обстоятельный ответ на все вопросы, поставленные целью исследования. Задача второго этапа статистического исследования - статистической сводки - состоит в том, чтобы упорядочить и обобщить первичный материал, свести его в группы и на этой основе дать обобщенную характеристику совокупности. Качество исходного статистического материала предопределяет качество обобщающих показателей, полученных в результате статистической сводки.

Различают сводку простую и сложную (статистическую группировку):

Простая сводка - это операция по подсчету общих итогов по совокупности единиц наблюдения. Сложная сводка - это комплекс операций, включающих группировку единиц наблюдения, подсчет итогов по каждой группе и по всей совокупности и представление результатов сводки и группировки в виде статистических таблиц.

Статистическая группировка сводится к расчленению совокупности на группы по существенному для единиц совокупности признаку (группировочный признак). Выбор группировочного признака, т.е. признака, по которому производится объединение единиц исследуемой совокупности в группы, - один из самых существенных и сложных вопросов теории группировки и статистического исследования. От правильного выбора группировочного признака часто зависят результаты всего статистического исследования. Группировка позволяет получить такие результаты, по которым можно выявить состав совокупности, характерные черты и свойства типичных явлений, обнаружить закономерности и взаимосвязи.

Первым и наиболее простым способом обобщения статистических данных являются ряды распределения. Статистическим рядом (законом) распределения называют численное распределение единиц совокупности по изучаемому признаку. Пусть некоторая СВ является дискретной, т.е. может принимать лишь фиксированные (на некоторой шкале) значения Xi. В этом случае ряд значений вероятностей P(Xi) для всех (i=1, 2, …, n) допустимых значений этой величины называют её законом распределения.

В зависимости от используемого группировочного признака статистические ряды могут быть атрибутивными и вариационными (количественными).

Первые отражают качественное состояние единиц совокупности (пол человека, семейное положение, отраслевую принадлежность предприятия, его форму собственности и т.д.), а вторые имеют числовое выражение (объем производства, доход семьи возраст человека и т.д.).

Вариационные (количественные) группированные ряды могут быть дискретными или интервальными. Дискретный вариационный ряд распределения - это ряд, в котором численное распределение единиц совокупности по дискретному признаку выражено целым конечным значением. Примером может служить распределение рабочих по разрядам, распределение семей города по числу детей и т.п. Интервальный ряд распределения - это ряд, в котором значения признака заданы в виде интервала. Построение интервальных вариационных рядов целесообразно прежде всего для случайных величин, характеризующихся непрерывной вариацией признака (т.е. когда величина признака у единиц совокупности может принимать любые значения, хоть и в определенных пределах).

Итак, закон распределения вероятностей дискретной СВ несет в себе всю информацию о ней. Этот закон (или просто - распределение случайной величины) можно задать тремя способами:

в виде статистической таблицы значений величины и соответствующих им вероятностей;

в виде графических представлений: графиков и диаграмм распределения;

в виде формулы, например, для нормального, биномиального и пр. распределения.

Построение интервальных рядов распределения случайной величины

Для обоснованного применения статистических методов совокупность исходных данных (выборка) ранжируется в порядке убывания или возрастания величин и разбивается на градации (интервалы, группы).

Объем выборки n (число данных, длина ряда) - это число случайных величин в исследуемой выборке.

Прежде всего определяются крайние значения выборки - минимальное Xmin и максимальное Xmax значения случайной величины Хi.

Интервалы группировок могут быть в зависимости от их величины равными и неравными. Если вариация признака проявляется в сравнительно узких границах и распределение носит равномерный характер, то строят группировку с равными интервалами. При выборе равных по величине градаций (мы будем заниматься именно этим типом градаций) нужно руководствоваться следующими соображениями:

1). Критерий 1: определения числа градаций k в выборке учитывает объем выборки n:

Установлено примерно следующее максимально возможное число градаций в зависимости от числа наблюдений:

Число данных (n)

50

100

500

1000

10000

Максим. возможное число градаций (k)

8

10

13

15

20

Если число градаций будет отличаться от указанного максимально возможного, то вычисления частоты для отдельных градаций будет ненадежным. Выбор слишком малого числа градаций затушевывает важные детали в распределении частот, использование слишком большого числа градаций не дает возможности достаточно хорошо упорядочить и обобщить данные.

Когда определено число градаций, то следует определить интервалы группировки.

Интервал - это значение группировочного признака, лежащее в определенных границах. Каждый интервал имеет свою величину, нижнюю и верхнюю границы или хотя бы одну из них. Нижней границей называется наименьшее значение признака в интервале, а верхней границей - наибольшее значение признака в интервале. Верхняя и нижняя границы градаций называются граничными значениями и записываются с таким же количеством десятичных знаков, как и исходные данные.

Ширина (или размер) градации h представляет собой разность между верхней и нижней границами интервала и определяется по следующей формуле

Интервалы группировок могут быть закрытыми и открытыми. Закрытыми называются интервалы, у которых имеются нижняя и верхняя граница. У открытых интервалов указана только одна граница: верхняя - у первого и нижняя - у последнего.

В группированном ряду данных каждое значение, попавшее в некоторую градацию, заменяется центром (серединой) этой градации Xi.

2). Критерий 2: градации не должны перекрываться., т.к. каждое значение случайной величины может войти только в одну градацию.

После того, как градации выбраны, все данные распределяются по соответствующим градациям.

Абсолютная повторяемость (частота) mi - это сумма числа случаев, вошедших в данную градацию из общей совокупности n.

Относительная повторяемость (вероятность) рi - это относительная частота соответствующего интервала (градации) в сумме всех частот

Абсолютная плотность распределения

Относительная плотность распределения

Накопленные частоты (накопленные вероятности ) получают путем последовательного суммирования частот (вероятностей) для соответствующих градаций. По этим показателям легко определить, в скольких случаях (или в процентах случаев) случайная величина будет меньше (или больше) какого-то определенного уровня.

Статистические таблицы

Табличная форма является рациональной, наглядной и компактной формой представления статистических данных, изложения результатов сводки и группировки материалов, полученных в результате статистического наблюдения. Статистической таблицей называется таблица, которая содержит сводную числовую характеристику исследуемой совокупности по одному или нескольким существенным признакам.

Основные элементы статистической таблицы, составляющие ее основу, показаны на схеме:

Название таблицы

Содержание строк

Наименование граф (верхние заголовки)

Итоговая графа

1

2

Наименование строк
(боковые заголовки)

1

2

Итоговая строка

Подлежащим статистической таблицы называется объект, который в ней характеризуется цифрами. Это могут быть совокупность, отдельные единицы совокупности в порядке их перечня или группированнные по одному или нескольким признакам, территориальные единицы, временные периоды и т.д. Подлежащее формирует наименование строк и составляет их содержание. В соответствии с этим в зависимости от структуры подлежащего различают следующие виды статистических таблиц:

Монографическая таблица - это таблица, в подлежащем которой только одна какая-либо из единиц, выделенная по определенному признаку; перечневая - в подлежащем которой дается простой перечень единиц совокупности. Подлежащее простой таблицы может быть сформировано по видовому, территориальному или временному признаку.

Групповая таблица - это таблица, подлежащее которой содержит группы единиц совокупности по одному признаку; комбинационная - подлежащее которой содержит группы единиц совокупности по нескольким признакам (количественным или атрибутивным).

Наряду с подлежащим важным составным элементом статистической таблицы является сказуемое. Сказуемое статистической таблицы образует система показателей, которыми характеризуется объект изучения, т.е. подлежащее таблицы. Сказуемое формирует заголовки граф и составляет их содержание.

По структурному строению сказуемого различают статистические таблицы с простой и сложной разработкой.

При простой разработке сказуемого показатель, его определяющий, получается путем простого суммирования значений по каждому признаку отдельно независимо друг от друга. Сложная разработка сказуемого предполагает деление признака, его формирующего, на группы.

Некоторые правила оформления статистических таблиц:

Таблица должна быть компактной и содержать только те исходные данные, которые непосредственно отражают исследуемое явление и необходимы для познания его сущности.

Заголовок таблицы, названия граф и строк должны быть четкими, краткими, лаконичными и представлять собой законченное целое.

Информация, располагаемая в графах (столбцах) таблицы, завершается итоговой строкой.

Графические представления рядов распределений случайной величины, их назначение и правила построения

Статистические графики - это условные изображения статистических данных в виде точек, линий или фигур.

В статистике графики используются:

во-первых, для обобщения и анализа статистических данных. Графические изображения служат одним из важнейших технических и познавательных средств статистики;

во-вторых, в целях широкой популяризации данных и для облегчения их восприятия не специалистами.

Несмотря на большое разнообразие статистических графиков, можно указать некоторые общие правила их построения.

При построении графика важно найти такие способы изображения, которые наилучшим образом отвечают содержанию и логической природе изображаемых показателей. Необходимо помнить, что никакой график не заменяет собой статистических данных. Поэтому, если на самом графике числа не написаны (это целесообразно делать только при условии, что они чрезмерно не загромоздят изображение), то они должны быть приведены в тексте.

График должен быть точным, построенным в соответствии с масштабом и т.п. Должна быть обеспечена полная возможность "чтения графика": наличие масштаба, объяснения смысла расцветок или штриховок, названий показателей, отвечающих тем или иным размерам на графике, и т.д. График не должен быть перегружен материалом. Если, например, линиями на одном графике изображается динамика нескольких показателей и нельзя избежать их переплетения, то изображать совместно динамику больше чем трех-четырех показателей (например, линиями разного цвета) уже нецелесообразно.

Полигон - график для изображения дискретных (реже интервальных) рядов распределения. При его построении на оси абсцисс наносят значения варьирующего признака случайной величины, а на оси ординат - абсолютные или относительные повторяемости (частоты, вероятности). Полученные точки на плоскости соединяются затем отрезками прямых линий.

Гистограмма распределения применяется для изображения интервальных рядов. Для ее построения на оси абсцисс откладывают интервалы (градации) признака, а на оси ординат - вероятности (или частоты) градаций. На интервалах строят прямоугольники, высоты которых равны вероятностям (или частотам) соответствующих интервалов.

При использовании по оси абсцисс центральных значений градаций, а по оси ординат - относительных плотностей распределения получается дифференциальная кривая распределения интервального ряда.

Для построения интегральной кривой распределения интервального ряда (ее еще называют кумулятивной кривой или огивой) по оси абсцисс откладывают все значения границ градаций от самой нижней до верхней, а по оси ординат - накопленные вероятности pi. Накопленные вероятности получают путем последовательного суммирования вероятностей для соответствующих градаций. По этим показателям легко определить, какова вероятность того, что случайная величина будет по величине меньше (или больше) какого-то определенного уровня.

Свойства интегральной кривой распределения:

1). На самой нижней границе градаций значение накопленной вероятности pi = 0.

2). На самой верхней границе градаций значение накопленной вероятности pi = 100%.

3). Кривая является монотонно неубывающей, т.е. она не может иметь минимумов.

Систематизация и обобщение данных. Параметры распределений

Статистический ряд распределения характеризуется несколькими постоянными величинами, которые называются параметрами распределения. Обычно это средние величины, а также дисперсия и среднее квадратическое отклонение.

Виды средних и методы их расчета

Для дальнейшей систематизации и обобщения данных попытаемся определить значения случайной переменной, лежащие у середины распределения частот. Эти центральные, или осредненные, значения могут быть использованы при описании характерного (наиболее типичного) поведения случайной величины. Средняя через единичное и случайное позволяет определить общее и необходимое, выявить тенденцию развития процесса, установить закономерности, присущие массовым явлениям и незаметные в единичных явлениях.

Средние величины -- это обобщающие показатели, характеризующие наиболее общие, характерные, типичные свойства единиц статистической совокупности, обусловливающие ее качественную однородность.

Статистические средние рассчитываются на основе данных правильно организованного массового наблюдения. Однако статистическая средняя будет объективна и типична, если она рассчитывается по массовым данным для качественно однородной совокупности. Пример не типичной средней хорошо показан в рассказе Глеба Успенского "Живые цифры". Там средний доход определялся сложением 1 млн. миллионера Колотушкина и 1 гроша просвирни Кукушкиной, и получалось, что он составил 0,5 млн. руб. Например, если рассчитывать средний доход на душу населения без учета качественной неоднородности единиц совокупности (доходы предпринимателя, банкира, работника госпредприятия, студента, пенсионера и т.п. совершенно несопоставимы по величине), а результат распространить на всю совокупность единиц исследования, то средняя будет фиктивна, т.к. рассчитана по неоднородной совокупности, и такая средняя теряет всякий смысл.

Средние, вычисленные для отдельной качественно однородной группы, называются групповыми средними. Средняя, рассчитанная по совокупности в целом, называется общей средней. Общая средняя отражает общие черты изучаемого явления, групповая средняя дает характеристику размера явления, складывающуюся в конкретных условиях данной группы.

Например, статистическое изучение рождаемости и среднего количества детей в семье на территории бывшего СССР проводилось в региональном аспекте (по союзным республикам). Традиционно более высокая рождаемость была в Средней Азии и Закавказье по сравнению с Центральными районами России. Среднее количество детей в семье, исчисленное по каждому региону - это групповые средние, а соответственно исчисленное по всей территории СССР - общая средняя.

Сравнительный анализ групповых и общих средних используется для характеристики социально-экономических типов изучаемого общественного явления. В частности, при изучении рождаемости большое значение имеет характеристика этого процесса по общественным группам населения региона.

Отклонение индивидуального от общего - проявление процесса развития. В отдельных единичных случаях могут быть заложены элементы нового, передового. В этом случае именно конкретный фактор, взятый на фоне средних величин, характеризует процесс развития. Нельзя (например, в маркетинговой деятельности) ограничиваться лишь средними цифрами, т.к. за общими благоприятными средними могут скрываться крупные серьезные недостатки в деятельности отдельных подразделений предприятия.

В статистике используют следующие средние величины:

- среднее арифметическое или взвешенное;

- структурные средние (медиана и мода).

Выбор того или иного вида средней производится в зависимости от цели исследования, от конкретного типа усредняемых исходных данных.

Среднее арифметическое (выборочное среднее или просто среднее) для дискретного ряда представляет собой сумму значений ряда (выборки), деленную на длину ряда:

Если для вычисления средней в качестве исходных данных используется интервальный или дискретный группированный ряд, то применяют формулы для взвешенной средней:

или , 0 Рi 1,

где Xi - центральное значение градации, mi - частота градации (в статистике - вес), Рi -вероятность градации, k - число градаций.

Разность между средней и взвешенной средней будет небольшой, если число наблюдений велико.

Если выборочный ряд состоит из нескольких частей длиной n1, n2, …, nn , то общая средняя равна средней из частных средних, взвешенной по численности соответствующих частей совокупности:

где

Аналогично будет вычисляться среднее для выборки, в которой, например, СВ принимает значение Х1 - n1 раз, значение Х2 - n2 раз, …, значение Хn - nn раз. Но вместо частных средних в формуле будут стоять сами значения Хi.

Свойства средней:

1). Постоянный множитель a можно выносить за знак средней

.

2). Среднее суммы равно сумме средних

.

3). Среднее константы равно самой константе

.

4). .

5). Среднее произведения равно произведению средних, если события независимы

.

6). Среднее не меняется, если пропорционально изменить веса частоты

,

где Рi - относительная повторяемость (вероятность), .

Средняя больше всего чувствительна к экстремальным значениям случайной величины, полученным в результате наблюдения. Поэтому она меньше всего пригодна для выборок, в которых экстремальные отклонения СВ от типичной (характерной) величины большие по величине, встречаются довольно часто и только в одном направлении. Тогда как дополнение к среднему рассчитывают структурные средние. Величины экстремумов не оказывают влияния на медиану, определяемую как значение переменной, которому соответствует средняя точка на кривой распределения накопленных частот. На моду, которая определяется как наиболее вероятное значение случайной величины, оказывает влияние не величина, а частота появления таких экстремумов.

Структурные средние: медиана и мода

1. Медианой называется значение ряда, стоящее в центре ранжированного ряда (т.е. выстроенного в порядке возрастания или убывания случайной величины). При этом число единиц совокупности с большим и меньшим, чем медиана, значением одинаково.

Если всем единицам ранжированного ряда придать порядковые номера, то номер медианы в ряду с нечетным числом членов n определяется как (n+1)/2.

n - нечетное,

(в ранжированном ряду).

Так, в ряду из 81 члена номер медианы (81+1)/2, т.е. медианой является значение ряда, стоящее под номером 41.

Если число членов ряда четное, то медиану приходится определять как среднюю двух центральных значений ранжированного ряда, порядковые номера которых n/2 и n/2+1.

n - четное,

(в ранжированном ряду).

Так, если в ряду 80 значений, то центральными будут ранжированные значения с порядковыми номерами 80/2=40 и 80/2+1=41.

При большой длине ряда (n > 100) выбирают значение медианы как Xi с порядковым номером n/2.

n > 100,

(в ранжированном ряду).

Медиана может приближенно определяться графически из интегральной кривой распределения: она будет равна абсциссе точки, где величина накопленной вероятности

= 50%, т.е Р(Х<Me) = P(X>Me).

2. Мода - это наиболее часто встречающееся (т.е. наиболее вероятное) значение случайной величины. Моду рекомендуется определять при резко асимметричных распределениях, для которых среднее арифметическое не является типичным значением СВ в том смысле, что наибольшая повторяемость не приходится на интервалы значений СВ, близкие к среднему.

Модальный интервал - это интервал с наибольшей повторяемостью. Внутри интервала мода определяется по формуле

,

где Mo - мода, XMo - нижняя граница модального интервала, h - ширина интервала, mMo - частота модального интервала, mMo-1 - частота интервала, предшествующего модальному, mMo+1 - частота интервала, следующего за модальным. Формула пригодна только для расчета моды в рядах с равными интервалами.

В качестве приближенного значения моды наиболее часто используют середину интервала с наибольшей повторяемостью ряда распределений.

Мода может определяться графически по гистограмме. Для этого используются три соседних столбца гистограммы: самый высокий и два прилегающих к нему слева и справа.

Для группированного дискретного ряда мода определяется графически из полигона. Она будет равна абсциссе точки максимума полигона.

Для не очень асимметричных и одновершинных распределений связь между средней, медианой и модой определяется соотношением

.

Параметры вариаций. Дисперсия и среднее квадратическое отклонение

Для того чтобы судить, насколько типична средняя для данной статистической совокупности, ее следует дополнить показателями, характеризующими изменчивость (разброс,рассеяние) значений случайных величин. Ведь чем менее разброс значений случайных величин, тем точнее можно их предсказать. Численное описание разброса является вторым параметром, характеризующим статистическое распределение.

Отдельные наблюдаемые значения случайной величины более или менее кучно разбросаны вокруг среднего значения. Разброс случайных величин может быть связан:

- с естественной изменчивостью изучаемого параметра;

- с ошибками статистического наблюдения.

Даже при достаточно совершенной организации статистического наблюдения могут встречаться в полученной статистической информации отдельные ошибки или погрешности, которые следует устранить, чтобы получить качественный исходный статистический материал.

Ошибки статистического наблюдения - расхождение действительных значений случайной величины с их величиной, зарегистрированной в процессе сбора сведений.

Ошибки статистического наблюдения разнообразны по происхождению и характеру. Они могут заключаться в неполном охвате подлежащих регистрации единиц, в пропуске записи или не ясной записи данных по отдельным единицам наблюдения и в неправильной записи отдельных ответов (несоответствие их действительным фактам). Ошибки статистического наблюдения возникают часто в связи с отсутствием твердых знаний и навыков у регистраторов, описками и т.п. В некоторых случаях встречаются и преднамеренные ошибки, которые скрывают или искажают факты; в таких случаях привлекают к ответственности лиц, занятых проведением статистического наблюдения.

Ошибки статистического наблюдения разделяются на категории в зависимости от источника происхождения и значения ошибок. По источнику происхождения различают непреднамеренные и преднамеренные (злостные) ошибки, а по значению - случайные и систематические.

Случайными ошибками считаются такие погрешности в записи данных по отдельным единицам, в отношении которых предполагают, что они могут с одинаковой вероятностью исказить результаты статистического наблюдения в противоположные стороны. К ошибкам такого вида относятся непреднамеренные ошибки - как следствие описок или недостаточно ясного понимания регистратором сущности регистрируемых признаков. Случайные ошибки при статистическом наблюдении массы единиц не оказывают существенного влияния на конечные результаты обследования: в процессе статистической сводки собранных данных они обычно взаимно погашаются.

К непреднамеренным ошибкам относятся ошибки, возникающие в процессе организации выборочного статистического наблюдения, называемые ошибками представительства или репрезентативности. Они показывают, в какой степени выборочная совокупность представляет генеральную совокупность, из которой она взята. Основное значение по недопущению ошибок такого рода имеет правильная организация статистического наблюдения: разработка плана статистического наблюдения, бланков и инструкций по их заполнению, подбор регистраторов и т.п.

Систематические ошибки искажают сведения по отдельным единицам наблюдения в одном направлении (преувеличивают или преуменьшают). К систематическим ошибкам относятся: пропуски единиц наблюдения, ошибки, возникающие в силу неисправности измерительных приборов, а иногда и стремления отдельных лиц округлять величины при устном опросе. Например, при недокументированном сборе сведений возможны округления возраста, стажа работы, заработной платы. Все систематические ошибки являются преднамеренными ошибками и не погашаются в процессе статистической сводки.

Чтобы устранить обнаруженные ошибки в материалах статистического наблюдения, производится контроль собранных данных первичного учета.

В основе теории ошибок лежат два предположения, подтверждаемые опытом:

1). При большом числе измерений случайные погрешности одинаковой величины, но разного знака, т.е. погрешности как в сторону уменьшения, так и в сторону увеличения, встречаются одинаково часто.

2). Большие (по абсолютной величине) ошибки встречаются реже, чем малые, т.е. вероятность появления ошибки уменьшается с ростом величины погрешности.

Действительно, каждый экспериментатор знает, что если проводится небольшое число измерений, то результат сходится очень хорошо, и только затем, по мере увеличения числа измерений, появляются большие расхождения. (Это постоянно наблюдаемое явления легко объяснить из нормального закона распределения случайных величин, согласно которому вероятность появления малых отклонений значительно больше, чем вероятность появления больших отклонений.)

1. Наиболее простыми мерами изменчивости являются амплитуда колебания (размах)

А = Хмах - Хmin .

Амплитуда колебаний дает самое общее представление об изменчивости, т.к. показывает лишь, насколько отличаются друг от друга крайние значения, но не указывает, насколько велики отклонения значений СВ внутри ряда.

2. Среднее линейное отклонение. Можно определить вариацию, как меру отклонений значений СВ от средней

,

где Хi- - отклонение i-той случайной величины от средней (может принимать как положительные, так и отрицательные значения), n - число наблюдений. Однако, при вычислении средней суммы отклонений индивидуальных значений СВ от среднего значения может в результате получиться ноль.

3. Среднее абсолютное отклонение. Чтобы избежать нулевой суммы отклонений можно каждое отклонение значений СВ от средней взять по абсолютному значению

,

где Хi- - абсолютное отклонение i-той случайной величины, n - число наблюдений. Для сгруппированного дискретного или интервального ряда

,

где Xi - центральное значение градации, - среднее значение СВ, mi - частота градации, Рi - относительная повторяемость (вероятность) градации, k - число градаций, n - длина ряда.

При использовании среднего абсолютного отклонения d вклад малых и больших отклонений случайной величины от среднего значения учитывается одинаково, что снижает ценность d как показателя изменчивости.

4. Еще один способ избежать нулевую сумму отклонений - взять средний квадрат отклонений значений ряда от средней, называемый дисперсией 2 выборки (или выборочной дисперсией).

Для дискретного ряда распределения

,

для сгруппированного дискретного и интервального ряда

или , 0 Рi 1,

где Xi - центральное значение интервала, - среднее значение СВ, mi - частота градации, k - число градаций, n - длина ряда.

Свойства дисперсии:

1). 2 (с) = 0 - дисперсия постоянной величины равна нулю.

2). 2 (с+Х) = 2 - дисперсия не меняется, если все значения СВ увеличить или уменьшить на одно и то же число.

3). 2 (сХ) = 2 с2 - при умножении (делении) всех значений СВ на постоянное число с дисперсия увеличивается (уменьшается) в с2 раз.

4). 2 (ХY…Z) = 2X 2Y … 2Z - дисперсия алгебраической суммы независимых СВ равна сумме их дисперсий.


Подобные документы

  • Вероятность появления события. Непрерывная случайная величина и функция распределения. Дисперсия непрерывной случайной величины. Среднее квадратическое отклонение. Формула полной вероятности, математическое ожидание. Интегральная теорема Лапласа.

    контрольная работа [149,7 K], добавлен 09.02.2012

  • Технико-экономические показатели групп заводов; ряды распределения. Относительные величины интенсивности, цепные и базисные индексы товарооборота. Расчет средней величины, моды и медианы. Среднее квадратическое отклонение; дисперсия, коэффициент вариации.

    контрольная работа [88,8 K], добавлен 06.10.2013

  • Составление закона распределения случайной величины X—числа студентов, успешно сдавших экзамен. Расчет математического ожидания, дисперсии и среднего квадратического отклонения случайной величины. Таблица накопленных частот для сгруппированной выборки.

    курсовая работа [1,8 M], добавлен 11.01.2015

  • Составление аналитической группировки с целью выявления зависимости уровня рождаемости от уровня доходов. Данные по региону о грузообороте транспорта, хозяйствах района. Размах вариации, среднее квадратическое отклонение, дисперсия. Темп роста и прироста.

    контрольная работа [52,0 K], добавлен 02.11.2013

  • Проведение расчета абсолютных, относительных, средних величин, коэффициентов регрессии и эластичности, показателей вариации, дисперсии, построение и анализ рядов распределения. Характеристика аналитического выравнивания цепных и базисных рядов динамики.

    курсовая работа [351,2 K], добавлен 20.05.2010

  • Сущность понятия "вариация". Относительные показатели вариации. Размах вариации как важный показатель колеблемости признака. Коэффициент вариации случайной величины. Среднеквадратическое отклонение как показатель рассеивания значений случайной величины.

    контрольная работа [26,2 K], добавлен 28.07.2010

  • Построение с помощью формулы Стержесса. Построение рядов распределения с произвольными интервалами. Построение рядов распределения с помощью среднего квадратического отклонения. Классификация рядов распределения. Расчет основных характеристик вариации.

    курсовая работа [1,4 M], добавлен 22.11.2013

  • Первичный анализ экспериментальных данных. Построение эмпирической плотности распределения случайной анализируемой величины и расчет ее характеристик. Определение вида закона распределения величины и расчёт его параметров при помощи метода моментов.

    курсовая работа [1,2 M], добавлен 23.05.2009

  • Оценка методами статистики домашних хозяйств, расчет статистики рядов распределений. Структура распределения среднедушевых доходов в республике Коми. Отношение границ бедности и богатства. Корреляция среднедушевого дохода и заработной платы работника.

    лабораторная работа [342,6 K], добавлен 11.11.2010

  • Порядок составления и исследование вариационного ряда, первичная обработка полученных данных. Подбор закона распределения одномерной случайной величины и построение регрессионной модели данной системы. Вывод о значимости коэффициента корреляции.

    лабораторная работа [147,6 K], добавлен 15.03.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.