Вероятностно-статистический подход в компьютерной обработке данных

Вероятностная структура информации. Функции распределения и плотности вероятностей. Требования к статистическим базам учета. Определение основных статистических характеристик средствами Мастера функций. Основные статистические функции Miсrоsоft Ехсеl.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 18.10.2015
Размер файла 3,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ВВЕДЕНИЕ

В настоящее время компьютеризация прочно вошла в нашу жизнь. С помощью компьютера можно осуществлять различные операции.

Возможно использование компьютеров в области обработки и анализа данных для пользователей из различных сфер деятельности.

Компьютерной обработкой данных называется любой процесс ,который использует компьютерную программу для ввода данных, обобщать их, анализировать или иным образом преобразовывать данные в полезную информацию.

Компьютерная интерактивная система, преследует именно такие цели которые позволили бы дать пользователю, не являющемуся специалистом в области компьютерных технологий и в области обработки данных, возможность грамотно и разносторонне провести анализ статистических данных, не углубляясь в специальные и достаточно сложные математические расчеты.

Использование компьютера при изучении теории вероятностей и статистики становится сегодня все более общепринятым.

Какие программные средства можно использовать для обработки статистического материала? Каких либо широко распространенных программ статистической обработки данных, рассчитанных на общеобразовательную школу, нет. Поэтому естественным выходом представляется использование популярной электронной таблицы MS Ехсеl.

Возможность усовершенствования работы администрации школы за счет внедрения автоматизированной информационной системы обуславливает практическую значимость выбранной темы дипломной работы - «Вероятностно-статистический подход в компьютерной обработке данных », а факт повсеместной компьютеризации и наличие сложных статистических баз в данной сфере деятельности, подтверждает ее актуальность.

Научная ценность исследования заключается в разработке и описании нескольких видов программ, которые в дальнейшем можно будет использовать при разработке аналогичных или схожих информационных систем в любой среде программирования.

Цель дипломной работы состоит в разработке и описании такой программы автоматизированной информационной системы учета деятельности работы администрации школы, посредством которой, в дальнейшем, возможно, реализовать систему в любой среде программирования.

В соответствии с поставленной целью и для ее наилучшего достижения, были сформулированы следующие задачи исследования:

Проанализировать предметную область;

Сделать обзор аналогичных программных средств, процессов и методов их описания с помощью распределения вероятностей, плотностей вероятностей, характеристических и производящих функций и функционалов, а также других статистических характеристик;

Проанализировать и обобщить требования, предъявляемые к статистическим базам учета и анализа деятельности школы;

Изучить общие математические модели и определить статистические характеристики различных процессов в информационных системах;

Внедрить программу Ехсеl в работу администрации школы для повышения эффективности управления образовательным учреждением за счет автоматизированного сбора статистической информации и отчетных материалов.

В ходе выполнения работы по теме исследования, были использованы теоретические и практические методы исследования.

Основными методами исследования послужили: анализ научной, технической, методической, нормативной документации; имитационное моделирование; логическое и концептуальное моделирование; синтез.

1. Анализ предметной области

1.1 Вероятностная структура информации

Вероятностная структура информации Информация, как и любой феномен реальности, является вероятностной по своей природе. Соответственно. Вероятностная сторона информации является важной для анализа и характеристики. Но можно ли при этом сводить информацию к вероятности?

Переходя от рассмотрения вероятностного подхода к другим вариантам рассмотрения сущности информации, необходимо отметить то, что могут быть другие способы понимания, но возможно раскрытие природы информации через выявление её вероятностной структуры. Анализ вероятностно-статистической концепции информации показывает проявление данного механизма. В этом отношении, как отмечает А.Д. Урсул, информация определяется Шенноном как снятая неопределённость, которая далее может принимать вероятностные варианты развития. Логически возможно и противоположное отношение. Так, например. Рассматривая вероятность как показатель информации, А.Н. Колмогоров выдвинул идею о том, что не столько вероятностная методология применима к анализу информации, сколько, наоборот, информационная методология в наиболее полной степени позволяет раскрыть природу вероятности. Если за исходное, анализируемое явление берется вероятность и на этой основе выстраивается общее целостное понимание сущности информации, то вполне естественно, получаемая теоретическая модель информации в целом приобретает вероятностный характер.

Вероятностные способы определения сущности информации имеют свою характерную специфику ,фиксируя внимание на том, что информация есть снятая неопределённость. К данным методам определения информации будут относиться, вероятностно-статистические, континуально-пространственные, все те, в которых акцентируется в качестве определяющего момента снижение неопределённости и повышение степени вероятности устойчивого статического состояния системы. Например. Количество информации, в соответствии с концепцией количественной определённости информации, есть степень уменьшенной, снятой неопределённости. В этом случае, неустановленная степень определённости вероятности есть показатель увеличения степени количества информации, соответственно, установление степени вероятности есть показатель уменьшения количества информации. Информация есть степень определенности, соотношение определенности и неопределенности проявляется, например, в соотношении логических законов тождества, как закона устанавливающего однозначность, и законов логики, носящих двузначный характер, то есть законов «исключения третьего» и «противоречия». Лишь закон тождества устанавливает однозначность и определенность информации. То есть информация есть определенность проявления однозначного выбора. Таким образом, возможно определение сущности информации через процесс уменьшения неопределенности выбора.

Рассмотрение сущности информации через определённость и неопределённость есть абсолютизация отдельных абстрактных сторон, качеств информации; в результате чего происходит противопоставление отдельных аспектов сущности информации самой информации как целостному конкретному явлению.

Вероятностная структура информации изменяется с изменением степени её сложности и организации. Вероятностная концепция, проявляющая идею информации, сводится, по сути дела, к достаточно простому положению, заключающемуся в том, что информация может быть информацией только тогда, когда высоко вероятностна степень её устойчивой однозначной определённости.

Вероятностная однозначность есть необходимая форма существования информации. В данном случае двузначная вероятность определённости, действительно, проявляется как важное условие, заключающееся в том, является ли, рассматриваемая данность элементов и связей информацией или не является таковой.

Более сложные по своей вероятностно значимой структуре состояния с позиций однозначной статичности не воспринимаются как информация. Поэтому простые информационные системы не способны полностью воспринять целостность более сложных информационных систем, отличаясь от них степенью и порядком взаимосвязанной организованности. Именно взаимосвязанная организованность позволяет увеличивать её внутреннее информационное состояние. Информация в этом смысле есть внутренняя дискретность, внутренняя определённая устойчивость системы взаимосвязей, то есть интроформа системы. Информация может быть рассмотрена как проявленность, то есть как феномен. Проявление реализуется как данность одного объекта другому объекту или объектам. Непроявленные части реальности не являются частью феномена и не являются актуализированной информацией. Информационная реальность может быть разделена на проявленную и непроявленную потенциальную информацию. Если информация есть определённость, то неопределённость антиинформационна. Неопределённость может быть рассмотрена как меональность. Понимание информации как снятой неопределённости даёт возможность акцентировать значность вероятностного состояния, в котором данная информация проявляется. Вероятностность и определённость информации находятся в устойчивой взаимной зависимости. Данный подход, фиксируя вероятностно значную структуру информации, выявляет соотношение рассматриваемых сторон следующим образом, получается: чем меньше вероятностная определённость значности, тем больше информации. Снятие неопределённости увеличивает количество информации. И, наоборот, чем больше степень вероятностной определённости значности, тем меньше количество информации. Увеличение вероятностных, возможных альтернатив становления реальности создаёт неопределённость и неустановленность информации. Из этого следует, что больше всего информации в состоянии полного отсутствия вероятностной значности, то есть в нулевом состоянии значности. Нулевая значность есть потенциально максимальная возможность вероятностных значений и отсутствие реально установленных значений. Разнообразие и определённость взаимосвязаны между собой, разнообразие не может быть неопределённым, разнообразие всегда есть наличие определённости. Неопределённость как отсутствие реально установленного выбора не является увеличением информации в силу неустановленности однозначно интерпретируемых качеств. В этом смысле, неопределённость есть бесконечность, аморфность и хаотичность, соответственно, информация есть атрибутивное качество материи, проявляющееся как показатель организованности реальности. Информация есть содержательная определённость существующих явлений. Можно заметить, что такой подход не исключает и, соответственно, предполагает более широкий философский, философско-семиотический способ понимания сущностной природы информации. Вероятностно-статистическая теория Шеннона имеет свои определённые достоинства, но, вместе с этим, она имеет такие черты, свойства, которые показывают, что данный подход не является универсальным.

Как известно, информация является таким же важным атрибутом реальности, как и энергия. Любой объект реальности обладает информационной структурой, любой объект может быть рассмотрен как информационное содержание, реализованное в его данности. Информация как содержание есть преобразованная форма одного объекта, помещённая в структуру взаимосвязей другого объекта. Информация не может быть непреобразованной формой. Степень преобразования зависит от специфики каналов взаимосвязей передачи реальности одного объекта другому, реализованная в структуре данности воспринимающего объекта. Информация как содержание определяется преобразованной содержательной формой данности действующего и воспринимаемого объекта реальности. Во многом становление статистической теории информации явилось важной посылкой и вызвало развитие более широкого комплекса семиотических проблем информационного понимания реальности, во многом это вызвало становление различных семиотических вариантов теории информации. Нестатистическая методология алгоритмической концепции информации. По сути дела, в рамках научно-технологического гносеологического подхода определился статистический подход, сводящий сущностные черты информации к некой количественной величине. Можно отметить, что возращение к целостному глубокому логическому анализу сущности информации позволяет изменить представления в данном отношении. Так, например. В результате работ А.Н. Колмогорова, который один из первых попытался проанализировать логические основания теории информации, возник новый комплекс методов нестатистического определения сущности информации.

Концепция А.Н. Колмогорова позволяет, не отождествляя её с вероятностно-статистическим подходом, обоснованного К. Шенноном, рассмотреть альтернативный способ понимания сущности информации. Таким подходом является алгоритмический подход, одним из весомых аргументов в пользу которого состоит в следующем: необходимо установить вероятность распределения как информационный показатель. Но возникает другой, противоположный аспект: если вероятность распределения установить невозможно, означает ли это отсутствие информации? По-видимому, если невозможно вычислить вероятность, то это не означает отсутствие информации. Последовательность может пониматься как линейная система и можно предположить, что она способна приобретать развёрнутую пространственную организацию.

Алгоритмический анализ информации позволяет сформулировать принципиально новый подход к определению целостной сущности информации. В таком подходе информация есть алгоритмическая сложность последовательности.

Метод определения алгоритмического количества информации, предложенный А.Н. Колмогоровым, обращает внимание на наличие «сложности последовательности», понимаемой как минимальная длина программы её описания, где под «длиной программы» понимается количество команд, необходимых для воспроизводства исходной последовательности.

Продолжая данный подход, обоснованный А.Н. Колмогоровым, можно предположить, что реально существующий мир в своей структуре взаимообусловлено расположенных объектов и процессов представляет пространственно развёрнутый алгоритм, определяющий программу существования всех элементов.

В таком подходе проявляется следующее: информация есть свойство функциональных алгоритмов взаимосвязей, лежащих в основе реальности, выступающих как матрица, порождающая информационная реальность.

1.2 Функции распределения и плотности вероятностей

При решении задач анализа и синтеза необходимыми для расчета данными служат полученные из опыта некоторые экспериментальные данные. Опытом называются наблюдения какого-либо явления при выполнении некоторого комплекса условий и действий, который каждый раз при повторении указанного опыта строго выполняется. Количественная характеристика опыта состоит в определении получаемой из опыта некоторой величины. Из-за влияния различных трудно учитываемых факторов результаты экспериментов в серии опытов имеют случайный непредсказуемый характер, а сами величины оказываются случайными. Несмотря на это в длинной серии опытов можно установить общие статистические закономерности, присущие реальным явлениям.

Эти закономерности отражаются в вероятности значений, полученных из опыта случайных величин. Так, например, если разбить на действительной числовой оси интервал возможных значений физической величины на конечное число непересекающихся подынтервалов и подсчитать в серии опытов число события попадания случайной величины в каждый из подынтервалов, то отношение числа событий в одном из подынтервалов к общему числу опытов называется частотой появления событий в этом подынтервале. При достаточно длинной серии опытов эта частота мало изменяется и может служить количественной мерой вероятности появления или непоявления рассматриваемых событий.

Остановимся на одном из способов определения случайного процесса на основе введенного понятия случайной величины. Под случайной величиной о(ti) понимается одно из значений случайной функции о(t) при фиксированном аргументе ti из произвольного множества T, ti ? T. В зависимости от возможных значений случайная величина подразделяется на дискретную (из конечного или счетного множества Х) или непрерывную (принимает непрерывные значений на всей действительной оси или ее интервале). Если аргумент t интерпретируется как время, то совокупность случайных величин называется случайным процессом . Время может принимать дискретные или непрерывные значения. В соответствии с этим случайные процессы подразделяются на процессы с дискретным и непрерывным временем. Конкретный вид случайного процесса в результате отдельных экспериментов называется реализацией (траекторией или выборочной функцией).

Вероятностные характеристики случайного процесса могут быть определены на основе понятия совокупности (последовательности) случайных величин {о(ti),i=}.Наиболее полной такой характеристикой является n-мерная функция распределения вероятностей

- вероятность того, что случайный процесс в любые возможные моменты времени t1,...,tn примет соответственно значения не выше уровней х1,...,хn из множества Х. Эта функция удовлетворяет условиям неотрицательности F(*) ? 0 и согласованности

Она является неубывающей функцией своих аргументов

Если функция дифференцируема по х1,...хn, то можно определить n-мерную плотность вероятностей

Плотность вероятностей является неотрицательной функцией р(*) ? 0 и удовлетворяет условию нормировки

Важным классом случайных процессов являются стационарные процессы. Случайный процесс называется стационарным, если функции распределения вероятностей инвариантны относительно сдвига времени для любых n и

Для стационарных процессов выражения для функции распределения не зависит от положения начала отсчета времени. Аналогичные соотношения выполняются и для плотностей вероятностей

Если вероятностные характеристики случайных процессов не инвариантны к произвольному смещению начала времени, то процесс является нестационарным. Для стационарных случайных процессов одномерная функция плотности не зависит от времени; двумерная плотность зависит лишь от разности t2-t1:

р(х2 ,t2;х1,t1)=р(х2 ,х1 ;t2-t1)

n-мерная плотность вероятностей будет функцией n-1разностей ti -t1,i -2,n.

Перейдем к рассмотрению условных функций распределений. Вероятность совместного выполнения неравенств

при условии, что

где описывается условной функцией распределения

Определим условную плотность вероятностей как производную по хn,...хn-m функции распределения. С учетом формулы полной вероятности

Соотношение называется формулой Байеса для условных вероятностей. Как и безусловные условные плотности вероятностей удовлетворяют условиям неотрицательности и нормировки

В простейшем варианте двумерной условной плотности (n=2,m=0) формула Байеса принимает вид

В задачах теории случайных процессов довольно часто необходимо найти по известной плотности вероятностей ро (х) плотность вероятностей функции случайной величины з =? (о ), т.е. рз (у) .

Предположим, что функция ?(х)имеет первые кусочно-непрерывные производные по х и не постоянна ни на каком множестве значений аргумента х, имеющем отличную от нуля вероятность. Кроме того, будем полагать что случайные величины связаны однозначной детерминированной зависимостью. В силу последнего предположения из того факта, что величина о заключена в интервале (х,х+dх) достоверно следует, что з находится в интервале (у,у+dу).И вероятности этих событий должны быть одинаковы ро(х)dх=рз(у)dу.

Поскольку плотность вероятностей не может быть отрицательной, то в формулу необходимо подставить модуль производной.

1.3 Требования к статистическим базам учета и анализа деятельности школы

Основным критерием современного общеобразовательного учреждения является создание условий для перехода к новому уровню образования на основе информационно-коммуникационных технологий посредством формирования компетентностной информационной образовательной среды. Применение современных образовательных технологий в практике обучения является неотъемлемым условием интеллектуального, творческого и нравственного развития учащихся.

В настоящее время информационно-коммуникационные технологии востребованы не только школьниками, но и учителями, педагогами-психологами, руководством образовательных учреждений любого типа. В ХХI веке компьютер стал незаменимым и уникальным инструментом, который в руках учителя-мастера, администратора-профессионала, ученика-интеллектуала служит средством творческой работы, успешной учебы и интересного общения.

В современной школе, осуществляющей мониторинг и диагностику, личностно-ориентированное и развивающее обучение, поток информации, получаемой участниками образовательного процесса, многократно увеличивается. В связи с этим перед педагогами, а особенно перед администрацией образовательного учреждения встает вопрос об использовании современных технологий по обработке, хранению и анализу получаемой информации.

Современное развитие средств вычислительной техники, средств связи и программных технологий, в совокупности с их постепенным удешевлением, способствуют массовому применению их не только в образовательном процессе, но и в управлении им.

Режим школьного администрирования можно представить как целенаправленную деятельность по регулированию педагогического процесса с целью перевода последнего на более высокий уровень. Он состоит из следующих этапов: сбора информации, её анализа и принятия решений. Школьные управленцы должны иметь необходимый минимум информации о состоянии и развитии процессов, за которые они отвечают и на которые призваны оказывать управляющее воздействие. В связи с этим работу администрации школы можно и нужно организовать с помощью персонального компьютера.

Управление школой включает в себя большой круг вопросов: педагогических, хозяйственных, социально-педагогических, экономических, правовых, финансовых. Важным фактором совершенствования управления являются информационные технологии, которые предоставляют массу новых возможностей. Они позволяют накапливать и обновлять большие объемы информации, являются инструментом оптимизации времени и средств, расходуемых на решение отдельных задач управления, способствуют повышению качества принимаемых управленческих решений за счет предоставления оперативной и достоверной информации о состоянии управляемого объекта.

Сегодня компьютер стал универсальным инструментом школьного администратора в его работе по мониторингу и анализу данных учебно-воспитательного процесса.

Оснащение общеобразовательных учреждений компьютерной техникой, современные требования к ведению и оформлению документации, необходимость быстрого анализа собранных данных образовательного процесса для эффективного управления им приводят к тому, что овладение информационными компьютерными технологиями становится насущной проблемой школьного администратора.

Для более эффективного управления школой в ней должна быть создана единая информатизационная среда, отвечающая следующим требованиям:

банк данных системы должен содержать максимально полную информацию обо всех элементах учебного процесса;

в системе должна быть предусмотрена возможность обмена сообщениями между всеми пользователями;

должна быть предусмотрена возможность взаимного обмена информацией с органами управления образованием;

в системе должна существовать возможность интегрирования электронных учебников.

Многие функции и задачи внутришкольного управления в современных условиях решаются более качественно, эффективно и экономично за счет использования программного обеспечения пакета Miсrоsоft Оffiсе.

Программа Miсrоsоft Оffiсе Ехсеl позволяет вводить базовые данные об учебном заведении, создавать банки данных по кадровому составу и контингенту учащихся, обрабатывать информацию для получения выходных документов, вести электронные варианты книг приказов. Несомненно, на первых порах, требуется много времени для создания банков данных, но при работе в многопользовательском режиме временные затраты существенно уменьшаются. При наличии соответствующих модулей система может быть использована в работе директора, секретаря, завучей, учителей-предметников и классных руководителей, школьного бухгалтера, библиотекаря, медперсонала.

В электронной таблице информация отражает общую картину по всей школе. Очевидно, что при каждом изменении внутри класса, достаточно только добавить или удалить строку в файле, содержащем список учеников, автоматически произойдут соответствующие изменения во всех сводных таблицах. На итоговой таблице мы получим точную информацию на сегодняшний день.

Очевидно, что, используя эти и другие операции стандартной программы (Ехсеl), можно хранить и обрабатывать информацию по контингенту сотрудников; по учебной и внеурочной деятельности учащихся, по данным социального паспорта школы.

Данная программа позволит освободить заместителя директора от монотонной работы по механическому подсчитыванию, а так же предупредит возможность возникновения арифметических ошибок. Кроме того, большие объемы статистической информации станут для управленца действительно материалом для анализа и основой для принятия правильного управленческого решения.

Технология работы с электронными таблицами, создаваемыми в среде табличного процессора MS Ехсеl, сегодня столь же популярна, как и технология создания текстовых документов. Электронная таблица позволяет производить расчеты по формулам, представлять данные в виде диаграмм, структурировать данные, делать выборку из больших таблиц, создавать консолидированные таблицы и др. Использование возможностей современных информационных технологий позволяет автоматизировать процесс обработки результатов рубежных, тематических, итоговых проверочных работ. Отслеживать их динамику, представлять результаты в наглядном виде, используя возможности мастера диаграмм. Это, в свою очередь, создает условия для своевременной корректировки содержания и методики обучения, целенаправленного достижения образовательного стандарта.

Внедрение программы Ехсеl в работу администрации школы повышает эффективность управления образовательным учреждением за счет автоматизированного сбора статистической информации и отчетных материалов, оперативного структурированного представления информации, использования электронного документооборота.

Есть объективная необходимость создания в школе следующего материала с использование программы Miсrоsоft Ехсеl:

· банк данных по педагогическим кадрам

· банк данных по отслеживанию результатов обучения

· банк данных по всеобучу

· банк данных о выпускниках школы

· банк данных об учениках-участниках олимпиад

· банк данных об учителях,

· социальный паспорт школы

Использование перечисленных банков данных позволяет минимизировать сроки создания отчетности, проведения мониторинга обученности школьников, отслеживания повышения профессионального мастерства учителей.

Электронные таблицы Miсrоsоft Ехсеl имеют широкие возможности для воплощения идей автоматизации управления образовательным учреждением.

Наглядно иллюстрирует достигнутые успехи электронная таблица «Анализ успеваемости за 8 лет». Она позволяет иметь объективную информацию по каждому классу. По ней можно проследить уровень успеваемости и усвоения учебного материала в течение последних 8 лет. Благодаря этим данным за короткий промежуток времени выдается результат по динамике учебного процесса в различных разрезах. Данные могут быть использованы руководителями для составления характеристик класса, изучения причин полученных результатов, ознакомления родителей, формулировки целей и задач на учебный год. Итоговые данные по школе используются администрацией для того, чтобы выявить тенденции сложившейся ситуации и сделать соответствующий прогноз на будущее.

Аналогичным образом, с помощью богатого инструментария приложений Miсrоsоft Оffiсе, решаются и другие вопросы - написание программ по модификации расписания, учету пропущенных и замещенных уроков, обработке данных по оплате труда, а также создание тестовых комплексов для внутришкольного контроля.

Информационные технологии дают огромные преимущества и учащимся, и учителям. Все, что создается с использованием средств информационно-коммуникационных технологий, можно охарактеризовать тремя словами: эстетично, быстро, качественно. И самое главное - это возможность оперативного доступа к информации, возможность редактирования, получения твердой копии и передачи ее по локальной сети или Интернет-каналам.

Наибольших успехов сотрудникам школы удаётся добиваться благодаря применению электронных таблиц Miсrоsоft Ехсеl, на базе которых создано немало интересных решений, автоматизирующих отдельные участки учебно-воспитательной работы и административно-хозяйственной деятельности.

Таким образом, эффективное использование информационного пространства способствует повышению качества профессиональной и общеобразовательной подготовки за счет внедрения новых технологий в образовательный процесс; способствует повышению творческой активности педагогов и учащихся; формированию информационной культуры (приобщение к информативно-коммуникационным возможностям современных технологий) руководящих, педагогических работников, обучающихся и их родителей.

2. Сведения из теории статистических решений

2.1 Определение основных статистических характеристик средствами Мастера функций

В результате наблюдений или эксперимента получаются наборы данных, называемые выборками. Для проведения их анализа данные подвергаются статистической обработке. Первое, что всегда делается при обработке данных, это вычисление элементарных статистических характеристик выборок (как минимум: среднего, среднеквадратичного отклонения, ошибки среднего) по каждому параметру и по каждой группе. Полезно также вычислить эти характеристики для объединения родственных групп и суммарно по всем данным. Использование специальных функций

В Мастере функций Ехсеl имеется ряд специальных функций, предназначенных для вычисления выборочных характеристик. Прежде всего, это функции, характеризующие центр распределения.

Функция СРЗНАЧ вычисляет среднее арифметическое из нескольких массивов (аргументов) чисел.

Функция СРГАРМ позволяет получить среднее гармоническое множества данных. Среднее гармоническое - это величина, обратная к среднему арифметическому обратных величин. Например:

СРГАРМ(10;14;5;6;10;12;13) равняется 8,317.

Функция СРГЕОМ вычисляет среднее геометрическое значений массива положительных чисел.

Функцию СРГЕОМ можно использовать для вычисления средних показателей динамического ряда. Например:

СРГЕОМ(10;14;5;6;10;12;13) равняется 9,414.

Функция МЕДИАНА позволяет получать медиану заданной выборки. Медиана - это элемент выборки, число элементов выборки со значениями

больше которого и меньше которого равно. Например:

МЕДИАНА(10;14;5;6;10;12;13) равняется 10.

Функция МОДА вычисляет наиболее часто встречающееся значение в выборке. Например:

МОДА(10;14;5;6;10;12;13) равняется 10.

К специальным функциям, вычисляющим выборочные характеристики, характеризующие рассеяние вариант, относятся ДИСП, СТАНДОТКЛОН, ПЕРСЕНТИЛЬ.

Функция ДИСП позволяет оценить дисперсию по выборочным данным. Например:

ДИСП(10;14;5;6;10;12;13) равняется 11,667.

Функция СТАНДОТКЛОН вычисляет стандартное отклонение. Например:

СТАНДОТКЛОН (10;14;5;6;10;12;13) равняется 3,416.

Функция ПЕРСЕНТИЛЬ позволяет получить квантили заданной выборки. Например, если ячейки А1:А7 содержат числа 10, 14, 5, 6, 10, 12 и 13, ток вантилью со значением 0,1 является ПЕРСЕНТИЛЬ(А1:А7;0,1), равная 5,6.

Форму эмпирического распределения позволяют оценить специальные функции ЭКСЦЕСС и СКОС.

Функция ЭКСЦЕСС вычисляет оценку эксцесса по выборочным данным. Например: ЭКСЦЕСС(10;14;5;6;10;12;13) равняется -1,169.

Функция СКОС позволяет оценить асимметрию выборочного распределения. Например: СКОС(10;14;5;6;10;12;13) равняется -0,527.

2.2 Использование инструментов Пакета анализа для статистической обработки данных

В пакете Ехсеl помимо Мастера функций имеется набор более мощных инструментов для работы с несколькими выборками и углубленного анализа данных, называемый Пакет анализа, который может быть использован для решения задач статистической обработки выборочных данных.

Для установки Пакета анализа в Ехсеl выполните следующее: в меню Сервис выберите команду Надстройки; в появившемся списке установите флажок Пакет анализа.

Ввод данных. Исследуемые данные следует представить в виде таблицы, где столбцами являются соответствующие показатели. При создании таблицы Ехсеl информация вводится в отдельные ячейки. Совокупность ячеек, содержащих анализируемые данные, называется входным диапазоном.

Последовательность обработки данных. Для использования статистического пакета анализа данных необходимо: выполнить команду Сервис - Анализ данных; выбрать необходимую строку в появившемся списке Инструменты анализа; ввести входной и выходной диапазоны и выбрать необходимые параметры.

Нахождение основных выборочных характеристик

Для определения характеристик выборки используется процедура Описательная статистика. Процедура позволяет получить статистический отчет, содержащий информацию о центральной тенденции и изменчивости входных данных. Для выполнения процедуры необходимо: выполнить команду Сервис - Анализ данных; в появившемся списке Инструменты анализа выбрать строку Описательная статистика и нажать кнопку ОК (рис. 3.5);

Рис. 3.5. Окно выбора метода обработки данных и окно

Описательной статистики в появившемся диалоговом окне указать входной диапазон, то есть ввести ссылку на ячейки, содержащие анализируемые данные; указать выходной диапазон, то есть ввести ссылку на ячейки, в которые будут выведены результаты анализа; в разделе Группировка переключатель установить в положение по столбцам; установить флажок в поле Итоговая статистика; нажать кнопку ОК.

В результате анализа в указанном выходном диапазоне для каждого столбца данных выводятся следующие статистические характеристики: среднее, стандартная ошибка (среднего), медиана, мода, стандартное отклонение, дисперсия выборки, эксцесс, асимметричность, интервал, минимум, максимум, сумма, счет, наибольшее, наименьшее, уровень надежности.

Пример 7. Рассматривается зарплата основных групп работников гостиницы:

администрации, обслуживающего персонала и работников ресторана. Были получены следующие данные:

Администрация

Персонал

Ресторан

4500

2100

3200

4000

2100

3000

3700

2000

2500

3000

2000

2000

2500

2000

1900

1900

1800

1800

1800

Необходимо определить основные статистические характеристики в группах данных.

Решение

1. Для использования инструментов анализа исследуемые данные следует представить в виде таблицы, где столбцами являются соответствующие показатели. Значения зарплат сотрудников администрации введите в диапазон А1:А5, обслуживающего персонала - в диапазон В1:В8 и т. д. В результате получится таблица, представленная на рис. 3.6.

Рис. 3.6. Таблица из примера 7

2. Далее необходимо провести элементарную статистическую обработку. Для этого выполните команду Сервис - Анализ данных. Затем в появившемся списке Инструменты анализа выберите строку Описательная статистика.

3. В появившемся диалоговом окне (рис. 3.7) в рабочем поле Входной интервал укажите входной диапазон - А1:С8. Активировав переключателем рабочее поле Выходной интервал, укажите выходной диапазон - ячейку А9. В разделе Группировка переключатель установите в положение по столбцам. Установите флажок в поле Итоговая статистика и нажмите кнопку ОК.

Рис. 3.7. Пример заполнения диалогового окна Описательная статистика

В результате анализа (рис. 3.8) в указанном выходном диапазоне для каждого столбца данных получим соответствующие результаты

Рис. 3.8. Результаты работы инструмента Описательная статистика

Все полученные характеристики были рассмотрены ранее в разделе «Выборочные характеристики», за исключением последних четырех:

· минимум - значение минимального элемента выборки;

· максимум - значение максимального элемента выборки;

· сумма - сумма значений всех элементов выборки;

· счет - количество элементов в выборке.

Среди этих характеристик наиболее важными являются показатели Среднее, Стандартная ошибка (среднего) и Стандартное отклонение.

2.3 Принятие статистических решений

Статистическая гипотеза - это предположение о виде или отдельных параметрах распределения вероятностей, которое подлежит проверке на имеющихся данных.

Проверка статистических гипотез - это процесс формирования решения о возможности принять или отвергнуть утверждение (гипотезу), основанный на информации, полученной из анализа выборки. Методы проверки гипотез называются критериями.

В большинстве случаев рассматривают так называемую нулевую гипотезу (нуль-гипотезу Н0), состоящую в том, что все события произошли случайно, естественным образом. Альтернативная гипотеза (Н1) состоит в том, что события случайным образом произойти не могли, и имело место воздействие некого фактора.

Обычно нулевая гипотеза формулируется таким образом, чтобы на основании эксперимента или наблюдений ее можно было отвергнуть с заранее заданной вероятностью ошибки б. Эта заранее заданная вероятность ошибки называется уровнем значимости.

Уровень значимости - максимальное значение вероятности появления события, при котором событие считается практически невозможным. В статистике наибольшее распространение получил уровень значимости, равный б = 0,05. Поэтому, если вероятность, с которой интересующее событие может произойти случайным образом р < 0,05, то принято считать это событие маловероятным, и если оно все же произошло, то это не было случайным. В наиболее ответственных случаях, когда требуется особая уверенность в достоверности полученных результатов, надежности выводов, уровень значимости принимают равным б = 0,01 или даже б = 0,001.

Величину Р, равную 1 - б, называют доверительной вероятностью (уровнем надежности), то есть вероятностью, признанной достаточной для того, чтобы уверенно судить о принятом статистическом решении. Соответственно, в качестве доверительных вероятностей выбирают значения 0,95, 0,99 или 0,999.

Интервал, в котором с заданной доверительной вероятностью Р = 1 - б находится оцениваемый параметр, называется доверительным интервалом. В соответствии с доверительными вероятностями на практике используются 95-, 99-,99,9-процентные доверительные интервалы. Граничные точки доверительного интервала называют доверительными пределами (рис. 3.9).

Выбор того или иного уровня значимости, выше которого результаты отвергаются как статистически не подтвержденные, в общем случае является произвольным. Окончательное решение зависит от исследователя, традиций и накопленного практического опыта в данной области исследований.

Анализ одной выборки

Анализ однородности выборки. Одним из важных вопросов, возникающих при анализе выборки, является вопрос: относится та или иная варианта к данной статистической совокупности? Решение вопроса не представляет сложности, если распределение в этой совокупности является нормальным. Для этого достаточно использовать правило трех сигм. Согласно этому правилу в пределах М ± 3у находится 99,7 % всех вариант. Поэтому если варианта попадает в этот интервал, то она считается принадлежащей к данной совокупности. Если не попадает, то она может быть отброшена. Хотя этот метод и предполагает нормальность исходного распределения, на практике он успешно работает и может быть использован в большинстве других случаев.

При числе элементов в выборке n < 30 способ более точного определения границ доверительного интервала по формуле [M - tn,рs; M + tn,рs] (3.1) будет показан ниже в примере 8. В формуле (3.1) М - среднее значение, s - стандартное отклонение, tn,р - табличное значение распределения Стьюдента с числом степеней свободы n и доверительной вероятностью р.

Построение доверительных интервалов для среднего. Еще одной важной задачей, возникающей при анализе одной выборки, является сравнение выборочного среднего арифметического со средним значением генеральной совокупности. Эта задача решается с помощью статистических критериев. При этом выясняется, значимо ли отличие выборочного среднего значения от среднего значения генеральной совокупности, из которой предположительно взята выборка, или наблюдаемое различие является случайным.

Действительно, средние значения, получаемые по выборочным данным, обычно не совпадают с генеральным средним (математическим ожиданием). В связи с этим возникает вопрос: можно ли по результатам выборочной оценки судить о свойствах всей генеральной совокупности?

Поскольку каждую оценку, полученную в отдельной выборке, можно рассматривать как случайную величину, то при увеличении числа выборок распределение отдельных оценок будет принимать характер нормального распределения. Это значит, что в случае средних арифметических значения выборочных средних относительно генерального среднего распределяются по нормальному закону. То есть так го арифметического выборки.

Отсюда, в частности, следует, что 68,3 % всех выборочных средних находятся в пределах Д = М ± m, где Д - предельная ошибка выборки, М -- среднее выборочное, m - стандартное отклонение среднего значения. Иными словами, имеется вероятность 0,683, что выборочное среднее отличается от генерального не более, чем на ± m. Здесь 0,683 - доверительная вероятность, 1 - 0,683 = 0,317 - уровень значимости б, Д = М ± m - 68 % доверительный интервал.

Для принятой в большинстве исследований доверительной вероятности 0,95 доверительный интервал для средних при достаточно большом числе наблюдений (n > 30) примерно равен ± 2m (см. рис. 3.9). При доверительной вероятности 0,99 доверительный интервал составит примерно ± 3m. Для более точного определения границ доверительного интервала можно воспользоваться формулой

где М - среднее значение;

s - стандартное отклонение;

- табличное значение распределения Стьюдента с числом степеней свободы

n - и доверительной вероятностью р;

n - количество элементов в выборке.

В MS Ехсеl для более точного вычисления границ доверительного интервала и при числе элементов в выборке n < 30 можно воспользоваться функцией ДОВЕРИТ или процедурой Описательная статистика.

Функция ДОВЕРИТ(альфа; станд_откл; размер) определяет полуширину доверительного интервала и содержит следующие параметры:

альфа - уровень значимости, используемый для вычисления доверительной вероятности. Доверительная вероятность равняется 100*(1 - альфа) процентам, или, другими словами, альфа, равное 0,05, означает 95-процентный уровень доверительной вероятности;

станд_откл - стандартное отклонение генеральной совокупности для интервала данных, предполагается известным;

размер - это размер выборки.

Пример 8. Найти границы 95-процентного доверительного интервала для среднего значения, если у 25 телефонных аккумуляторов среднее время разряда в режиме ожидания составило 140 часов, а стандартное отклонение - 2,5 часа.

Решение

1. Откройте новую рабочую таблицу. Установите табличный курсор в ячейку А1.

2. Для определения границ доверительного интервала необходимо на панели инструментов Стандартная нажать кнопку Вставка функции (fх). В появившемся диалоговом окне Мастера функций выберите категорию Статистические и функцию ДОВЕРИТ, после чего нажмите кнопку ОК.

3. В рабочие поля появившегося диалогового окна функции ДОВЕРИТ с клавиатуры введите условия задачи: Альфа - 0,05; Станд_откл - 2,5; Размер - 25 (рис. 3.10). Нажмите кнопку ОК.

Рис. 3.10. Пример заполнения диалогового окна ДОВЕРИТ

4. В ячейке А1 появится полуширина 95-прцентного доверительного интервала для среднего значения выборки - 0,979981. Другими словами, с 95-процентным уровнем надежности можно утверждать, что средняя продолжительность разряда аккумулятора составляет 140 ± 0,979981 часа или от 139,02 до 140,98 часа.

Пример 9. Пусть имеется выборка, содержащая числовые значения: 13, 15, 17,19, 22, 25, 19. Необходимо определить границы 95-процентного доверительного интервала для среднего значения и для нахождения «выскакивающей» варианты.

Решение

1. В диапазон А1:А7 введите исходный ряд чисел.

2. Далее вызовите процедуру Описательная статистика. Для этого выполните команду Сервис - Анализ данных. Затем в появившемся списке Инструменты анализа выберите строку Описательная статистика.

3. В появившемся диалоговом окне в рабочем поле Входной интервал укажите входной диапазон - А1:А7. Переключателем активизируйте Выходной интервал и укажите выходной диапазон - ячейку В1. В разделе Группировка переключатель установите в положение по столбцам. Установите флажок Уровень надежности и справа от него задайте (%) - 95. Затем нажмите кнопку ОК.

4. В результате анализа в указанном выходном диапазоне для доверительной вероятности 0,95 получаем значения доверительного интервала (рис. 3.11).

Рис. 3.11. Исходная выборка (А1:А7) и результат вычислений (СЗ) для примера 9

Уровень надежности - это половина доверительного интервала для генерального среднего арифметического. Из полученного результата следует, что с вероятностью 0,95 среднее арифметическое для генеральной совокупности находится в интервале 18,571 ± 3,77. Здесь 18,571 - выборочное среднее М для рассматриваемого примера, которое находится обычно процедурой Описательная статистика одновременно с доверительным интервалом.

5. Для нахождения доверительных границ для «выскакивающей» варианты необходимо полученный выше доверительный интервал умножить на n (в примере - 7 , то есть 3,77· 7 = 9,975). В Ехсеl это можно выполнить следующим образом: ввести, например, в ячейку С4 формулу =С3*Корень(7). В результате получим в ячейке С4 значение доверительного интервала - 9,975.

Таким образом, варианта, попадающая в интервал 18,571 ± 9,975, считается принадлежащей данной совокупности с вероятностью 0,95. Выходящая за эти границы может быть отброшена с уровнем значимости б = 0,05.

Проверка соответствия теоретическому распределению. Следующей задачей, возникающей при анализе одной выборки, является оценка меры соответствия (расхождения) полученных эмпирических данных и каких-либо теоретических распределений. Это связано с тем, что в большинстве случаев при решении реальных задач закон распределения и его параметры неизвестны. В то же время применяемые статистические методы в качестве предпосылок часто требуют определенного закона распределения.

Наиболее часто проверяется предположение о нормальном распределении генеральной совокупности, поскольку большинство статистических процедур ориентировано на выборки, полученные из нормально распределенной генеральной совокупности.

Для оценки соответствия имеющихся экспериментальных данных нормальному закону распределения обычно используют графический метод, выборочные параметры формы распределения и критерии согласия.

Графический метод позволяет давать ориентировочную оценку расхождения или совпадений распределений.

При большом числе наблюдений (n > 100) неплохие результаты дает вычисление выборочных параметров формы распределения: эксцесса и асимметрии. Принято говорить, что предположение о нормальности распределения не противоречит имеющимся данным, если асимметрия близка к нулю, то есть лежит в диапазоне от -0,2 до 0,2, а эксцесс - от 2 до 4.

Наиболее убедительные результаты дает использование критериев согласия. Критериями согласия называют статистические критерии, предназначенные для проверки согласия опытных данных и теоретической модели. Здесь нулевая гипотеза Н0 представляет собой утверждение о том, что распределение генеральной совокупности, из которой получена выборка, не отличается от нормального. Среди критериев согласия большое распространение получил непараметрический критерий ч2 (хи-квадрат). Он основан на сравнении эмпирических частот интервалов группировки с теоретическими (ожидаемыми) частотами, рассчитанными по формулам нормального распределения.

Отметим, что сколько-нибудь уверенно о нормальности закона распределения можно судить, если имеется не менее 50 результатов наблюдений. В случаях меньшего числа данных можно говорить только о том, что данные не противоречат нормальному закону, и в этом случае обычно используют графические методы оценки соответствия. При большем числе наблюдений целесообразно совместное использование графических и статистических (например, тест хи-квадрат или аналогичные) методов оценки, естественно дополняющих друг друга.

Использование критерия согласия хи-квадрат.

Для применения критерия желательно, чтобы объем выборки n был > 40, выборочные данные были сгруппированы в интервальный ряд с числом интервалов не менее 7, а в каждом интервале находилось не менее 5 наблюдений (частот).

Отметим, что сравниваться должны именно абсолютные частоты, а не относительные. При этом, как и любой другой статистический критерий, критерий хиквадрат не доказывает справедливость нулевой гипотезы (соответствие эмпирического распределения нормальному), а лишь может позволить ее отвергнуть с определенной вероятностью (уровнем значимости).

В MS Ехсеl критерий хи-квадрат реализован в функции ХИ2ТЕСТ. Функция ХИ2ТЕСТ вычисляет вероятность совпадения наблюдаемых (фактических) значений и теоретических (гипотетических) значений. Если вычисленная вероятность ниже уровня значимости (0,05), то нулевая гипотеза отвергается и утверждается, что наблюдаемые значения не соответствуют нормальному закону распределения.

Если вычисленная вероятность близка к 1, то можно говорить о высокой степени соответствия экспериментальных данных нормальному закону распределения.

Функция имеет следующий синтаксис:

ХИ2ТЕСТ (фактический_интервал; ожидаемый_ интервал)

Здесь:

фактический_интервал - это интервал данных, которые содержат наблюдения, подлежащие сравнению с ожидаемыми значениями;

ожидаемый_интервал - это интервал данных, который содержит теоретические (ожидаемые) значения для соответствующих наблюдаемых.

Пример 10. Проверить соответствие выборочных данных (64, 57, 63, 62, 58, 61,63, 60, 60, 61, 65, 62, 62, 60, 64, 61, 59, 59, 63, 61, 62, 58, 58, 63, 61, 59, 62, 60, 60, 58,61, 60, 63, 63, 58, 60, 59, 60, 59, 61, 62, 62, 63, 57, 61, 58, 60, 64, 60, 59, 61, 64, 62, 59,65) нормальному закону распределения.

Решение

1. Заполним следующую таблицу:

статистический miсrоsоft eхсеl вероятность

2. Найдем теоретические частности нормального распределения. Для этого предварительно необходимо найти среднее значение и стандартное отклонение выборки.

В ячейке I13 с помощью функции СРЗНАЧ найдем среднее значение для данных из диапазона А2:Е12 (60,855). В ячейке J13 с помощью функции СТАНДОТКЛОН найдем стандартное отклонение для этих же данных (2,05). В ячейки К1 и К2 введем название столбца - Теоретические частости. Затем с помощью функции НОРМРАСП найдем теоретические частости. Установим курсор в ячейку К4, вызовем указанную функцию и заполним ее рабочие поля: х - G4; Среднее - $I$13;


Подобные документы

  • Применение технических средств компьютера для решения широкого круга задач. Программы для обработки табличных данных. Пользовательский интерфейс и расширение базовых возможностей Ехсеl: формулы и функции, гиперссылки, построение диаграмм и графиков.

    контрольная работа [27,5 K], добавлен 31.08.2010

  • Назначение программы учета вычислительной техники и оргтехники организации. Характеристика входной и выходной информации. Требования к базам данных и приложению. Проектирование отношений сущность-связь. Описание операторов создания базы данных.

    курсовая работа [1,7 M], добавлен 16.06.2022

  • Обработка распределенных данных и запросов. Многопотоковые и многосерверные архитектуры. Основные типы параллелелизма при обработке запросов. Структура компонентов поддержки удаленного доступа. Доступ к базам данных в двухзвенных моделях клиент-сервер.

    презентация [123,1 K], добавлен 19.08.2013

  • Функции Microsoft Excel - встроенные инструменты, которые применяются в формулах. Их виды и основы работы с ними. Организация обработки табличных данных при помощи статистических функций. Примеры решения различных задач при помощи электронных таблиц.

    курсовая работа [958,6 K], добавлен 21.07.2011

  • Оценка неизвестной функции распределения величины или ее плотности распределения вероятности. Алгоритм основной программы, функции для построения графика исходного массива, гистограммы и графика функции Лапласа. Результат обработки сейсмического сигнала.

    курсовая работа [194,4 K], добавлен 16.12.2012

  • Зависимость функций плотности вероятности, кумулятивного и обратного кумулятивного распределений от их параметров. Представление примеров вычисления вероятностей и доверительных интервалов. Рассмотрено нормального, логнормального, бинарного распределения.

    курсовая работа [377,0 K], добавлен 28.07.2012

  • Запросы к базам данных: SQL, QBE, UDF, транзакции. Создание таблиц в системе управления базами данных MS Access, определение основных свойств полей. Проектирование базы данных "ТМЦ". Создание файла базы данных в MS Access, конструкторы и мастера.

    контрольная работа [1,6 M], добавлен 15.03.2011

  • Статистическая аппроксимация законов распределения. Основные теоретические сведения теории классификации. Алгоритмы параметрической аппроксимации функции плотности распределения вероятностей. Апробация и применение средств автоматизации в виде макросов.

    дипломная работа [5,0 M], добавлен 23.08.2009

  • Процесс создания видеофильма, публикация его в Интернете. Регламентирование трудовой деятельности мастера по обработке цифровой информации, его должностные обязанности, ответственность и права. Организация рабочего места оператора, его разделение на зоны.

    реферат [2,9 M], добавлен 19.01.2014

  • Математическая статистика. Выборочная функция распределения. Использование инструментов Мастера функций и Пакета анализа Excel при статистической обработке данных. Анализ однородности выборки. Корреляционный, регрессионный анализ экспериментальных данных.

    курсовая работа [473,6 K], добавлен 22.12.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.