Вероятностно-статистический подход в компьютерной обработке данных

Вероятностная структура информации. Функции распределения и плотности вероятностей. Требования к статистическим базам учета. Определение основных статистических характеристик средствами Мастера функций. Основные статистические функции Miсrоsоft Ехсеl.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 18.10.2015
Размер файла 3,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Стандартное_откл - $J$13; Интегральный - 0. Получим в ячейке К4 0,033. Далее протягиванием скопируем содержимое ячейки К4 в диапазон ячеек К5:К12. Затем в ячейки L1 и L2 введем название нового столбца - Теоретические частоты. Установим курсор в ячейку L4 и введем формулу =$Н$13*К4. Далее протягиванием скопируем содержимое ячейки L4 в диапазон ячеек L5:L12. Результаты вычислений представлены на рис. 3.13.

Рис. 3.13. Результаты вычисления теоретических частостей и частот из примера 10

3. С помощью функции ХИ2ТЕСТ определим соответствие данных нормальному закону распределения. Для этого установим курсор в свободную ячейку L13 и введем функцию ХИ2ТЕСТ. В качестве фактического интервала зададим диапазон Н4:Н12, а ожидаемого интервала - диапазон L4:L12 (рис. 3.14). В ячейке L13появится значение вероятности того, что выборочные данные соответствуют нормальному закону распределения - 0,9842.

Рис. 3.14. Пример заполнения рабочих полей функции ХИ2ТЕСТ

4. Поскольку полученная вероятность соответствия экспериментальных данных р = 0,98 много больше, чем уровень значимости б = 0,05, то можно утверждать, что нулевая гипотеза не может быть отвергнута и, следовательно, данные не противоречат нормальному закону распределения. Более того, поскольку полученная вероятность р = 0,98 близка к 1, можно говорить о высокой степени вероятности того, что экспериментальные данные соответствуют нормальному закону.

Анализ двух выборок

Выявление достоверности различий

Следующей задачей статистического анализа, решаемой после определения основных выборочных характеристик и анализа одной выборки, является совместный анализ нескольких выборок. Важнейшим вопросом, возникающим при анализе двух выборок, является вопрос о наличии различий между этими выборками. Обычно для этого проводят проверку статистических гипотез о принадлежности обеих выборок одной генеральной совокупности или о равенстве генеральных средних. В рассмотренном ранее примере 6 такие различия выявляются путем сравнения данных реализации турфирмой путевок за периоды до и после начала активной рекламной кампании. Если сопоставить средние значения числа реализованных за месяц путевок до (125,6) и после (145,7) начала рекламной кампании, видно, что они различаются. Можно ли по этим данным сделать вывод об эффективности рекламной кампании?

Для решения задач такого типа используются так называемые критерии различия. Для проверки одной и той же гипотезы могут быть использованы разные статистические критерии. Правильный выбор критерия определяется как спецификой данных и проверяемых гипотез, так и уровнем статистической подготовки исследователя. Статистические критерии различия подразделяются на параметрические и непараметрические критерии. Параметрические критерии служат для проверки гипотез о параметрах определенных распределений генеральной совокупности (чаще всего нормального распределения). Непараметрические критерии для проверки гипотез не используют предположений о законе распределения генеральной совокупности и не требуют знания параметров распределения.

Параметрические критерии. Параметрические критерии служат для проверки гипотез о положении и рассеивании. Из параметрических критериев наибольшей популярностью при проверке гипотез о равенстве генеральных средних (математических ожиданий) пользуется t-критерий Стьюдента (t-критерий различия). Он наиболее часто используется для проверки следующей гипотезы: «Средние двух выборок относятся к одной и той же совокупности». Критерий позволяет найти вероятность того, что оба средних относятся к одной и той же совокупности. Если эта вероятность р ниже уровня значимости (р < 0,05), то принято считать, что выборки относятся к двум разным совокупностям.

При использовании t-критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух не зависимых, несвязанных выборок (так называемый двухвыборочный t-критерий).В этом случае есть контрольная группа и опытная группа, состоящие, например, из разных пациентов, количество которых в группах может быть различно.

Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными. Например, измеряется содержание лейкоцитов у здоровых животных, а затем у тех же самых животных после облучения определенной дозой излучения.

В обоих случаях в принципе должно выполняться требование нормальности распределения исследуемого признака в каждой из сравниваемых групп и равенства дисперсий в сравниваемых совокупностях. Однако на практике по большому счету корректное применение t-критерия Стьюдента для двух групп часто бывает затруднительно, поскольку достоверно проверить эти условия удается далеко не всегда.

Для оценки достоверности отличий по критерию Стьюдента принимается нулевая гипотеза, что средние выборок равны между собой. Затем вычисляется значение вероятности того, что изучаемые события (например, количества реализованных путевок в обеих выборках) произошли случайным образом.

В MS Ехсеl для оценки достоверности отличий по критерию Стьюдента используются специальная функция ТТЕСТ и процедуры Пакета анализа. Эти перечисленные инструменты вычисляют вероятность, соответствующую критерию Стьюдента, и используются, чтобы определить, насколько вероятно, что две выборки взяты из генеральных совокупностей, которые имеют одно и то же среднее.

Функция ТТЕСТ имеет следующий синтаксис:

ТТЕСТ(массив1; массив2; хвосты; тип)

Здесь:

· массив1 - это первое множество данных;

· массив2 - это второе множество данных;

хвосты - число хвостов распределения. Обычно число хвостов равно 2; тип - это вид исполняемого t-теста. Возможны 3 варианта выбора:

1 - парный тест,

2 - двухвыборочный тест с равными дисперсиями,

3 - двухвыборочный тест с неравными дисперсиями.

Пример 11. Выявить, достоверны ли отличия при сравнении данных реализации турфирмой путевок за периоды до и после начала активной рекламной кампании (см. пример 6).

Решение

1. Введите данные так, как показано в следующей таблице.

2.Для выявления достоверности отличий установим курсор в свободную ячейку (например, А11). Вызовем Мастер функций, выберем категорию Статистические и функцию ТТЕСТ. В появившемся диалоговом окне функции ТТЕСТ введем исходные данные: в поле Массив1 введем диапазон А2:А8; в поле Массив2 -диапазон данных исследуемой группы В2:В8. В поле Хвосты всегда вводится с клавиатуры цифра 2 (без кавычек), а в поле Тип с клавиатуры введем цифру 3. Нажмем кнопку ОК. В ячейке А11 появится значение вероятности - 0,006295.

3.Поскольку величина вероятности случайного появления анализируемых выборок (0,006295) меньше уровня значимости (б = 0,05), то нулевая гипотеза отвергается. Следовательно, различия между выборками не случайные и средние выборок считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия Стьюдента можно сделать вывод о большей эффективности реализации путевок после начала рекламной кампании (р < 0,05).

Как указывалось выше, при использовании t-критерия выделяют два основных случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть две различные выборки, количество элементов в которых может быть также различно. При заполнении диалогового окна ТТЕСТ при этом указывается Тип, равный 3.

Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными (при заполнении диалогового окна ТТЕСТ указывается Тип, равный 1). Например, сравнивается реализация путевок двумя фирмами в соответствующие месяцы.

В качестве упражнения рассмотрим пример.

Пример 12. Сравнивается количество наличных денег у двух групп студентов(в тыс. рублей):

30

10

30

20

40

30

50

40

60

50

Необходимо определить достоверность различия между группами при двух вариантах постановки задачи:

группы состоят из различных студентов (тип 3);

группы состоят из одних и тех же студентов, но первая - до посещения буфета, а вторая - после (тип 1).

Решение

В ячейки С1:С5 введите количество денег у студентов первой группы. В ячейки D1:D5 введите количество денег у студентов второй группы.

1. Установим курсор в свободную ячейку (например, С6). Вызовем Мастер функций, выберем категорию Статистические и функцию ТТЕСТ. В появившемся диалоговом окне функции ТТЕСТ введем исходные данные. Указателем мыши введем диапазон данных первой группы в поле Массив1 (С1:С5). В поле Массив2 введем диапазон данных второй группы (D1:D5). В поле Хвосты всегда вводится цифра 2 (без кавычек), а в поле Тип введем цифру 3. Нажмем кнопку ОК. В ячейке С6 появится значение вероятности - 0,228053.

Поскольку величина вероятности случайного появления анализируемых выборок (0,228053) больше уровня значимости (б = 0,05), то нулевая гипотеза не может быть отвергнута (принимается). Следовательно, различия между выборками могут быть случайными и средние выборок не считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия Стьюдента нельзя сделать вывод о достоверности отличий двух групп студентов по количеству карманных денег, имеющихся у них (р > 0,05).

2. Установим курсор в свободную ячейку (например, D6). Вызовем Мастер функций, выберем категорию Статистические и функцию ТТЕСТ. В появившемся диалоговом окне функции ТТЕСТ введем исходные данные. Указателем мыши введем диапазон данных первой группы в поле Массив1 (С1:С5). В поле Массив2 введем диапазон данных второй группы (D1:D5). В поле Хвосты всегда вводится цифра 2 (без кавычек), а в поле Тип введем цифру 1. Нажмем кнопку ОК. В ячейке D6 появится значение вероятности - 0,003883.

Поскольку величина вероятности случайного появления анализируемых выборок (0,003883) меньше уровня значимости (б = 0,05), то нулевая гипотеза отвергается. Следовательно, различия между выборками не могут быть случайными и средние выборок считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия Стьюдента можно сделать вывод о том, что в двух группах студентов выявлены достоверные отличия по количеству карманных денег (р < 0,05), что явилось результатом посещения буфета.

Таким образом, ясно, что применение различных типов критерия Стьюдента может приводить к различным результатам на основании одних и тех же исходных данных. Можно предложить следующий приблизительный способ выбора типа критерия: если не ясно, какой тип критерия выбирать, выбирается тип 3; если очевидно, что выборки зависимы, связаны (например, это одни и те же студенты), то следует выбирать тип 1.

Критерий Фишера. Критерий Фишера используют для проверки гипотезы о принадлежности двух дисперсий одной генеральной совокупности и, следовательно, их равенстве. При этом предполагается, что данные независимы и распределены по нормальному закону. Гипотеза о равенстве дисперсий принимается, если отношение большей дисперсии к меньшей меньше критического значения распределения Фишера:

где Fкрит зависит от уровня значимости и числа степеней свободы для дисперсий в числителе и знаменателе.

В MS Ехсеl для расчета уровня вероятности выполнения гипотезы о равенстве дисперсий могут быть использованы функция ФТЕСТ(массив1; массив2) и процедура Пакета анализа Двухвыборочный F-тест для дисперсий.

Непараметрические критерии. Непараметрические критерии используются в тех случаях, когда закон распределения данных отличается от нормального или неизвестен. Из большого числа непараметрических критериев рассмотрим критерий хи-квадрат.

Критерий согласия ч2. Бывают ситуации, когда необходимо сравнить две относительные или выраженные в процентах величины (доли). Примером может служить случай проверки успешности трудоустройства молодых специалистов, когда известен процент трудоустроившихся выпускников двух институтов. Для проверки достоверности различий здесь критерий Стьюдента применить не удастся. В таких задачах обычно используют критерий ч2 (хи-квадрат). Критерий хи-квадрат относится к непараметрическим критериям.

Здесь, как и в случае с критерием Стьюдента, принимается нулевая гипотеза о том, что выборки принадлежат к одной генеральной совокупности. Кроме того, определяется ожидаемое значение результата. Обычно это среднее значение между выборками рассматриваемого показателя. Затем оценивается вероятность того, что ожидаемые значения и наблюдаемые принадлежат к одной генеральной совокупности.

В MS Ехсеl критерий хи-квадрат реализован в функции ХИ2ТЕСТ. Функция ХИ2ТЕСТ вычисляет вероятность совпадения наблюдаемых (фактических)значений и теоретических (гипотетических) значений. Если вычисленная вероятность ниже уровня значимости (0,05), то нулевая гипотеза отвергается и утверждается, что наблюдаемые значения не соответствует теоретическим (ожидаемым) значениям.

Пример 13. Пусть после окончания двух институтов экономического профиля трудоустроилось по специальности из первого института 90 человек, а из второго - 60 (обе группы молодых специалистов включали по 100 человек).

Решение

1. Принимается нулевая гипотеза, что выборки принадлежат к одной генеральной совокупности.

2. Определяется ожидаемое значение результата (среднее значение между выборками): (60 + 90) / 2 = 75, то есть мы ожидали, что разницы между группами нет и в обоих случаях должно было трудоустроиться по 75 человек.

3. Затем вычисляется значение вероятности того, что изучаемые события (трудоустройство в обеих выборках) произошли случайным образом. Для этого введем данные в рабочую таблицу: 60 - в ячейку Е1, 90 - в F1, 75 - в Е2, F2. Установим курсор в свободную ячейку (например, Е3). Вызовем Мастер функций, выберем категорию Статистические и функцию ХИ2ТЕСТ. В появившемся диалоговом окне функции введем исходные данные. Указателем мыши введем в поле Фактический интервал диапазон данных наблюдавшегося количества трудоустроившихся (Е1:F1). В поле Ожидаемый интервал введем диапазон данных предполагаемого количества трудоустроившихся (Е2:F2). Нажмем кнопку ОК. В ячейке Е3появится значение вероятности - 0,014306.

Поскольку величина вероятности случайного появления анализируемых выборок (0,0143) меньше уровня значимости (б = 0,05), то нулевая гипотеза отвергается. Следовательно, различия между выборками не могут быть случайными и выборки считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия хи-квадрат можно сделать вывод о том, что в двух группах выпускников выявлены достоверные отличия по успешности трудоустройства (р < 0,05), что, по-видимому, явилось результатом более высокой репутации выпускников первого института.

Использование инструмента «Пакет анализа» для выявления различий между выборками

Для анализа двух выборок с помощью t-теста Стьюдента могут быть использованы следующие процедуры: Парный двухвыборочный t-тест для средних; Двух выборочный t-тест с одинаковыми дисперсиями и Двух выборочный t-тест с различными дисперсиями. Как указывалось в пункте «Анализ двух выборок», в общем случае необходимо воспользоваться процедурой Двух выборочный t-тест с различными дисперсиями, так как процедуры Парный двух выборочный t-тест с одинаковыми дисперсиями относятся к частным, специальным случаям.

Для выполнения процедуры анализа необходимо: выполнить команду Сервис - Анализ данных; в появившемся списке Инструменты анализа выбрать строку Двухвыборочный t-тест с различными дисперсиями, щелкнуть по кнопке ОК; в появившемся диалоговом окне указать Интервал переменной 1, то есть ввести ссылку на первый диапазон анализируемых данных, содержащий один столбец данных; указать Интервал переменной 2, то есть ввести ссылку на второй диапазон анализируемых данных, содержащий один столбец данных; указать Выходной диапазон; нажать кнопку ОК.

Результаты анализа. В выходной диапазон будут выведены: средняя, дисперсия и число наблюдений для каждой переменной, гипотетическая разность средних, df (число степеней свободы), значение t-статистики, Р(Т <= t) одностороннее, t критическое одностороннее, Р(Т <= t) двухстороннее, t критическое двухстороннее.

Интерпретация результатов. Если величина вероятности случайного появления анализируемых выборок (Р(Т <= t) двухстороннее) меньше уровня значимости (б = 0,05), принято считать, что различия между выборками не случайные, то есть различия достоверные.

Пример 14. Рассматривается заработная плата обслуживающего персонала и работников ресторана гостиницы (из примера 7).

Персонал

Ресторан

2100

3200

2100

3000

2000

2500

2000

2000

2000

1900

1900

1800

1800

1800

Можно ли по этим данным сделать вывод о большей зарплате работников ресторана?

Решение

Для решения задач такого типа используются так называемые критерии различия, в частности, t-критерий Стьюдента.

1. Введите данные: для персонала - в диапазон А1:А8; для работников ресторана - в диапазон В1:В6.

2. Выбор процедуры осуществляется из трех вариантов t-теста. Поскольку данные не имеют попарного соответствия, число их различно и говорить о равенстве дисперсий затруднительно, выберите процедуру Двухвыборочный t-тест с различными дисперсиями.

Для реализации процедуры в пункте меню Сервис выберите строку Анализ данных и далее укажите курсором мыши на строку Двухвыборочный t-тест с различными дисперсиями.

3. В появившемся диалоговом окне задайте Интервал переменной 1, указывая диапазон А1:А8.

4. Аналогично укажите Интервал переменной 2, то есть введите ссылку на диапазон второго столбца В1:В6.

5. Далее укажите выходной диапазон. Для этого поставьте переключатель в положение Выходной диапазон и введите в качестве выходного диапазона ссылку на ячейку С1. Щелкните по кнопке ОК.

Результаты анализа. В выходном диапазоне С1:Е13 появятся результаты процедуры Двухвыборочный t-тест с различными дисперсиями (рис. 3.15).

Рис. 3.15. Исходные данные (А1:В8) и результаты анализа (С1:Е13)

Интерпретация результатов. Средние значения заработной платы (1962 руб. для персонала и 2400 руб. для работников ресторана) довольно сильно отличаются. Тем не менее, нулевая гипотеза о том, что разницы между группами нет (то есть средние выборок равны между собой), отвергнута быть не может. Это следует из того, что вероятность реализации нулевой гипотезы достаточно велика (р = 0,1389, что больше чем уровень значимости 0,05, то есть р > 0,05) и величина вероятности случайного появления анализируемых выборок (Р(Т <= t) двухстороннее) больше уровня значимости (б = 0,05). А это позволяет говорить, что различия между выборками могут быть случайными, то есть различия недостоверные.

Таким образом, из полученных результатов исследования вытекает, что на основании приведенных данных нельзя сделать вывод о достоверно большей зарплате работников ресторана.

3. Использование Miсrоsоft Оffiсе Ехсеl в компьютерной обработке данных

3.1 Основные понятия режимов компьютерной обработки данных

ЭВМ - электронно-вычислительная машина.

Информационные системы - В широком смысле информационная система есть совокупность технического, программного и организационного обеспечения, В узком смысле информационной системой называют только подмножество компонентов ИС в широком смысле, включающее базы данных, СУБД и специализированные прикладные программы.

ПЭВМ - Персональный компьютер персональная ЭВМ -- компьютер, предназначенный для личного использования, цена, размеры и возможности которого удовлетворяют запросам большого количества людей.

СОД - Система обработки данных.

Обработка данных - процесс выполнения последовательности операций над данными. Обработка данных может осуществляться в интерактивном и фоновом режимах.

ВЦ - вычислительный центр.

ВС - Вычислительная система

СХД - система хранения данных.

ГВС, Глобальная вычислительная сеть - компьютерная сеть, охватывающая большие территории и включающая в себя десятки и сотни тысяч компьютеров.

Существуют различные режимы компьютерной обработки данных, зависящие в первую очередь от ЭВС, от режимных возможностей технических средств, требований к быстроте обработки сообщений.

Пакетный режим - Пакетный режим может пригодиться и при разработке особенно длинных запросов, а именно - многострочных команд или больших последовательностей команд, он позволяет эффективно использовать имеющиеся ресурсы. Пакетная обработка данных - организация выполнения нескольких программ в определенной последовательности с помощью команд операционной системы. Пакетная обработка организуется с помощью пакетных файлов, т.е. пользователь, собирая информацию, формирует её в пакеты в соответствии с признаками и задачами. После сбора информации происходит ёё обработка и ввод. Этот режим используется, как правило, при централизованном способе обработки информации.

Интерактивный режим - Интерактивность понятие, которое раскрывает характер и степень взаимодействия между объектами. Используется в областях: теория информации, информатика и программирование, системы телекоммуникаций, социология, промышленный дизайн и других. Это принцип организации системы, при котором цель достигается информационным обменом элементов этой системы. При использовании интерактивный режим у пользователя появляется возможность воздействовать на процесс обработки данных.

Диалоговый режим- способ взаимодействия пользователя или оператора с ЭВМ, при котором происходит непосредственный и двухсторонний обмен информацией, командами или инструкциями между человеком и ЭВМ. Диалоговый режим подразумевает такую скорость обработки данных, которая не сказывается на технологии действий пользователя. Различают активные и пассивные диалоговые режимы. Этот режим требует определенного уровня технической оснащенности пользователя, т.е. наличие терминала или ПЭВМ, связанных с центральной вычислительной системой каналами связи.

Диалоговый режим

Активный

Пассивный

Активный диалог - режим взаимодействия пользователя и программной системы, который характеризуется равноправием его участников. Обычно для организации активного диалога используются директивные (командные) языки, или языки, близкие к естественным.

Пассивный диалог - режим взаимодействия пользователя и программной системы, инициатива ведения которого принадлежит программной системе. При этом программная система ведет за собой пользователя, требуя от него в точках ветвления вычислительного процесса дополнительную информацию, необходимую для принятия заложенных в алгоритм решений. В пассивном диалоге программная система обеспечивает пользователя информационными сообщениями и подсказками, облегчающими использование диалоговой системы. Запросы к пользователю строятся обычно либо в виде меню, либо в виде шаблонов.

Режим разделения времени - предполагает способность системы выделять свои ресурсы группе пользователей поочередно. Вычислительная система настолько быстро обслуживает каждого пользователя, что создается впечатление одновременной работы нескольких пользователей. Такая возможность достигается за счет соответствующего программного обеспечения.

Режим реального масштаба времени - Реальное время - режим работы вычислительной системы, при котором время отклика на событие не превышает предопределенной величины. Обработка данных в реальном масштабе времени это обработка данных, протекающая с такой же скоростью что и моделируемые события. Как правило, этот режим используется при децентрализованной и распределенной обработке данных.

Регламентный режим - характеризуется определенностью во времени отдельных задач пользователя. К примеру, получение результатных сводок по окончании месяца, расчет ведомостей начисления зарплаты к определенным датам и т.д. Сроки решения устанавливаются заранее по регламенту в противоположность к произвольным запросам.

Режим телеобработки - Телеобработка (удаленная обработка) - режим обработки данных при взаимодействии пользователей с СОД через линии связи. Телеобработка рассматривается в качестве самостоятельного режима обработки данных по следующим причинам. Во-первых, удаленность пользователей от СОД и наличие между ними специфического средства передачи данных - линии связи - порождает необходимость в специальных действиях пользователей при организации доступа к системе и завершении сеанса работы. Во-вторых, наличие линий связи налагает ограничения на форму и время обмена данными между пользователями и СОД. Эти ограничения приводят к необходимости специальных способов организации данных и доступа к ним, что в свою очередь отражается на структуре прикладных программ, используемых в режиме телеобработки.

Режим телеобработки характеризуется, прежде всего, спецификой доступа пользователя к системе и системы к данным, передаваемым через удаленные терминалы, т. е. связан в первую очередь с организацией обработки данных внутри СОД. При этом пользователи могут работать в режимах пакетном, диалоговом или «запрос-ответ». Каждый из этих режимов характеризуется специфичным способом взаимодействия пользователей с системой и соответствующим временем ответа.

Однопрограммный и многопрограммный режимы - Однопрограммный режим. Из подготовленных заданий пользователей составляется пакет заданий. Процессор обслуживает программы пользователей строго в порядке их следования в пакете. Процесс выполнения очередной программы не прерывается до полного ее завершения. Только после этого процессор как ресурс отдается в монопольное владение следующей очередной программе.

Однопрограммные режимы работы: а - режим непосредственного доступа; б- режим косвенного доступа

Режим непосредственного доступа- пользователь получает ЭВМ в полное распоряжение: он сам готовит ЭВМ к работе, загружает задания, инициирует их, наблюдает за ходом решения и выводом результатов. По окончании работ одного пользователя все ресурсы ЭВМ передаются в распоряжение другого

Режим косвенного доступа- пользователь не имеет прямого контакта с ЭВМ. Режим косвенного доступа имеет существенный недостаток. Он не позволяет полностью исключить случаи простоя процессора или непроизводительного его использования. Всякий раз, когда очередная программа, вызванная в процессор, предварительно не обеспечена данными, процессор вынужден простаивать. При этом резко снижается эффективность использования ЭВМ.

Многопрограммный режим- позволяет одновременно обслуживать несколько программ пользователей. Виды многопрограммной работы: классическое мультипрограммирование, режим разделения времени, режим реального времени и целый ряд производных от них. Режим классического мультипрограммирования, или пакетной обработки, применительно к однопроцессорным ЭВМ является основой для построения всех других видов многопрограммной работы. Режим имеет целью обеспечить минимальное время обработки пакета заданий и максимально загрузить процессор.

Многопрограммный режим пакетной обработки

Однопрограммный и многопрограммный режимы характеризуют возможность системы работать одновременно по одной или нескольким программам.

Способы обработки данных делятся на централизованный, децентрализованный, распределительный и интегрированный способы

1. Централизованный - обрабатывает данные в одном месте, используя мощный компьютер и сложное программное обеспечение, установленное только на нем. Терминалы пользователей и автоматизированные устройства ввода первичных документов посылают данные на центральную ЭВМ для обработки, которая, если необходимо, предоставляет на терминалы обработанные данные. Преимуществами такого подхода являются меньшие затраты, лучший контроль за данными и программами (поскольку они находятся в одном месте), большая безопасность. Среди недостатков - большая сложность эксплуатации, высокие затраты на коммуникации (при большой удаленности терминалов).

2. Децентрализованный - системы, в которых данные хранятся и обрабатываются независимо в разных местах. При этом на каждом компьютере хранится какое-то подмножество всех данных компании, а часть данных находится в нескольких местах.

3. Распределительный - способ, при котором все подразделения компании, находящиеся в разных местах, соединены в единую сеть. Каждое из них имеет средства и возможности самостоятельно обрабатывать свои данные, поэтому пользуется преимуществами децентрализованной обработки. В то же время локальные компьютеры из разных мест могут посылать данные на центральную ЭВМ для подведения итогов и пользоваться общими данными компании, находящимися на ней, поэтому распределенная обработка дает и преимущества централизованной системы. В результате получается система, ориентированная как на нужды пользователей, так и на нужды руководства компании.

Преимущества распределенной обработки:

Поскольку пользователи контролируют каждую локальную систему, они имеют возможность подогнать ее под свои нужды и тем самым улучшить качество производимой информации.

Распределенная обработка данных позволяет быстрее и точнее вводить и корректировать данные, быстрее получать ответы на запросы.

Уменьшаются затраты на коммуникации, т.к. обработка производится локально.

Поскольку данные и другие ресурсы находятся в разных местах и частично дублируются, компьютеры как бы страхуют друг друга, уменьшая вероятность катастрофических потерь.

Каждая локальная система может рассматриваться как модуль общей системы, который может быть добавлен, модифицирован или удален из системы без необходимости изменять другие модули.

Недостатки распределительной обработки:

Распределенные системы более дороги, чем централизованные.

Намного усложняются задачи обслуживания оборудования, программного обеспечения, поддержания данных в необходимом состоянии.

Поскольку данные принадлежат разным подразделениям, неизбежно их дублирование со всеми вытекающими последствиями от использования такой информации, поэтому возникает необходимость специальных процедур по согласованию содержимого общих частей баз данных.

Поскольку неизбежно распределение полномочий и зон ответственности в такой системе, намного усложняется процесс документирования и контроля.

Разбросанность частей системы в пространстве и наличие коммуникаций снижают возможности обеспечения безопасности.

Уменьшается информационная насыщенность каждой отдельной локальной системы, поскольку вся информация, которая присуща централизованным системам, не может быть продублирована на всех компьютерах.

4. Интегрированный - способ обработки информации. Он предусматривает создание информационной модели управляемого объекта, то есть создание распределенной базы данных. Такой способ обеспечивает максимальное удобство для пользователя.

Системы хранения данных (СХД) обеспечивают эффективное хранение и оперативный доступ к информации. Благодаря достижениям в современной технологии, хранение больших объёмов информации стало довольно лёгкой задачей. Существует множество различных типов электронных устройств, используемых для хранения данных. Самые обычные способы хранения данных, используемые пользователями: - хранение на магнитных и оптических носителях; - на сменном носителе или, как говорят, флэш-памяти.

Самые популярные из магнитных устройств, хранения данных:

- дискеты;

- жёсткие диски;

- ziр-накопитель;

- цифровые аудиокассеты. Эти устройства имеют читающую / пишущую головку, для записи и дальнейшего чтения информации.

Система хранения данных содержит следующие подсистемы и компоненты: непосредственно устройства хранения (дисковые массивы, ленточные библиотеки), инфраструктуру доступа к устройствам хранения, подсистему резервного копирования и архивирования данных.

В случае отдельного ПК под системой хранения данных можно понимать внутренний жесткий диск или систему дисков (RАID массив). Если же речь заходит о системах хранения данных разного уровня предприятий, то традиционно можно выделить три технологии организации хранения данных:

· Dirесt Аttасhеd Stоrаgе (DАS);

· Nеtwоrk Аttасh Stоrаgе (NАS);

· Stоrаgе Аrеа Nеtwоrk (SАN)

Устройства DАS (Dirесt Аttасhеd Stоrаgе) - решение, когда устройство для хранения данных подключено непосредственно к серверу, или к рабочей станции, как правило, через интерфейс по протоколу SАS.

Основные преимущества и недостатки создания хранилищ данных на основе сети DАS:

Плюсы:

· Достаточно низкая стоимость. По сути эта СХД представляет собой дисковую корзину с жесткими дисками, вынесенную за пределы сервера.

· Простота развертывания и администрирования.

· Высокая скорость обмена между дисковым массивом и сервером.

Минусы:

· Низкая надежность. При выходе из строя сервера, к которому подключено данное хранилище, данные перестают быть доступными.

· Низкая степень консолидации ресурсов - вся ёмкость доступна одному или двум серверам, что снижает гибкость распределения данных между серверами. В результате необходимо закупать либо больше внутренних жестких дисков, либо ставить дополнительные дисковые полки для других серверных систем

· Низкая утилизация ресурсов.

Устройства NАS (Nеtwоrk Аttасhеd Stоrаgе) - отдельно стоящая интегрированная дисковая система, посути, NАS-сервер, со своей специализированной ОС и набором полезных функций быстрого запуска системы и обеспечения доступа к файлам. Система подключается к обычной компьютерной сети (ЛВС), и являющается быстрым решением проблемы нехватки свободного дискового пространства, доступного для пользователей данной сети.

Основные преимущества и недостатки создания хранилищ данных на основе сети N АS :

Плюсы:

· Дешевизна и доступность его ресурсов не только для отдельных серверов, но и для любых компьютеров организации.

· Простота коллективного использования ресурсов.

· Простота развертывания и администрирования

· Универсальность для клиентов (один сервер может обслуживать клиентов MS, Nоvеll, Mас, Uniх)

Минусы:

· Доступ к информации через протоколы “сетевых файловых систем” зачастую медленнее, чем как к локальному диску.

· Большинство недорогих NАS-серверов не позволяют обеспечить скоростной и гибкий метод доступа к данным на уровне блоков, присущих SАN системам, а не на уровне файлов.

Stоrаgе Аrеа Nеtwоrk (SАN) -это специальная выделенная сеть, объединяющая устройства хранения данных с серверами приложений, обычно строится на основе протокола Fibrе Сhаnnеl или протокола iSСSI.

Основные преимущества и недостатки создания хранилищ данных на основе сети SАN:

Плюсы:

· Высокая надёжность доступа к данным, находящимся на внешних системах хранения. Независимость топологии SАN от используемых СХД и серверов.

· Централизованное хранение данных (надёжность, безопасность).

· Удобное централизованное управление коммутацией и данными.

· Перенос интенсивного трафика ввода-вывода в отдельную сеть, разгружая LАN.

· Высокое быстродействие и низкая латентность.

· Масштабируемость и гибкость логической структуры SАN

· Возможность организации резервных, удаленных СХД и удаленной системы бэкапа и восстановления данных.

· Возможность строить отказоустойчивые кластерные решения без дополнительных затрат на базе имеющейся SАN.

Минусы:

· Более высокая стоимость

· Сложность в настройке FС-систем

· Необходимость сертификации специалистов по FС-сетям (iSСSI является более простым протоколом)

· Более жесткие требования к совместимости и валидации компонентов.

· Появление в силу дороговизны DАS-«островов» в сетях на базе FС-протокола, когда на предприятиях появляются одиночные серверы с внутренним дисковым пространством, NАS-серверы или DАS-системы в силу нехватки бюджета.

Обработка информации в современной информатике выполняется компьютером и часто включает хранение данных с использованием внешней памяти. Быстрый рост объемов информационных ресурсов требует принципиально новых подходов к хранению и обработке данных. Обработка информации выполняет определенные цели и задачи.

Типичными целями обработки данных является собрать всю доступную информацию, представленную в данных различной природы; представить существенную информацию в виде, наиболее удобном для восприятия пользователя. Эти цели, в свою очередь, приводят к постановке задач обработки данных

После завершения любого научного исследования, фундаментального или экспериментального, производится статистический анализ полученных данных. Чтобы статистический анализ был успешно проведен и позволил решить поставленные задачи, исследование должно быть грамотно спланировано. Следовательно, без понимания основ статистики невозможно планирование и обработка результатов научного эксперимента. Тем не менее, медицинское образование не дает не только знания статистики, но даже основ высшей математики. Поэтому очень часто можно столкнуться с мнением, что вопросами статобработки в биомедицинских исследованиях должен заниматься только специалист по статистике, а врачу-исследователю следует сосредоточиться на медицинских вопросах своей научной работы. Подобное разделение труда, подразумевающее помощь в анализе данных, вполне оправдано. Однако понимание принципов статистики необходимо хотя бы для того, чтобы избежать некорректной постановки задачи перед специалистом, общение с которым до начала исследования является в такой же степени важным, как и на этапе обработки данных.

Прежде чем говорить об основах статистического анализа, следует прояснить смысл термина «статистика». Существует множество определений, но наиболее полным и лаконичным является, на наш взгляд, определение статистики как «науки о сборе, представлении и анализе данных». В свою очередь, использование статистики в приложении к живому миру называют «биометрией» или «биостатистикой».

Следует заметить, что очень часто статистику сводят только к обработке экспериментальных данных, не обращая внимания на этап их получения. Однако статистические знания необходимы уже во время планирования эксперимента, чтобы полученные в ходе него показатели могли дать исследователю достоверную информацию. Поэтому, можно сказать, что статистический анализ результатов эксперимента начинается еще до начала исследования.

Уже на этапе разработки плана исследователь должен четко представлять себе, какого типа переменные будут в его работе. Все переменные можно разделить на два класса: качественные и количественные. То, какой диапазон может принимать переменная, зависит от шкалы измерений. Можно выделить четыре основных шкалы:

1. номинальную.

2. ординальную;

3.интервальную;

4. рациональную (шкалу отношений).

В номинальной шкале (шкале «названий») присутствуют лишь условные обозначения для описания некоторых классов объектов, например, «пол» или «профессия пациента». Номинальная шкала подразумевает, что переменная будет принимать значения, количественные взаимоотношения между которыми определить невозможно. Так, невозможно установить математические отношения между мужским и женским полом. Условные числовые обозначения (женщины - 0, мужчины - 1, либо наоборот) даются абсолютно произвольно и предназначены только для компьютерной обработки. Номинальная шкала является качественной в чистом виде, отдельные категории в этой шкале выражают частотами (количество или доля наблюдений, проценты).

Ординальная (порядковая) шкала предусматривает, что отдельные категории в ней могут выстраиваться по возрастанию или убыванию. В медицинской статистике классическим примером порядковой шкалы является градация степеней тяжести заболевания. В данном случае мы можем выстроить тяжесть по возрастанию, но все еще не имеем возможности задать количественные взаимоотношения, т. е. дистанция между значениями, измеренными в ординальной шкале, неизвестна или не имеет значения. Установить порядок следования значений переменной «степень тяжести» легко, но при этом невозможно определить, во сколько раз тяжелое состояние отличается от состояния средней тяжести.

Ординальная шкала относится к полуколичественным типам данных, и ее градации можно описывать как частотами (как в качественной шкале), так и мерами центральных значений, на чем мы остановимся ниже.

Интервальная и рациональная шкалы относятся к чисто количественным типам данных. В интервальной шкале мы уже можем определить, насколько одно значение переменной отличается от другого. Так, повышение температуры тела на 1 градус Цельсия всегда означает увеличение выделяемой теплоты на фиксированное количество единиц. Однако в интервальной шкале есть и положительные и отрицательные величины (нет абсолютного нуля). В связи с этим невозможно сказать, что 20 градусов Цельсия - это в два раза теплее, чем 10. Мы можем лишь констатировать, что 20 градусов настолько же теплее 10, как 30 - теплее 20.

Рациональная шкала (шкала отношений) имеет одну точку отсчета и только положительные значения. В медицине большинство рациональных шкал - это концентрации. Например, уровень глюкозы 10 ммоль/л - это в два раза большая концентрация по сравнению с 5 ммоль/л. Для температуры рациональной шкалой является шкала Кельвина, где есть абсолютный ноль (отсутствие тепла).

Следует добавить, что любая количественная переменная может быть непрерывной, как в случае измерения температуры тела (это непрерывная интервальная шкала), или же дискретной, если мы считаем количество клеток крови или потомство лабораторных животных (это дискретная рациональная шкала).

Указанные различия имеют решающее значение для выбора методов статистического анализа результатов эксперимента. Так, для номинальных данных применим критерий «хи-квадрат», а известный тест Стьюдента требует, чтобы переменная (интервальная либо рациональная) была непрерывной.

После того как будет решен вопрос о типе переменной, следует заняться формированием выборки. Выборка - это небольшая группа объектов определенного класса (в медицине - популяция). Для получения абсолютно точных данных нужно исследовать все объекты данного класса, однако, из практических (зачастую - финансовых) соображений изучают только часть популяции, которая и называется выборкой. В дальнейшем, статистический анализ позволяет исследователю распространить полученные закономерности на всю популяцию с определенной степенью точности. Фактически, вся биомедицинская статистика направлена на получение наиболее точных результатов из наименее возможного количества наблюдений, ведь при исследованиях на людях важен и этический момент. Мы не можем позволить себе подвергать риску большее количество пациентов, чем это необходимо.

Создание выборки регламентируется рядом обязательных требований, нарушение которых может привести к ошибочным выводам из результатов исследования. Во-первых, важен объем выборки. От объема выборки зависит точность оценки исследуемых параметров. Здесь следует обратить внимание на слово «точность». Чем больше размеры исследуемых групп, тем более точные (но не обязательно правильные) результаты получает ученый. Для того же, чтобы результаты выборочных исследований можно было переносить на всю популяцию в целом, выборка должна быть репрезентативной. Репрезентативность выборки предполагает, что в ней отражены все существенные свойства популяции. Другими словами, в исследуемых группах лица разного пола, возраста, профессий, социального статуса и пр. встречаются с той же частотой, что и во всей популяции.

Однако перед тем как начать выбор исследуемой группы, следует определиться с необходимостью изучения конкретной популяции. Примером популяции могут быть все пациенты с определенной нозологией или люди трудоспособного возраста и т. д. Так, результаты, полученные для популяции молодых людей призывного возраста, вряд ли удастся экстраполировать на женщин в постмено паузе. Набор характеристик, которые будет иметь изучаемая группа, определяет «обобщаемость» данных исследования.

Формировать выборки можно различными путями. Самый простой из них - выбор с помощью генератора случайных чисел необходимого количества объектов из популяции или выборочной рамки (sаmрling frаmе). Такой способ называется «простой случайной выборкой». Если случайным образом выбрать начальную точку в выборочной рамке, а затем взять каждый второй, пятый или десятый объекты (в зависимости от того каких размеров группы требуются в исследовании), то получится интервальная выборка. Интервальная выборка не является случайной, так как никогда не исключается вероятность периодических повторений данных в рамках выборочной рамки.

Возможен вариант создания так называемой «стратифицированной выборки», которая предполагает, что популяция состоит из нескольких различных групп и эту структуру следует воспроизвести в экспериментальной группе. Например, если в популяции соотношение мужчин и женщин 30:70, тогда в стратифицированной выборке их соотношение должно быть таким же. При данном подходе критически важно не балансировать выборку избыточно, то есть избежать однородности ее характеристик, в противном случае исследователь может упустить шанс найти различия или связи в данных.

Кроме описанных способов формирования групп есть еще кластерная и квотная выборки. Первая используется в случае, когда получение полной информации о выборочной рамке затруднено из-за ее размеров. Тогда выборка формируется из нескольких групп, входящих в популяцию. Вторая - квотная - аналогична стратифицированной выборке, но здесь распределение объектов не соответствует таковому в популяции.

Возвращаясь к объему выборки, следует сказать, что он тесно связан с вероятностью статистических ошибок первого и второго рода. Статистические ошибки могут быть обусловлены тем, что в исследовании изучается не вся популяция, а ее часть. Ошибка первого рода - это ошибочное отклонение нулевой гипотезы. В свою очередь, нулевая гипотеза - это предположение о том, что все изучаемые группы взяты из одной генеральной совокупности, а значит, различия либо связи между ними случайны. Если провести аналогию с диагностическими тестами, то ошибка первого рода представляет собой ложноположительный результат.

Ошибка второго рода - это неверное отклонение альтернативной гипотезы, смысл которой заключается в том, что различия либо связи между группами обусловлены не случайным совпадением, а влиянием изучаемых факторов. И снова аналогия с диагностикой: ошибка второго рода - это ложноотрицательный результат. С этой ошибкой связано понятие мощности, которое говорит о том, насколько определенный статистический метод эффективен в данных условиях, о его чувствительности. Мощность вычисляется по формуле: 1-в, где в - это вероятность ошибки второго рода. Данный показатель зависит преимущественно от объема выборки. Чем больше размеры групп, тем меньше вероятность ошибки второго рода и выше мощность статистических критериев. Зависимость эта как минимум квадратичная, то есть уменьшение объема выборка в два раза приведет к падению мощности минимум в четыре раза. Минимально допустимой мощностью считают 80%, а максимально допустимый уровень ошибки первого рода принимают 5%. Однако всегда следует помнить, что эти границы заданы произвольно и могут изменяться в зависимости от характера и целей исследования. Как правило, научным сообществом признается произвольное изменение мощности, однако в подавляющем большинстве случаев уровень ошибки первого рода не может превышать 5%.

Все сказанное выше имеет непосредственное отношение к этапу планирования исследования. Тем не менее, многие исследователи ошибочно относятся к статистической обработке данных только как к неким манипуляциям, выполняемым после завершения основной части работы. Зачастую после окончания никак не спланированного эксперимента, появляется непреодолимое желание заказать анализ статистических данных на стороне. Но из «кучи мусора» даже специалисту по статистике будет очень сложно выудить ожидаемый исследователем результат. Поэтому при недостаточных знаниях биостатистики необходимо обращаться за помощью в статистическом анализе еще до начала эксперимента.

Обращаясь к самой процедуре анализа, следует указать на два основных типа статистических техник: описательные и доказательные (аналитические). Описательные техники включают в себя методы позволяющие представить данные в компактном и легком для восприятия виде. Сюда можно отнести таблицы, графики, частоты (абсолютные и относительные), меры центральной тенденции (средние, медиана, мода) и меры разброса данных (дисперсия, стандартное отклонение, межквартильный интервал и пр.). Другими словами, описательные методы дают характеристику изучаемым выборкам.

Наиболее популярный (хотя и зачастую ошибочный) способ описания имеющихся количественных данных заключается в определении следующих показателей:

· количество наблюдений в выборке или ее объем;

· средняя величина(среднее арифметическое);

· стандартное отклонение- показатель того, насколько широко изменяются значения переменных.

Важно помнить, что среднее арифметическое и стандартное отклонение - это меры центральной тенденции и разброса в достаточно небольшом числе выборок. В таких выборках значения у большинства объектов с равной вероятностью отклонены от среднего, а их распределение образует симметричный «колокол» (гауссиану или кривую Гаусса-Лапласа). Такое распределение еще называют «нормальным», но в практике медицинского эксперимента оно встречается лишь в 30% случаев. Если же значения переменной распределены несимметрично относительно центра, то группы лучше описывать с помощью медианы и квантилей (процентилей, квартилей, децилей).

Завершив описание групп, необходимо ответить на вопрос об их взаимоотношениях и о возможности обобщить результаты исследования на всю популяцию. Для этого используются доказательные методы биостатистики. Именно о них в первую очередь вспоминают исследователи, когда идет речь о статистической обработке данных. Обычно этот этап работы называют «тестированием статистических гипотез».

Задачи тестирования гипотез можно разделить на две большие группы. Первая группа отвечает на вопрос, имеются ли различия между группами по уровню некоторого показателя, например, различия в уровне печеночных трансаминаз у пациентов с гепатитом и здоровых людей. Вторая группа позволяет доказать наличие связи между двумя или более показателями, например, функции печени и иммунной системы.

В практическом плане задачи из первой группы можно разделить на два подтипа:

· сравнение показателя только в двух группах(здоровые и больные, мужчины и женщины);

· сравнение трех и более групп(изучение разных доз препарата).

Необходимо учитывать, что статистические методы существенно отличаются для качественных и количественных данных.

В ситуации, когда изучаемая переменная - качественная и сравниваются только две группы, можно использовать критерий «хи-квадрат». Это достаточно мощный и широко известный критерий, однако, он оказывается недостаточно эффективным в случае, если количество наблюдений мало. Для решения данной проблемы существуют несколько методов, такие как поправка Йейтса на непрерывность и точный метод Фишера.


Подобные документы

  • Применение технических средств компьютера для решения широкого круга задач. Программы для обработки табличных данных. Пользовательский интерфейс и расширение базовых возможностей Ехсеl: формулы и функции, гиперссылки, построение диаграмм и графиков.

    контрольная работа [27,5 K], добавлен 31.08.2010

  • Назначение программы учета вычислительной техники и оргтехники организации. Характеристика входной и выходной информации. Требования к базам данных и приложению. Проектирование отношений сущность-связь. Описание операторов создания базы данных.

    курсовая работа [1,7 M], добавлен 16.06.2022

  • Обработка распределенных данных и запросов. Многопотоковые и многосерверные архитектуры. Основные типы параллелелизма при обработке запросов. Структура компонентов поддержки удаленного доступа. Доступ к базам данных в двухзвенных моделях клиент-сервер.

    презентация [123,1 K], добавлен 19.08.2013

  • Функции Microsoft Excel - встроенные инструменты, которые применяются в формулах. Их виды и основы работы с ними. Организация обработки табличных данных при помощи статистических функций. Примеры решения различных задач при помощи электронных таблиц.

    курсовая работа [958,6 K], добавлен 21.07.2011

  • Оценка неизвестной функции распределения величины или ее плотности распределения вероятности. Алгоритм основной программы, функции для построения графика исходного массива, гистограммы и графика функции Лапласа. Результат обработки сейсмического сигнала.

    курсовая работа [194,4 K], добавлен 16.12.2012

  • Зависимость функций плотности вероятности, кумулятивного и обратного кумулятивного распределений от их параметров. Представление примеров вычисления вероятностей и доверительных интервалов. Рассмотрено нормального, логнормального, бинарного распределения.

    курсовая работа [377,0 K], добавлен 28.07.2012

  • Запросы к базам данных: SQL, QBE, UDF, транзакции. Создание таблиц в системе управления базами данных MS Access, определение основных свойств полей. Проектирование базы данных "ТМЦ". Создание файла базы данных в MS Access, конструкторы и мастера.

    контрольная работа [1,6 M], добавлен 15.03.2011

  • Статистическая аппроксимация законов распределения. Основные теоретические сведения теории классификации. Алгоритмы параметрической аппроксимации функции плотности распределения вероятностей. Апробация и применение средств автоматизации в виде макросов.

    дипломная работа [5,0 M], добавлен 23.08.2009

  • Процесс создания видеофильма, публикация его в Интернете. Регламентирование трудовой деятельности мастера по обработке цифровой информации, его должностные обязанности, ответственность и права. Организация рабочего места оператора, его разделение на зоны.

    реферат [2,9 M], добавлен 19.01.2014

  • Математическая статистика. Выборочная функция распределения. Использование инструментов Мастера функций и Пакета анализа Excel при статистической обработке данных. Анализ однородности выборки. Корреляционный, регрессионный анализ экспериментальных данных.

    курсовая работа [473,6 K], добавлен 22.12.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.