Основные понятия и определения биостатистики
Особенности применения биостатистики в практической деятельности врача. Анализ медико-биологических данных на основе их графического представления. Теория проверки статистических гипотез. Оценка чувствительности и специфичности диагностических тестов.
Рубрика | Медицина |
Вид | учебное пособие |
Язык | русский |
Дата добавления | 07.09.2016 |
Размер файла | 2,4 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
91,7
6
115
0,3*115+(1-0,3)*91,7
98,7
7
98
0,3*98+(1-0,3)*98,7
98,5
8
113
0,3*113+(1-0,3)*98,5
102,8
9
114
0,3*114+(1-0,3)*102,8
106,2
10
87
0,3*87+(1-0,3)*106,2
100,4
11
107
0,3*107+(1-0,3)*100,4
102,4
12
85
0,3*85+(1-0,3)*102,4
97,2
13
прогноз
97,2+0,3*(85-97,2)
93,5
Рассмотренные методы прогнозирования являются простейшими, и в тоже время самыми приближенными - это видно из широких доверительных интервалов в приведенных примерах. Большая погрешность прогноза наблюдается в случае сильных колебаний уровней. Также неправомерно использовать эти методы при наличии явной тенденции к росту (или падению) исходного временного ряда. Но все же для краткосрочных прогнозов их применение бывает оправданным.
Метод среднего абсолютного прироста
Прогнозируемый уровень изучаемой величины изменяется в соответствии со средним абсолютным приростом этой величины в прошлом. Данный метод применяется, если общая тенденция в динамике линейна (для случая, приведенного на рисунке 32Б)
Где где
y0 - базовый уровень экстраполяции выбирается как среднее значение нескольких последних значений исходного ряда
- средний абсолютный прирост уровней ряда
l - число интервалов прогнозирования
Пример. По данным из таблицы рассчитать прогнозное значение на t=13,14,15 В качестве базового уровня принято усредненное значение последних значений ряда, максимально трех.
t |
yi |
Дyi= yi+1-yi |
y0 |
Прогноз = y0+Д*l |
|
1 |
60 |
||||
2 |
75 |
15 |
60 |
68,2 |
|
3 |
70 |
-5 |
(60+75)/2=67,5 |
75,7 |
|
4 |
103 |
33 |
(60+75+70)/3=68,3 |
76,5 |
|
5 |
100 |
-3 |
(75+70+103)/3=82,7 |
90,9 |
|
6 |
115 |
15 |
(70+103+100)/3=91 |
99,2 |
|
7 |
125 |
10 |
(103+100+115)/3=106 |
114,2 |
|
8 |
113 |
-12 |
(100+115+125)/3=113,3 |
121,5 |
|
9 |
138 |
25 |
(115+125+113)/3=117,7 |
125,9 |
|
10 |
136 |
-2 |
(125+113+138)/3=125,3 |
133,5 |
|
11 |
145 |
9 |
(113+138+136)/3=129 |
137,2 |
|
12 |
150 |
5 |
(138+136+145)/3=139,7 |
147,9 |
|
13 |
(136+145+150)/3=143,7 |
143,7+8,2*1=151,9 |
|||
14 |
143,7+8,2*2=160,1 |
||||
15 |
143,7+8,2*3=168,3 |
||||
Метод среднего темпа роста
Прогнозируемый уровень изучаемой величины изменяется в соответствии со средним темпом роста данной величины в прошлом. Данный метод применяется, если общая тенденция в динамике характеризуется показательной или экспоненциальной кривой (рисунок 32В)
,
где - средний темп роста в прошлом
l - число интервалов прогнозирования
Прогнозная оценка будет зависеть от того, в какую сторону от основной тенденции (тренда) отклоняется базовый уровень y0, поэтому рекомендуется рассчитывать y0 как усредненное значение нескольких последних значений ряда.
t |
yi |
y0 |
Прогноз, |
||
1 |
60 |
||||
2 |
65 |
||||
3 |
70 |
(60+65)/3=62,5 |
(65/60)1 =1,08 |
62,5*1,081 = 67,7 |
|
4 |
68 |
(60+65+70)/3=65 |
(70/60)1/2 =1,08 |
65*1,081 = 70,2 |
|
5 |
82 |
(65+70+68)/3=67,7 |
(68/60)1/3 =1,04 |
67,7*1,041 =70,5 |
|
6 |
80 |
(70+68+82)/3=73,3 |
(82/60)1/4 =1,08 |
73,3*1,081 =79,3 |
|
7 |
95 |
(68+82+80)/3=76,7 |
(80/60)1/5 =1,06 |
76,7*1,061 =81,2 |
|
8 |
113 |
(82+80+95)/3=85,7 |
(95/60)1/6 =1,08 |
85,7*1,081 =92,5 |
|
9 |
135 |
(80+95+113)/3=96 |
(113/60)1/7 =1,09 |
96*1,091 =105,1 |
|
10 |
140 |
(95+113+135)/3=114,3 |
(135/60)1/8 =1,11 |
114,3*1,111 =126,5 |
|
11 |
168 |
(113+135+140)/3=129,3 |
(140/60)1/9 =1,10 |
129,3*1,11 =142,1 |
|
12 |
205 |
(135+140+168)/3=147,7 |
(168/60)1/10 =1,11 |
147,7*1,111 =163,7 |
|
13 |
(140+168205)/3=171 |
(205/60)1/11 =1,12 |
171*1,121 =191,2 |
||
14 |
171*1,122 =213,8 |
||||
15 |
171*1,123 =239,1 |
Прогнозирование на основе математических моделей
Наиболее распространенным методом прогнозирования является нахождение аналитического выражения (уравнения) тренда. Тренд экстраполируемого явления - это основная тенденцию временного ряда, в некоторой мере свободная от случайных воздействий.
Разработка прогноза заключается в определении вида экстраполирующей функции y=f(t), которая выражает зависимость изучаемой величины от времени на основе исходных наблюдаемых данных. Первым этапом является выбор оптимального вида функции, дающей наилучшее описание тренда. Наиболее часто используются следующие зависимости:
* линейная ;
* параболическая
* показательная функция
Проблемы нахождения коэффициентов линейной функции и прогноз на ее основе были рассмотрены в разделе «регрессионный анализ». Если форма кривой, описывающей тренд, имеет нелинейный характер, то задача оценки функции y=f(t) усложняется, и в этом случае необходимо привлечь к анализу специалистов по биостатистике и воспользоваться компьютерными программами по статистической обработке данных.
В большинстве реальных случаев временной ряд представляет собой сложную кривую, которую можно представить как сумму или произведение трендовой, сезонной, циклической и случайной компонент (рисунок 33).
Рисунок 33
Тренд представляет собой плавное изменение процесса во времени и обусловлен действием долговременных факторов. Сезонный эффект связан с наличием факторов, действующих с заранее известной периодичностью (например, времена года, лунные циклы). Циклическая компонента описывает длительные периоды относительного подъема и спада, состоит из циклов переменной длительности и амплитуды (например, некоторые эпидемии имеют длительный циклический характер). Случайная составляющая ряда отражает воздействие многочисленных факторов случайного характера и может иметь разнообразную структуру.
Анализ всех компонентов временного ряда и прогнозирование на их основе задача нетривиальная и требует специальной подготовки.
Оценка факторов риска и прогнозирование на основе логистической регрессии
Оценка рисков и влияния факторов риска являются важными задачами медицинских исследований - на основании этих данных строятся профилактические мероприятия и прогнозируются исходы тех или иных методов лечения. Как правило, в поиске наиболее значимых анализируется множество факторов, которые могут быть измерены по разным шкалам - непрерывным, дискретным, ординальным, номинальным. В этом случае есть проблема подбора адекватного многомерного статистического метода, не ограниченного какими-либо особыми рамками.
Логистическая регрессия используется, когда зависимая величина является бинарной и на ее исход влияют независимые переменные различного характера (качественные и/или количественные). Фактически оценивается вероятность принять одно из этих двух утверждений под влиянием изучаемых признаков. Логит этой вероятности - натуральный логарифм отношения вероятности «положительный эффект» (р) к вероятности «отрицательный эффект» (1- р).
Величина является непрерывной и принимает значения в интервале от 0 до 1 (от отрицательного эффекта к положительному эффекту).
Процедура логистической регрессии заключается в создании и оценке уравнения вида
где x1, x2, x3, - независимые переменные, b0 и b1, b2, b3,… - постоянные коэффициенты
Тогда вероятность положительного эффекта
Рассмотрим пример построения логистической регрессии в программе «STATISTICA-6».
В таблице представлены некоторые факторы, которые возможно влияют на риск возникновения артериальной гипертензии (АГ).
Имя переменной |
Расшифровка |
Тип данных |
|
АГ |
0 - есть АГ, 1 - нет АГ |
номинальный бинарный |
|
Возраст, лет |
возраст, лет |
количественный |
|
Курение |
не курит -0, курит -1 |
номинальный |
|
Потребление алкоголя |
не потребл. - 0, потребл. -1 |
номинальный |
|
Потребление соленой пищи |
не потребл. - 0, потребл. -1 |
номинальный |
|
Пол |
1 - мужской, 2 - женский |
номинальный |
|
Вес |
6 категорий |
ординальный |
|
Наследственный фактор АГ |
нет -0, есть -1 |
номинальный |
Необходимо определить какое влияние на вероятность АГ оказывают отобранные переменные. Исходные данные представляются в виде матрицы nЧm, где n- количество обследованных, m-число признаков. Фрагмент этой матрицы показан в таблице. Общий объем выборки составил 607 человек.
№ |
АГ |
Возраст |
Курение |
Потребл. алкогол. |
Потр. сол.пищи |
Пол |
Вес |
Наследств. (АГ) |
|
1 |
1 |
32 |
0 |
0 |
1 |
2 |
3 |
0 |
|
2 |
1 |
35 |
0 |
0 |
1 |
2 |
5 |
0 |
|
3 |
1 |
52 |
1 |
1 |
1 |
1 |
4 |
0 |
|
4 |
1 |
68 |
0 |
1 |
1 |
1 |
5 |
0 |
|
5 |
0 |
65 |
0 |
0 |
1 |
2 |
5 |
1 |
|
6 |
0 |
41 |
0 |
0 |
1 |
2 |
3 |
1 |
|
7 |
1 |
72 |
0 |
0 |
1 |
2 |
4 |
0 |
|
8 |
1 |
57 |
1 |
0 |
1 |
1 |
3 |
1 |
|
9 |
0 |
54 |
0 |
0 |
1 |
2 |
3 |
1 |
|
10 |
0 |
46 |
0 |
0 |
1 |
2 |
4 |
1 |
|
11 |
1 |
73 |
0 |
0 |
1 |
2 |
1 |
1 |
|
12 |
1 |
68 |
1 |
1 |
1 |
1 |
3 |
0 |
|
13 |
1 |
35 |
0 |
0 |
1 |
2 |
4 |
0 |
|
14 |
1 |
37 |
1 |
0 |
1 |
1 |
5 |
0 |
|
15 |
1 |
56 |
0 |
0 |
1 |
2 |
3 |
1 |
|
16 |
1 |
66 |
0 |
0 |
1 |
2 |
4 |
1 |
Анализ проводится в модуле Nonlinear Estimation, для запуска которого надо в меню Statistics выбрать команду Advanced Linear/Nonlinear Models (линейные/нелинейные модели). В открывшемся меню выбрать команду Nonlinear Estimation (нелинейная оценка), а затем опцию Quick Logit regression (логит регрессия) - «ОК».
В открывшемся окне необходимо указать зависимую и независимые переменные из списка переменных, щелкнув кнопкой Variables. Зависимой переменной (откликом) является «АГ», независимой - все остальные. Нажмите ОК. Программа возвратится в начальное диалоговое окно.
С помощью строки Input File contains (введите содержимое файла) отметьте вариант: Codes and no count (только коды) и вновь нажмите на ОК.
Откроется окно Model Estimation. Во вкладке Advanced можно выбрать процедуру оценивания -- Estimation method. Выберем: quasi-Newton. Поставьте птичку в окошке Asymptotic standart errors. ОК.
Появится диалоговое окно Results. Видно, что значение параметра Chi-square (хи-квадрат) = 294,6 велико, а значение р=0,000000 - мало. Это говорит о достаточной адекватности выбранной модели. Качество модели можно оценить и по классификационной матрице во вкладке Classification of cases and odds ratio
Odds ratio (Отношение шансов) = 8,054 |
||||
Наблюдаемый |
Предсказанный 0 |
Предсказанный 1 |
% корректных предсказаний |
|
0 |
376 |
51 |
88 |
|
1 |
86 |
94 |
52 |
В целом информационная способность модели составляет
470/607*100%=77%
Отношение шансов показывает, что классификация по модели в 8 раз корректнее, чем если бы мы предсказывали исход случайным образом.
Кнопка Summary. Parameter estimates на вкладке Advanced предназначена для визуализации предсказанных значений коэффициентов b0, b1, b2, b3, b4, b5, b6, b7 уравнения логит регрессии.
Первые три строки таблицы дают нам значения коэффициентов логистической регрессии, их стандартные ошибки, статистическую значимость по критерию Стъюдента и доверительный интервал для каждого коэффициента.
Статистическую значимость можно оценить и по критерию хи-квадрат Вальда. Из таблицы видно, что статистически незначимыми являются коэффициенты для факторов «пол», «курение» и «потребление алкоголя» (р>0,05), т.е. для них принимается нулевая гипотеза о равенстве отношения шансов единице, т.е. эти факторы не влияют на риск развития артериальной гипертензии.
Влияние всех других факторов можно оценить по величине отношения шансов (ОШ) и доверительным интервалам для них. Значительно повышает риск артериальной гипертензии наследственный фактор - в 6,8 (4,5-10,3) раз. Далее идет «потребление соли» - в 1,9 (1,2-2,9) раз, «вес» - ОШ от 1,0-1,3, а возраст фактически не ассоциирован с риском АГ (ОШ=1,016-1,045).
Теперь рассмотрим, как можно использовать полученную модель для прогнозирования. Пусть обследуется пациент со следующими признаками:
мужчина в возрасте 45 лет, вес 75 кг (3 весовая категория), курит, алкоголь не потребляет, любит соленую пищу, отец гипертоник.
Вероятность положительного эффекта (отсутствия АГ)
Тогда вероятность развития АГ =1-0,45=0,55
Анализ качественных признаков на основе логлинейной модели
Весьма распространенной проблемой в медицинских исследованиях является анализ качественных номинальных признаков, которые, как правило, представляются в виде кодов (например, цвет кожных покровов: розоватый -1, желтый -2, пунцовый -3 и т.д.). Интерес представляет частота встречаемости признаков в различных группах, а также сила и направление влияния одних признаков на другие. Нами уже были рассмотрены таблицы сопряженности 2Ч2, которые используются для анализа совместного распределения двух признаков, имеющих по две градации. Задачу можно сформулировать другими словами - оценка взаимного влияния двух двухуровневых факторов. Однако, встречаются более сложные случаи - многомерные таблицы сопряженности, например, нужно выяснить зависит ли срок госпитализации от возраста пациента и тяжести его состояния при поступлении в стационар (в каждую ячейку вводится число случаев ).
сроки госпитализации |
|||||
тяжесть состояния при поступлении |
возраст |
до 5 дней |
от 5 до 10 дней |
> 10 дней |
|
легкая степень |
до 40 лет |
n111 |
n211 |
… |
|
40-60 лет |
n112 |
n212 |
… |
||
> 60 лет |
n113 |
n213 |
… |
||
средняя степень |
до 40 лет |
n121 |
n221 |
… |
|
40-60 лет |
n122 |
n222 |
… |
||
> 60 лет |
n123 |
n223 |
… |
В данном примере фактор А -«срок госпитализации» имеет три уровня (i=1,2,3), фактор В - «возраст» - два уровня (j=1,2), и фактор С -«тяжесть состояния» - три уровня (k=1,2,3).
Один из способов решения подобных задач - построение логлинейной модели вида:
++,
где - теоретические частоты наблюдений
л - логарифмы эффектов различных сочетаний факторов А, В, и С на различных уровнях (интерпретируется как вклад факторов и их сочетаний в частоту).
Переходя от логарифмов к натуральным значениям, получают теоретические (ожидаемые) частоты .
Рассмотрим пример реализации логлинейного анализа в ППП STATISTICA с последующей интерпретацией результатов. Задача состоит в оценке факторов риска развития артериальной гипертензии. Анализировалась частота встречаемости следующих признаков (факторов)
Имя переменной |
Расшифровка |
|
АГ |
1 - есть АГ, 2 - нет АГ |
|
Курение |
не курит -1, курит -2 |
|
Потребление алкоголя |
не потребл. - 1, потребл. -2 |
|
Потребление соленой пищи |
не потребл. - 1, потребл. -2 |
|
Наследственный фактор АГ |
нет -1, есть -2 |
Исходные данные представляются в виде матрицы nЧm, где n- количество обследованных, m-число признаков. Фрагмент этой матрицы показан в таблице. Общий объем выборки составил 607 человек.
№ |
Курение |
Потр.Алког. |
Потр. сол.пищи |
Наследств (АГ) |
АГ |
|
1 |
1 |
1 |
1 |
1 |
2 |
|
2 |
1 |
1 |
1 |
1 |
2 |
|
3 |
1 |
1 |
1 |
2 |
1 |
|
4 |
1 |
1 |
1 |
2 |
1 |
|
5 |
1 |
1 |
1 |
1 |
2 |
|
6 |
2 |
1 |
1 |
2 |
2 |
|
7 |
1 |
1 |
1 |
2 |
1 |
|
8 |
1 |
1 |
1 |
2 |
1 |
|
9 |
1 |
1 |
1 |
2 |
2 |
|
10 |
1 |
1 |
1 |
1 |
2 |
|
11 |
2 |
1 |
1 |
1 |
2 |
|
12 |
1 |
1 |
1 |
2 |
2 |
|
13 |
1 |
1 |
1 |
2 |
2 |
|
14 |
1 |
1 |
1 |
2 |
1 |
|
15 |
1 |
1 |
1 |
2 |
2 |
|
16 |
1 |
1 |
2 |
1 |
2 |
Если какие-то ячейки таблицы сопряженности окажутся пустыми - не встречается данное сочетание факторов, то программа автоматически вставляет в эту ячейку величину 0,5, что никак не влияет на конечные результаты.
Анализ проводится в модуле Nonlinear Estimation, для запуска которого надо в меню Statistics выбрать команду Advanced Linear/Nonlinear Models (линейные/нелинейные модели). В открывшемся меню выбрать команду Nonlinear Estimation (нелинейная оценка), а затем опцию Log-Linear analysis of Frequency Tables (логлинейный анализ) - «ОК».
В открывшемся окне необходимо указать форму задания исходных данных input file Raw Data, и выбрать переменные из списка, щелкнув кнопкой Variables: в нашем примере отмечаем все признаки (факторы). Нажмите ОК. В открывшемся окошке Log-Linear model specification вы увидите, что фактор курения имеет код 1, потребление алкоголя - 2, потребление соли - 3, наследственный фактор - 4, наличие гипертонии (АГ) - 5.
Нажмите на кнопку Tests of Marginal and Partial Association (проверка общих и частных взаимосвязей), появятся две таблицы. Первая из них «Results of Fitting all K-Factor Interactions», показывает результаты проверки нулевой гипотезы о независимости числа случаев от факторов и их сочетания. Проверка осуществляется по критерию максимального правдоподобия и по критерию хи-квадрат Пирсона.
При К=1 и 2 р<0,05, т.е. влияние самих факторов и их попарных сочетаний статистически значимо, а сочетания по 3, 4 и 5 факторов - незначимо.
Во второй таблице «Tests of Marginal and Partial Association» представлены данные о связи факторов и их сочетаний с ожидаемыми частотами наблюдений (рассчитанными по логлинейной модели). Из нее видно, что статистически значимыми являются 9 эффектов (р<0,05 по критерию максимального правдоподобия и по критерию хи-квадрат Пирсона). Так как нас интересует фактор наличия артериальной гипертонии (код 5) и связь его с другими изучаемыми факторами из данной таблицы выберем статистически значимые взаимодействия - это 3-5 и 4-5. О степени влияния того или иного фактора судят по отношению данного фактора к сумме всех факторов (в%).
Effect |
Degrs.of Freedom |
Prt.Ass. Chi-sqr. |
Prt.Ass. p |
% |
|
5 |
1 |
100,7 |
0,000 |
47 |
|
35 |
1 |
8,5 |
0,004 |
4 |
|
45 |
1 |
106,5 |
0,000 |
49 |
|
У=215,7 |
Т.е. на 49% развитие артериальной гипертензии зависит от наследственных факторов, на 4% - от излишнего потребления соли и на 47% от других факторов, которые не рассматриваются в данном исследовании.
Вернитесь в окошко Log-Linear model specification и нажмите ОК. Появятся результаты автоматического поиска оптимальной модели для ожидаемых частот наблюдения.
Оптимальной оказалась модель, включающая взаимодействия 2-1, 5-3, 4-2, 5-4. Значимость модели проверяется по критериям максимального правдоподобия и по критерию хи-квадрат Пирсона. Нулевая гипотеза заключается в равенстве наблюдаемых и рассчитанных по модели ожидаемых частот. Т.к. р=0,8 (т.е.>0.05) нулевая гипотеза принимается и модель считается адекватной.
Более содержательный разбор наблюдавшихся частот можно провести, рассматривая таблицы 2Ч2 для попарного сочетания уровней факторов. Для этого нажмите кнопку Observed table (наблюдаемые частоты) и в появившемся окошке выберем, например, АГ и наследственный фактор.
Среди тех кто не курит, не пьет, не потребляет излишне соль гипертоники встречаются в 224/78=2,9 раза реже, чем здоровые. Причем среди гипертоников лиц с наследственным фактором в 45,5/35,5=1,3 больше, чем лиц без него. Такой же анализ можно провести относительно других факторов и их сочетания.
Для задач прогнозирования используется опция Fitted table (ожидаемые частоты). Аналогично получаем таблицу
Если человек не курит, не потребляет алкоголь, не имеет наследственную отягощенность и не потребляет много соли, то вероятность АГ составляет 22,1/60,9*100%=36%, а его отсутствия - 64%.
Байесовский подход к диагностике и прогнозированию. Последовательный анализ Вальда
Когда к врачу приходит пациент, врач предварительно, основываясь на интуиции и своем опыте или знаниях о распространенности болезни в популяции, имеет некоторое предположение относительно заболевания - это априорная, или дотестовая вероятность. Далее, имея уже результаты клинического анамнеза и лабораторных тестов, он выстраивают картину болезни пациента, и увеличивает или уменьшает вероятность своего предположения - это апостериорная вероятность. В свете новых данных (например, по истечении некоторого времени лечения) апостериорная вероятность может быть пересмотрена.
Подобный алгоритм положен в основу Байесовского классификатора. Данный подход рассчитывает вероятность того, что гипотеза истинна, путем обновления предшествующих мнений о гипотезе, по мере того как новые данные становятся доступными Метод оперирует вероятностью особого типа, известной как условная вероятность. Это вероятность события при условии, что другое событие уже произошло. Например, распространенность сахарного диабета в Европе составляет 6% (вероятность 0,06), но если у конкретного пациента обнаружено повышенное содержание глюкозы в крови, то вероятность обнаружить у него сахарный диабет резко возрастает.
Апостериорная вероятность является фактически условной вероятностью гипотезы, использующей результаты исследования. Теорема Байеса утверждает, что апостериорная вероятность пропорциональна априорной, умноженной на величину, называемую правдоподобием наблюдаемых результатов (которая описывает правдоподобие наблюдаемых результатов, если гипотеза верна).
Вероятность того, что событие А произойдет, если событие В уже произошло
Отношение правдоподобия положительного результата теста - это шанс положительного результата теста, если пациент имеет заболевание, деленный на шанс положительного результата теста, если он заболевания не имеет.
На формуле Байеса основана диагностическая процедура, которая использует метод последовательного статистического анализа А. Вальда. Рассмотрим суть этого метода. Пусть перед нами стоит задача выбора диагноза А или В. Известна распространенность этих заболеваний, т.е. априорные вероятности Р(А) и Р(В). После обнаружения у пациента признака х1
где - отношение априорных вероятностей
- отношение апостериорных вероятностей при условии обнаружения признака х1
- вероятность (относительная частота встречаемости) признака х1 при диагнозе А
- вероятность (относительная частота встречаемости) признака х1 при диагнозе В
-отношение правдоподобия
Тогда процесс дифференциальной диагностики выражается следующим образом
Т.е., если полученное выражение больше некоторого порогового значения А, то ставится диагноз А, если меньше некоторого порогового значения В, то ставится диагноз В. Если ни один из порогов не достигнут, то для диагностики привлекается следующий признак х2 и проверяется неравенство
и т.д.
Если использована вся имеющаяся в распоряжении информация, и ни один из порогов так и не достигнут, то делается заключение, что информации не достаточно для постановки диагноза.
Пороговые значения устанавливаются по следующим формулам
где б - вероятность ошибки первого рода - вероятность ложно поставить диагноз В, когда на самом деле верен диагноз А в - вероятность ошибки второго рода - вероятность ошибочно поставить диагноз А, когда на самом деле верен диагноз В Вероятности ошибок первого и второго рода устанавливаются самим исследователем, исходя из сути решаемой проблемы.
Для удобства вычислений используются не сами отношения шансов, а их десятичные логарифмы, умноженные на число 10, и далее округленные до целых. Полученную величину называют диагностическим коэффициентом
Пороги также выражаются через логарифмы
Тогда алгоритм диагностики имеет следующий вид
Процесс диагностики значительно ускоряется, если использовать признаки в порядке убывания их информационной ценности. Под дифференциальной информативностью признака понимается степень различия его распределения при дифференцируемых состояниях А и В.
Удобной мерой для оценки информативности является мера Кульбаха
Если признак имеет диапазоны (например, возраст имеет диапазоны - дети, взрослые, пожилые), то информационная ценность всего признака
Вопрос о минимальной информативности признака еще не нашел своего решения, но некоторые авторы рекомендуют включать в процедуру прогноза признаки с
Рассмотрим пример прогнозирования послеродовых осложнений. С этой целью были сформированы две выборки: основная (п=34) - это лица, у которых наблюдались послеродовые осложнения, и контрольная (без осложнений), в которую вошли 32 роженицы. Всего исследовано 20 признаков, которые имели от 2 до 3 диапазонов. Результаты всех расчетов приведены в таблице.
№ |
Факторы риска |
Число случаев |
Р/Р |
ДК |
||||||
Осн.гр.(A) п=34 |
Контр. гр.(B) п=32 |
|||||||||
1 |
Мед аборты до настоящих родов 1-2 |
есть |
7 |
3 |
0,094 |
2,196 |
3 |
0,19 |
0,22 |
|
нет |
27 |
29 |
0,906 |
0,876 |
-1 |
0,03 |
||||
2 |
Самопроизвольные выкидыш до настоящих родов |
есть |
9 |
4 |
0,125 |
2,118 |
3 |
0,23 |
0,28 |
|
нет |
25 |
28 |
0,875 |
0,840 |
-1 |
0,05 |
||||
3 |
Патология шейки матки |
есть |
5 |
4 |
0,125 |
1,176 |
1 |
0,01 |
0,01 |
|
нет |
29 |
28 |
0,875 |
0,975 |
0 |
0,00 |
||||
4 |
Бесплодие в анамнезе |
есть |
6 |
1 |
0,031 |
5,647 |
8 |
0,55 |
0,59 |
|
нет |
28 |
31 |
0,969 |
0,850 |
-1 |
0,05 |
||||
5 |
Многоплодная беременность |
есть |
6 |
3 |
0,094 |
1,882 |
3 |
0,11 |
0,13 |
|
нет |
28 |
29 |
0,906 |
0,909 |
0 |
0,02 |
||||
6 |
Токсикозы |
в первой половине |
21 |
16 |
0,500 |
1,235 |
1 |
0,05 |
0,35 |
|
во второй половине |
8 |
6 |
0,188 |
1,255 |
1 |
0,02 |
||||
нет |
5 |
10 |
0,313 |
0,471 |
-3 |
0,27 |
||||
7 |
ОРВИ |
1 триместре |
17 |
5 |
0,156 |
3,200 |
5 |
0,87 |
2,84 |
|
2 триместре |
2 |
2 |
0,063 |
0,941 |
0 |
0,00 |
||||
3 триместре |
10 |
4 |
0,125 |
2,353 |
4 |
0,31 |
||||
нет |
5 |
21 |
0,656 |
0,224 |
-7 |
1,65 |
||||
8 |
Резус конфликт |
есть |
3 |
1 |
0,031 |
2,824 |
5 |
0,13 |
0,14 |
|
нет |
31 |
31 |
0,969 |
0,941 |
0 |
0,01 |
||||
9 |
Хронические генитальные инфекции |
есть |
24 |
15 |
0,469 |
1,506 |
2 |
0,21 |
0,51 |
|
нет |
10 |
17 |
0,531 |
0,554 |
-3 |
0,30 |
||||
10 |
Маловодие |
есть |
13 |
9 |
0,281 |
1,359 |
1 |
0,07 |
0,10 |
|
нет |
21 |
23 |
0,719 |
0,859 |
-1 |
0,03 |
||||
11 |
Многоводие |
есть |
17 |
11 |
0,344 |
1,455 |
2 |
0,13 |
0,22 |
|
нет |
17 |
21 |
0,656 |
0,762 |
-1 |
0,09 |
||||
12 |
Преждевременные роды |
есть |
5 |
1 |
0,031 |
4,706 |
7 |
0,39 |
0,42 |
|
нет |
29 |
31 |
0,969 |
0,880 |
-1 |
0,03 |
||||
13 |
Кесарева сечение |
есть |
7 |
2 |
0,063 |
3,294 |
5 |
0,37 |
0,42 |
|
нет |
27 |
30 |
0,938 |
0,847 |
-1 |
0,05 |
||||
14 |
Родостимуляция |
есть |
5 |
2 |
0,063 |
2,353 |
4 |
0,16 |
0,17 |
|
нет |
29 |
30 |
0,938 |
0,910 |
0 |
0,02 |
||||
15 |
Аномальное предлежание |
есть |
4 |
1 |
0,031 |
3,765 |
6 |
0,25 |
0,27 |
|
нет |
30 |
31 |
0,969 |
0,911 |
0 |
0,02 |
||||
16 |
Воды грязные |
есть |
16 |
4 |
0,125 |
3,765 |
6 |
1,00 |
1,37 |
|
нет |
18 |
28 |
0,875 |
0,605 |
-2 |
0,38 |
||||
17 |
Отслойка плаценты |
есть |
6 |
2 |
0,063 |
2,824 |
5 |
0,26 |
0,29 |
|
нет |
28 |
30 |
0,938 |
0,878 |
-1 |
0,03 |
||||
18 |
Преждевременные излитие околоплодных вод |
есть |
10 |
1 |
0,031 |
9,412 |
10 |
1,28 |
1,46 |
|
нет |
24 |
31 |
0,969 |
0,729 |
-1 |
0,18 |
||||
19 |
Низкая плацентация |
есть |
8 |
2 |
0,063 |
3,765 |
6 |
0,50 |
0,57 |
|
нет |
26 |
30 |
0,938 |
0,816 |
-1 |
0,08 |
||||
20 |
Сильное шевеление |
есть |
18 |
6 |
0,188 |
2,824 |
5 |
0,77 |
1,18 |
|
нет |
16 |
26 |
0,813 |
0,579 |
-2 |
0,41 |
В таблице ниже приведены первые 7 признаков, расположенные по мере убывания их и информационной ценности
№ |
7 |
18 |
16 |
20 |
4 |
19 |
9 |
|
xi |
ОРВИ |
Преждевр. излитие околоплодных вод |
Воды грязные |
Сильное шевеление |
Бесплодие в анамнезе |
Низкая плацентация |
Хрон. генитальные инфекции |
|
2,84 |
1,46 |
1,37 |
1,18 |
0,59 |
0,57 |
0,52 |
Из этой таблицы видно, что наиболее значимыми признаками послеродовых осложнений являются перенесенные ОРВИ, преждевременное излитие околоплодных вод, сильное шевеление плода и т.д.
Для реализации алгоритма прогноза в данном исследовании были заданы:
б - вероятность ошибки первого рода = 0,05
в - вероятность ошибки второго рода = 0,1
К вероятности б более жесткие требования, поскольку речь идет о том, что ошибочно не будут спрогнозированы послеродовые осложнения.
Тогда
Т.к. по литературным данным послеродовые осложнения достигают до 26% (априорная вероятность), то
Осуществим прогноз для пациентки со следующими признаками:
ДК |
|||||
ОРВИ |
2,84 |
1 триместр |
5 |
-5+5=0 |
|
Преждевременные излитие околоплодных вод |
1,40 |
нет |
-1 |
-5+5-1=-1 |
|
Воды грязные |
1,32 |
есть |
6 |
-5+5-1+6=5 |
|
Сильное шевеление |
1,18 |
есть |
5 |
-5+5-1+6+5=10 |
|
Бесплодие в анамнезе |
0,59 |
нет |
-1 |
||
… |
… |
… |
… |
… |
Уже на четвертом шаге превышается верхний порог и прогнозируются послеродовые осложнения.
Определение размера выборки
Методы планирования размера выборки базируются на предположении, что к окончанию наблюдения будет возможно подтвердить или опровергнуть наличие предполагаемых различий между исследуемыми группам. Шанс выявления статистически значимых различий зависит от размера выборки и величины истинного различия сравниваемых показателей. Если в исследование включено небольшое количество пациентов и при этом не выявлен эффект, то встает вопрос, с чем это связано - с недостаточностью данных, или действительным отсутствием разницы. С другой стороны, неоправданное увеличение размера выборки неэффективно с точки зрения финансовых, трудовых и организационных затрат.
Для того, чтобы рассчитать оптимальный объем выборки следует определить следующие величины:
1. Мощность критерия - способность критерия обнаружить статистически значимые различия, если они действительно существуют. Планируя исследование необходимо знать мощность используемого критерия. Имеет смысл начинать исследование, когда есть хороший шанс обнаружить клинически значимые различия. И нет смысла тратить ресурсы на 40% вероятность подтверждения эффекта нового лечебного средства. Обычно мощность выбирается на уровне 70-80% (в = 0,2 - 0,3).
2. Уровень значимости б и- задается самим исследователем. В настоящее время для клинических исследований рекомендуют выбирать альфа 0,01 или даже 0,001.
3. Вариабельность наблюдений, например, стандартное отклонение (дисперсия) для количественных признаков. Оценка дисперсии признака до начала исследования представляет собой определенную трудность. В качестве рекомендаций можно посоветовать воспользоваться ранее опубликованными данными по интересующей вас проблеме, или же самостоятельно провести небольшое пилотное исследование.
4. Наименьший клинически значимый эффект - минимальные изменения, которые мы не хотим игнорировать. Выбор его также лежит на исследователе, на его компетентности в сфере решаемой проблемы. Например, изучая реакцию на физическую нагрузку, нужно определить будет ли минимально клинически значимым изменение пульса на 5 уд/мин или же на 10 уд/мин, или же какое-то иное значение.
Для сравнения количественного показателя в двух равновеликих независимых группах объем каждой выборки рассчитывается по формуле:
где и - дисперсии признака в обеих группах
Д - минимальная (клинически значимая) величина различий, которую необходимо обнаружить
и - критические значения нормального стандартного распределения для заданных б и в (односторонний или двусторонний тест, в зависимости от формулировки альтернативной гипотезы), определяются по таблицам.
Критические значения Z стандартного нормального распределения |
||||||||||||
Уровень знач. |
0,005 |
0,01 |
0,012 |
0,02 |
0,025 |
0,05 |
0,1 |
0,15 |
0,2 |
0,25 |
0,3 |
|
Одностор. тест |
2,567 |
2,326 |
2,257 |
2,054 |
1,96 |
1,645 |
1,282 |
1,036 |
0,842 |
0,674 |
0,524 |
|
Двусторонний тест |
2,807 |
2,576 |
2,513 |
2,326 |
2,242 |
1,960 |
1,645 |
1,440 |
1,282 |
1,150 |
1,036 |
Иногда по финансовым, этическим или другим причинам исследователь ограничен в своих возможностях набрать группу достаточной численности (как правило, это касается опытной группы). Если известна фиксированная численность одной выборки n1, то численность другой определяется следующим образом:
Если сравниваются доли p1 и p2, частота встречаемости номинального признака, то объем выборки:
здесь Д - минимальная клинически значимая разница между долями.
p1 и p2 определяется основываясь на подобных исследованиях из литературных источников, или на основе пилотного проекта. Как крайний случай можно выбрать p1=0,5 и p2=0,5, при этом численность выборки будет неоправданно завышена. Если доля определена в %, то в выражении вместо 1 берется 100. Такой метод дает достаточно точные результаты при 0,25<p<0,75. В других случаях вводится поправка
При этом объем выборки:
Если объем одной выборки фиксирован, то объем второй
Расчет объема выборки при эпидемиологических исследованиях
Вид выборки. Простая случайная выборка (простой рандомизированный отбор). При этом любая единица выборки имеет равные шансы быть отобранной с помощью жеребьевки, таблиц или компьютерного генератора случайных чисел.
1. Известна численность генеральной совокупности. Обычно эти данные можно получить из результатов переписи населения, отчетности статорганов, в которых указывается возрастной, половой, социальный и т.д. состав определенного региона (района, города, страны).
Для количественных признаков
где N - объем генеральной совокупности
Д - ошибка выборки - это объективно возникающее расхождение между характеристиками выборки и генеральной совокупности, также как и уровень значимости ошибка выборки задается самим исследователем. Ее предварительная оценка (предпочитаемая величина перед подстановкой в формулу) часто произвольна. Как правило, не рекомендуется принимать ошибку выборки выше 5%.
Для номинальных и порядковых признаков (доли объектов с заданным признаком)
где q=1-p,
p подбирается эмпирическим путем, или как крайний случай p=0,5 и q=0,5
2. При неизвестной численности генеральной совокупности для количественных признаков
для случая определения доли
Вид выборки. Стратифицированный способ отбора - все объекты разделяют на классы, именуемые слоями (стратами), в зависимости от изучаемых характеристик, таких как возраст, пол и т.п., после чего из каждого слоя отбирается простая случайная выборка с одинаковой или специально рассчитанной (для каждого слоя) выборочной долей
1. Объем генеральной совокупности известен
Признак количеcтвенный Общий объем выборки определяется как
где - средняя внутригрупповая дисперсия
Ni - число объектов в каждом из классов генеральной совокупности
Тогда выборка из каждого класса имеет численность пропорциональную представительству в генеральной совокупности
Но более оптимальным является распределение выборки по классам с учетом вариабельности признака в этих классах
Признак качественный (частота встречаемости)
где - средняя внутригрупповая дисперсия
где pi и qi - доля и обратная ей величина в каждом из классов генеральной совокупности (как крайний случай p=0,5 и q=0,5).
Ni - число объектов в каждом из классов генеральной совокупности
2. При неизвестной численности генеральной совокупности для количественных признаков
для случая определения доли
Разделение общей выборки по классам также производится пропорционально или с определенным весом.
Примечание: если доля выражается в относительных единицах, то все расчеты также производятся в относительных единицах, если в процентах - то и другие величины выражаются в процентах.
Кроме приведенных формул существуют и другие способы определения численности выборки. Среди них специальные таблицы и диаграммы, а также компьютерные программы. Учитывая, что в течение исследования неизбежны потери среди его участников (по разным причинам), рекомендуется расчетный объем выборки увеличить примерно на 20%.
Обычно исследованию подлежат не один, а несколько признаков (например, давление, ЧСС, температура, биохимические показатели и т.д.), и для каждого признака возможен свой уровень значимости, клинически значимые изменения и, соответственно, свой объем выборки. В этом случае исследователь может в качестве окончательного выбрать наибольшую из всех рассчитанных численностей, или же задать объем выборки, рассчитанный для главного признака - исходя из основной гипотезы.
Пример 1. Необходимо определить объем выборки при сравнении общего состояния в двух группах по шкале качества жизни SF-36 (Short Form-36). Разница считается статистически значимой при р<0,05. Заданная мощность критерия 85%, минимально значимая разница по шкале SF-36 составляет 5 баллов. По результатам предварительного исследования стандартное отклонение в первой группе 9,1 балл, во второй - 10,2 балла.
С поправкой на возможность выбывания из исследования участников - 20%, общий объем выборки составляет 86,4*1,2=104 участника, по 52 человека в каждой группе.
Пример 2. Рассчитаем объем выборки, необходимый для оценки урологической заболеваемости в некотором регионе с учетом того, что среди мужчин и женщин эта патология имеет различную распространенность. Общая численность взрослого населения в этом регионе (генеральная совокупность) составляет 1638240 человек, из них мужчин 735882 и женщин 902358 человек. По некоторым литературным данным урологические заболевания выявляются у 11,1% мужчин и 10,7% женщин. Нам необходимо сформировать стратифицированную выборку с учетом зависимости распространенности заболевания от пола. Т.к. ожидаемая доля невелика (~ 11%) зададим ошибку доли 1%.
группа |
Ni |
pi, % |
qi=(100-pi), % |
Д, % |
Z |
|
Муж. |
735882 |
11,1 |
88,9 |
1 |
2,576 |
|
Жен. |
902358 |
10,7 |
89,3 |
Средняя внутригрупповая дисперсия
Общий объем выборки
При этом выборка мужчин
Выборка женщин
Представление статистических данных в научных публикациях
Обоснование объема выборки. Описание участников проведенного исследования должно сопровождаться обоснованием численности выборки, которое является обязательным этапом разработки дизайна проекта. Дело в том, что недостаточный объем выборки увеличивает ошибку выборочных характеристик и может не позволить выявить эффекты там, где они действительно есть, и соответственно, привести к неправильным выводам. С другой стороны слишком большие численности участников приводят к неоправданным финансовым и другим затратам на исследование. Мы уже указывали, что объем выборки зависит от минимального «клинического» эффекта, дисперсии изучаемой величины, мощности используемого критерия и уровня значимости б. Примерная формулировка может звучать таким образом: «Потребовалось 54 пациента в каждой группе, чтобы иметь 85% шанс обнаружить разницу в средних значениях пульса в 10 уд/мин (s=18 уд/мин) при 5% уровне значимости, применяя непараметрический критерий Мана-Уитни».
Если анализируется несколько признаков (пульс, давление, гемоглобин…) и для каждого из них определяется свой объем выборки, то исследователь может в качестве окончательного выбрать наибольшую из всех рассчитанных численностей, или же задать объем выборки, рассчитанный для главного признака - исходя из основной гипотезы.
Оценка закона распределения. Далее желательно указать закон распределения величин, поскольку от этого зависит обоснованность критериев, применяемых для проверки гипотез. Если объем выборки более 30, то можно проверить гипотезу о нормальности распределения одним из известных вам способов, причем проверку необходимо осуществить в каждой группе. Например, «нормальность распределения проверялась по критическим значениям коэффициентов ассиметрии и эксцесса, результаты, приведенные в таблице, позволяют принять нулевую гипотезу о нормальном распределении».
п =50 |
125,04 |
As=0,424 |
Ex=-0,655 |
б=0,05 |
As крит=0,533 |
Exкрит=0,848 |
P>0,05 |
Или: «Нормальность распределения проверялась по критерию хи-квадрат, по результатам нулевая гипотеза о нормальности была отвергнута (p=0,03)».
Проверку на нормальность должна пройти каждая из анализируемых признаков.
Если объем выборки мал и не позволяет провести такую проверку, то нужно помнить, что в дальнейшем для сравнительного анализа можно использовать только непараметрические критерии.
Описательная статистика. Как правило, для описания количественных данных используются такие статистические характеристики как средняя, мода, медиана, дисперсия и т.д. При нормальном распределении совокупности применяются среднее значение и среднеквадратичное отклонение (стандартное отклонение) s. Стандартное отклонение дает нам представление, в каких пределах лежат данные генеральной совокупности, так 95,44% всех значений лежит в интервале . Необходимо также указать доверительный интервал для среднего - по нему можно оценить, насколько точно оно определено. Для этого предварительно рассчитывается стандартная ошибка среднего m. Если доверительный интервал широкий, то средняя оценена неточно и это может быть связано с недостаточным объемом выборки, или же с большим разбросом данных (дисперсией). Полезно рассчитать коэффициент вариации - при V%>33% совокупность считается неоднородной, тогда необходимо проверить, насколько репрезентативна выборка и нет ли аномальных выбросов. Результаты расчетов наглядно могут быть представлены в следующей таблице.
n |
( мкмоль/л) |
s (мкмоль/л) |
-95%ДИ(мкмоль/л) |
+95%ДИ (мкмоль/л) |
||
1 группа |
320 |
21,3 |
3 |
21,0 |
21,6 |
|
2 группа |
225 |
28,5 |
12 |
26,9 |
30,1 |
Если распределение случайной величины не соответствует нормальному закону, то в качестве характеристики положения используется медиана, в качестве характеристики разброса - межквартильный размах, а также указываются минимальное и максимальное значения, чтобы определить наличие выбросов. Из приведенной ниже таблицы видно, что в первой группе в середине ранжированного ряда находится величина 4,0 ммоль/л, 50% данных лежит в пределе от 3,3 до 6,0 ммоль/л, максимальное значение 10,5 ммоль/л является явно аномальной. Во второй группе в целом разброс данных больше (?Q=5,3) и величину 10,5 уже нельзя считать выбросом.
Таблица
n |
Ме(ммоль/л) |
Max(ммоль/л) |
Q25 (ммоль/л) |
Q75(ммоль/л) |
?Q(ммоль/л) |
||
1 гр. |
15 |
4,0 |
10,5 |
3,3 |
6,0 |
2,7 |
|
2 гр. |
22 |
5,2 |
10,5 |
4,0 |
9,3 |
5,3 |
Описание качественных признаков. При анализе качественных номинальных признаков, как правило, подсчитывается доля (частота встречаемости) объектов с заданными свойствами. Доля представляется в виде относительных величин или процентов. Наряду с долей необходимо указывать и абсолютные значения, а для самой доли определить доверительный интервал
всего опрошено женщин |
доля курящих |
-95% ДИ |
+95% ДИ |
|
1020 |
10% (102/1020) |
8,2% |
11,8% |
|
Иногда, при малых выборках, меньше 10, получается нулевой или 100% эффекты, которые маловероятны. Например, из девяти опрошенных женщин никто не курит - доля равна нулю, ошибка доли также равна нулю. Отсюда можно сделать неправильный вывод, что все женщины некурящие. В этом случае необходимо воспользоваться поправкой на нулевой эффект.
Итоги проверки гипотез. Важное место в любом исследовании занимает процесс сравнения различных совокупностей. Если признаки имеют нормальное распределение, то такое сравнение можно осуществить на основе средних значений с использованием параметрических критериев. Наиболее известным из них является критерий Стъюдента. Нельзя забывать, что его применение требует также и равенства генеральных дисперсий, которое можно проверить по критерию Фишера. При соблюдении всех условий результаты расчетов можно представить в следующем виде
Таблица
n |
s |
-95% ДИ |
+95% ДИ |
t-Стъюдента |
р-уровень |
||||
1 гр. |
143 |
119,1 |
13,9 |
-3,4 |
-6,7 |
-0,1 |
-2,67 |
<0,05 |
|
2 гр. |
190 |
122,5 |
16,3 |
Из таблицы видно, насколько различаются средние значения, по р-уровню можно оценить статистическую значимость этого различия (при использовании статистических программ лучше указывать конкретное значение достигнутого уровня значимости, например р=0,002). Доверительный интервал показывает, в каких пределах лежит истинная, генеральная разница, а верхний и нижний его пределы позволяют дать «клиническую» оценку этой разнице.
Надо отметить, что в медицинских исследованиях в силу ряда ограничений обычно доступны небольшие выборки, а среди совокупности «больных» нормальное распределение встречается редко. Поэтому приоритет необходимо отдавать непараметрической статистике. При использовании непараметрических критериев результаты описываются на основе медиан и квартилей, например
n |
Ме(мг) |
?Ме(мг) |
Q25(мг) |
Q75(мг) |
U-критерий Мана-Уитни |
р-уровень |
||
1 гр. |
7 |
4,0 |
-1,2 |
3,3 |
6,0 |
3 |
0,023 |
|
2 гр. |
9 |
5,2 |
4,0 |
9,3 |
Различия между группами хорошо воспринимаются при графическом представлении данных. Различные возможные варианты показаны на рисунке. Не забывайте поместить на графике «легенду» (условные обозначения), так как графики могут нести различную информацию. Если на первом графике представлены средняя, стандартное отклонение, минимальное и максимальное значения, на втором - среднее и доверительный интервал, то на третьем - медиана и квартили.
Итоговая информация по результатам сравнения долей должна содержать данные по абсолютным и относительным показателям, а также доверительный интервал для разницы долей.
регион |
всего больных |
доля инфекц. заболеваний |
разность долей |
-95% ДИ |
+95% ДИ |
t-Стъюдента |
р-уровень |
|
1 |
520 |
20% (104/520) |
-17% |
-22,8% |
-11,2% |
-3,25 |
0,012 |
|
2 |
400 |
37% (148/400) |
Доли сравниваются как по критерию Стъюдента, так и по критерию хи-квадрат. В случае таблицы 2Ч2 необходимо учитывать поправку Йетса и упомянуть об этом в тексте. Если таблица содержит ячейку с менее чем 5 случаями, используйте точный критерий Фишера. Силу связи между номинальными признаками оценивают коэффициенты Юла и фи-квадрат. Результаты расчетов можно свести в следующую таблицу
Столбец 1 |
Столбец 2 |
Всего |
||
Частоты, строка 1 |
120 |
140 |
260 |
|
% случаев |
5,7 % |
6,6 % |
12,3 % |
|
Частоты, строка 2 |
332 |
1520 |
1852 |
|
% случаев |
15,7 % |
72 % |
87,76 % |
|
Всего |
452 |
1660 |
2112 |
|
% всего |
21,4 % |
78,6 % |
||
Хи-квадрат (f=1) |
107,99 |
p=0,0000 |
||
Поправка Йетса |
106,32 |
p=0,0000 |
||
Фи-квадрат |
,05113 |
|||
Точный критерий Фишера, одностор. |
---- |
|||
Точный критерий Фишера, двустор. |
---- |
|||
Хи-квадрат Макнемара |
1193,42 |
p=0,0000 |
Множественные сравнения. Довольно часто возникает задача сравнения не двух групп, а нескольких - так называемая задача множественных сравнений. Например, различных возрастных, профессиональных, социальных слоев населения, или влияния различных доз препарата, методов диагностики и т.д. В этом случае рекомендуется на начальном этапе провести факторный дисперсионный анализ, который позволяет ответить на вопрос, есть ли хотя бы одно отличие между сравниваемыми группами. Нулевая гипотеза о равенстве всех средних (медиан) проверяется по параметрическому критерию Фишера или непараметрическому аналогу - критерию Крускала-Уолиса
D |
f |
F-Фишера |
р-уровень |
||
Межгрупповая дисперсия |
4600,5 |
2 |
38,7 |
0,004 |
|
Внутригрупповая дисперсия |
118,8 |
12 |
Пакеты прикладных программ по статанализу содержат процедуру Тьюки - это процедура множественных попарных сравнений, применяемая в тех случаях, когда дисперсионный анализ указывает на статистически значимую разность между группами. Таким образом, можно выяснить конкретно какие группы отличаются друг от друга.
Как пример, результаты попарных сравнений 6 групп сведены в таблицу, в которой указаны средние по группам и значения р-уровня.
группа |
{1} |
{2} |
{3} |
{4} |
{5} |
{6} |
|
=93,2 |
=80,7 |
=70,4 |
=77,3 |
=80,6 |
=82,7 |
||
{1} |
0,000 |
0,000 |
0,000 |
0,000 |
0,010 |
||
{2} |
0,000 |
0,000 |
0,305 |
1,000 |
0,988 |
||
{3} |
0,000 |
0,000 |
0,000 |
0,000 |
0,001 |
||
{4} |
0,000 |
0,305 |
0,000 |
0,151 |
0,529 |
||
{5} |
0,000 |
1,000 |
0,000 |
0,151 |
0,985 |
||
{6} |
0,010 |
0,988 |
0,001 |
0,529 |
0,985 |
Корреляционный анализ. Подсчет коэффициента корреляции также достаточно распространенный метод анализа биомедицинских данных. При его использовании необходимо придерживаться следующих положений:
- предварительно следует построить диаграмму рассеяния, чтобы оценить характер взаимосвязи (линейный или нелинейный)
- коэффициент корреляции Пирсона показывает линейную взаимосвязь между количественными признаками, имеющими нормальное распределение
- если распределение не соответствует нормальному, или признаки ординальные, то применимы коэффициенты Спирмена и Кендалла, оценивающие линейные связи
- для таблиц сопряженности также существуют коэффициенты взаимосвязи (например, коэффициент Юла, фи-квадрат)
- следует проверять статистическую значимость коэффициента корреляции и обозначать ее в тексте или таблице
- коэффициент корреляции величина формальная (математическая) и не объясняет причинно-следственную связь, интерпретация его - дело специалиста в предметной области
В таблице ниже приведены попарные коэффициенты корреляции и значения р-уровня. Если принять уровень значимости б=0,05, то r=-0,01 и 0,15 статистически незначимы.
HF% |
LF% |
VLF% |
ULF% |
||
HF% |
-0,46 p=0,000 |
-0,65 p=0,000 |
-0,56 p=0,000 |
||
LF% |
-0,46 p=0,000 |
-0,01 p=0,909 |
-0,26 p=0,001 |
||
VLF% |
-0,65 p=0,000 |
-0,01 p=0,909 |
0,15 p=0,052 |
||
ULF% |
-0,56 p=0,000 |
-0,26 p=0,001 |
0,15 p=0,052 |
Регрессионный анализ. Прежде чем приступать к нахождению уравнения регрессии убедитесь, что связь между величинами линейна, для этого подходящим является диаграмма рассеяния. Вычислите коэффициент корреляции, если он меньше 0,7, то нет смысла строить математическую модель, ведь даже при таком значении r она объясняет лишь 50% вариаций. Если уравнение регрессии получено, представьте его графически вместе с наблюдаемыми величинами. Обязательным является оценка статистической значимости коэффициентов уравнения и самой модели, например, такая таблица является показательной
r= 0,93 R2=0 ,87 F(1,8)=54,028 p=0,000 |
|||||
значение коэффициента |
станд. ошибка коэффициента |
t-Стъюдента |
p-уровень |
||
b0 |
87,5 |
1,31 |
66,8 |
0,000 |
|
b1 |
-0,05 |
0,007 |
-7,3 |
0,000 |
В случае незначимости коэффициента b1 (что аналогично незначимости самой регрессии) полученное уравнение не может быть использовано в качестве модели взаимосвязи двух величин.
При прогнозировании по уравнению регрессии рекомендуется проводить прогноз в пределах наблюдаемых значений независимой величины. Если прогноз выходит за эти пределы, вы должны быть уверены, что основная тенденция сохранится в будущем, и при этом прогноз не должен превышать 1-3 временных интервала.
Приложения
Приложение 1. Критические значения коэффициента асимметрии As
Объем выборки п |
Уровень значимости б |
Объем выборки п |
Уровень значимости б |
|||
0,05 |
0,01 |
0,05 |
0,01 |
|||
25 |
0,711 |
1,061 |
250 |
0,251 |
0,360 |
|
30 |
0,661 |
0,982 |
300 |
0,230 |
0,329 |
|
35 |
0,621 |
0,921 |
350 |
0,213 |
0,305 |
|
40 |
0,587 |
0,869 |
400 |
0,200 |
0,285 |
|
45 |
0,558 |
0,825 |
450 |
0,188 |
0,269 |
|
50 |
0,533 |
0,787 |
500 |
0,179 |
0,255 |
|
60 |
0,492 |
0,723 |
550 |
0,171 |
0,243 |
|
70 |
0,459 |
0,673 |
600 |
0,163 |
0,233 |
|
80 |
0,432 |
0,631 |
650 |
0,157 |
0,224 |
|
90 |
0,409 |
0,596 |
700 |
0,151 |
0,215 |
|
100 |
0,389 |
0,567 |
750 |
0,146 |
0,208 |
|
125 |
0,350 |
0,508 |
800 |
0,142 |
0,202 |
|
150 |
0,321 |
0,464 |
850 |
0,138 |
0,196 |
|
175 |
0,298 |
0,430 |
900 |
0,134 |
0,190 |
|
200 |
0,280 |
0,403 |
950 |
0,130 |
0,185 |
Критические значения коэффициента эксцесса Ех
Объем выборки п |
Уровень значимости б |
|||
0,10 |
0,05 |
0,01 |
||
11 |
0,890 |
0,907 |
0,936 |
|
16 |
0,873 |
0,888 |
0,914 |
|
21 |
0,863 |
0,877 |
0,900 |
|
26 |
0,857 |
0,869 |
0,890 |
|
31 |
0,851 |
0,863 |
0,883 |
|
36 |
0,847 |
0,858 |
0,877 |
|
41 |
0,844 |
0,854 |
0,872 |
|
46 |
0,841 |
0,851 |
0,868 |
|
51 |
0,839 |
0,848 |
0,865 |
|
61 |
0,835 |
0,843 |
0,859 |
|
71 |
0,832 |
0,840 |
0,855 |
|
81 |
0,830 |
0,838 |
0,852 |
|
91 |
0,828 |
0,835 |
0,848 |
|
101 |
0,826 |
0,834 |
0,846 |
|
201 |
0,818 |
0,823 |
0,832 |
|
301 |
0,814 |
0,818 |
0,826 |
|
401 |
0,812 |
0,816 |
0,822 |
|
501 |
0,810 |
0,814 |
0,820 |
Приложение 2. Критические точки двустороннего t-критерия Стьюдента
Число степеней свободы f |
б |
Число степеней свободы f |
б |
|||||
0,05 |
0,01 |
0,005 |
0,05 |
0,01 |
0,005 |
|||
1 |
12,71 |
63,66 |
64,60 |
18 |
2,10 |
2,88 |
3,92 |
|
2 |
4,30 |
9,92 |
31,60 |
19 |
2,09 |
2,86 |
3,88 |
|
3 |
3,18 |
5,84 |
12,92 |
20 |
2,09 |
2,85 |
3,85 |
|
4 |
2,78 |
4,60 |
8,61 |
21 |
2,08 |
2,83 |
3,82 |
|
5 |
2,57 |
4,03 |
6,87 |
22 |
2,07 |
2,82 |
3,79 |
|
6 |
2,45 |
3,71 |
5,96 |
23 |
2,07 |
2,81 |
3,77 |
|
7 |
2,37 |
3,50 |
5,41 |
24 |
2,06 |
2,80 |
3,75 |
|
8 |
2,31 |
3,36 |
5,04 |
25 |
2,06 |
2,79 |
3,73 |
|
9 |
2,26 |
3,25 |
4,78 |
26 |
2,06 |
2,78 |
3,71 |
|
10 |
2,23 |
3,17 |
4,59 |
27 |
2,05 |
2,77 |
3,69 |
|
11 |
2,20 |
3,11 |
4,44 |
28 |
2,05 |
2,76 |
3,67 |
|
12 |
2,18 |
3,05 |
4,32 |
29 |
2,05 |
2,76 |
3,66 |
|
13 |
2,16 |
3,01 |
4,22 |
30 |
2,04 |
2,75 |
3,65 |
|
14 |
2,14 |
2,98 |
4,14 |
40 |
2,02 |
2,70 |
3,55 |
|
15 |
2,13 |
2,95 |
4,07 |
60 |
2,00 |
2,66 |
3,46 |
|
16 |
2,12 |
2,92 |
4,02 |
120 |
1,98 |
2,62 |
3,37 |
|
17 |
2,11 |
2,90 |
3,97 |
оо |
1,96 |
2,58 |
3,29 |
Приложение 3. Критические значения U-критерия Манна-Уитни б = 0,01. Двусторонний критерий
n2/nl |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
|
5 |
0 |
0 |
0 |
|||||||||||||||
6 |
0 |
0 |
1 |
2 |
||||||||||||||
7 |
0 |
0 |
1 |
3 |
4 |
|||||||||||||
8 |
0 |
1 |
2 |
4 |
6 |
7 |
||||||||||||
9 |
0 |
1 |
3 |
5 |
7 |
9 |
11 |
|||||||||||
10 |
0 |
О |
4 |
6 |
9 |
11 |
13 |
16 |
||||||||||
11 |
0 |
2 |
5 |
7 |
10 |
13 |
16 |
19 |
21 |
|||||||||
12 |
1 |
3 |
6 |
9 |
12 |
15 |
18 |
21 |
24 |
23 |
||||||||
13 |
1 |
4 |
7 |
10 |
13 |
17 |
20 |
24 |
27 |
31 |
34 |
|||||||
14 |
1 |
4 |
7 |
11 |
15 |
18 |
22 |
26 |
30 |
34 |
38 |
42 |
||||||
15 |
2 |
5 |
8 |
12 |
16 |
20 |
25 |
29 |
33 |
37 |
42 |
46 |
51 |
|||||
16 |
2 |
5 |
9 |
13 |
18 |
22 |
27 |
31 |
36 |
41 |
46 |
50 |
55 |
60 |
||||
17 |
2 |
6 |
10 |
15 |
19 |
24 |
29 |
34 |
39 |
44 |
49 |
54 |
60 |
65 |
70 |
|||
18 |
2 |
6 |
11 |
16 |
21 |
26 |
31 |
37 |
42 |
47 |
53 |
59 |
64 |
70 |
75 |
77 |
81 |
|
19 |
3 |
7 |
12 |
17 |
22 |
28 |
34 |
39 |
45 |
51 |
57 |
63 |
69 |
75 |
81 |
87 |
93 |
|
20 |
3 |
8 |
13 |
18 |
24 |
30 |
36 |
42 |
48 |
54 |
60 |
67 |
73 |
79 |
86 |
92 |
99 |
|
21 |
3 |
8 |
14 |
19 |
25 |
32 |
38 |
44 |
51 |
58 |
64 |
71 |
78 |
84 |
91 |
98 |
105 |
|
22 |
4 |
9 |
14 |
21 |
27 |
34 |
40 |
47 |
54 |
61 |
68 |
75 |
82 |
89 |
97 |
104 |
111 |
|
23 |
4 |
9 |
15 |
22 |
29 |
36 |
43 |
50 |
57 |
64 |
72 |
79 |
87 |
94 |
102 |
109 |
117 |
|
24 |
4 |
10 |
16 |
23 |
30 |
37 |
45 |
52 |
60 |
68 |
76 |
83 |
91 |
99 |
107 |
115 |
123 |
|
25 |
5 |
10 |
17 |
24 |
32 |
39 |
47 |
55 |
63 |
71 |
79 |
88 |
96 |
104 |
113 |
121 |
129 |
Приложение 4. Критические значения парного Т-критерия Уилкоксона
Односторонний критерий |
||||||
Число парных наблюдений п |
Уровни значимости б |
Число парных наблюдений п |
Уровни значимости б |
|||
0,05 |
0,01 |
0,05 |
0,01 |
|||
5 |
0 |
--. |
14 |
25 |
16 |
|
6 |
2 |
0 |
15 |
30 |
19 |
|
7 |
3 |
0 |
16 |
35 |
23 |
|
8 |
5 |
1 |
17 |
41 |
28 |
|
9 |
8 |
3 |
18 |
47 |
33 |
|
10 |
10 |
5 |
19 |
53 |
38 |
|
11 |
13 |
7 |
20 |
60 |
42 |
|
12 |
17 |
10 |
21 |
67 |
50 |
|
13 |
21 |
12 |
22 |
74 |
56 |
Двусторонний критерий |
||||||
Число парных наблюдений п |
Уровни значимости б |
Число парных наблюдений п |
Уровни значимости б |
|||
0,05 |
0,01 |
0,05 |
0,01 |
|||
6 |
1 |
16 |
31 |
21 |
||
7 |
3 |
-- |
17 |
36 |
24 |
|
8 |
5 |
1 |
18 |
41 |
29 |
|
9 |
7 |
3 |
19 |
47 |
33 |
|
10 |
9 |
4 |
20 |
53 |
39 |
|
11 |
12 |
6 |
21 |
60 |
44 |
|
12 |
15 |
8 |
22 |
67 |
50 |
|
13 |
18 |
11 |
23 |
74 |
56 |
|
14 |
22 |
14 |
24 |
82 |
62 |
|
15 |
26 |
17 |
25 |
90 |
69 |
Приложение 5. Критические значения ч2
Уровень значимости |
|||||||||
f |
0,50 |
0,25 |
0,10 |
0,05 |
0,025 |
0,01 |
0,005 |
0,001 |
|
1 |
0,455 |
1,323 |
2,706 |
3,841 |
5,024 |
6,635 |
7,879 |
10,828 |
|
2 |
1,386 |
2,773 |
4,605 |
5,991 |
7,378 |
9,210 |
10,597 |
13,816 |
|
3 |
2,366 |
4,108 |
6,251 |
7,815 |
9,348 |
11,345 |
12,838 |
16,266 |
|
4 |
3,357 |
5,385 |
7,779 |
9,488 |
11,143 |
13,277 |
14,860 |
18,467 |
|
5 |
4,351 |
6,626 |
9,236 |
11,070 |
12,833 |
15,086 |
16,750 |
20,515 |
|
6 |
5,348 |
7,841 |
10,645 |
12,592 |
14,449 |
16,812 |
18,548 |
22,458 |
|
7 |
6,346 |
9,037 |
12,017 |
14,067 |
16,013 |
18,475 |
20,278 |
24,322 |
|
8 |
7,344 |
10,219 |
13,362 |
15,507 |
17,535 |
20,090 |
21,955 |
26,124 |
|
9 |
8,343 |
11,389 |
14,684 |
16,919 |
19,023 |
21,666 |
23,589 |
27,877 |
|
10 |
9,342 |
12,549 |
15,987 |
18,307 |
20,483 |
23,209 |
25,188 |
29,588 |
|
11 |
10,341 |
13,701 |
17,275 |
19,675 |
21,920 |
24,725 |
26,757 |
31,264 |
|
12 |
11,340 |
14,845 |
18,549 |
21,026 |
23,337 |
26,217 |
28,300 |
32,909 |
|
13 |
12,340 |
15,984 |
19,812 |
22,362 |
24,736 |
27,688 |
29,819 |
34,528 |
|
14 |
13,339 |
17,117 |
21,064 |
23,685 |
26,119 |
29,141 |
31,319 |
36,123 |
|
15 |
14,339 |
18,245 |
22,307 |
24,996 |
27,488 |
30,578 |
32,801 |
37,697 |
|
16 |
15,338 |
19,369 |
23,542 |
26,296 |
28,845 |
32,000 |
34,267 |
39,252 |
|
17 |
16,338 |
20,489 |
24,769 |
27,587 |
30,191 |
33,409 |
35,718 |
40,790 |
|
18 |
17,338 |
21,605 |
25,989 |
28,869 |
31,526 |
34,805 |
37,156 |
42,312 |
|
19 |
18,338 |
22,718 |
27,204 |
30,144 |
32,852 |
36,191 |
38,582 |
43,820 |
|
20 |
19,337 |
23,828 |
28,412 |
31,410 |
34,170 |
37,566 |
39,997 |
45,315 |
|
21 |
20,337 |
24,935 |
29,615 |
32,671 |
35,479 |
38,932 |
41,401 |
46,797 |
|
22 |
21,337 |
26,039 |
30,813 |
33,924 |
36,781 |
40,289 |
42,796 |
48,268 |
|
23 |
22,337 |
27,141 |
32,007 |
35,172 |
38,076 |
41,638 |
44,181 |
49,728 |
|
24 |
23,337 |
28,241 |
33,196 |
36,415 |
39,364 |
42,980 |
45,559 |
51,179 |
|
25 |
24,337 |
29,339 |
34,382 |
37,652 |
40,646 |
44,314 |
46,928 |
52,620 |
|
26 |
25,336 |
30,435 |
35,563 |
38,885 |
41,923 |
45,642 |
48,290 |
54,052 |
|
27 |
26,336 |
31,528 |
36,741 |
40,113 |
43,195 |
46,963 |
Подобные документы
Статистика в медико-биологическом исследовании, выбор метода анализа в соответствии с типом распределения данных. Анализ времени жизни в ППО Statistica, сравнение коэффициентов корреляции. Порядок осуществления проверки типа распределения данных.
реферат [1,2 M], добавлен 03.06.2011Система методов медико-биологических исследований. Электрофизиологические, фотометрические методы. Основные группы медицинских электронных приборов и аппаратов. Структурная схема съема, передачи и регистрации медико-биологической информации.
реферат [26,3 K], добавлен 11.12.2008Изучение влияния современного программного обеспечения на сбор и анализ статистических данных в учреждении здравоохранения. Преимущества и недостатки современной версии программного обеспечения в сравнении с предыдущей версией на базе Сиверской больницы.
курсовая работа [71,7 K], добавлен 10.03.2015История клинических исследований XX века. Понятие и виды медико-биологических исследований. Морально-этические проблемы взаимоотношение врача и испытуемого. Основные принципы проведения испытаний и экспериментов. Правила опубликования результатов.
реферат [25,1 K], добавлен 26.02.2015Элементы теории вероятности в диагностической и лечебной работе врача-лечебника. Значение опыта и анализ его исходов: случайные события, вероятность, относительная частота события, закон больших чисел. Статистические функции и законы распределения.
реферат [266,5 K], добавлен 25.12.2015Разновидности общего процесса реабилитации, ее современные принципы. Уровни медико-биологических и психосоциальных последствий болезни или травмы, которые учитываются при проведении медицинской реабилитации. Осуществление подготовки врача-реабилитолога.
реферат [43,0 K], добавлен 08.06.2011Развитие физиотерапии как науки. Действие лечебных физических факторов на определенные органы и системы организма. Истоки формирования представлений о специфичности в физиотерапии. Причины реакций органов и тканей. Направленность действия на орган.
реферат [27,5 K], добавлен 23.08.2013Роль врача в организации первичной медико-санитарной помощи, формировании здорового образа жизни, в первичной профилактике распространенных неинфекционных заболеваний. Описание коммуникативных навыков в работе врача амбулаторно-поликлинической практики.
презентация [67,6 K], добавлен 30.10.2011Механизм реакций, сопровождающихся свечением живых организмов, видимым простым глазом. Использование активированной хемилюминесценции и биолюминесценции как инструмента в медико-биологических исследованиях сыворотки крови, мочи, ликвора и слюны.
курсовая работа [252,3 K], добавлен 25.10.2011Предмет, цель и основные задачи гигиены и гигиенической практики; некоторые аспекты терминологии в ее области. Роль отдельных видов профилактики в повышении уровня здоровья населения. Изучение деонтологических принципов в деятельности врача-гигиениста.
лекция [87,2 K], добавлен 11.03.2012