Логлинейный анализ

Определение термина "логлинейный анализ". Двумерные и многомерные таблицы частот. Итеративная пропорциональная подгонка, статистическая значимость конечных эффектов. Устранение двухфакторных взаимодействий, которые не являются статистически значимыми.

Рубрика Математика
Вид реферат
Язык русский
Дата добавления 12.01.2016
Размер файла 20,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Министерство образования и науки Российской Федерации

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

Кемеровский Государственный Университет

Математический факультет

Кафедра Математической кибернетики

Реферат

На тему: «Логлинейный анализ»

Выполнил: студент 5 курса

Черкашин Евгений Александрович

Руководитель: Касенкова М.В.

Кемерово 2015

Содержание

1. Понятие Логлинейный анализ

2. Пример логлинейного анализа

3. Двумерные таблицы частот

4. Подгонка маргинальных частот

5. Многомерные таблицы частот

6. Эффекты взаимодействия

7. Логлинейная модель

8. Согласие

9. Статистическая значимость эффектов

10. Автоматическая подгонка модели

1. Понятие Логлинейный анализ

Логлинейный анализ (log liner analysis) - статистический метод моделирования распределения частот в таблице сопряженности. Для оценки наличия взаимосвязи между двумя категориальными переменными строится двумерная таблица сопряженности. В этом случае наличие связи можно проверить на основе, например, критерия хи-квадрат. Многомерные таблицы сопряженности - это таблицы сопряженности с числом категориальных переменных большим двух. Визуальный анализ таких многомерных таблиц сопряженности для оценки взаимосвязи между категориальными переменными весьма затруднителен. Поэтому один из используемых методов для решения этой задачи - логлинейный анализ.

Логлинейный анализ имеет сходство с дисперсионным анализом и регрессионным анализом. Для проведения логлинейного анализа все переменные должны быть измерены в категориальной шкале. Логлинейная модель представляет собой линейную множественную модель регрессии. Зависимая переменная в логлинейной модели представляет собой натуральный логарифм соответствующей частоты многомерной таблицы сопряженности. Использование логарифма обуславливает линейность модели. Отсюда и название модели - логлинейная модель - логарифмическая линейная модель.

Предикторами в логлинейной модели выступают категориальные переменные и их взаимодействия. Категориальные переменные в логлинейной модели, как и в дисперсионном анализе, называют также факторами. Логлинейный анализ используется для углубленного исследования многомерных таблиц сопряженности. Он позволяет проверить статистическую значимость различных факторов и их взаимодействий, присутствующих в таблице сопряженности. В этом его сходство с дисперсионным анализом. Модель взаимосвязи между натуральными логарифмами частот и предикторами - линейная, в этом сходство логлинейного анализа с регрессионным анализом.

В зависимости от числа факторов логлинейные модели бывают: двухфакторные и многофакторные. В зависимости от числа параметров в модели выделяют насыщенные и ненасыщенные логлинейные модели.

Модель называется насыщенной, если она содержит все факторы и их возможные взаимодействия. В этом случае число параметров в модели будет больше или равно числу ячеек в таблице сопряженности. Модель называется ненасыщенной, если она содержит только часть статистически значимых факторов и их взаимодействий. В этом случае число параметров в модели будет меньше числа ячеек в таблице сопряженности. Насыщенная модель не всегда бывает оптимальной, т.к. редко все факторы и все их взаимодействия оказываются статистически значимыми. Задача проведения логлинейного анализа - найти оптимальную ненасыщенную модель с минимальным числом параметров и максимальной точностью и надежностью. Для оценки качества приближения логлинейной модели применяют критерий хи-квадрат и отношение правдоподобия.

Логлинейный анализ часто используют при анализе нечисловой информации, например, в социологии, психологии и других науках при обработке больших массивов категориальных переменных.

2. Пример логлинейного анализа

Одним из основных методов разведочного анализа данных является кросстабуляция. Например, в медицине можно табулировать частоты различных симптомов заболевания по возрасту и полу пациентов; в области образования можно табулировать число учащихся, покинувших среднюю школу в зависимости от возраста, пола и этнического происхождения; экономист может табулировать число банкротств в зависимости от вида промышленности, региона и начального капитала; исследователь спроса может табулировать предпочтения потребителя в зависимости от вида товара, возраста и пола и т.д. Во всех этих случаях результаты представляются в виде многовходовых (многомерных) таблиц частот, то есть в виде таблиц сопряженности с двумя или более факторами.

Логлинейный анализ предлагает более глубокие методы исследования этих таблиц. А именно, он позволяет проверить статистическую значимость (см. раздел Элементарные понятия статистики) различных факторов и взаимодействий, присутствующих в таблице сопряженности (например, пол, место жительства и т.п.).

Анализ соответствий является описательным/разведочным методом, созданным для анализа сложных таблиц, содержащих некоторые меры соответствий между переменными - столбцами и переменными - строками. Получаемые результаты содержат информацию, похожую по своей природе на результаты Факторного анализа. Они позволяют изучить структуру категориальных переменных, включенных в таблицу.

3. Двумерные таблицы частот

Обзор методов логлинейного анализа начнем с наиболее простой таблицы сопряженности 2 x 2. Представьте, что вы интересуетесь зависимостью между возрастом людей и сединой волос. Вы имеете выборку из 100 человек и определяете, у кого из них седые волосы. Вы также записываете примерный возраст людей. Результаты этого исследования представлены в таблице следующим образом:

Седые волосы

Возраст

Всего

до 40 лет

от 40 и старше

Нет

Да

40

20

5

35

45

55

Всего

60

40

100

Это и есть простейшая таблица сопряженности 2 x 2 (название ее понятно: в таблице имеется две строки и два столбца, соответствующие двум сопряженным переменным, каждая из которых принимает два значения). Далее, в процессе интерпретации результатов этого маленького анализа, вы познакомитесь с терминологией, которая будет полезна при анализе более сложных таблицы. логлинейный многомерный частота двухфакторный

Объясняющие переменные и переменные отклика. В теории множественной регрессии и в дисперсионном анализе обычно различают независимые и зависимые переменные. Зависимые переменные, это те переменные, поведение которых исследователь пытается "объяснить", то есть он предполагает, что эти переменные зависят от независимых переменных и хочет эту зависимость (связь) оценить. Факторы в таблицах 2x2 могут также рассматриваться с этой точки зрения: рассмотрите цвет волос (седой, не седой) как зависимую переменную, а возраст - как независимую. Альтернативные термины, которые используются при анализе таблиц сопряженности (называемых иногда также кросс-таблицами) - это переменные отклика и объясняющие переменные, соответственно. Переменные отклика - это те переменные, которые изменяются в ответ на изменение объясняющих переменных. Поэтому в приведенной выше таблице цвет волос можно рассматривать как переменную отклика, а возраст - как объясняющую (независимую) переменную.

4. Подгонка маргинальных частот

Вернемся теперь к анализу нашего примера таблицы. Вы можете спросить, как выглядела бы таблица, если бы между переменными не было зависимости (нулевая гипотеза). Не вдаваясь в детали, можно ожидать, что в таком случае частоты в каждой ячейке будут пропорциональны маргинальным частотам, т.е. частотам, расположенным на краях таблицы (строки и столбцы Всего). Для примера рассмотрим таблицу:

Седые волосы

Возраст

Всего

до 40 лет

от 40 и старше

Нет

Да

27

33

18

22

45

55

Всего

60

40

100

Здесь маргинальные частоты показаны в отдельных ячейках по краям таблицы. Вы видите, что маргинальные частоты в последней строке равны сумме частот в столбцах (60 = 27+33, 40 = 18+22), а маргинальные частоты в последнем столбце равны сумме частот в строках (45 = 27+18, 55 = 33+22). Заметим далее, что 27/33=18/22=45/55 и 27/18=33/22=60/40. При заданных маргинальных частотах в ячейках содержатся частоты, которые следовало бы ожидать при отсутствии связи между возрастом и цветом волос. В отличие от данной таблицы, таблица, приведенная выше, показывает зависимость между двумя табулированными переменными. Для нее мы имеем соотношение: 40 > (40+5)*(40+20)/100 т.к. наблюдается меньше, чем ожидается при нулевой гипотезе, людей без седых волос при возрасте менее 40 лет и повышенное число людей с седыми волосами для возраста больше 40 лет. Другими словами, возраст и седина положительно связаны друг с другом.

Этот пример поясняет общий принцип, на котором основан логлинейный анализ: имея маргинальные суммы частоты для двух (или более) факторов вы можете вычислить частоты в ячейках, которые следовало бы ожидать при отсутствии связи между факторами. Статистически значимые отклонения наблюдаемых частот от ожидаемых указывают на зависимость между табулированными переменными.

Подход, основанный на подгонке модели. Можно сказать, что подгонка модели для двух переменных (возраст и цвет волос) сводится к вычислению частот в ячейках таблицы на основании маргинальных частот (сумм по строкам и по столбцам). Значимые отклонения наблюдаемых частот от ожидаемых указывают на несогласие с гипотезой независимости двух переменных, т.е. на наличие связи (в данном примере на наличие связи (зависимости) между возрастом и цветом волос.

5. Многомерные таблицы частот

Рассуждения, проведенные для таблицы 2 на 2, можно обобщить на более сложные таблицы. Предположим, что имеется третья переменная, показывающая имели, или не имели люди, попавшие в выборку, стрессы на работе. Так как вы интересуетесь влиянием стресса на цвет волос, переменную Стресс следует рассматривать как объясняющую. (Заметим, если "перевернуть" задачу и исследовать влияние седых волос на стресс, то стресс должен рассматриваться как отклик, а цвет волос будет уже объясняющей переменной.) В итоге мы получим таблицу частот с тремя входами.

Модель подгонки. Предыдущие рассуждения также применимы к анализу этой таблицы. Однако можно рассмотреть более сложные модели. Например, вы можете начать с гипотезы о независимости факторов. Как и ранее, ожидаемые частоты в этом случае должны соответствовать, т.е. быть пропорциональны, маргинальным частотам. Если возникают какие-либо значимые отклонения от этого соответствия (пропорциональности частот в ячейках и маргинальных частот), то гипотезу о независимости табулированных переменных следует отклонить.

6. Эффекты взаимодействия

Другой очевидной моделью является модель, в которой возраст и стресс связаны с цветом волос, но ни возраст, ни стресс не взаимодействуют в своем влиянии на цвет волос (иными словами, их влияние независимо). В этом случае нужно одновременно подобрать маргинальные суммы в двумерной (двухвходовой) таблице для возраста и цвета волос, полученной суммированием по уровням стресса, и для двумерной таблицы для стресса и цвета волос, полученной суммированием по уровням возраста. Если эта модель не согласуется с данными, то вы можете заключить, что возраст, стресс и цвет волос являются полностью взаимосвязанными (взаимозависимыми). Другими словами, что возраст и стресс взаимодействуют в своем влиянии на зависимую переменную.Понятие взаимодействия, рассматриваемое здесь, аналогично к понятию взаимодействия в дисперсионном анализе. Например, взаимодействие возраста и стресса можно интерпретировать как изменение зависимости между возрастом и цветом волос под влиянием стресса. Хотя возраст приводит только к небольшому поседению в отсутствие стресса, он оказывает весьма большое влияние в присутствии стресса. Другими словами, влияние возраста и стресса на поседение не аддитивно. Если вы не знакомы с концепцией взаимодействия, то можете прочитать об этом в разделе Вводный обзор главы Дисперсионный анализ. Интерпретация результатов логлинейного анализа многовходовых таблиц часто похожа на интерпретацию результатов дисперсионного анализа (ANOVA).

Итеративная пропорциональная подгонка. Вычисление ожидаемых частот значительно усложняется, когда таблица содержит более двух факторов. Тем не менее, они тоже могут быть вычислены, и поэтому, рассуждения, относительно таблиц типа 2x2 применимы к более сложным таблицам. Широко используемым методом вычисления ожидаемых частот является метод итеративной пропорциональной подгонки.

7. Логлинейная модель

Термин логлинейный (или логарифмически-линейный) происходит из-за того, что с помощью логарифмического преобразования можно переформулировать задачу анализа многомерных таблиц частот в терминах дисперсионного анализа. В частности, многовходовую таблицу частот можно рассматривать как отражение различных главных и взаимодействующих влияний, которые складываются вместе линейным образом. Бишоп, Файенберг и Холланд (Bishop, Fienberg, Holland, 1974) приводят подробное описание того, каким образом можно вывести логлинейные уравнения, выражающие соотношения между факторами в многовходовых таблицах частот.

8. Согласие

В предшествующем обсуждении была сделана ссылка на "значимость" отклонений наблюдаемых частот от ожидаемых. Можно вычислить статистическую значимость этого отклонения с помощью критерия хи-квадрат. Модуль Логлинейный анализ вычисляет два типа статистики хи-квадрат: традиционную статистику хи-квадрат Пирсона и статистику максимума отношения правдоподобия хи-квадрат (термин отношение правдоподобия был впервые использован в работе Neyman and Pearson, 1931; термин максимум правдоподобия был впервые использован в работе Fisher, 1922a). На практике интерпретация этих двух статистик хи-квадрат в общем случае схожа. Оба критерия оценивают, являются ли ожидаемые частоты в ячейках для соответствующей модели значимо отличающимися от наблюдаемых частот или нет. Если отличие значимо, то гипотеза об отсутствии связей отвергается.

Просмотр и отображение остаточных частот. После того, как модель выбрана, хорошей идеей, конечно, является исследование остаточные частоты. По определению, остаточные частоты равны разности наблюдаемых и ожидаемых частот. Если модель согласуется с таблицей, все остаточные частоты будут представлять собой " остаточный шум", то есть, состоять из положительных и отрицательных значений примерно одинакового размаха, случайным образом распределенных по всем ячейкам таблицы.

9. Статистическая значимость эффектов

Статистики хи-квадрат для моделей, связанных иерархически друг с другом или иерархически вкладывающихся друг в друга, могут сравниваться непосредственно. В общем случае, мы говорим, что две модели связаны иерархически друг с другом, если одна из них может быть получена из другой добавлением членов (переменных или взаимодействий) или путем их удаления (но не того и другого одновременно). Можно оценить разницу между статистиками хи-квадрат для двух моделей на основании разности между их степенями свободы. Если статистика хи-квадрат для разности значима, то можно заключить, что трехфакторная модель взаимодействия дает значимо лучшее согласие для наблюдаемой таблицы, чем модель без этого взаимодействия. Поэтому трехфакторное взаимодействие является статистически значимым.

В общем случае, две модели иерархически связаны друг с другом, если одна может быть получена из другой добавлением некоторых членов (переменных или взаимодействий) или удалением некоторых членов (но не тем и другим одновременно).

10. Автоматическая подгонка модели

Когда анализируются четырехмерные таблицы или таблицы с большим числом измерений, нахождение наилучшей модели может оказаться достаточно трудоемким. С целью облегчения поиска "хорошей модели" по имеющимся данным вы можете использовать автоматическую подгонку модели. Общая логика этого алгоритма следующая. Сначала программа подгоняет модель, в которой нет связей между факторами. Если она отвергается (т.е. соответствующая статистика хи-квадрат имеет значимую величину), то подгоняется модель со всеми возможными взаимодействиями двух факторов. Если эта модель тоже не принимается, то программа проверит модель со всеми трехфакторными взаимодействиями и т.д. Теперь предположим, что в ходе этого процесса установлено, что модель со всеми двухфакторными взаимодействиями подходит для имеющихся данных. Тогда программа начнет устранять двухфакторные взаимодействия, которые не являются статистически значимыми. Результирующей моделью станет такая модель, которая включает наименьшее необходимое для согласия число взаимодействующих факторов.

Размещено на Allbest.ru


Подобные документы

  • Способы вычисления наступления некоторого события. Решение задач, связанных с теорией вероятности. Использование таблицы функции Лапласа для определения теоретических частот нормального закона распределения. Определение исправленной выборочной дисперсии.

    контрольная работа [225,3 K], добавлен 14.03.2015

  • Согласование выборочных распределений. Отбор статистических данных с помощью таблицы случайных чисел. Расчет числовых характеристик распределения выборочных частот. Проверка предположения, что распределение генеральной совокупности является нормальным.

    курсовая работа [276,6 K], добавлен 19.01.2016

  • Описание абстрактных, структурных и частичных конечных автоматов. Работа синхронных конечных автоматов, содержащих различные типы триггеров, определение сигналов их возбуждения. Пример канонического метода структурного синтеза. Схема дверного замка.

    учебное пособие [19,6 M], добавлен 07.06.2009

  • Определение и основные свойства конечных групп с условием плотности для F-субнормальных подгрупп. Общие свойства, использующиеся для изучения строения конечных групп с плотной системой F-субнормальных подгрупп. Особенности развития теории формаций.

    курсовая работа [155,1 K], добавлен 02.03.2010

  • Основная идея метода конечных элементов. Пространство конечных элементов. Простейший пример пространства. Однородные граничные условия и функции. Построение базисов в пространствах. Свойства базисных функций. Коэффициенты системы Ритца–Галеркина.

    лекция [227,9 K], добавлен 30.10.2013

  • Свойства примитивных конечных разрешимых произведений N-разложимых групп. Условия факторизуемости проекторов конечных разрешимых произведений N-разложимых групп для случая. Порядок определения приложений полученных результатов для классических формаций.

    дипломная работа [239,8 K], добавлен 14.12.2009

  • Основные понятия размерности упорядоченных множеств. Определение размерности упорядоченного множества. Свойства размерности конечных упорядоченных множеств. Порядковая структура и элементы алгебраической теории решёток.

    дипломная работа [191,8 K], добавлен 08.08.2007

  • Статистическая обработка данных контроля времени (в часах) работы компьютерного класса в день. Полигон абсолютных частот. Построение графика эмпирической функции распределения и огибающей гистограммы. Теоретическое распределение генеральной совокупности.

    контрольная работа [379,3 K], добавлен 23.08.2015

  • Анализ и обработка статистического материала выборок Х1, Х2, Х3. Вычисление статистической дисперсии и стандарта случайной величины. Определение линейной корреляционной зависимости нормального распределения двух случайных величин, матрицы вероятностей.

    контрольная работа [232,5 K], добавлен 25.10.2009

  • Задачи которые решает корреляционный анализ. Определение формы связи - установление математической формы, в которой выражается связь. Измерение тесноты, т.е. меры связи между признаками с целью установления степени влияния данного фактора на результат.

    реферат [67,3 K], добавлен 09.11.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.