Описательные и внутригрупповые статистики, разведочный анализ данных
Инструменты и модули системы Statistica Base. Описательные, внутригрупповые, непараметрические, быстрые основные и блоковые статистики и графики. Методы для исследования корреляций между переменными. Общая модель дисперсионного и ковариационного анализа.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 17.09.2011 |
Размер файла | 1,2 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Описательные и внутригрупповые статистики, разведочный анализ данных
Описательные статистики и графики
Программа вычисляет практически все используемые описательные статистики общего характера: медиану, моду, квартили, заданные пользователем процентили, среднее значение и стандартное отклонение, квартильный размах, доверительные интервалы для среднего, асимметрию и эксцесс (и их стандартные ошибки), гармоническое и геометрическое среднее, а также многие специальные описательные статистики. Как и во всех других модулях системы STATISTICA, в разведочном анализе данных доступны разнообразные графики и диаграммы, в т.ч. различные виды диаграмм размаха и гистограмм, гистограммы двумерных распределений (трехмерные и категоризованные), двух- и трехмерные диаграммы рассеяния с помеченными подмножествами данных, нормальные и полунормальные вероятностные графики и графики с исключенным трендом, К-К и В-В графики и т.д. Имеется набор критериев для подгонки нормального распределения к данным (критерии Колмогорова-Смирнова, Лилиефорса и Шапиро-Уилкса). Процедуры для подгонки многих других типов распределений можно найти в разделах Анализ процессов STATISTICA и Графики.
Группировка
Практически все описательные статистики и графики могут быть построены для данных, категоризованных (сгруппированных) по значениям одной или нескольких группирующих переменных. Например, с помощью нескольких щелчков мыши можно сгруппировать имеющиеся данные о людях по полу и возрасту, а затем просмотреть категоризованные гистограммы, диаграммы размаха, нормальные вероятностные графики, диаграммы рассеяния и т.д. В случае, если было выбрано более двух категоризованных переменных, автоматически будет построен каскад соответствующих графиков. Имеется возможность производить категоризацию по числовым (непрерывным) переменным, например, можно потребовать, чтобы значения переменной были разбиты на заданное число интервалов; с помощью инструмента перекодировки можно в реальном времени задать специальный способ перекодировки переменной (возможна категоризация практически любой сложности, заданная через соотношения между любыми переменными файла данных). В дополнение к этому, в системе имеется специализированная процедура иерархической группировки, позволяющая осуществлять категоризацию данных по многим (до шести) переменным и строить различные категоризованные графики, описательные статистики и корреляционные матрицы для подгрупп (пользователь может в интерактивном режиме игнорировать некоторые факторы в полной таблице группировок и исследовать статистики по маргинальным таблицам). Многочисленные возможности форматирования и расстановки меток позволяют получать таблицы и отчеты презентационного качества, содержащие длинные метки и описания переменных.
При этом важно отметить, что процедура группировки выполняется для чрезвычайно больших объемов данных (например, по одной категоризующей переменной можно построить до 300 групп), а ее результаты содержат все соответствующие статистики дисперсионного анализа (включая полные таблицы ANOVA, критерии проверки гипотез типа критерия Левена однородности дисперсии, семь различных апостериорных (post-hoc) критериев и т.д.).
Как и во всех других модулях системы STATISTICA, для достижения высокой - не имеющей аналогов в сравнении с другими пакетами - точности результатов здесь можно производить вычисления с повышенной точностью (если нужно - с четырехкратной). Благодаря интерактивному характеру системы изучение данных становится очень простым делом. Например, графики для разведочных статистик можно построить непосредственно по любой таблице результатов, просто указав мышью на отдельные ячейки или группы ячеек. Одним щелчком мыши можно получать каскады графиков (в том числе сложных, например, со множественными категориями), которые затем можно просматривать в режиме демонстрации слайдов, просто нажимая кнопку Продолжить. В дополнение к большому числу готовых статистических графиков пользователь может самостоятельно задавать различные типы визуализации исходных данных, описательных статистик, взаимосвязей между статистиками, группировок и категоризаций с помощью средств прямого доступа (point-and-click), что позволяет существенно упростить задачу. Средства графического разведочного анализа объединены с собственно статистическими процедурами, что существенно облегчает визуальный анализ данных (например, в интерактивном режиме можно удалять выбросы, выделять подмножества данных, осуществлять сглаживание и подгонку функций, а богатые средства работы с кистью позволяют легко выявлять и/или выделять нужные данные).
Корреляции
В системе имеется большой набор методов для исследования корреляций между переменными. Прежде всего, могут быть вычислены все основные характеристики связи между переменными, в том числе: коэффициент корреляции Пирсона r, коэффициент ранговой корреляции Спирмена R, тау (b, c) Кендалла, Гамма, тетрахорический r, Фи, V Крамера, коэффициент сопряженности C, D Соммера, коэффициенты неопределенности, частные и получастные корреляции, автокорреляции, различные меры расхождения и т.д. Нелинейные корреляции, регрессия для цензурированных данных и другие более специализированные меры корреляции реализованы в модулях Нелинейное оценивание, Анализ выживаемости и STATISTICA Линейные и Нелинейные модели. Корреляционные матрицы могут быть вычислены с построчным, попарным удалением пропусков или с подстановкой среднего вместо пропущенных значений. Как и во всех других модулях системы STATISTICA, для достижения высокой - не имеющей аналогов среди других пакетов - точности результатов здесь можно производить вычисления с повышенной точностью (где требуется - с "учетверенной"). Как и все численные результаты, корреляционные матрицы в системе STATISTICA выводятся в виде таблиц, имеющих богатые возможности форматирования данных (см. ниже) и визуализации численных результатов; так, можно "указать" на конкретный корреляционный коэффициент и вызвать для него контекстное меню всевозможных "описательных диаграмм" (диаграммы рассеяния с доверительными интервалами, различные объемные гистограммы двумерных распределений, вероятностные графики и т.д.). Богатые средства закрашивания позволяют выделять (или, наоборот, затенять) отдельные точки на диаграмме рассеяния и таким образом оценивать их влияние на положение линии регрессии (и других подогнанных кривых).
Таким образом исследуются, например, выбросы или резко выделяющиеся наблюдения. Поддерживаются разнообразные форматы глобального вывода корреляций; значимые коэффициенты корреляции могут автоматически выделяться цветом, каждую ячейку таблицы результатов можно расширить и посмотреть число n наблюдений, по которым вычислен коэффициент и уровень значимости p, можно запросить подробные результаты, включающие все описательные статистики (попарные средние и стандартные отклонения, B-веса, пересечения, и т.д.). Как и все численные результаты, корреляционные матрицы выводятся в виде таблиц, поддерживающих операцию масштабирования и интерактивно управляемый формат вывода значащих цифр (например, от +0.4 до +0.41358927645193); таким образом, матрицы больших размеров можно сжимать (с помощью операции уменьшения, либо изменением формата вывода, что делается перетягиванием границ столбцов с помощью мыши). Это облегчает зрительное восприятие и, в частности, помогает быстро находить коэффициенты, превосходящие заданную величину или имеющие определенный уровень значимости (соответствующие ячейки в таблице результатов будут помечены красным цветом).
Диаграмма рассеивания, матричная диаграмма рассеивания, анализ по группам
Как и во всех других диалоговых окнах вывода, здесь доступны различные общие параметры графического вывода, позволяющие проводить дальнейшее изучение закономерностей и взаимосвязей между переменными; например, двух- и трехмерные диаграммы рассеяния (с метками наблюдений или без них) служат для выявления зависимостей по подмножествам наблюдений или последовательностям переменных. Корреляционные матрицы могут быть категоризованы группирующими переменными и представляться графически в виде категоризованных диаграмм рассеяния. Могут быть также выведены последовательности таблиц результатов "группировки корреляционных матриц" (по одной матрице на каждое подмножество наблюдений), которые возможно использовать в дальнейшем при Моделировании структурных уравнений [SEPATH] в модуле Линейные и Нелинейные модели STATISTICA). Вся корреляционная матрица может быть представлена на одном графике (со сколь угодно большим разрешением) в виде матрицы диаграмм рассеяния; такие матрицы можно интерактивно просматривать, "увеличивая" нужные участки графика (или прокручивая график в режиме увеличения) [см. рисунок]. Имеется также возможность строить категоризованные матричные диаграммы рассеяния (одна матричная диаграмма на каждое подмножество данных). Можно поступить иначе и построить матричные диаграммы рассеяния для нескольких подмножеств (например, задаваемых уровнями группирующей переменной или сколь угодно сложными условиями выбора наблюдений), где отдельные подмножества данных изображаются различными маркерами. Для визуализации корреляционных матриц и поиска в них глобальных закономерностей имеется еще много других графических методов (контурные графики, несглаженные поверхности, пиктограммы и т.д.). Все эти операции требуют лишь нескольких щелчков мыши, а для выбора параметров предоставляются различные средства быстрого доступа. Одновременно на экране можно открыть любое число таблиц результатов и графиков, что принципиально облегчает интерактивный разведочный и сравнительный анализ.
Быстрые основные статистики и блоковые статистики
В дополнение к описательным статистикам и корреляциям (о них было рассказано в двух предыдущих разделах) и таблицам частот (см. далее) в системе STATISTICA имеются интерактивные средства, позволяющие одним щелчком мыши вычислять основные статистики и строить графики в любой момент в течение сеанса работы. Быстрые основные статистики доступны из всех панелей инструментов и контекстных меню и выдают результат немедленно без каких-либо промежуточных диалоговых окон (см. иллюстрацию), если только пользователь не выберет другой режим. Более того, по умолчанию эти быстрые процедуры даже не требуют, чтобы были выбраны переменные для анализа - они выбираются автоматически по выделенному блоку ячеек или диапазону столбцов (или строк) в открытой в данный момент таблице исходных данных или таблице результатов. Быстрые основные статистики - очень удобный способ быстро получать "общие" сведения об исследуемых переменных. Сюда входит полный набор описательных статистик (включая порядковые статистики), корреляции и таблицы частот вместе с ожидаемыми нормальными частотами и другие числовые характеристики, а также большой набор встроенных статистических графиков. Выходные результаты для всех статистик и графиков могут быть категоризованы (сгруппированы по значениям некоторой переменной).
Блоковые статистики. Кроме того, все входные и выходные таблицы системы STATISTICA поддерживают функции Блоковые статистики и Блоковые статистические графики (см. иллюстрацию), выдающие статистики и статистические графики для произвольного выделенного блока ячеек в открытой в данный момент таблице исходных данных или таблице результатов. Результаты можно выводить по столбцам или по строкам выделенного блока в зависимости от смысла содержащихся в нем данных (исходные данные, нагрузки факторов, средние значения, частоты и т.д.). Например, применив метод Монте-Карло из модуля Моделирование структурными уравнениями (SEPATH), можно выделить блок чисел (например, оценок параметров для последовательных испытаний) в таблице результатов и построить для них описательные статистики (средние значения, медианы, квартили), гистограммы, вероятностные графики, диаграммы размаха и т.д.
статистика графика модуль
Интерактивный вероятностный калькулятор
Из любой панели инструментов системы STATISTICA доступен удобный интерактивный Калькулятор вероятностных распределений. Он поддерживает множество типов стандартных распределений (бета, Коши, хи-квадрат, экспоненциальное, экстремальное (Гумбеля), F, гамма, Лапласа, логнормальное, логистическое, Парето, Релея, t (Стьюдента), Вейбулла и Z (нормальное)). Графики (плотности вероятности и функции распределения) отображаются в интерактивном режиме, что позволяет наглядно представить себе то или иное распределение, изменяя его с помощью кнопок микропрокрутки (при нажатии левой кнопки мыши изменится последняя, а при нажатии правой - предпоследняя значащая цифра числа). Имеется возможность строить составные графики распределений в нужном диапазоне. Таким образом, калькулятор дает возможность интерактивно исследовать структуру распределений (например, зависимость вероятности от параметров).
T-критерии (и другие критерии групповых различий)
В этом окне могут быть вычислены T-критерии для зависимых и независимых выборок, а также многомерный критерий T 2 Хотеллинга (относительно сравнений средних значений для одномерных и многомерных данных смотрите также разделы, посвященные модулям ANOVA/MANOVA, и GLM (Общие Линейные модели) представленные в STATISTICA Линейные и Нелинейные модели). Как и в других модулях системы STATISTICA, здесь в каждом меню результатов доступны функции подробной диагностики и графические инструменты. Так, например, в случае t-критериев для независимых выборок имеется возможность вычислить t-критерий с раздельными оценками дисперсий и критерий Левена однородности дисперсии, построить различные диаграммы размаха, категоризованные гистограммы, вероятностные графики, категоризованные диаграммы рассеяния и т.д. Специализированные критерии групповых различий реализованы в некоторых других модулях (например, Непараметрическая статистика, Анализ выживаемости (в STATISTICA Линейные и Нелинейные модели), Надежность и позиционный анализ).
Таблицы частот, таблицы сопряженности, таблицы флагов и заголовков, анализ многомерных откликов
В системе имеются разнообразные средства для табуляции непрерывных и категориальных переменных, переменных множественного отклика и многомерных дихотомий. Вид таблиц и формат данных регулируется многочисленными функциями. Так, например, в таблицах для переменных множественного отклика или многомерных дихотомий маргинальные частоты и процентные показатели могут вычисляться по отношению к общему числу респондентов либо числу ответов, переменные множественного отклика можно обрабатывать парами, имеются различные варианты обработки пропущенных данных. Таблицы частот могут быть вычислены для заданных пользователем логических условий выбора наблюдений (условия могут быть любой степени сложности и связывать любые переменные в текущем файле данных), относящих наблюдения к той или иной категории в таблице. Все таблицы можно настроить для вывода результатов в форме конечного отчета (для печати). Например, не имеющую аналогов в других пакетах "многовходовую итоговую таблицу" можно вывести с группировками и иерархическим упорядочением факторов; в ячейках таблицы сопряженности могут выводиться проценты по столбцу, по строке или проценты от общего числа наблюдений в таблице; для описания категорий в таблице можно использовать длинные метки значений; частоты, превышающие заданный пользователем уровень можно выделить цветом и т.д. Программа может выводить кумулятивные (суммарные или накопленные) частоты и относительные частоты, логит- и пробит-преобразованные частоты, ожидаемые нормальные частоты (а также значения статистик Колмогорова-Смирнова, Лилиефорса и Шапиро-Уилкса), ожидаемые и остаточные частоты в таблицах сопряженности и др. Среди критериев значимости в таблицах сопряженности реализованы: критерии хи-квадрат Пирсона, максимума правдоподобия и с поправкой Йетса, хи-квадрат МакНемара, точный критерий Фишера (одно- и двухсторонний), Фи, тетрахорическая корреляция; доступны также следующие статистики: тау (a, b) Кендалла, Гамма, r Спирмена, D Соммера, коэффициенты неопределенности и др. Графические средства включают простые, категоризованные (множественные) и трехмерные гистограммы, гистограммы кросс-сечений (для любых "срезов" одно-, двух- и многовходовых таблиц) и много других типов графиков, в том числе уникальный в своем роде "частотный график взаимодействий", суммирующий частоты для сложных таблиц сопряженности (подобно диаграмме средних в модели дисперсионного анализа ANOVA). В интерактивном режиме можно просматривать целые каскады графиков (в том числе сложных, например, множественные категоризованные графики и графики взаимодействий).
Методы множественной регрессии
В модуле Множественная регрессия реализован полный набор методов линейной и фиксированной нелинейной регрессии. Эти методы включают простую, множественную, пошаговую регрессию (с пошаговым/блоковым включением или исключением предикторов), иерархическую, нелинейную (полиномиальную, экспоненциальную, логарифмическую и т.д.) и гребневую (ридж) регрессию, с включением или без включения константы (свободного члена), модели взвешенных наименьших квадратов. Программа вычисляет полный набор статистик и дополнительных анализов, включая полную таблицу регрессии (с значениями стандартной ошибки для B, Beta и свободного члена, коэффициента детерминации R2 и скорректированного R2 для моделей с константой и без нее и таблицей дисперсионного анализа), матрицы частных и получастных корреляций, корреляции и ковариации коэффициентов регрессии, матрицу выметания (обратную матрицу), статистику Дарбина-Уотсона d, расстояния Махаланобиса и Кука, удаленные остатки, доверительные интервалы для предсказанных значений и многие другие статистики.
Предсказанные значения и остатки
Широкие возможности анализа остатков и выбросов предоставляют многочисленные графики: диаграммы рассеяния, гистограммы, нормальные и полунормальные вероятностные графики, графики с удаленным трендом, графики частных корреляций, различные построчные графики и диаграммы остатков и выбросов и др. Значения зависимой переменной для отдельных наблюдений можно просмотреть визуально с помощью разведочных пиктографиков и других многомерных графиков, доступных непосредственно из меню таблицы результатов. Остаточные и предсказанные значения можно автоматически добавлять к текущему файлу данных. Процедура прогнозирования позволяет проводить анализ типа "что-если" и интерактивно вычислять предсказанные значения по задаваемым с клавиатуры значениям предикторов.
Внутригрупповые статистики
В системе STATISTICA можно проанализировать чрезвычайно большие планы (более 500 переменных). Кроме того, имеются дополнительные средства (специальный аппарат) для сверхбольших задач регрессии (с тысячами переменных), Двуступенчатый метод наименьших квадратов, преобразования Бокса-Кокса и Бокса-Тидвелла. Система STATISTICA имеет также специальные модули общего нелинейного оценивания (Нелинейное оценивание, Обобщенные линейные модели (GLZ), Обобщенные аддитивные модели (GAM), Частные модели наименьших квадратов (PLS)) с помощью которых можно оценить практически любую определенную пользователем нелинейную модель и где имеется целый ряд предопределенных моделей, включая логит-, пробит- модели и др. В системе STATISTICA также имеется дополнительный модуль SEPATH - Моделирование структурными уравнениями, который позволяет анализировать чрезвычайно большие матрицы корреляций, ковариаций и моментов (для моделей со свободным членом).
Непараметрические статистики
Модуль Непараметрическая статистика содержит полный набор непараметрических статистик, включая все стандартные тесты и некоторые специальные прикладные статистики, в частности, критерий Вальда-Вольфовица, U тест Манна-Уитни (с точными вероятностями вместо нормальных аппроксимаций для малых выборок), критерии Колмогорова-Смирнова, критерий Вилкоксона парных сравнений, ранговый дисперсионный анализ Краскела-Уоллиса, медианный тест, критерий знаков, ранговый дисперсионный анализ Фридмана, Q- критерий Кохрена, критерий МакНемара, коэффициент конкордации Кендалла, тау (b, c) Кендалла, ранговая корреляция Спирмена R, точный критерий Фишера, критерии хи-квадрат, статистики V-квадрат, Фи, Гамма, d Соммера, коэффициенты сопряженности и другие (специальные непараметрические критерии и статистики входят также в состав некоторых других модулей, см. например, Анализ выживаемости, Анализ процессов и др.) Все (ранговые) критерии могут работать с совпадающими рангами и вносят поправку на малый объем выборки и совпадающие ранги. Как и во всех других модулях системы STATISTICA, процедуры всех критериев снабжены разнообразными графическими инструментами (здесь доступны различные типы диаграмм рассеяния, специальные диаграммы размаха, линейные графики, гистограммы и много других двух- и трехмерных графиков).
Общая модель дисперсионного и ковариационного анализа
В модуле Дисперсионный анализ реализованы методы общего одномерного и многомерного дисперсионного и ковариационного анализа, которые являются подмножеством Общих Линейных Моделей, в которых можно обрабатывать планы практически неограниченной сложности. Имеется возможность задавать планы непосредственно, определив реальные переменные и уровни факторов, поэтому даже не очень опытные пользователи системы STATISTICA могут анализировать в этом модуле чрезвычайно сложные планы. По умолчанию в процедурах модуля используется подход, основанный на модели средних, но пользователь может также вычислить суммы квадратов типа I (последовательные, в порядке по умолчанию или заданном пользователем), типа II или типа III; для неполных планов могут также быть исследованы гипотезы типа IV. Для планов любого типа могут использоваться фиксированные или переменные ковариаты. Можно анализировать неполные планы (вложенные, на латинских квадратах, на греко-латинских квадратах, планы с единственным наблюдением на ячейку, случайные блочные планы и т.д.); пользователь может задать объединенные члены ошибки дисперсионного анализа. Могут быть построены апостериорные критерии для маргинальных средних или для эффектов взаимодействия (включая межгрупповые факторы, факторы повторных измерений, или и те и другие): критерий наименьшей значимой разности (НЗР), критерий Ньюмена-Кеулса, критерий множественных сравнений Дункана, критерий Шеффе, критерий Тьюки достоверно значимой разности (ДЗР), обобщенный Спьотволлом и Столайном критерий Тьюки для выборок неравного размера.
Для всех основных эффектов, взаимодействий и спланированных сравнений могут быть выведены полные статистики дисперсионного анализа; программа вычисляет также множественные таблицы классификации и SSCP-матрицы. Для всех эффектов могут быть выведены таблицы результатов, в которых отмечены цветом все значимые эффекты; в такой таблице, можно исследовать маргинальные средние или просмотреть мгновенные графики отдельных главных эффектов и взаимодействий, для чего достаточно просто дважды щелкнуть по эффекту. Для любых одно- и многомерных планов может быть проведен анализ контрастов неограниченной сложности. Пользователь может задавать частные эффекты взаимодействия, простые эффекты, полиномиальные контрасты и экспериментировать с произвольными комбинациями коэффициентов контраста. Имеются средства, упрощающие и ускоряющие задание параметров в сложных анализах: в дополнение к функции Быстрое заполнение, позволяющей автоматизировать ввод коэффициентов контраста, имеется широкий выбор предопределенных контрастов, доступных по одному щелчку мыши (включая полиномиальные, отклонение, разность, Хельмерта, простые и повторные). При анализе неполных планов со случайно распределенными пропущенными ячейками процедура анализа контрастов автоматически отмечает все пустые ячейки и помогает пользователю строить проверяемые гипотезы. Большую помощь при анализе оказывают богатые графические возможности модуля (автоматическое построение графиков взаимодействий, в том числе заданных пользователем каскадов графиков компонент ("срезов") для многофакторных взаимодействий, внутригрупповых распределений переменных и внутригрупповых корреляций, определенные пользователем диаграммы размаха для медиан, квартилей, средних, стандартных отклонений, стандартных ошибок и т.д. для произвольных сочетаний факторов и многие другие, см. далее). Могут быть исследованы гипотезы параллельности (т.е. отсутствия взаимодействий, включающих ковариаты); могут быть подсчитаны полные результаты одномерной и многомерной регрессии и выведены или нарисованы скорректированные средние. Программа вычисляет также поправки Гринхауса-Гейсера и Хюнха-Фельдта для факторов повторных измерений; для таких факторов автоматически вычисляются одно- и многомерные результаты. Пользователь может исследовать SS-матрицы (сумм квадратов) гипотез и ошибок, и там, где это возможно, программа выполняет полный канонический анализ с вычислением канонических корней, собственных значений, долю дисперсии, приходящуюся на каждый корень, а также стандартизованную и нестандартизованную дискриминантную функцию.
Для визуализации результатов при исследовании гипотез и предположений в моделях дисперсионного анализа имеется большое число различных типов графиков: графики распределений, графики "ствол и листья", категоризованные и составные графики корреляций и подгоночных функций, позволяющие сравнивать соотношения между зависимыми измерениями (и/или) ковариатами по ячейкам высших порядков, графики средних против стандартных отклонений или дисперсий, обычные и категоризованные нормальные, полунормальные вероятностные графики и графики с исключенным трендом, графики корреляций внутри ячеек и т.д. Там, где это может потребоваться, можно одним щелчком мыши получать каскады графиков, которые затем можно просматривать в режиме, подобном демонстрации слайдов, просто нажимая кнопку Далее. Кроме того, имеется большой набор статистических процедур для проверки предположений: C Кохрена, критерий Хартли, критерий Бартлета, критерий Левена, M Бокса, непараметрический критерий Сена и Пури, критерий Колмогорова-Смирнова, критерий сферичности Моучли и т.д. При этом подгонку моделей структурированных средних (с константами), построенных по матрицам моментов для одной и нескольких выборок, можно осуществлять также средствами модуля SEPATH (Моделирование структурными уравнениями) системы STATISTICA, в котором можно оценивать модели MANOVA с явной неоднородностью дисперсий/ковариаций в разных группах и/или с явными структурными моделями для зависимой переменной, различными для каждой группы.
Вариант этого модуля, входящий в пакет Quick STATISTICA, имеет следующие ограничения: в нем можно анализировать одномерные планы с числом межгрупповых факторов не более четырех, одним фактором повторных измерений и одной ковариатой.
Подгонка распределений
Опции модуля Подгонка распределений позволяют сравнивать имеющееся распределение переменной с различными теоретическими распределениями. К данным можно попытаться подогнать нормальное, прямоугольное, экспоненциальное, гамма, логнормальное, хи-квадрат распределение, распределения Вейбулла, Гомпертца, биномиальное, Пуассона, геометрическое и Бернулли. Точность подгонки может быть оценена с помощью критерия хи-квадрат или одновыборочного критерия Колмогорова-Смирнова (при этом можно контролировать параметры подгонки); кроме того, реализованы также критерии Лиллиефорса и Шапиро-Уилкса (см. выше). Подгонку гипотетического распределения определенного типа к эмпирическому распределению можно осуществлять при помощи настраиваемых гистограмм (обычных и кумулятивных) с наложенными на них подгоночными функциями; прямо из таблиц результатов можно строить графики и гистограммы для ожидаемых и наблюдаемых частот, отклонений и других показателей. Ряд других методов подгонки распределения реализован в модуле Анализ процессов STATISTICA - здесь можно получить оценку значений параметров по принципу максимума правдоподобия для распределений: бета, экспоненциального, эстремальных значений (типа I, Гумбеля), гамма, логнормального, Релея и Вейбулла. В этом модуле имеется возможность автоматически выбрать и подогнать распределение, в наибольшей степени согласующееся с данными, а также средства подгонки распределений через моменты (с помощью кривых Джонсона и Пирсона). На диаграммы могут быть наложены (в виде кривых и поверхностей) графики заданных пользователем функций. Эти функции могут изображать самые разные типы распределений: бета, биномиальное, Коши, хи-квадрат, экспоненциальное, экстремальных значений, F, гамма, геометрическое, Лапласа, логистическое, нормальное, логнормальное, Парето, Пуассона, Рэлея, t (Стьюдента) и Вейбулла, а также их интегралы и обратные распределения. О возможностях подгонять к данным сколь угодно сложные функции встроенных или заданных пользователем типов.
Размещено на Allbest.ru
Размещено на Allbest.ru
Подобные документы
Ознакомление с основами программного пакета Statistica. Описание статистики и графики. Группировка данных, корреляции, методы множественной регрессии. Рассмотрение набора непараметрических статистик. Реализация дисперсионного и ковариационного анализа.
контрольная работа [544,5 K], добавлен 09.06.2015Общее описание программы Statistica. Архитектура и интерфейс системы. Регрессионный анализ в Statistica. Решение задачи регрессионного анализа с помощью пакета анализа данных табличного процессора MS Excel. Многомерный дисперсионный анализ в SPSS.
курсовая работа [2,4 M], добавлен 22.01.2013Разработка базы данных для торговой компании АО "Рамстор". Подготовка и выпуск отчетности, формирование статистики по товарам и покупателям. Формирование и выгрузка статических документов в табличный процессор MS Excel. Описание средств проектирования.
дипломная работа [997,1 K], добавлен 07.04.2014Создание автоматизированной системы по сбору и анализу статистических данных сайта. Принципы сбора статистических данных. Исследование информационных потоков. Обзор современных СУБД и языков программирования. Логическая и физическая модель базы данных.
дипломная работа [3,0 M], добавлен 08.07.2012Обнаружение аномальных данных в одномерных выборках. Метод D-статистики и Титьена-Мура, графический метод диаграмма "ящик с усами". Описание алгоритмов верификации данных. Руководство для программиста. Анализ данных на основе критерия D-статистики.
курсовая работа [938,4 K], добавлен 24.06.2013Монтаж и прокладывание локальной сети 10 Base T. Общая схема подключений. Сферы применение компьютерных сетей. Протоколы передачи информации. Используемые в сети топологии. Способы передачи данных. Характеристика основного программного обеспечения.
курсовая работа [640,0 K], добавлен 25.04.2015Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.
курсовая работа [3,2 M], добавлен 19.05.2011Анализ статистики современного интернет-маркетинга. Время реакции посетителей на рекламные баннеры. Показатель возврата посетителей. Выбор имени домена веб сайта. Описание базы данных и реализации, интерфейса и функциональных возможностей online-магазина.
дипломная работа [2,7 M], добавлен 23.01.2016Анализ систем статистики сайтов и факторы, учитываемые при оценке посещаемости. Наиболее популярные счетчики. Построение модели оценки посещаемости сайта skalyariya.ru. Анализ матрицы коэффициентов парных корреляций и построение уравнения регрессии.
отчет по практике [135,5 K], добавлен 28.04.2014Ознакомление с методами анализа популярности языков программирования. Рассмотрение логической модели базы данных дистанционного практикума. Разработка листинга скрипта создания таблицы-справочника. Анализ статистики по применению языков программирования.
диссертация [1,4 M], добавлен 10.07.2017