Графическое представление данных в статистике
Понятие о статистическом графике и изучение его элементов, трактовка графического метода как особой знаковой системы. Пространственные и масштабные ориентиры графика, система координат и экспликация. Особенности категоризованных и матричных графиков.
Рубрика | Экономико-математическое моделирование |
Вид | реферат |
Язык | русский |
Дата добавления | 28.03.2010 |
Размер файла | 83,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ УКРАИНЫ
ХАРЬКОВСКИЙ НАЦИОНАЛЬНЫЙ ЭКОНОМИЧЕСКИЙ УНИВЕРСИТЕТ
Кафедра философии и политологии
Индивидуальное научно-исследовательское задание
на тему:
«Графическое представление данных в статистике»
Харьков, 2007
1. Понятия о статистическом графике
Одним из наиболее распространенных методов статистики является графический метод. Он получил свое распространение из-за четкости, лаконичости и простоты изложения и возможной обработки статистических данных. Основой графического метода статистики является график во всех его вариациях. В современной науке графический метод получил широкое распространение, и на данный момент является одним из наиболее используемых методов научного обобщения.
Выразительность, доходчивость лаконичность, универсальность, обозримость графических изображений сделали их незаменимыми в исследовательской работе и в международных сравнениях и сопоставлениях социально - экономических явлений.
Впервые о технике составления статистических графиков упоминается в работе английского экономиста У. Плейфейра «Коммерческий и политический атлас», опубликованной в 1786 г. и положившей начало развитию приемов графического изображения статистических данных.
Трактовка графического метода как особой знаковой системы - искусственного знакового языка - связана с развитием семиотики, науки о знаках и знаковых системах.
Знак в семиотике служит символическим выражением некоторых явлений, свойств или отношений.
Существующие в семиотике знаковые системы принято разделять на неязыковые и языковые.
Неязыковые знаковые системы дают представление о явлениях окружающего нас мира (например, шкала измерительного прибора, высота столбика ртути в термометре и т.д.).
Языковые знаковые системы выполняют сигнальные функции, а также задачи сопоставления совокупностей явлений и их анализа. Характерно, что в этих системах сочетание знаков приобретает смысл только тогда, когда их объединение производится по определенным правилам.
В языковых знаковых системах различают естественные и искусственные системы знаков, или языков.
С точки зрения семиотики человеческая речь, выраженная знаками - буквами, составляет естественный язык.
Искусственные языковые системы используются в различных областях жизни и техники. К ним относятся системы математических, химических знаков, алгоритмические языки, графики и др.
Не исключая естественного языка, искусственные, или символические языки упрощают изложение специальных вопросов определенной области знаний.
Таким образом, статистический график - это чертеж, на котором статистические совокупности, характеризуемые определенными показателями, описываются с помощью условных геометрических образов или знаков. Представление данных таблиц в виде графика производит более сильное впечатление, чем цифры, позволяет лучше осмыслить результаты статистического наблюдения, правильно их истолковывать, значительно облегчает понимание статистического материала, делает его наглядным и доступным. Это, однако, вовсе не означает, что графики имеют лишь иллюстративное значение. Они дают новое знание о предмете исследования, являясь методом обобщения исходной информации.
Значение графического метода в анализе и обобщении данных велико. Графическое изображение, прежде всего, позволяет осуществить контроль достоверности статистических показателей, так как, представленные на графике, они более ярко показывают имеющиеся неточности, связанные либо с наличием ошибок наблюдения, либо с сущностью изучаемого явления. С помощью графического изображения возможны изучение закономерностей развития явления, установление существующих взаимосвязей. Простое сопоставление данных не всегда дает возможность уловить наличие причинных зависимостей, в то же время их графическое изображение способствует выявлению причинных связей, в особенности в случае установления первоначальных гипотез, подлежащих затем дальнейшей разработке. Графики также широко используются для изучения структуры явлений, их изменения во времени и размещения в пространстве. В них более выразительно проявляются сравнительные характеристики и отчетливо виды основные тенденции развития и взаимосвязи, присущие изучаемому явлению или процессу.
При построении графического изображения следует соблюдать ряд требований. Прежде всего график должен быть достаточно наглядным, так как весь смысл графического изображения как метода анализа в этом и состоит, чтобы наглядно изобразить статистические показатели. Кроме того, график должен быть выразительным, доходчивым и понятным. Для выполнения вышеперечисленных требований каждый график должен включать ряд основных элементов: графический образ; поле графика; пространственные ориентиры; масштабные ориентиры; эксплуатацию графика.
Рассмотрим подробнее каждый из указанных элементов. Графический образ (основа графика) - это геометрические знаки, т.е. совокупность точек, линий, фигур, с помощью которых изображаются статистические показатели. Важно правильно выбрать графический образ, который должен соответствовать цели графика и способствовать наибольшей выразительности изображаемых статистических данных. Графическими являются лишь те образы, в которых свойства геометрических знаков - фигура, размер линий, расположение частей - имеют существенное значение для выражения содержания изображаемых статистических величин, причем каждому изменению выражаемого содержания соответствует изменение графического образа.
Поле графика - это часть плоскости, где расположены графические образы. Поле графика имеет определенные размеры, которые зависят от его назначения.
Пространственные ориентиры графика задаются в виде системы координатных сеток. Система координат необходима для размещения геометрических знаков в поле графика. Наиболее распространенной является система прямоугольных координат (рис. 1).
Для построения статистических графиков используется обычно только первый изредка первый и четвертый квадраты. В практике графического изображения применяются также полярные координаты. Они необходимы для наглядного изображения циклического движения во времени. В полярной системе координат (рис.1) один из лучей, обычно правый горизонтальный, применяется за ось координат, относительно которой определяется угол луча. Второй координатой считается ее расстояние от центра сетки, называемое радиусом. В радиальных графиках лучи обозначают моменты времени, а окружности - величины изучаемого явления. На статистических картах пространственные ориентиры задаются контурной сеткой (контуры рек, береговая линия морей и океанов, границы государств) и определяют те территории, к которым относятся статистические величины.
Масштабные ориентиры статистического графика определяются масштабом и системой масштабных шкал. Масштаб статистического графика - это мера перевода числовой величины в графическую.
Масштабной шкалой называется линия, отдельные точки которой могут быть прочитаны как определенные числа. Шкала имеет большое значение в графе и включает три элемента: линию (или носитель шкалы), определенное число помеченных черточками точек, которые расположены на носителе шкалы в определенном порядке, цифровое обозначение чисел, соответствующих отдельным помеченным точкам. Как правило, цифровым обозначением снабжаются не все помеченные точки, а лишь некоторые из них, расположенные в определенным порядке. По правилам числовое значение необходимо помещать строго против соответствующих точек, а не между ними (рис. 2).
5 10 15 20 25
Графические интервалы
Длина шкалы
Рис. 2. Числовые интервалы
Носитель шкалы может представлять собой как прямую, так и кривую линии. Поэтому различают шкалы прямолинейные (например, миллиметровая линейка) и криволинейные - дуговые и круговые (циферблат часов).
Графические и числовые интервалы бывают равными и неравными. Если на все протяжении шкалы равным графическим интервалом соответствуют равные числовые, такая шкала называется равномерной. Когда же равным числовым интервалам соответствуют неравные графические интервалы и наоборот, шкала называется неравномерной.
Масштабом равномерной шкалы называется длина отрезка (графический интервал), принятого за единицу и измеренного в каких - либо мерах. Чем меньше масштаб (рис. 3), тем гуще располагаются на шкале точки, имеющие одно и то же значение. Построить шкалу - это значит на заданном носителе шкалы разместить точки и обозначить их соответствующими числами согласно условиям задачи.
0 1 Масштаб 50 мм
0 1 2 3 4 5 Масштаб 10 мм
0 10 20 30 40 50 Масштаб 1 мм
0 100 200 300 400 500 Масштаб 0,1 мм
Рис. 3. Масштабы
Как правило, масштаб определяется примерной прикидкой возможной длины шкалы и ее пределов. Например, на поле в 20 клеток надо построить шкалу от 0 до 850. Так как не делится удобно на 20, то округляем число 850 до ближайшего удобного числа, в данном случае 1000 (1000 : 20 = 50), т.е. в оной клетке 50, в других клетках 100; следовательно, масштаб - 100 в двух клетках.
Из неравномерных наибольшее распространение имеет логарифмическая шкала. Методика ее построения несколько иная, так как на этой шкале отрезки пропорциональны не изображаемым величинам, а их логарифмами. Так, при основании 10 lg1 = 0; lg = 0 = 1; lg100 = 2 и т.д. (рис. 4).
0 0,5 1,0
0 1 2 3
0 10 100 1000 Числа
0 1 2 3 Логарифмы чисел
0123Логарифмы чисел
Рис. 4.
Последний элемент графика - экспликация. Каждый график должен иметь словесное описание его содержания. Оно включает его содержание; подписи вдоль масштабных шкал и пояснения к отдельным частям графика.
2. Классификация видов графиков.
Существует множество видов графических изображений (рис. 5, 6). Их классификация основана на ряде признаков: а) способ построения графического образа; б) геометрические знаки, изображающие статистические показатели; в) задачи, решаемые с помощью графического изображения.
Рис. 5. Классификация статистических графиков по форме графического образа
По способу построения статистические графики делятся на диаграммы и статистические карты.
Диаграммы - наиболее распространенный способ графических изображений. Это графики количественных отношений. Виды и способы их построения разнообразны. Диаграммы применяются для наглядного сопоставления в различных аспектах (пространственном, временном и др.) независимых друг от друга величин: территорий, населения и т.д. При этом сравнения исследуемых совокупностей производится по какому -
Рис.6. Классификация статистических графиков по способу построения и задачам изображения либо существующему варьирующему признаку.
Статистические карты - графики количественного распределения по поверхности. По совей основной цели они близко примыкают к диаграммам и специфичны лишь в том отношении, что представляют собой условные изображения статистических данных на контурной географической карте, т.е. показывают пространственное размещение или пространственную распространенность статистических данных. Геометрические знаки, как было сказано выше, - это либо точки, либо линии или плоскости, либо геометрические тела. В соответствии с этим различают графики точечные, линейные, плоскостные и пространственные (объемные).
При построении точечных диаграмм в качестве графических образов применяются совокупности точек; при построении линейных - линии. Основной принцип построения всех плоскостных диаграмм сводится к тому, что статистические величины изображаются на столбиковые, полосовые, круговые, квадратные и фигурные.
Статистические карты по графическому образу делятся на картограммы и картодиаграммы.
В зависимости от круга решаемых задач выделяют диаграммы сравнения, структурные диаграммы и диаграммы динамики.
Особым видом графиков являются диаграммы распределения величин, представленных вариационным рядом.
3. Категоризованные графики
Одним из наиболее мощных аналитических методов исследования является разделение ("разбиение") данных на группы для сравнения структуры получившихся подмножеств. Эти методы широко применяются как в разведочном анализе данных, так и при проверке гипотез и известны под разными названиями (классификация, группировка, категоризация, разбиение, расслоение и пр.). Например, взаимосвязь между возрастом и риском инфаркта может отличаться для мужчин и женщин (для мужчин эта зависимость сильнее). Или например, зависимость между приемом лекарств и снижением уровня холестерина может наблюдаться только для женщин с пониженным давлением и в возрасте 30-40 лет. Производительность или гистограммы мощности могут различаться для временных промежутков, когда управление осуществляется разными операторами. Разным экспериментальным группам также могут соответствовать разные наклоны линий регрессии.
Для количественного описания различий между группами наблюдений разработаны многочисленные вычислительные методы, основанные на группировке данных (например, дисперсионный анализ). Однако графические средства (такие как рассматриваемые в этом разделе категоризованные графики) дают особые преимущества и позволяют выявить закономерности, которые трудно поддаются количественному описанию и которые весьма сложно обнаружить с помощью вычислительных процедур (например, сложные взаимосвязи, исключения или аномалии). В этих случаях графические методы предоставляют уникальные возможности многомерного аналитического исследования или "добычи" данных.
Категоризованные и матричные графики. Матричные графики также состоят из нескольких графиков; однако здесь каждый из них основывается (или может основываться) на одном и том же множестве наблюдений, и графики строятся для всех комбинаций переменных из одного или двух списков. Для категоризованных графиков требуется такой же выбор переменных, как и для некатегоризованных графиков соответствующего типа (например, две переменных для диаграммы рассеяния). В то же время для категоризованных графиков необходимо указать, по крайней мере одну группирующую переменную (или способ разбиения наблюдений на категории), где содержалась бы информация о принадлежности каждого наблюдения к определенной подгруппе (например, Chicago, Dallas). Группирующая переменная не будет непосредственно изображена на графике (т.е. не будет построена), однако она будет служить критерием для разделения всех анализируемых наблюдений на отдельные подгруппы. Как показано выше, для каждой группы (категории), определяемой группирующей
Общие и независимые шкалы. Каждый элементарный график, входящий в состав категоризованного графика, может быть масштабирован в соответствии со своим собственным диапазоном значений (независимые шкалы).
Общий масштаб позволяет сравнивать диапазоны и распределения значений разных категорий. Однако, если эти диапазоны сильно различаются (что приводит к очень большой общей шкале), то исследование некоторых графиков может быть затруднено. Использование независимого масштаба может упростить выявление трендов и определенных закономерностей внутри категорий, но в то же время затруднить сравнение диапазонов значений разных подгрупп.
Методы категоризацииСуществует пять основных методов категоризации значений, которые будут кратко описаны в этом разделе: целые числа, категории, границы, коды и сложные подгруппы. Обратите внимание, что одни и те же методы категоризации можно использовать как для разбиения наблюдений по входящим графикам, так и для категоризации наблюдений внутри входящих графиков ( например, на гистограммах или диаграммах размаха).
Целые числа. При использовании этого режима для определения категорий будут использованы целые значения выбранной группирующей переменной, и для всех наблюдений, принадлежащих каждой категории (заданной этими целыми числами), будет построено по одному графику. Если выбранная группирующая переменная содержит не целочисленные значения, то программа автоматически округлит каждое значение выделенной переменной до целого числа
Категории. В этом режиме категоризации нужно указать желаемое число категорий. Программа разделит весь диапазон значений выбранной группирующей переменной (от минимального до максимального) на указанное число интервалов равной длины.
Границы. Метод границ также представляет собой интервальную категоризацию, однако в этом случае интервалы могут иметь произвольную (например, различную) длину, определяемую пользователем (например, "меньше -10", "больше или равно -10, но меньше 0", "больше или равно 0, но меньше 10" и "больше или равно 10").
Коды. Этот метод следует использовать в том случае, если выбранная группирующая переменная содержит "коды " (т.е. особые смысловые значения, такие как Male, Female), по которым можно разбить данные на категории.
Сложные подгруппы. Этот метод дает возможность пользователю использовать для выделения подгрупп более одной переменной. Другими словами, категоризация, основанная на выделении сложных подгрупп, может представлять не распределения конкретных переменных, а распределения частот определенных "событий" при заданной комбинации значений любого числа переменных текущего набора данных. Например, можно указать шесть категорий, задаваемых комбинациями значений трех переменных Gender, Age и Employment.
Гистограммы используются для изучения распределений частот значений переменных. Такое частотное распределение показывает, какие именно конкретные значения или диапазоны значений исследуемой переменной встречаются наиболее часто, насколько различаются эти значения, расположено ли большинство наблюдений около среднего значения, является распределение симметричным или асимметричным, многомодальным (т.е. имеет две или более вершины) или одномодальным и т.д. Гистограммы также используются для сравнения наблюдаемых и теоретических или ожидаемых распределений. Категоризованные гистограммы представляют собой наборы гистограмм, соответствующих различным значениям одной или нескольких категоризующих переменных или наборам логических условий категоризации (см. Методы категоризации).
Частотные распределения могут представлять интерес по двум основным причинам.
· По форме распределения можно судить о природе исследуемой переменной (например, бимодальное распределение позволяет предположить, что выборка не является однородной и содержит наблюдения, принадлежащие двум различным множествам, которые в свою очередь нормально распределены).
· Многие статистики основываются на определенных предположениях о распределениях анализируемых переменных; гистограммы позволяют проверить, выполняются ли эти предположения.
Как правило, работа с новым набором данных начинается с построения гистограмм всех переменных.
Гистограммы и группировка. Категоризованные гистограммы предоставляют такую же информацию о данных, как и группировка (например, среднее, медиану, минимум, максимум, разброс и т.п.; см. главу Основные статистики и таблицы). Хотя конкретные (числовые) значения описательных статистик легко увидеть в таблице, в то же время общую структуру и глобальные характеристики распределения проще изучать на графике. Более того, график дает качественную информацию о распределении, которую невозможно отразить с помощью какого-либо одного параметра. Например, по асимметрии распределения значений дохода можно сделать вывод о том, что большинство населения имеет низкий, а не высокий уровень доходов. Если помимо этого провести группировку данных по этническому и половому признакам, то можно обнаружить, что в некоторых подгруппах эта структура распределения станет еще более ярко выраженной. Хотя эта информация содержится в значении коэффициента асимметрии (для каждой подгруппы), но она легче воспринимается и запоминается, будучи графически представленной на гистограмме. Кроме того, на гистограмме можно наблюдать некоторые "впадины и выпуклости", которые могут свидетельствовать о социальном расслоении в исследуемой группе населения или об аномалиях в распределении дохода отдельных подгрупп, связанных с недавней налоговой реформой.
Категоризованные гистограммы и диаграммы рассеяния. Полезное применение категоризации для непрерывных переменных - это представление взаимосвязи трех переменных одновременно.
Диаграммы рассеяния
Двумерные диаграммы рассеяния используются для визуализации взаимосвязей между двумя переменными X и Y (например, весом и ростом). На этих диаграммах отдельные точки данных представлены маркерами на плоскости, где оси соответствуют переменным. Две координаты (X и Y), определяющие положение точки, соответствуют значениям переменных. Если между переменными существует сильная взаимосвязь, то точки на графике образуют упорядоченную структуру (например, прямую линию или характерную кривую). Если переменные не взаимосвязаны, то точки образуют "облако".
Можно построить также категоризованные диаграммы рассеяния, сгруппированные по значениям одной или нескольких переменных, а с помощью метода сложных подгрупп (см. Методы категоризации) - диаграммы рассеяния, категоризованные по заданным логическим условиям выбора подгрупп наблюдений.
Категоризованные диаграммы рассеянияпредставляют собой мощный исследовательский и аналитический метод для изучения взаимосвязей между двумя и более переменными среди различных подгрупп.
Однородность двумерных распределений (форма взаимосвязей).Диаграммы рассеяния обычно используются для выявления природы взаимосвязи двух переменных (например, кровяного давления и уровня холестерина), поскольку они предоставляют гораздо больше информации, чем коэффициент корреляции.
Например, неоднородность выборки, по которой рассчитываются корреляции, может привести к искажению значений коэффициента корреляции. Предположим, коэффициент корреляции рассчитывается по данным, полученным в двух экспериментальных группах, но этот факт при вычислениях игнорируется. Пусть эксперимент в одной из подгрупп привел к увеличению значений обеих переменных, и на диаграмме рассеяния данные из каждой группы образуют отдельные "облака".
Нелинейные зависимости. С помощью диаграмм рассеяния можно исследовать и нелинейные взаимосвязи между переменными. При этом не существует каких-либо "автоматических" или простых способов оценки нелинейности. Стандартный коэффициент корреляции Пирсона r позволяет оценить только линейность связи, а некоторые непараметрические корреляции, например, Спирмена R, дают возможность оценить нелинейность, но только для монотонных зависимостей. На диаграммах рассеяния можно изучить структуру взаимосвязей, чтобы затем с помощью преобразования привести данные к линейному виду или выбрать подходящую нелинейную подгонку.
Вероятностные графики
Существует три типа категоризованных вероятностных графиков: нормальные, полунормальные и с исключенным трендом. Нормальные вероятностные графики - это быстрый способ визуальной проверки степени соответствия данных нормальному распределению.
В свою очередь категоризованные вероятностные графики дают возможность исследовать близость к нормальному распределению различных подгрупп данных .
Категоризованные нормальные вероятностные графики представляют собой эффективный инструмент для исследования однородности группы наблюдений с точки зрения соответствия нормальному распределению.
Графики квантиль-квантиль
Категоризованные графики квантиль-квантиль (или К-К) используются для поиска в определенном семействе распределений того распределения, которое наилучшим образом описывает имеющиеся данные.
В случае категоризованных графиков К-К строится набор графиков квантиль-квантиль, по одному для каждого значения категориальных переменных (X или X и Y) или для заданных условий выбора сложных подгрупп. Для графиков К-К используются следующие семейства распределений: экспоненциальное, экстремальное, нормальное, Релея, бета-, гамма-, логнормальное и Вейбулла.
Графики вероятность-вероятность
Категоризованные графики вероятность-вероятность (или В-В) используются для проверки соответствия конкретного теоретического распределения имеющимся исходным данным. На этих графиках для каждого значения категориальных переменных (X или X и Y) или для заданных условий выбора сложных подгрупп создается по одному графику вероятность-вероятность.
На графиках В-В строится наблюдаемая функция распределения (доля непропущенных значений x) в зависимости от теоретической функции распределения, чтобы оценить соответствие этой теоретической функции наблюдаемым данным. Если все точки этого графика располагаются на диагонали (содержащей точку 0 и имеющей наклон 1), то можно заключить, что наблюдаемое распределение хорошо аппроксимируется данной теоретической функцией.
Если не все точки данных располагаются на диагональной линии, то на таком графике можно визуально выделить группы наблюдений, соответствующие и не соответствующие искомому распределению (если, к примеру, точки образуют кривую S-образной формы вокруг диагональной линии, то к ним можно применить определенное преобразование для приведения к нужной форме распределения).
Линейные графики
На линейных графиках отдельные точки данных соединяются линиями. Это простой способ визуального представления последовательности значений (например, цены на фондовом рынке за несколько дней торгов). Категоризованные линейные графики строятся в том случае, если необходимо разбить данные на несколько групп (категоризовать) с помощью группирующей переменной (например, цены при закрытии рынка по понедельникам, вторникам и т.д.) или с помощью логических условий, составленных по нескольким переменным (например, цены при закрытии рынка в те дни, когда две другие акции и индекс Доу Джонса выросли по сравнению с другими ценами закрытия.
Диаграммы размаха
На диаграммах размаха (этот термин был впервые использован Тьюки в 1970 году) представлены диапазоны значений выбранной переменной (или переменных) для отдельных групп наблюдений. Для выделения этих групп используются от одной до трех категориальных (группирующих) переменных или набор логических условий выбора подгрупп.
Для каждой группы наблюдений вычисляется центральная тенденция (медиана или среднее), а также размах или изменчивость (квартили, стандартные ошибки или стандартные отклонения). Выбранные параметры отображаются на графике одним из пяти способов (Прямоугольники-Отрезки, Отрезки, Прямоугольники, Столбцы или Верхние-нижние засечки).
Можно выделить два основных направления использования диаграмм размаха: (a) отображение диапазонов значений отдельных элементов, наблюдений или выборок (например, типичные минимаксные графики цен на акции или товары или графики агрегированных данных с диапазонами), (б) отображение изменения значений в отдельных группах или выборках (например, когда точкой внутри прямоугольника представлено среднее значение для каждой выборки, сам прямоугольник соответствует значениям стандартной ошибки, а меньший прямоугольник или пара "отрезков" обозначает стандартное отклонение от среднего).
С помощью диаграмм размаха, на которых представлены характеристики изменчивости, можно быстро оценить и "интуитивно представить" силу связи между группирующей и зависимой переменной. Предположив, что зависимая переменная нормально распределена, и зная долю наблюдений, попадающих, к примеру, в интервал ±1 или ±2 стандартных отклонения от среднего (см. Элементарные понятия статистики), можно сделать, например, вывод о том, что 95% наблюдений из экспериментальной группы 1 попадают в другой диапазон значений, нежели 95% наблюдений из группы 2.
На этих графиках можно изобразить и так называемые усеченные средние (этот термин был впервые использован Тьюки в 1962 году), которые вычисляются после исключения заданного пользователем процента наблюдений с концов (хвостов) распределения.
Круговые диаграммы
Одним из наиболее широко используемых типов графического представления данных являются круговые диаграммы, на которых показаны пропорции или сами значения переменных. Категоризованные графики этого типа состоят из нескольких круговых диаграмм, где данные разделены по группам с помощью одной или нескольких группирующих переменных (например, gender) или категоризованы согласно логическим условиям выбора подгрупп.
В дальнейшем, говоря о категоризации этих графиков, мы будем иметь ввиду круговые диаграммы частот (в противоположность круговым диаграммам значений). Эти типы графиков, называемые также частотными круговыми диаграммами, представляют данные аналогично гистограммам. Все значения выбранной переменной категоризуются с помощью заданного метода категоризации, а затем относительные значения частот отображаются в виде сегментов круговой диаграммы пропорционального размера. Таким образом, эти графики являются альтернативным представлением гистограммы частот.
Диаграммы рассеяния круговых диаграмм. Еще одно очень полезное применение категоризованных круговых диаграмм - это представление относительных частот значений какой-либо переменной в различных "местах" совместного распределения двух других переменных.
Графики пропущенных значений и данных вне диапазона
На этих графиках можно наглядно представить структуру распределения точек данных, содержащих пропущенные значения или находящихся "вне диапазонов", заданных пользователем. При этом строится по одной двумерной диаграмме для каждой группы наблюдений, выделенной с помощью группирующих переменных или с помощью условий выбора сложных подгрупп.
Эти типы графиков используются в разведочном анализе данных, чтобы определить, является ли случайным распределение точек с пропущенными значениями, а также для оценки их диапазона.
Трехмерные (3М) графики
Трехмерные диаграммы рассеяния (пространственные, спектральные, трассировочные и диаграммы отклонений), карты линий уровня и поверхности также можно построить для подгрупп наблюдений, заданных с помощью выбранной категориальной переменной или логических условий выбора. Основная задача этих графиков - упростить сравнение взаимосвязей между тремя и более переменными для различных групп или категорий наблюдений.
Применения. Трехмерные графики в координатах XYZ отображают взаимосвязи между тремя переменными. С помощью различных способов категоризации можно исследовать эти зависимости при различных условиях (т.е. в разных группах).
Изучая, например, показанный ниже категоризованный график поверхности, можно сделать вывод о том, что величина допуска прибора не влияет на измерения (переменные Depend1, Depend2 и Height), кроме случая, когда она 3.
Тернарные графики
Категоризованные тернарные графики используются для исследования взаимосвязей между тремя и более переменными, три из которых представляют собой компоненты смеси (т.е. для каждого наблюдения значения их суммы являются постоянной величиной), при этом отдельный график строится для каждого уровня группирующей переменной.
Для построения тернарных графиков используется треугольная система координат на плоскости или в пространстве и строится зависимость между четырьмя (или более) переменными (компонентами X, Y и Z и откликами V1, V2 и т.д.). При этом накладываются ограничения на относительные значения каждой из компонент, чтобы они в сумме давали одинаковую величину для каждого наблюдения (например, 1).
На категоризованных тернарных графиках строится по одному графику для каждого значения группирующей переменной (или заданного пользователем подмножества данных), и все они отображаются в одном графическом окне, чтобы можно было сравнивать различные подгруппы наблюдений.
Применения. Эти графики применяются для анализа результатов эксперимента, в котором измеряемый отклик зависит от относительного соотношения трех компонент (например, трех химических веществ при составлении смесей), которое варьируется с целью определения его оптимального значения. Эти типы графического представления можно использовать и в других случаях, когда взаимосвязь между переменными, на которые наложены определенные ограничения, необходимо исследовать для различных групп или категорий наблюдений.
Закрашивание
Закрашивание является одним из первых и, по-видимому, наиболее широко распространенных методов, известных как графический разведочный анализ данных. Этот метод позволяет интерактивно выделять на экране отдельные точки или подмножества данных и задавать их характеристики, или исследовать их влияние на взаимосвязи между переменными (например, на матрицах диаграмм рассеяния) и идентифицировать выбросы(например, с помощью меток).
Связи между переменными можно наглядно представить с помощью аппроксимирующих функций (например, двумерных кривых или трехмерных поверхностей) и доверительных интервалов. Интерактивно удаляя или добавляя определенные подгруппы наблюдений, можно наблюдать за изменениями этих функций и их параметров. Одно из применений метода закрашивания - это, например, выделение на матричной диаграмме рассеяния всех точек данных, принадлежащих определенной категории (например, на показанном ниже рисунке на правом верхнем графике выделена группа наблюдений, соответствующих значению "среднего" уровня дохода).
Такое исследование помогает определить, как эти конкретные наблюдения влияют на связи между другими переменными того же набора данных (например, на корреляцию между "расходами" и "активами").
В режиме "динамического закрашивания" или "автоматического обновления функции подгонки" можно задать движение кисти по определенным последовательным диапазонам выбранной переменной, и исследовать динамику вклада этой переменной в связи между другими переменными этого набора данных.
Сглаживание двумерных распределений
Для наглядного представления таблицы значений двух переменных используются трехмерные гистограммы. Их можно рассматривать как объединение двух простых гистограмм для совместного анализа частот значений двух переменных. Чаще всего на этом графике для каждой "ячейки" таблицы нарисован один трехмерный столбец, а его высота соответствует частоте значений в этой ячейке. При построении трехмерной гистограммы для каждой из двух переменных можно использовать свой метод категоризации.
Когда предусмотрены процедуры сглаживания данных, то трехмерное представление частот значений можно аппроксимировать поверхностью. Такое сглаживание можно осуществить для любой трехмерной гистограммы. Для достаточно простой структуры данных такое сглаживание не имеет особого смысла.
Однако, в случае более сложной картины распределения частот эта процедура может оказаться эффективным инструментом разведочного анализа данных и позволит выявить особенности, которые трудно обнаружить на обычной трехмерной гистограмме (например, показанную выше "волновую структуру" поверхности).
Пиктографики
На пиктографиках каждое наблюдение представлено в виде многомерного символа, что позволяет использовать эти типы графического представления данных в качестве не очень простого, но мощного исследовательского инструмента. Главная идея такого метода анализа основана на человеческой способности "автоматически" фиксировать сложные связи между многими переменными, если они проявляются в последовательности элементов (в данном случае "пиктограмм"). Иногда понимание (или "чувство") того, что некоторые элементы "чем-то похожи" друг на друга, приходит раньше, чем наблюдатель (аналитик) может объяснить, какие именно переменные обусловливают это сходство (Lewicki, Hill, & Czyzewska, 1992). Конкретную природу проявившихся взаимосвязей между переменными позволяет выявить уже последующий анализ данных, основанный на изучении этого интуитивно обнаруженного сходства.
Основная идея пиктографиков заключается в представлении элементарных наблюдений как отдельных графических объектов, где значения переменных соответствуют определенным чертам или размерам объекта (обычно одно наблюдение = одному объекту). Это соответствие устанавливается таким образом, чтобы общий вид объекта менялся в зависимости от конфигурации значений.
Таким образом, объекты имеют определенный "внешний вид", который уникален для каждой конфигурации значений и может быть идентифицирован наблюдателем. Изучение таких пиктограмм помогает выявить как простые связи, так и сложные взаимодействия между переменными.
Анализ пиктографиков
Целесообразно проводить анализ пиктографиков в пять этапов.
1. Сначала выберите порядок анализируемых переменных. В большинстве случаев наилучшим вариантом оказывается случайная последовательность. Кроме того, можно попробовать расположить их в порядке, соответствующем полученному уравнению множественной регрессии, факторным нагрузкам или объясняемым факторам. Таким образом можно упростить и сделать более "однородным" общий вид пиктограмм, чтобы легче идентифицировать слабо выраженные различия. В то же время такой подход может затруднить идентификацию некоторых структур. На этом этапе можно дать только один универсальный совет: прежде чем использовать какие-либо сложные методы, попробуйте наиболее простой и быстрый вариант, а именно, случайную последовательность переменных.
2. Попробуйте обнаружить какие-либо закономерности, например, сходства между группами пиктограмм, выбросы или определенные связи между элементами (например, " если первые два луча звезды длинные, то как правило, с другой стороны есть один или два коротких луча"). На этом этапе лучше использовать пиктографики кругового типа.
3. При обнаружении закономерностей постарайтесь сформулировать их в терминах конкретных переменных.
4. Измените соответствие переменных и элементов пиктограмм (или переключитесь на один из последовательных пиктографиков), чтобы проверить обнаруженную структуру взаимосвязей (например, попробуйте переместить ближе друг к другу элементы, между которыми обнаружена связь). В некоторых случаях в конце этого этапа целесообразно исключить из рассмотрения те переменные, которые не вносят явного вклада в обнаруженную структуру.
5. И наконец, используйте один из численных методов (таких как регрессионный анализ, нелинейное оценивание, дискриминантный или кластерный анализ), чтобы проверить и попытаться количественно оценить обнаруженные закономерности или хотя бы их часть.
Систематизация пиктографиков
Большинство пиктографиков можно отнести к одной из двух групп: круговые и последовательные.
Круговые пиктографики. Круговые пиктографики (звезды, лучи, многоугольники) имеют вид "велосипедного колеса", на них значения переменных представлены расстояниями между центром пиктограммы ("втулкой") и их концами.
Такие графики могут помочь в обнаружении связей между переменными, которые проявляются в общей структуре пиктограмм и зависят от конфигурации значений самих переменных.
Чтобы описать такую " общую картину" в терминах конкретных моделей или проверить имеющиеся предположения, имеет смысл использовать последовательные пиктографики, которые могут оказаться более эффективными, если уже известно, что именно требуется обнаружить.
Последовательные пиктографики. Последовательные пиктографики (столбцы, профили, линии) представляют собой набор картинок с маленькими последовательными графиками (различных типов).
Значения переменных представлены здесь расстояниями между основанием пиктограммы и последовательными точками (например, высотами показанных выше столбцов). Эти графики менее эффективны на начальной стадии разведочного анализа, поскольку пиктограммы очень похожи между собой. Однако, как уже упоминалось ранее, такое представление может быть весьма полезным для проверки уже сформулированной гипотезы.
Пиктограммы круговых диаграмм. Эти пиктографики нельзя однозначно отнести к одной из двух групп. Все они имеют круговую форму, но в то же время последовательно разделены в соответствии с значениями переменных.
Стандартизация значений
Как правило, при построении пиктографиков значения переменных должны быть стандартизованы, чтобы их можно было сравнивать в пределах одной пиктограммы. Исключения составляют те случаи, когда на пиктограммах необходимо отобразить глобальные различия диапазонов выбранных переменных. Поскольку масштаб пиктограммы определяется наибольшим значением, то на пиктограмме могут отсутствовать те переменные, которые имеют значения другого порядка малости, например, на пиктограмме звезды некоторые лучи могут оказаться настолько короткими, что совсем не будут видны..
Применения
Пиктографики обычно используются: (1) для обнаружения структур или кластеров наблюдений и (2) для исследования сложных взаимосвязей между несколькими переменными. Первый вариант соответствует кластерному анализу; т.е. процедуре классификации наблюдений.
Предположим, вы изучали характеры актеров и записали их ответы на вопросы анкеты. С помощью пиктографика можно определить, существуют ли группы артистов, которые отличаются по их ответам на заданные вопросы (можно, к примеру, обнаружить, что некоторые артисты являются творческими, недисциплинированными и независимыми личностями, в то время как другая группа состоит из умных, дисциплинированных людей, которые ценят свою популярность).
Другая область применений - изучение взаимосвязей между переменными - напоминает факторный анализ, который используется для исследования вопроса о зависимости переменных. Предположим, изучалось мнение группы людей о различных марках автомобилей. В файле данных записаны средние оценки по каждому из свойств (рассматриваемых как переменные) для каждого из автомобилей (рассматриваемых как наблюдения).
Близкие способы графического представления
Связи между переменными из одного или двух списков могут быть представлены на матричных графиках. Использование матричных графиков одновременно с выделением подгрупп позволяет получить информацию, подобную той, которая отображается на пиктографиках.
Если использовать методы выделения подгрупп на диаграммах рассеяния, то для исследования взаимосвязей между двумя переменными можно использовать обычные 2М диаграммы рассеяния; а в случае трех переменных - 3Мдиаграммы рассеяния.
Типы графиков
"Лица Чернова". Для каждого наблюдения рисуется отдельное "лицо"; при этом относительные значения выбранных переменных соответствуют форме и размерам определенных его черт (например, длине носа, изгибу бровей, ширине лица).
Звезды. Это пиктографики кругового типа. Для каждого наблюдения рисуется пиктограмма в виде звезды; относительные значения выбранных переменных соответствуют относительным длинам лучей каждой звезды (по часовой стрелке, начиная с 12:00). Концы лучей соединены линиями.
Лучи. Эти пиктографики также относятся к круговому типу. Для каждого наблюдения строится одна пиктограмма. Каждый луч соответствует одной из выбранных переменных (по часовой стрелке, начиная с 12:00), и на нем отложено значение соответствующей переменной. Эти значения соединены линиями.
Многоугольники. Это пиктографики кругового типа. Для каждого наблюдения рисуется отдельный многоугольник; относительные значения выбранных переменных соответствуют расстояниям вершин от центра многоугольника (по часовой стрелке, начиная с 12:00).
Круговые диаграммы. Это пиктографики кругового типа. Для каждого наблюдения рисуется круговая диаграмма; относительные значения выбранных переменных соответствуют размерам сегментов диаграммы (по часовой стрелке, начиная с 12:00).
Столбцы. Это пиктографики последовательного типа. Для каждого наблюдения строится столбчатая диаграмма; относительные значения выбранных переменных соответствуют высотам последовательных столбцов.
Линии. Это пиктографики последовательного типа.
Для каждого наблюдения строится линейный график; относительные значения выбранных переменных соответствуют расстояниям точек излома линии от основания графика.
Профили. Это пиктографики последовательного типа. Для каждого наблюдения строится зонный график; относительные значения выбранных переменных соответствуют расстояниям последовательных пиков сечения над линией основания.
Подобные документы
Элементы теории матричных игр. Способы решения матричных игр. Различия в подходах критериев оптимальности при определении оптимальной стратегии в условиях статистической неопределенности. Нахождение седловой точки игры. Графическое решение матричной игры.
контрольная работа [366,9 K], добавлен 12.05.2014Разработка алгоритма на одном из алгоритмических языков для сглаживания экспериментальных данных с помощью маски простого скользящего среднего и маски взвешенного скользящего среднего. Масштабные коэффициенты для вывода графика. Результаты программы.
лабораторная работа [268,7 K], добавлен 19.02.2014Значение системы национальных счетов в статистическом изучении социально-экономических процессов. Методы исчисления валового внутреннего продукта и национального дохода. Общие принципы построения СНС. Направления анализа показателей отдельных счетов.
курсовая работа [115,4 K], добавлен 06.04.2009Основы теории матричных игр. Причины неопределенности результата. Смешанные стратегии в матричных играх. Свойства решений. Определение смешанных стратегий с использованием геометрической интерпретации. Нахождение неотрицательных решений неравенств.
контрольная работа [132,8 K], добавлен 13.04.2014Построение графиков положения, скорости и ускорения звеньев манипулятора в обобщенной системе координат. Визуализация движения робота в декартовой системе координат. Планирование траектории в обобщенных координатах методом сплайн-интерполяции Лагранжа.
курсовая работа [745,8 K], добавлен 30.09.2013Построение графиков сечений заданных поверхностей с помощью экспериментальных данных, полученных при моделировании электропотенциального поля в проводящей среде эквипотенциальных поверхностей. Построение графика распределения разностей потенциалов.
контрольная работа [160,0 K], добавлен 18.11.2013Построение и обоснование математической модели решения задачи по составлению оптимального графика ремонта инструмента. Использование табличного симплекс-метода, метода искусственных переменных и проверка достоверности результата. Алгоритм решения задачи.
курсовая работа [693,1 K], добавлен 04.05.2011Составление системы ограничений и целевой функции по заданным параметрам. Построение геометрической интерпретации задачи, ее графическое представление. Решение транспортной задачи распределительным методом и методом потенциалов, сравнение результатов.
контрольная работа [115,4 K], добавлен 15.11.2010Понятие сетевого графика, его сущность и особенности, назначение и применение. Правила построения сетевого графика, его порядок и этапы. Способы сокращения длительности выполнения проекта. Критерии и средства осуществления оптимизации сетевого графика.
реферат [37,2 K], добавлен 25.01.2009Способы применения теорий вероятности в практической статистике. Решение задач с применением математической статистики: теоремы появления независимых событий, формулы полной вероятности, формулы Бернулли. Постороение статистических таблиц и графиков.
контрольная работа [637,9 K], добавлен 06.01.2009