Обработка эмпирических данных
Составление таблиц и форма сводной таблицы данных. Преобразование формы информации, проверка данных. Ранжирование уровня образования и должностного статуса. Анализ первичных статистик и оценка достоверности отличий, результаты корреляционного анализа.
Рубрика | Социология и обществознание |
Вид | реферат |
Язык | русский |
Дата добавления | 12.05.2015 |
Размер файла | 44,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ОБРАБОТКА ЭМПИРИЧЕСКИХ ДАННЫХ
Вопросы № 1. Первичная обработка данных
В ходе математико-статистической обработки данных (на специальном жаргоне) термины «признак», «показатель», «параметр» и «переменная» нередко употребляются как синонимы. Важно отличать от них понятие «значение». Каждое значение - это эмпирически выявленная, вполне определенная числовая величина того или иного показателя у конкретного испытуемого. Например, время реакции на раздражитель в третьей (первой, второй, десятой) пробе, время решения пятой задачи в третьей серии, выбранный испытуемым вариант ответа из семи предложенных и т. п.
1.1 Составление таблиц
В большинстве случаев обработку целесообразно начать с составления таблиц (сводных таблиц) полученных данных. В таблицу можно свести не только числовые данные. К данным качественного характера также могут быть применены простейшие способы количественной обработки. Для всей выборки и отдельных подвыборок могут быть подсчитаны частоты встречаемости (количество случаев появления события), а затем и частости (относительные частоты, то есть частоты, деленные на количество испытаний) интересующих вас индикаторов, проявлений некоторого вида.
Так, например, при использовании рисуночного теста «Дерево» можно в качестве параметра рассматривать наличие/отсутствие листьев на ветках в рисунке. Если этот параметр будет определен у всех испытуемых, это позволит подсчитать частость его появления по всей выборке и для отдельных групп внутри ее. В таблицу могут быть сведены данные и по другим параметрам теста «Дерево», а затем подсчитаны частости. Далее можно составить таблицу, в которой будут представлены данные не по отдельным испытуемым, а для всей вашей выборки и отдельных групп. Это позволит сделать шаг к более целостному представлению информации.
Основной для сводной таблицы исходных данных является следующая форма. Каждая строка содержит значения всех показателей одного испытуемого. В каждом столбце (поле) записаны значения одного показателя по всем испытуемых. Таким образом, в каждой ячейке (клетке) таблицы записано только одно значение одного показателя одного испытуемого.
В самой верхней строке дана нумерация всех столбцов. Во второй строке названы измеренные вами показатели, шкальные оценки и т. п. Вторая строка облегчает вам ориентировку в таблице. Оператору, который будет вводить ваши данные через клавиатуру компьютера, эта строка не нужна. В каждой последующей строке записана фамилия испытуемого и значения всех, измеренных у него параметров; разумеется, для всех испытуемых в одном и том же порядке показателей. Все строки и все столбцы должны быть пронумерованы. Последовательность признаков может быть упорядочена по разным основаниям. В первых столбцах лучше разместить демографические или социально-демографические показатели: пол, возраст, уровень образования (если важен) и т. д. Затем по убывающей значимости (предполагаемой информативности) приведены измеренные в эксперименте параметры. Параметры, полученные с помощью одной методики, удобнее располагать компактно - в одной группе (рядом друг с другом), например, все шкалы одной методики, шкалы следующей и т. д.
Испытуемых можно перечислить в алфавитном порядке, но лучше использовать этот принцип на самом нижнем уровне деления. Сначала лучше разделить испытуемых по их принадлежности к каким-либо подгруппам, которые будут сравниваться между собой. Внутри этих подгрупп полезно упорядочить испытуемых по полу, возрасту или другому, важному для вас, параметру (см. табл. 1).
Таблица 1
Форма |
сводной таблицы данных |
|||||||||
№ |
1 |
2 |
3 |
4 |
5 |
б |
7 |
8 |
9 |
|
№ п/п |
Фамилия, имя, отчество |
Пол |
Ио |
Ид |
Ин |
А |
В |
С |
Е |
|
1 |
Глухарь П. И. |
1 |
38 |
9 |
9 |
12 |
9 |
17 |
16 |
|
2 |
Орел С. С. |
1 |
37 |
10 |
9 |
12 |
10 |
17 |
18 |
|
3 |
Петух И. И. |
1 |
35 |
7 |
9 |
14 |
10 |
17 |
8 |
|
- |
- |
- |
- |
- |
- |
- |
- |
- |
- |
|
- |
- |
- |
- |
- |
- |
- |
- |
- |
- |
|
- |
- |
- |
- |
- |
- |
- |
- |
- |
- |
|
33 |
Кура Н. Н. |
2 |
39 |
10 |
8 |
10 |
9 |
15 |
15 |
|
34 |
Сова Т. О. |
2 |
37 |
10 |
9 |
10 |
9 |
12 |
11 |
|
35 |
Утка Л. А. |
2 |
31 |
9 |
8 |
9 |
7 |
5 |
7 |
Таблицам необходимо давать заголовки, достаточно полно отражающие их содержание и специфику. При большом количестве таблиц без заголовков по ходу ознакомления с текстом трудно понять их назначение.
И для ручной, и для компьютерной обработки в исходную сводную таблицу чаще всего заносят начальные данные. Сейчас преимущественной формой математико-статистической обработки стала компьютерная. Если форма распределения эмпирических данных незначительно отличается от нормального распределения, то предварительное центрирование, нормирование или перевод в шкальные (стандартизированные) оценки по имеющимся в данной методике таблицам не требуется. В начальный период обработки данных можно предположить, что собранный вами материал подходит для обработки средствами параметрической статистики. Получив на первом шаге компьютерных вычислений первичные статистики признаков, можно сделать дальнейшие, более точные, предположения о форме распределения каждого признака.
В ходе обработки данных весьма вероятно, что потребуются несколько пользовательских программ. Современные программы предоставляют довольно широкие возможности перевода данных из одной в другую. Однако не будет лишним соблюсти некоторые правила, чтобы облегчить преобразование формата данных.
Старайтесь без особой необходимости не заносить в таблицу различные текстовые символы (точки, запятые, тире и т. п.). Всю информацию, которую можно закодировать числами, лучше перевести в числовую форму. Это даст больше возможностей для разных видов обработки данных. Исключением является строка, в которой записаны названия (чаще краткие названия - аббревиатуры) измеренных показателей.
До начала набора данных в электронную таблицу узнайте, в каком виде должны записываться десятичные дроби - какой знак (точка или запятая) должен разделять целую дробную части.
Не объединяйте без необходимости ячейки рабочей таблицы. Эстетическому чувству полезно дать проявиться при оформлении таблицы в тексте рукописи, когда все подсчитано, но не ранее. Особо внимательно отнеситесь к первым ячейкам - в левом верхнем углу таблицы. Лучше заполнить их произвольными числами, чем оставлять пустыми. Без этого при экспорте в другой формат может быть не считана вся первая строка или может измениться структура всей таблицы.
1.2 Преобразование формы информации
данные информация отличие ранжирование
В таблицу целесообразно внести все интересующие вас признаки в форме десятичного числа, то есть предварительно пересчитать минуты в десятичные доли часа, секунды - в десятичные доли минуты, количество месяцев - в десятичную долю года и т. д. Это необходимо, поскольку формат данных для большинства используемых сейчас компьютерных программ накладывает свои ограничения.
В виде чисел в таблицу можно вписать информацию и о тех параметрах выборки, которые предположительно могут оказаться значимыми факторами, но имеются у вас в качественных показателях. Наиболее простыми операциями могут быть: числовое кодирование (мужчины - 1, женщины - 2; прошедшие обучение - 1, не прошедшие - 2 и т. п.) и перевод качественных показателей в ранги. Число 0 для кодирования лучше не использовать, поскольку некоторые статистические компьютерные программы не смогут обработать такие данные. Это не значит, что в таблицу вообще не могут быть записаны нулевые значения. Имеются в виду те случаи, когда в сформированной рабочей подвыборке какой-либо признак имеет только нулевые значения.
Уровень образования, ранжируя, можно следующим образом перевести в числа (см. табл. 2).
Таблица 2. Ранжирование уровней образования
Ранг |
Уровень образования |
|
1 |
Менее 5 классов школы |
|
2 |
5-8 классов или училище с дипломом о неполном среднем образовании |
|
3 |
9-11 классов или училище с дипломом о полном среднем образовании |
|
4 |
Техникум или колледж, или 1-2 курса вуза |
|
5 |
3-6 курсов вуза без диплома о высшем образовании |
|
6 |
Вуз с дипломом |
|
7 |
Аспирантура, ординатура или другие формы постдипломного образования со сроком обучения 2 года и более |
Разумеется, включая в обработку полученные таким образом числовые величины, мы не всегда обнаруживаем ясно выраженную зависимость этих параметров от остальных. Тем не менее, мы получаем возможность хотя бы приблизительной оценки взаимосвязей. Эту оценку можно сделать и другими способами. Например, при компьютерной обработке и использовании системы управления базой данных можно формировать подвыборки по разным основаниям деления, в том числе и по уровню образования или должностному статусу, и проверять различия между отдельными категориями выборки.
Таблица 3. Ранжирование должностного статуса
Ранг |
Должностной статус, категория |
|
1 |
Подсобные рабочие, технические исполнители |
|
2 |
Квалифицированные рабочие, вспомогательный персонал среднего уровня квалификации |
|
3 |
Инженерно-технические работники, специалисты со средним специальным и высшим образованием |
|
4 |
Работники нижнего руководящего звена (бригадиры, начальники участков и т. п.), руководители подразделений, имеющие в подчинении исполнителей, специалисты высокой квалификации, преподаватели, имеющие ученую степень |
|
5 |
Работники среднего руководящего звена (начальники цехов, отделов и т. д.), руководители основных структурных подразделений, имеющих в своем составе подразделения нижнего уровня, заместители руководителей предприятий, ведущие специалисты |
|
6 |
Работники верхнего руководящего звена (руководители предприятий, учреждений и организаций, их первые заместители, главные специалисты) |
Описанное числовое кодирование полезно для предварительного (разведочного) анализа - немного шансов выявить отчетливые закономерности, но проделать эту работу полезно. Включение, например, в корреляционный анализ таких числовых величин может обнаружить существование или отсутствие взаимосвязей с другими параметрами, позволит не тратить время на более сложные процедуры.
1.3 Проверка данных
После создания таблицы на бумаге или компьютере необходимо проверить качество полученных данных. Для этого часто достаточно внимательно осмотреть массив данных. Начать проверку следует с выявления ошибок (описок), которые заключаются в том, что неправильно написан порядок числа. Например, 100 написано вместо 10, 9,4 - вместо 94 и т. п. При внимательном просмотре по столбцам это легко обнаружить, поскольку сравнительно редко встречаются параметры, которые сильно варьируют. Чаще всего значения одного параметра имеют один порядок или ближайшие порядки. При наборе данных на компьютере важно соблюдать требования к формату данных в используемой статистической программе. Прежде всего это относится к знаку, который должен отделять в десятичном числе целую часть от дробной (точка или запятая).
Затем массив данных надо проверить на наличие «выскакивающих», вариант - выделяющихся значений, которые могли быть получены в результате неточных измерений, ошибок в записях, отвлечения внимания испытуемого и т. д. Если обнаружены «подозрительные» значения, то принять обоснованное решение об их выбраковке, используя достаточно мощный параметрический критерий t. Он рассчитывается по следующей формуле:
где t - критерий выпада; V -- выпадающее значение признака; М- средняя величина признака для всей группы, включающей артефакт; tst - стандартные значения критерия выпадов, определяемые для трех уровней доверительной вероятности по таблице приложения 1. Смысл критерия в том, чтобы определить, находится ли данная варианта в интервале, характерном для большинства членов выборки, или же вне его.
Допустим, нами принят уровень значимости 0,05 (доверительная вероятность 0,95), а значение критерия составило 1.5. Поскольку 95 % вариант лежат в пределах М ± 1,96 о (1,5 меньше 1,96), то, следовательно, и данная варианта лежит в указанном интервале. Если же значение критерия больше, например, 2,4, то это означает, что данное значение не относится к анализируемой совокупности (выборке), включающей 95 % вариант, а есть проявление иных закономерностей, ошибок и пр. и поэтому должно быть исключено из рассмотрения.
Например, в эксперименте вы предлагаете решать мыслительные задачи и регистрируете в числе других параметров время решения. При просмотре данных обнаруживаете, что у одного из испытуемых время решения заметно больше, чем у остальных. Это бывает связано с тем, что вместо решения очередной задачи испытуемый начинает «искать закономерность более широкого плана», «выводить общий принцип» или нечто подобное. Об этом он может сообщить, но может и не сообщить экспериментатору. Понятно, что время решения конкретной задачи при этом может сильно отличаться от средней величины. Если у вас есть предположение, что результаты какого-либо опыта, пробы обусловлены влиянием, которое вы не можете оценить или его оценка не входит в ваши планы, то вы окажетесь перед необходимостью принять обоснованное решение - включать полученное численное значение в дальнейшую обработку или нет.
Предположим, в эксперименте были получены следующие значения некоторого параметра: 10,20, 20, 30, 30, 40,40, 50, 210. Следовательно, п = 9. Вычислили: М = 50, а = 61. Можно ли считать значение 210 выпадающим?
Следовательно, значение 210 может считаться выпадающим и должно быть исключено из дальнейшей обработки.
После исключения выпадающих значений первичные статистические параметры вычисляются заново.
Вопрос № 2. Математико-статистическая обработка
2.1 Анализ первичных статистик
Для определения способов математико-статистической обработки, прежде всего, необходимо оценить характер распределения по всем используемым параметрам. Для параметров, имеющих нормальное распределение или близкое к нормальному, можно использовать методы параметрической статистики, которые во многих случаях являются более мощными, чем методы непараметрической статистики. Достоинством последних является то, что они позволяют проверять статистические гипотезы независимо от формы распределения.
Одним из важнейших в математической статистике является понятие нормального распределения. Нормальное распределение - модель варьирования некоторой случайной величины, значения которой определяются множеством одновременно действующих независимых факторов. Число таких факторов велико, а эффект влияния каждого из них в отдельности очень мал. Такой характер взаимовлияний весьма характерен для психических явлений, поэтому исследователь в области психологии чаще всего выявляет нормальное распределение. Однако так бывает не всегда, поэтому в каждом случае форма распределения должна быть проверена.
Важнейшими первичными статистиками являются:
а) средняя арифметическая - это величина, сумма отрицательных и положительных отклонений от которой равна нулю. В статистике ее обозначают буквой Мили х. Чтобы ее подсчитать, надо суммировать все значения ряда и разделить сумму на количество суммированных значений. Если в ряду есть числа со знаком «минус», то суммирование производят с учетом знаков;
б) среднее квадратичное отклонение (обозначаемое греческой буквой а (сигма) и называемое также основным, или стандартным, отклонением) - мера разнообразия входящих в группу объектов; она показывает, на сколько в среднем отклоняется каждая варианта (конкретное значение оцениваемого параметра) от средней арифметической. Чем сильнее разбросаны варианты относительно средней, тем большим оказывается и среднее квадратичное отклонение. Разброс значений характеризует и размах - разность между наибольшим и наименьшим значением в ряду. Однако сигма полнее характеризует разброс значений относительно средней арифметической;
в) коэффициент вариации - частное от деления сигмы на среднюю арифметическую, умноженное на 100 %. Обозначается CV:
Сигма - величина именованная и зависит не только от степени варьирования, но и от единиц измерения. Поэтому по сигме можно сравнивать изменчивость лишь одних и тех же показателей, а сопоставлять сигмы разных признаков по абсолютной величине нельзя. Для того, чтобы сравнить по уровню изменчивости признаки любой размерности (выраженные в различных единицах измерения) и избежать влияния масштаба измерений средней арифметической на величину сигмы, применяют коэффициент вариации, который представляет собой по существу приведение к одинаковому масштабу величины а.
Для нормального распределения известны точные количественные зависимости частот и значений, позволяющие прогнозировать появление новых вариант:
1) слева и справа от средней арифметической лежит 50% вариант;
2) в интервале от М- 1о до М + 1o - 68,7 % вариант;
3) в интервале от М /-1,96o до М + 1,96o - 95 % вариант.
Таким образом, ориентируясь на эти характеристики нормального распределения, можно оценить степень близости к нему рассматриваемого распределения.
Следующими по важности являются такие первичные статистики, как коэффициент асимметрии и эксцесс.
Коэффициент асимметрии - показатель скошенности распределения в левую или правую сторону по оси абсцисс. Если правая ветвь кривой длиннее левой - говорят о положительной асимметрии, в противоположном случае - об отрицательной.
Эксцесс - показатель островершинности. Кривые, более высокие в своей средней части - островершинные, называются эксцессивными, у них большая величина эксцесса. При уменьшении величины эксцесса кривая становится все более плоской, приобретая вид плато, а затем и седловины - с прогибом в средней части.
Эти параметры позволяют составить первое приближенное представление о характере распределения: у нормального распределения редко можно обнаружить коэффициент асимметрии, близкий к единице и более единицы (-1и+1). Подчеркну, что это только приблизительная оценка. Точную и строгую оценку нормальности распределения можно получить, используя один из существующих методов проверки (см., например, главы 2 и 5 книги Г. В. Суходольского «Основы математической статистики для психологов». Л., 1972.). Начать с анализа первичных статистик надо еще и по той причине, что они весьма чувствительны к наличию выпадающих вариант. Большие величины эксцесса и асимметрии часто являются индикатором ошибок при подсчетах вручную или ошибок при введении данных через клавиатуру для компьютерной обработки. Грубые промахи при введении данных в обработку можно обнаружить, если сравнить величины сигм у аналогичных параметров. Выделяющаяся величиной сигма может указывать на ошибки.
Существует правило, согласно которому все расчеты вручную должны выполняться дважды (особо ответственные - трижды), причем желательно разными способами, с вариацией последовательности обращения к числовому массиву.
По части никогда не удается полностью охарактеризовать целое, всегда остается вероятность того, что оценка генеральной совокупности на основе выборочных данных недостаточно точна, имеет некоторую большую или меньшую ошибку. Такие ошибки, представляющие собой ошибки обобщения, экстраполяции, связанные с перенесением результатов, полученных при изучении выборки, на всю генеральную совокупность, называются ошибками репрезентативности.
Репрезентативность - степень соответствия выборочных показателей генеральным параметрам.
Статистические ошибки репрезентативности показывают, в каких пределах могут отклоняться от параметров генеральной совокупности (от математического ожидания или истинных значений) наши частные определения, полученные на основе конкретных выборок. Очевидно, величина ошибки тем больше, чем больше варьирование признака и чем меньше выборка. Это и отражено в формулах для вычисления статистических ошибок, характеризующих варьирование выборочных показателей вокруг их генеральных параметров.
В число первичных статистик входит статистическая ошибка средней арифметической.
Формула для ее вычисления такова:
где тм - ошибка средней, о - сигма, п - число значений признака. Это основные первичные статистики, которые позволяют оценить характер распределения данных в экспериментальном массиве.
2.2 Оценка достоверности отличий
Оценка часто необходима при сравнительном анализе полярных групп. Эти группы можно выделить, учитывая различную выраженность определенного целевого признака (характеристики) изучаемого явления. Обычно анализ начинают с подсчета первичных статистик выделенных групп, затем оценивают достоверность отличий. Очень часто количественный анализ одним сравнением не ограничивается, появляется необходимость провести дополнительные сопоставления и выявить новые свидетельства. Выбор новых критериев наугад - дело неблагодарное. Лучше для этого использовать результаты корреляционного анализа.
Например, если вы исследуете личностную обусловленность желания принимать участие в экологическом движении, то признаком, по которому могут быть выделены полярные группы, могут выступить субъективные оценки испытуемых, экспертные оценки, некоторые поведенческие индикаторы, представленные в числовой форме. Если показатели интеллектуального развития имеют небольшую величину коэффициента корреляции (<0,35) с числовыми показателями названного желания, то выделение полярных групп по интеллектуальным параметрам вряд ли будет удачным. Скорее всего, значимых отличий между этими группами в выраженности желания участвовать в экологическом движении мы не обнаружим и не получим новых данных для выяснения закономерностей его личностного обусловливания.
Размещено на Allbest.ru
Подобные документы
Понятие социологического исследования. Подготовка эмпирических данных к обработке и анализу. Сущность и виды группировок. Таблицы и графики: их роль в анализе социологических данных. Структура отчета об исследовании. Основные требования к его составлению.
контрольная работа [542,4 K], добавлен 10.11.2010Подготовка эмпирических данных к обработке и анализу. Сущность и виды группировок, понятие рядов распределения. Графическое представление информации в анализе социологических данных. Структура и требования к отчету о социологическом исследовании.
контрольная работа [320,8 K], добавлен 05.04.2011Методика получения исходных данных для статистического исследования. Статистическая сводка и группировка первичных данных. Гистограмма и кумулята, корреляционный анализ. Связь между факторным и результативным признаками. Построение корреляционной таблицы.
курсовая работа [166,2 K], добавлен 20.10.2010Понятие и этапы проведения социологического исследования, требования к нему. Исследование и оценка влияния индустрии fashion на студентов ВГУ. Определение исследуемой совокупности. Обоснование метода сбора эмпирических данных. Этапы анализа информации.
курсовая работа [56,6 K], добавлен 08.01.2013Проектирование социологического исследования, обработка и анализ информации: понятие, этапы, механизмы и средства математической обработки данных. Подведение итогов, апробация, экспертиза и внедрение результатов исследования в социальной работе.
контрольная работа [23,1 K], добавлен 06.12.2010Основные виды социологических исследований: теоретические (разведывательные, описательные, аналитические) и эмпирические (международные, общенациональные, региональные, локальные, отраслевые). Обработка результатов и анализ эмпирических данных социологии.
контрольная работа [32,3 K], добавлен 02.08.2011Сущность, значение и методика социологического исследования. Развитие эмпирических исследований, обогащающих теорию и позволяющих разрабатывать механизмы регулирования социальных процессов. Обработка и анализ результатов социологического исследования.
курсовая работа [30,3 K], добавлен 18.12.2009Интервью - распространенный метод сбора информации в социологии. Сбор данных методом формализованного интервью называют анкетированием. Он подразумевает стремление к максимальной стандартизации и унификации процедур сбора данных, их обработки и анализа.
контрольная работа [13,3 K], добавлен 29.12.2008Единое социологическое знание науки об обществе. Поиск, сбор, обобщение, анализ эмпирических данных. Анализ информации и подготовка итоговых документов социологического исследования. Комплексный характер методов сбора социологической информации.
презентация [2,7 M], добавлен 19.10.2015Понятие метода и методики социологических исследований. Метод опроса в социологическом исследовании. Методы механической, серийной, гнездовой и квотной выборки. Создание широких сетей интервьюеров. Качественные методы анализа социологических данных.
курсовая работа [32,4 K], добавлен 27.05.2015