Способы унификации переменных для многомерного статистического анализа экспериментальных данных (на примере плодовых растений)

Разработка и анализ методики унификации переменных (признаков). Алгоритм унификации переменных в номинальную и порядковую шкалы. Кодировка модальностей в двоичной системе, в порядковую шкалу – преобразование состояний модальностей в ранги.

Рубрика Экономика и экономическая теория
Вид статья
Язык русский
Дата добавления 20.06.2018
Размер файла 47,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Способы унификации переменных для многомерного статистического анализа экспериментальных данных (на примере плодовых растений)

Проблема унификации переменных (признаков) возникла в связи с применением методов многомерного статистического анализа, при котором матрица исходных данных должна быть нормирована и стандартизирована в определенных пределах. Поскольку известно несколько типов шкал оценки переменных: номинальная, порядковая, числовые шкалы (шкала отношений, интервальная шкала, абсолютная шкала), возникает необходимость в разработке алгоритмов сведения всех шкал к одной. В данной статье представлена разработанная авторами и адаптированная для садовых культур методика унификации различных переменных в два типа шкал - номинальную и порядковую, поскольку унификация в числовую шкалу не всегда возможна. В начале каждого раздела статьи дан краткий аналитический обзор состояния вопроса.

1. Методы измерения переменных

Для измерения переменных используются различные шкалы (метрики). Наиболее распространенными являются следующие шкалы, расположенные в порядке увеличения их информативности: номинальная, порядковая, интервальная, шкала отношений, абсолютная [1]. Поясним кратко особенности каждой шкалы.

Номинальная шкала (классификационная, категориальная, качественная, шкала наименований) предназначена для измерения качественных переменных (признаков). Качественным признаком называют признак, у которого число состояний весьма ограничено (как правило, это число небольшое), но самое важное заключается в том, что эти состояния невозможно ранжировать. Отдельное состояние признака в номинальной шкале называется модальностью. Обычно модальность определяется словами. Например, форма листовой пластинки: овальная, ромбическая, яйцевидная и т.п. Интервал между модальностями не определен.

Порядковая (ранговая, ординальная) шкала измеряет переменные, состояния которых можно ранжировать как в порядке возрастания, так и в порядке убывания. Состояния переменного в порядковой шкале, на первых этапах анализа выражаются обычно в баллах, цифрами. Но цифры в порядковой шкале нельзя интерпретировать как числа, поскольку интервал между баллами не определен. Баллы при необходимости можно перевести в ранги. Рангом называется порядковый номер переменного в ранжированном вариационном ряду, который составляется из объектов исследования. Если переменные выражены одинаковыми баллами, их рангом будет медиана из порядковых номеров одинаковых баллов. Например, балл поражения болезнями, балл устойчивости к морозам и т.п.

Интервальная шкала измеряет количественные переменные, выраженные числами, между которыми задан определенный интервал. Данная шкала имеет произвольную точку отсчета - условный ноль. Это означает, что числа могут быть как положительными (больше ноля, расположенные справа от ноля на числовой оси), так и отрицательными (меньше ноля, расположенные слева от ноля на числовой оси). Например, температура воздуха, высота над уровнем моря и т.д.

Шкала отношений также измеряет количественные числовые переменные и очень похожа на интервальную шкалу. Единственное отличие заключается в том, что данная шкала имеет фиксированную точку отсчета - абсолютный ноль. То есть отрицательные значения чисел в ней недопустимы. Например, длина, масса и т.п.

Абсолютная шкала, так же, как и предыдущие две, измеряет количественные переменные, но отличается от шкалы отношений тем, что имеет и абсолютный ноль, и абсолютный (одинаковый) масштаб измерений. Абсолютная шкала безразмерна. Числа в данной шкале, как правило, представляют собой доли (проценты), индексы, показатели степени или основания логарифмов. Поскольку эта шкала имеет абсолютный ноль и абсолютно одинаковый масштаб измерений переменных, она наиболее информативна.

Таким образом, перечисленные пять шкал (метрик) можно классифицировать на три группы: 1) номинальная, или качественная шкала; 2) порядковая, или ранговая шкала; 3) количественные, или числовые шкалы (интервальная, шкала отношений, абсолютная). В биологии, в частности, в садоводстве, используют все типы перечисленных шкал. Но следует заметить, что значительная доля измерений показателей садовых растений выполняется в номинальной и порядковой шкалах.

2. Краткий обзор методов многомерного анализа данных

Статистический анализ экспериментальных данных может быть одномерным или многомерным. Одномерный анализ совокупности данных заключается в том, что каждое переменное анализируется по отдельности. Такой подход к анализу весьма ограничен, так как закономерности и взаимосвязи, присущие всей совокупности данных, невозможно выявить. Поэтому наиболее интересным является многомерный подход к анализу данных [2.

Многомерный статистический анализ заключается в построении оптимальных планов сбора, систематизации и обработки комплекса неограниченного числа переменных. Цель многомерного анализа состоит в выявлении характера и структуры взаимосвязей между компонентами исследуемого многомерного признака, предназначенных для получения научных и практических выводов. Под многомерным признаком понимают р-мерный вектор (где «р» - число переменных) признаков х1, х2, х3 …хр, среди которых могут быть переменные, измеренные в разных шкалах. Учитывая, что анализируемые данные являются стохастическими, а, значит, ограниченными и неполными, использование многомерного анализа является не только оправданным, но и существенно необходимым [3.

Наиболее распространенные методы многомерного анализа можно условно разделить на три группы: 1) классификационные (дискриминантный, кластерный, таксономический), 2) методы редукции числа переменных (анализ главных компонент, факторный), 3) прогностические (множественный регрессионный анализ, канонический анализ).

Классификационные методы. Дискриминантный анализ представляет собой классификацию объектов с использованием обучающей выборки. При этом исследуется взаимосвязь между одной качественной переменной и совокупностью количественных переменных, на основании чего устанавливается принадлежность объекта к той или иной модальности качественной зависимой переменной от соответствующих значений одной или нескольких независимых количественных переменных.

Кластерный анализ представляет собой классификацию объектов или переменных на однородные группы (кластеры) без обучающей выборки. Как правило, для кластерного анализа используют переменные, измеренные в числовых шкалах или реже в рангах.

Таксономический анализ также представляет собой классификацию объектов на кластеры без обучающей выборки. В отличие от кластерного анализа, переменные здесь измеряются только в номинальной шкале.

Методы редукции числа переменных. Задачами факторного анализа являются сокращение (редукция) переменных и определение структуры взаимосвязей между переменными. Редукция переменных достигается путем выделения скрытых общих факторов, объясняющих связи между переменными в совокупности исследуемых объектов. Основная процедура выделения факторов подобна вращению, максимизирующему дисперсию исходного пространства переменных.

Анализ главных компонент во многом сходен по цели и задачам с факторным анализом, но имеются и отличия: 1) при анализе главных компонент не используются итеративные методы для выделения факторов; 2) наряду с активными переменными, можно задавать вспомогательные переменные и проектировать на пространство главных компонент; 3) указанные отличия позволяют использовать данный метод как мощное средство для классификации одновременно переменных и объектов [4.

Прогностические методы. Множественный регрессионный анализ позволяет изучить зависимость случайной зависимой переменной (отклика) от неограниченного числа независимых переменных (предикторов). Множественная регрессия может выражаться в линейной или нелинейной моделях. При этом решается важная задача: выделение наиболее важных предикторов для прогнозирования отклика.

Канонический анализ предназначен для изучения зависимостей между множествами переменных. Канонический анализ является обобщением множественной корреляции как меры связи между одной случайной величиной и множеством других случайных величин. Например, в садоводстве его можно использовать для изучения зависимости между различными стрессами (абиотическими - температура, влажность и др.; биотическими - болезни, вредители и др.) и симптомами поражения растений.

Начало алгоритма проведения вычислительных процедур любого многомерного анализа заключается в формировании исходной матрицы данных: прямоугольной таблицы, где строчками являются объекты, столбцами - переменные. Существенно необходимым условием, предъявляемым к данной матрице, является то, что переменные должны быть измерены в одной шкале. Данный вопрос обсуждается в следующем разделе.

3. Понятие об унификации переменных и способы унификации

В работе с живыми организмами (растениями, животными) мы предлагаем под унификацией понимать преобразование переменных в исследуемой совокупности объектов в одну шкалу измерений.

Поскольку, как было указано выше, существуют три группы переменных: 1) номинальные, 2) порядковые, 3) числовые, логично предположить, что существует и три способа их унификации: 1) преобразование всех переменных в номинальную шкалу; 2) преобразование всех переменных в порядковую шкалу; 3) преобразование всех переменных в числовую шкалу. Что касается унификации трех типов числовых шкал (интервальной, шкалы отношений, абсолютной) в одну, - эта проблема остается за пределами данного исследования. Рассмотрим кратко каждый из трех способов унификации переменных.

Унификация в номинальную шкалу. Данный способ является наиболее простым и всегда выполнимым, поскольку номинальную шкалу можно использовать для измерения любых переменных. Недостатком данного способа унификации является значительная потеря информации, заключенная в исходных данных. Следует заметить, что состояние любого переменного можно закодировать словами. Таким образом, номинальный многомерный признак любого объекта совокупности будет представлять собой строчку из слов, количество которых равно числу переменных (табл. 1).

Имеется и другой, более удобный для вычислений подход к кодировке. Представим себе номинальный признак с числом модальностей, равным «n», при условии, что «n» больше единицы (если «n» равно единице, данный признак следует исключить из матрицы исходных данных, так как по нему отсутствует изменчивость). Тогда номинальный признак в общем виде представляет собой следующее множество: m1, m2, …mn. При этом число модальностей определяет число позиций по каждому признаку. Если модальность у объекта присутствует, она кодируется единицей, если отсутствует - нолем, вследствие чего данные, представленные в таблице 1, преобразуются в двоичной системе следующим образом (табл. 2).

алгоритм модальность переменная

Таблица 1. Оценка трех номинальных признаков у шести объектов

Номер объекта

Форма листа

Окраска цветка

Окраска плода

1

овальная

белая

красная

2

овально-яйцевидная

розовая

желтая

3

широкоовальная

белая

желтая

4

узкоовальная

розовая

фиолетовая

5

овально-яйцевидная

розовая

красная

6

овально-обратнояйцевидная

розовая

желтая

Таблица 2. Кодировка трех номинальных признаков у шести объектов в двоичной системе

Номер объекта

Форма листа

Окраска цветка

Окраска плода

овальная

овально-яйцевидная

широкоовальная

узкоовальная

овально-обратнояйцевидная

белая

розовая

красная

желтая

фиолетовая

1

1

0

0

0

0

1

0

1

0

0

2

0

1

0

0

0

0

1

0

1

0

3

0

0

1

0

0

1

0

0

1

0

4

0

0

0

1

0

0

1

0

0

1

5

0

1

0

0

0

0

1

1

0

0

6

0

0

0

0

1

0

1

0

1

0

В результате многомерный признак по каждому объекту будет представлять собой совокупность нолей и единиц, общее число которых равно общему числу модальностей по всем признакам.

Унификация в порядковую шкалу. Данный способ унификации более сложен и не всегда осуществим. Главным условием при этом является наличие правила, по которому можно ранжировать состояния признаков. Если это условие нельзя выполнить, признак исключается из исходных данных. Информативность данной унификации намного выше, чем в предыдущем способе, поскольку, помимо тождества по наличию тех или иных состояний признаков у объектов, имеется информация, какое состояние больше или меньше у того или иного объекта.

Унификация в порядковую шкалу проводится в два этапа: 1) преобразование всех переменных в баллы; 2) преобразование баллов в ранги. Обсудим кратко эти этапы.

Преобразование переменных в баллы. Это наиболее сложный этап унификации. Особенно он сложен для признаков, измеренных в номинальной шкале, ведь в номинальной шкале по определению отсутствует правило ранжирования модальностей. Однако для некоторых номинальных признаков имеются способы, позволяющие найти эти правила ранжирования.

Рассмотрим исходные данные, представленные в таблице 1. Признак «форма листа» безусловно, является номинальным, поскольку перечисленные пять модальностей (овальная, овально-яйцевидная, широкоовальная, узкоовальная, овально-обратнояйцевидная) невозможно на первый взгляд ранжировать. Однако необходимо более глубоко исследовать данный признак.

Для этого используем базовые понятия морфологии растений. Как известно, форма простой листовой пластинки зависит от двух индексов (соотношений): 1) индекса округлости - частное от деления ширины листовой пластинки (а) на её длину (b); 2) индекса яйцевидности - частное от деления расстояния от основания листовой пластинки до максимальной ширины (с) на длину листовой пластинки (b). Таким образом, эти индексы отличаются только числителями, знаменатели у них одинаковы.

Индекс округлости у большинства растений нормирован от ноля до единицы. Чем он ближе к нолю, тем лист более узкий до нитевидного. Чем индекс ближе к единице, тем лист становится более округлым. Итак, по индексу округлости можно выделить четыре основных состояния: округлый (а/b?1), широкоовальный (а/b>0,5), овальный (а/b?0,5), узкоовальный (а/b<0,5). Эти состояния легко преобразовать в баллы от меньшего индекса к большему: 1 балл - узкоовальный, 2 балла - овальный, 3 балла - широкоовальный, 4 балла - округлый.

Индекс яйцевидности характеризует степень сдвига максимальной ширины вниз или вверх по отношению к длине листа. У большинства растений с простым листом он также нормирован от ноля до единицы. Чем он ближе к нолю, тем лист более треугольный (максимальная ширина расположена у основания листа). Чем индекс ближе к единице, тем лист становится более обратно-треугольным (максимальная ширина расположена у верхушки листа). Итак, по индексу яйцевидности можно выделить три основных состояния: яйцевидный (с/b<0,5), без яйцевидности (с/b?0,5), обратнояйцевидный (с/b>0,5). Эти состояния также легко преобразовать в баллы от меньшего индекса к большему: 1 балл - яйцевидный, 2 балла - без яйцевидности, 3 балла - обратнояйцевидный. Таким образом, признак «форма листа» преобразован в два балльных параметра, которые измеряются индексами округлости и яйцевидности [5].

Следующий признак «окраска цветка» на первый взгляд выглядит тоже номинальным. Но модальности «белая» и «розовая» легко преобразуются в баллы: 1 балл - белая (без антоциановой окраски), 2 балла - розовая (со слабой антоциановой окраской).

Признак «окраска плода» представлен тремя модальностями: красная, желтая, фиолетовая. Эти модальности можно ранжировать по мере увеличения длины волны отраженного света: 1 балл - фиолетовый, 2 балла - желтый, 3 балла - красный.

В результате переменные, представленные в таблице 1, преобразуются в баллы (табл. 3).

Таблица 3. Результаты преобразования переменных в баллы

Номер объекта

Индекс округлости

Индекс яйцевидности

Окраска цветка

Окраска плода

1

2

2

1

3

2

2

1

2

2

3

3

2

1

2

4

1

2

2

1

5

2

1

2

3

6

2

3

2

2

Преобразование баллов в ранги. Данный этап унификации очень прост и основан на элементарных вычислительных процедурах. Последовательность шагов алгоритма следующая: 1) ранжирование баллов в порядке возрастания по каждой переменной; 2) определение порядковых номеров для каждого балла; 3) перевод баллов в ранги. Промежуточные результаты преобразования баллов в ранги представлены в таблице 4.

Окончательные результаты преобразования баллов в ранги представлены в таблице 5, в которой многомерный признак каждого объекта составлен из рангов всех переменных. Следует обратить внимание, что сумма рангов по каждому признаку одинаковая. Таким образом, перевод баллов в ранги одновременно стандартизирует совокупность исходных данных.

Таблица 4. Промежуточные результаты преобразования баллов в ранги

Индекс округлости

Индекс яйцевидности

Окраска цветка

Окраска плода

баллы ранжир.

порядк. номера

ранги

баллы ранжир.

порядк. номера

ранги

баллы ранжир.

порядк. номера

ранги

баллы ранжир.

порядк. номера

ранги

1

1

1,0

1

1

1,0

1

1

1,5

1

1

1,0

2

2

3,5

2

2

3,5

1

2

1,5

2

2

3,0

2

3

3,5

2

3

3,5

2

3

4,5

2

3

3,0

2

4

3,5

2

4

3,5

2

4

4,5

2

4

3,0

2

5

3,5

2

5

3,5

2

5

4,5

3

5

5,5

3

6

6,0

3

6

6,0

2

6

4,5

3

6

5,5

Таблица 5. Окончательные результаты преобразования баллов в ранги

Номер объекта

Индекс округлости

Индекс яйцевидности

Окраска цветка

Окраска плода

1

3,5

3,5

1,5

5,5

2

3,5

1,0

4,5

3,0

3

6,0

3,5

1,5

3,0

4

1,0

3,5

4,5

1,0

5

3,5

1,0

4,5

5,5

6

3,5

6,0

4,5

3,0

Сумма

21,0

21,0

21,0

21,0

Унификация в числовую шкалу. Поскольку в номинальной и порядковой шкалах не задан интервал между состояниями переменных, не представляется возможным преобразовать эти состояния в числа. Поэтому данный способ унификации невозможно осуществить. Хотя следует подчеркнуть, что этот способ унификации теоретически наиболее информативен.

4. Исходная база данных (на примере алычи)

В предыдущем разделе в качестве примеров мы рассматривали малые обучающие выборки гипотетических объектов. В данном разделе рассмотрим реальную базу данных, которая получена в результате описания 30 образцов алычи по 10 переменным (табл. 6).

Таблица 6. Исходная база данных по 30 образцам алычи

№ образца

Форма листовой пластинки

Форма основания лист.пласт.

Окраска листа

Опушение листа снизу

Пораж. морозами (балл)

Дата начала цветения

Диаметр цветка, мм

Окраска кожицы плода

Масса плода, г

Вкус, балл

1

ов.

окр.

зел.

сильн.

4

05.05

23

желт.

25

3,8

2

ов.яйц.

конич.

т.зел.

отсут.

4

07.05

18

красн.

31

3,9

3

ов.обр.яйц.

конич.

зел.

отсут.

1

03.05

26

зел.

18

3,5

4

узк.яйц.

окр.конич

зел.

слаб.

4

06.05

21

зел.

36

4,3

5

ов.

окр.

антоц.

слаб.

3

10.05

18

красн.

29

3,7

6

узк.ов.

окр.конич

т.зел.

слаб.

2

13.05

22

оранж.

22

3,5

7

ов.

конич.

т.зел.

средн.

2

01.05

19

красн.

43

4,4

8

узк.обр.яйц.

окр.конич

зел.

средн.

3

04.05

22

желт.

34

4,1

9

шир.ов.

окр.

зел.

слаб.

1

04.05

21

оранж.

25

3,9

10

ов.яйц.

окр.

зел.

слаб.

3

12.05

25

красн.

27

4,2

11

ов.

окр.конич

зел.

средн.

5

29.04

26

зел.

21

3,1

12

ов.

окр.конич

т.зел.

отсут.

3

30.04

15

желт.

28

3,2

13

узк.ов.

окр.конич

зел.

слаб.

1

04.05

17

желт.

31

3,7

14

шир.яйц.

окр.

зел.

сильн.

2

06.05

22

желт.

30

4,0

15

ов.

окр.конич

т.зел.

средн.

3

06.05

20

желт.

30

3,9

16

узк.ов.

конич.

зел.

средн.

3

02.05

24

красн.

19

3,2

17

ов.

окр.конич

антоц.

отсут.

1

08.05

21

красн.

25

3,7

18

ов.обр.яйц.

окр.конич

зел.

слаб.

2

30.04

26

красн.

42

4,3

19

ов.яйц.

окр.

т.зел.

слаб.

3

02.05

27

желт.

26

3,9

20

узк.яйц.

окр.конич

зел.

средн.

1

07.05

19

красн.

22

3,2

21

ов.

конич.

зел.

слаб.

3

05.05

20

оранж

34

3,3

22

узк.ов.

окр.конич

антоц.

слаб.

3

11.05

23

желт.

15

3,5

23

шир.обр.яйц

окр.конич

зел.

слаб.

3

15.05

23

оранж.

36

3,0

24

шир.ов.

окр.

т.зел.

средн.

2

10.05

26

красн.

27

3,8

25

узк.яйц.

окр.конич

зел.

средн.

5

06.05

18

красн.

37

4,1

26

узк.яйц.

окр.конич

зел.

средн.

3

06.05

27

желт.

31

3,8

27

ов.

окр.

зел.

отсут.

3

04.05

18

желт.

33

3,5

28

узк.ов

окр.конич

т.зел.

слаб.

5

03.05

21

желт.

16

3,4

29

ов.

конич.

т.зел.

средн.

4

03.05.

22

красн.

38

3,2

30

ов.яйц.

окр.

антоц.

слаб.

2

01.05.

16

красн.

43

3,9

шкала

номин.

номин.

номин

порядк

порядк.

числ.

числ.

номин.

числ.

порядк.

В нижней строчке определены типы шкал, по которым было проведено измерение переменных.

Признаки 1 (форма листовой пластинки), 2 (форма основания листовой пластинки), 3 (окраска листа), 8 (окраска кожицы плода) измерены в номинальной шкале. Однако лишь признак 1 является действительно номинальным. Состояния признаков 2, 3 и 8 легко ранжируются, и, по существу, эти признаки порядковые.

Признаки 4 (опушение листа снизу), 5 (поражение морозами), 10 (вкус) измерены в порядковой шкале, причем признаки 5 и 10 представлены баллами, а состояния признака 4 легко преобразуются в баллы.

Признаки 6 (дата начала цветения), 7 (диаметр цветка), 9 (масса плода) измерены в числовой шкале, точнее, в шкале отношений.

Таким образом, результаты измерений переменных в исходной базе данных представлены тремя типами шкал.

5. Унификация переменных в номинальную шкалу

Признаки 1, 2, 3, 4 и 8 не нуждаются в преобразовании, поскольку представлены наименованиями, которые можно рассматривать как модальности.

Признак 5 (балл поражения морозами) представлен пятью состояниями 1, 2, 3, 4, 5 баллов, которые можно рассматривать как модальности: 1 балл - очень слабое, 2 балла - слабое, 3 балла - среднее, 4 балла - выше среднего, 5 баллов - сильное. Таким образом, данный признак также не нуждается в преобразовании.

Остальные признаки, а именно: 6, 7, 9 и 10, необходимо преобразовать в модальности.

Преобразование признака 6 (дата начала цветения) начнем с определения минимального и максимального значения. Самое раннее начало цветения наблюдали у образца №11 - 29 апреля, самое позднее - у образца №23 - 15 мая. Следовательно, размах варьирования составляет 16 суток. Поясним технику расчета размаха варьирования. Кодируем 29 апреля как 1, тогда 15 мая будет иметь код 17 (2 дня в апреле плюс 15 дней в мае). Размах варьирования есть разность между максимальным и минимальным значениями переменного, то есть 16. После этого размах варьирования необходимо разделить на классы. Число классов подбирается произвольно, но оно прямо пропорционально объему выборки и размаху варьирования. Данное переменное удобно разделить на 3 класса (межклассовый интервал 6 суток): 1) 29.04-04.05 - раннее цветение; 2) 05.05-10.05 - цветение в средние сроки; 3) 11.05-16.05 - позднее цветение. Необходимо подсчитать частоту встречаемости каждого класса для того, чтобы убедиться в том, что отсутствуют нулевые классы (классы, в которые не попали объекты). В нашей выборке 14 образцов имеют раннее цветение, 12 - среднее, 4 - позднее. Таким образом, признак 6 мы преобразовали в 3 модальности.

Преобразование признака 7 (диаметр цветка) проводим по тому же алгоритму. Самый мелкий цветок - 15 мм (12 образец), самый крупный - 27 мм (19 и 26 образцы). Размах варьирования 12 мм. Данное переменное также удобно разделить на 3 класса (межклассовый интервал - 5 мм): 1) 14-18 мм - мелкий, встречается 7 раз; 2) 19-23 мм - средний, встречается 15 раз; 3) 24-28 мм - крупный, встречается 8 раз. Таким образом, признак 7 мы также преобразовали в 3 модальности.

Признак 9 (масса плода) варьирует от 15 до 43 г. Размах варьирования составляет 28 г. Поскольку размах варьирования относительно большой, разделим данный ряд на 4 класса (межклассовый интервал - 8 мм). Столь большое значение межклассового интервала связано с устранением небольшой левосторонней асимметрии распределения. Границы классов будут следующими: 1) 13-20 г - мелкие, встречается у 4 образцов; 2) 21-28 г - ниже среднего, встречается у 10 образцов; 3) 29-36 г - выше среднего, встречается у 11 образцов; 4) 37-44 г - крупные, встречается у 5 образцов. Таким образом, признак 9 преобразован в 4 модальности.

Признак 10 (вкус плодов) варьирует от 3,0 до 4,4 баллов. Размах варьирования составляет 1,4 балла. Целесообразно разделить данный ряд на 3 класса (межклассовый интервал - 0,5 балла): 1) 3,0-3,4 балла - посредственный, встречается у 8 образцов; 2) 3,5-3,9 балла - хороший, встречается у 15 образцов; 3) 4,0-4,4 - очень хороший, встречается у 7 образцов. Таким образом, признак 10 преобразован в 3 модальности.

Итак, все переменные представлены тем или иным числом модальностей. Приступаем к формированию матрицы исходных данных в номинальной шкале наименований. При этом баллы и числа заменяем на название модальностей.

6. Унификация переменных в порядковую шкалу

6.1. Преобразование переменных в баллы

При унификации переменных в баллы используем алгоритм, изложенный в разделе 3 (подраздел «Унификация в порядковую шкалу»).

Форма листовой пластинки (признак 1) преобразуется в виде комбинации двух индексов, которые легко ранжируются в баллы (табл. 7):

Таблица 7. Преобразование номинального признака «форма листовой пластинки» в баллы

№ модальности

модальности формы листовой пластинки

индекс овальности

индекс яйцевидности

значение индекса

балл

значение индекса

балл

1

узко яйцевидный

<0,5

1

<0,5 (1)

1

2

узко овальный

<0,5

1

?0,5 (2)

2

3

узко обратно яйцевидный

<0,5

1

>0,5 (3)

3

4

овально яйцевидный

?0,5

2

<0,5 (1)

1

5

овальный

?0,5

2

?0,5 (2)

2

6

овально обратно яйцевидный

?0,5

2

>0,5 (3)

3

7

широко яйцевидный

>0,5

3

<0,5 (1)

1

8

широко овальный

>0,5

3

?0,5 (2)

2

9

широко обратно яйцевидный

>0,5

3

>0,5 (3)

3

Модальности признака «форма основания листовой пластинки» (признак 2) легко ранжируются по степени изменения угла отхождения основания листа от черешка: округлая - 1 балл; округло-коническая - 2 балла; коническая - 3 балла.

Признак «окраска листа» (признак 3): исходные модальности легко ранжируются по мере увеличения длины волны отраженного света: зеленый лист - 1 балл, темно-зеленый - 2 балла; антоциановый - 3 балла.

Признак «опушение листа снизу» (признак 4): исходные модальности легко ранжируются по степени увеличения интенсивности опушения: отсутствует - 1 балл; слабое - 2 балла; среднее - 3 балла; сильное - 4 балла.

Признак «поражение морозами» (признак 5) представлен в баллах, поэтому не нуждается в преобразовании.

Признак «дата начала цветения» (признак 6): исходные данные представлены в числовой шкале. Для того, чтобы их перевести в баллы, используем разбивку, которая приведена в предыдущем разделе: 29.04-04.05, раннее цветение - 1 балл; 05.05-10.05, цветение в средние сроки - 2 балла; 11.05-16.05, позднее цветение - 3 балла.

Признак «диаметр цветка (признак 7): исходные данные представлены в числовой шкале. Для того, чтобы их перевести в баллы, необходимо выборку разбить на оптимальное число классов (см. предыдущий раздел): 14-18 мм, мелкий - 1 балл; 19-23 мм, средний - 2 балла; 24-28 мм, крупный - 3 балла.

Признак «окраска кожицы плода» (признак 8): исходные данные представлены в номинальной шкале, но модальности можно ранжировать по мере увеличения длины волны: зеленая - 1 балл, желтая - 2 балла, оранжевая - 3 балла, красная - 4 балла.

Признак «масса плода» (признак 9): исходные данные представлены в числовой шкале. Для того, чтобы их перевести в баллы, необходимо использовать результаты разбивки изучаемой выборки (см. предыдущий раздел): 13-20 г, мелкий - 1 балл; 21-28 г, ниже среднего - 2 балла; 29-36 г, выше среднего - 3 балла; 37-44 г, крупный - 4 балла.

Признак «вкус плода»: исходные данные представлены в баллах. Для того, чтобы снизить вероятность субъективизма дегустационных оценок, используем результаты разбивки анализируемой выборки (см. предыдущий раздел): 3,0-3,4 балла, посредственный - 1 балл; 3,5-3,9 балла, хороший - 2 балла; 4,0-4,4 балла, очень хороший - 3 балла.

Исходные данные в баллах по всем переменным представлены в таблице 8.

Таблица 8. Матрица исходных данных, преобразованных в баллы

№ образца

Индекс овальности

Индекс яйцевидности

Форма основания листа

Окраска листа

Опушение листа снизу

Поражение морозами

Дата начала цветения

Диаметр цветка,

Окраска кожицы плода

Масса плода

Вкус плода

1

2

2

1

1

4

4

2

2

3

2

2

2

2

1

3

2

1

4

2

1

1

3

2

3

2

3

3

1

1

1

1

3

4

1

2

4

1

1

2

1

2

4

2

2

4

3

3

5

2

2

1

3

2

3

2

1

1

3

2

6

1

2

2

2

2

2

3

2

2

2

2

7

2

2

3

2

3

2

1

2

1

4

3

8

1

3

2

1

3

3

1

2

3

3

3

9

3

2

1

1

2

1

1

2

2

2

2

10

2

1

1

1

2

3

3

3

1

2

3

11

2

2

2

1

3

5

1

3

4

2

1

12

2

2

2

2

1

3

1

1

3

2

1

13

1

2

2

1

2

1

1

1

3

3

2

14

3

1

1

1

4

2

2

2

3

3

3

15

2

2

2

2

3

3

2

2

3

3

2

16

1

2

3

1

3

3

1

3

1

1

1

17

2

2

2

3

1

1

2

2

1

2

2

18

2

3

2

1

2

2

1

3

1

4

3

19

2

1

1

2

2

3

1

3

3

2

2

20

1

1

2

1

3

1

2

2

1

2

1

21

2

2

3

1

2

3

2

2

2

3

1

22

1

2

2

3

2

3

3

2

3

1

2

23

3

3

2

1

2

3

3

2

2

3

1

24

3

2

1

2

3

2

2

3

1

2

2

25

1

1

2

1

3

5

2

1

1

4

3

26

1

1

2

1

3

3

2

3

3

3

2

27

2

2

1

1

1

3

1

1

3

3

2

28

1

2

2

2

2

5

1

2

3

1

1

29

2

2

3

2

3

4

1

2

1

4

1

30

2

1

1

3

2

2

1

1

1

4

2

Сумма баллов

54

55

58

47

69

84

50

61

65

77

59

Следует заметить, что представленные в таблице 10 баллы не являются числами, поэтому использование такой базы данных для многомерного статистического анализа не вполне корректно. Кроме того, суммы баллов по переменным варьируют от 47 до 84 баллов, то есть баллы не стандартизированы.

Поэтому необходимо перейти к заключительной стадии унификации переменных в порядковую шкалу - преобразовать баллы в ранги.

6.2. Преобразование баллов в ранги

Используем алгоритм перевода баллов в ранги, изложенный в разделе 3 (подраздел «Унификация в порядковую шкалу»): 1) составляем ранжированные ряды баллов по каждому переменному; 2) присваиваем каждому баллу в ранжированном ряду порядковый номер; 3) определяем ранги (порядковые номера) для каждого балла, в случае равенства баллов - как медиану группы из одинаковых баллов. (табл. 9, 11).

Таблица 9. Промежуточные результаты преобразования баллов в ранги

Индекс округлости

Индекс яйцевидности

Форма основания листа

Окраска листа

Опушение листа снизу

баллы ранжир.

порядк. номера

ранги

баллы ранжир.

порядк. номера

Ранги

баллы ранжир.

порядк. номера

ранги

баллы ранжир.

порядк. номера

ранги

баллы ранжир.

порядк. номера

ранги

1

1

5,5

1

1

5

1

1

5

1

1

9

1

1

3

1

2

5,5

1

2

5

1

2

5

1

2

9

1

2

3

1

3

5,5

1

3

5

1

3

5

1

3

9

1

3

3

1

4

5,5

1

4

5

1

4

5

1

4

9

1

4

3

1

5

5,5

1

5

5

1

5

5

1

5

9

1

5

3

1

6

5,5

1

6

5

1

6

5

1

6

9

2

6

12

1

7

5,5

1

7

5

1

7

5

1

7

9

2

7

12

1

8

5,5

1

8

5

1

8

5

1

8

9

2

8

12

1

9

5,5

1

9

5

1

9

5

1

9

9

2

9

12

1

10

5,5

2

10

18

2

10

17

1

10

9

2

10

12

2

11

18,5

2

11

18

2

11

17

1

11

9

2

11

12

2

12

18,5

2

12

18

2

12

17

1

12

9

2

12

12

2

13

18,5

2

13

18

2

13

17

1

13

9

2

13

12

2

14

18,5

2

14

18

2

14

17

1

14

9

2

14

12

2

15

18,5

2

15

18

2

15

17

1

15

9

2

15

12

2

16

18,5

2

16

18

2

16

17

1

16

9

2

16

12

2

17

18,5

2

17

18

2

17

17

1

17

9

2

17

12

2

18

18,5

2

18

18

2

18

17

2

18

22

2

18

12

2

19

18,5

2

19

18

2

19

17

2

19

22

3

19

23,5

2

20

18,5

2

20

18

2

20

17

2

20

22

3

20

23,5

2

21

18,5

2

21

18

2

21

17

2

21

22

3

21

23,5

2

22

18,5

2

22

18

2

22

17

2

22

22

3

22

23,5

2

23

18,5

2

23

18

2

23

17

2

23

22

3

23

23,5

2

24

18,5

2

24

18

2

24

17

2

24

22

3

24

23,5

2

25

18,5

2

25

18

3

25

27,5

2

25

22

3

25

23,5

2

26

18,5

2

26

18

3

26

27,5

2

26

22

3

26

23,5

3

27

28,5

3

27

28,5

3

27

27,5

3

27

28,5

3

27

23,5

3

28

28,5

3

28

28,5

3

28

27,5

3

28

28,5

3

28

23,5

3

29

28,5

3

29

28,5

3

29

27,5

3

29

28,5

4

29

29,5

3

30

28,5

3

30

28,5

3

30

27,5

3

30

28,5

4

30

29,5

Таблица 10. Промежуточные результаты преобразования баллов в ранги

Поражение морозами

Дата начала цветения

Диаметр цветка

Окраска кожицы плода

Масса плода

Вкус плода

баллы ранжир.

порядк. Номера

ранги

баллы ранжир.

порядк. номера

ранги

баллы ранжир.

порядк. номера

ранги

баллы ранжир.

порядк. номера

ранги

баллы ранжир.

порядк. номера

ранги

баллы ранжир.

порядк. номера

ранги

1

1

3

1

1

7,5

1

1

4

1

1

6,5

1

1

2,5

1

1

4,5

1

2

3

1

2

7,5

1

2

4

1

2

6,5

1

2

2,5

1

2

4,5

1

3

3

1

3

7,5

1

3

4

1

3

6,5

1

3

2,5

1

3

4,5

1

4

3

1

4

7,5

1

4

4

1

4

6,5

1

4

2,5

1

4

4,5

1

5

3

1

5

7,5

1

5

4

1

5

6,5

2

5

9,5

1

5

4,5

2

6

8,5

1

6

7,5

1

6

4

1

6

6,5

2

6

9,5

1

6

4,5

2

7

8,5

1

7

7,5

1

7

4

1

7

6,5

2

7

9,5

1

7

4,5

2

8

8,5

1

8

7,5

2

8

15

1

8

6,5

2

8

9,5

1

8

4,5

2

9

8,5

1

9

7,5

2

9

15

1

9

6,5

2

9

9,5

2

9

16

2

10

8,5

1

10

7,5

2

10

15

1

10

6,5

2

10

9,5

2

10

16

2

11

8,5

1

11

7,5

2

11

15

1

11

6,5

2

11

9,5

2

11

16

3

12

17,5

1

12

7,5

2

12

15

1

12

6,5

2

12

9,5

2

12

16

3

13

17,5

1

13

7,5

2

13

15

2

13

14,5

2

13

9,5

2

13

16

3

14

17,5

1

14

7,5

2

14

15

2

14

14,5

2

14

9,5

2

14

16

3

15

17,5

2

15

20,5

2

15

15

2

15

14,5

3

15

20

2

15

16

3

16

17,5

2

16

20,5

2

16

15

2

16

14,5

3

16

20

2

16

16

3

17

17,5

2

17

20,5

2

17

15

3

17

22

3

17

20

2

17

16

3

18

17,5

2

18

20,5

2

18

15

3

18

22

3

18

20

2

18

16

3

19

17,5

2

19

20,5

2

19

15

3

19

22

3

19

20

2

19

16

3

20

17,5

2

20

20,5

2

20

15

3

20

22

3

20

20

2

20

16

3

21

17,5

2

21

20,5

2

21

15

3

21

22

3

21

20

2

21

16

3

22

17,5

2

22

20,5

2

22

15

3

22

22

3

22

20

2

22

16

3

23

17,5

2

23

20,5

3

23

26,5

3

23

22

3

23

20

2

23

16

4

24

25,5

2

24

20,5

3

24

26,5

3

24

22

3

24

20

3

24

27

4

25

25,5

2

25

20,5

3

25

26,5

3

25

22

3

25

20

3

25

27

4

26

25,5

2

26

20,5

3

26

26,5

3

26

22

4

26

28

3

26

27

4

27

25,5

3

27

28,5

3

27

26,5

3

27

22

4

27

28

3

27

27

5

28

29

3

28

28,5

3

28

26,5

4

28

29

4

28

28

3

28

27

5

29

29

3

29

28,5

3

29

26,5

4

29

29

4

29

28

3

29

27

5

30

29

3

30

28,5

3

30

26,5

4

30

29

4

30

28

3

30

27

Окончательные результаты преобразования баллов в ранги представлены в таблице 11.

Таблица 11. Окончательные результаты преобразования баллов в ранги

№ образца

Индекс овальности

Индекс яйцевидности

Форма основания листа

Окраска листа

Опушение листа снизу

Поражение морозами

Дата начала цветения

Диаметр цветка,

Окраска кожицы плода

Масса плода

Вкус плода

1

18,5

18,0

5,0

9,0

29,5

25,5

20,5

15,0

22,0

9,5

16,0

2

18,5

5,0

27,5

22,0

3,0

25,5

20,5

4,0

6,5

20,0

16,0

3

18,5

28,5

27,5

9,0

3,0

3,0

7,5

26,5

29,0

2,5

16,0

4

5,5

5,0

17,0

9,0

12,0

25,5

20,5

15,0

29,0

20,0

27,0

5

18,5

18,0

5,0

28,5

12,0

17,5

20,5

4,0

6,5

20,0

16,0

6

5,5

18,0

17,0

22,0

12,0

8,5

28,5

15,0

14,5

9,5

16,0

7

18,5

18,0

27,5

22,0

23,5

8,5

7,5

15,0

6,5

28,0

27,0

8

5,5

28,5

17,0

9,0

23,5

17,5

7,5

15,0

22,0

20,0

27,0

9

28,5

18,0

5,0

9,0

12,0

3,0

7,5

15,0

14,5

9,5

16,0

10

18,5

5,0

5,0

9,0

12,0

17,5

28,5

26,5

6,5

9,5

27,0

11

18,5

18,0

17,0

9,0

23,5

29,0

7,5

26,5

29,0

9,5

4,5

12

18,5

18,0

17,0

22,0

3,0

17,5

7,5

4,0

22,0

9,5

4,5

13

5,5

18,0

17,0

9,0

12,0

3,0

7,5

4,0

22,0

20,0

16,0

14

28,5

5,0

5,0

9,0

29,5

8,5

20,5

15,0

22,0

20,0

27,0

15

18,5

18,0

17,0

22,0

23,5

17,5

20,5

15,0

22,0

20,0

16,0

16

5,5

18,0

27,5

9,0

23,5

17,5

7,5

26,5

6,5

2,5

4,5

17

18,5

18,0

17,0

28,5

3,0

3,0

20,5

15,0

6,5

9,5

16,0

18

18,5

28,5

17,0

9,0

12,0

8,5

7,5

26,5

6,5

28,0

27,0

19

18,5

5,0

5,0

22,0

12,0

17,5

7,5

26,5

22,0

9,5

16,0

20

5,5

5,0

17,0

9,0

23,5

3,0

20,5

15,0

6,5

9,5

4,5

21

18,5

18,0

27,5

9,0

12,0

17,5

20,5

15,0

14,5

20,0

4,5

22

5,5

18,0

17,0

28,5

12,0

17,5

28,5

15,0

22,0

2,5

16,0

23

28,5

28,5

17,0

9,0

12,0

17,5

28,5

15,0

14,5

20,0

4,5

24

28,5

18,0

5,0

22,0

23,5

8,5

20,5

26,5

6,5

9,5

16,0

25

5,5

5,0

17,0

9,0

23,5

29,0

20,5

4,0

6,5

28,0

27,0

26

5,5

5,0

17,0

9,0

23,5

17,5

20,5

26,5

22,0

20,0

16,0

27

18,5

18,0

5,0

9,0

3,0

17,5

7,5

4,0

22,0

20,0

16,0

28

5,5

18,0

17,0

22,0

12,0

29,0

7,5

15,0

22,0

2,5

4,5

29

18,5

18,0

27,5

22,0

23,5

25,5

7,5

15,0

6,5

28,0

4,5

30

18,5

5,0

5,0

28,5

12,0

8,5

7,5

4,0

6,5

28,0

16,0

Сумма рангов

465,0

465,0

465,0

465,0

465,0

465,0

465,0

465,0

465,0

465,0

465,0

Ранги переменных в таблице 13 являются оптимальной формой представления исходных данных, которую можно использовать в любом пакете статистических программ. При этом потеря информации, связанная с преобразованием числовых шкал в порядковую, минимизирована.

Выводы

1. Шкалы измерения переменных делятся на три группы: 1) номинальная, 2) порядковая, 3) числовая (интервальная, шкала отношений, абсолютная).

2. Проблема унификации переменных (сведение их к одной шкале измерения) возникает при многомерном статистическом анализе.

3. Автоматизация унификации переменных в рамках алгоритмов статистических пакетов анализа данных невозможна.

4. Теоретически существуют три способа унификации переменных: 1) преобразование всех переменных в номинальную шкалу, 2) преобразование всех переменных в порядковую шкалу, 3) преобразование всех переменных в числовую шкалу.

5. Преобразование всех переменных в номинальную шкалу всегда осуществимо, но при этом теряется значительная часть информации. Преобразование всех переменных в порядковую шкалу в большинстве случаев осуществимо, при этом потеря информации минимальная. Преобразование всех переменных в числовую шкалу невозможно по определению, поскольку в номинальной и порядковой шкалах не задан интервал между состояниями переменного.

6. Оптимальным способом унификации переменных в номинальную шкалу является кодировка их модальностей в двоичной системе (0 или 1).

7. Оптимальным способом унификации переменных в порядковую шкалу является преобразование их состояний в ранги.

Список использованных источников

алгоритм модальность переменная

1. Халафян А.А. STATISTICA 6. Статистический анализ данных - М. ООО «Бином-Пресс». - 2007. - 512 с.

2. Исачкин А.В. Анализ комплекса признаков как основа повышения эффективности селекции косточковых плодовых культур. - автореферат диссертации на соискание ученой степени доктора сельскохозяйственных наук. - Москва. - 1997.

3. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы. - М.: Финансы и статистика. - 2000. - 352 с.

4. Боровиков В.П. STATISTICA. Искусство анализа данных на компьютере. Для профессионалов. - Спб.: Питер. - 2001. - 240 с.

5. Исачкин А.В., Крючкова В.А. Математическое моделирование формы листовой пластинки растений // В сб.: Математическое и компьютерное моделирование в биологии и химии. - Казань. - 2016. - С. 73-76.

Размещено на Allbest.ru


Подобные документы

  • Статистика в медицине как один из инструментов анализа экспериментальных данных и клинических наблюдений. Понятие количественных (числовых) данных. Выборки численных переменных. Виды критериев для независимых выборок, особенности их использования.

    презентация [750,1 K], добавлен 16.10.2016

  • Постоянные затраты на отделение, на питание, обследование и лечение одного пациента. Графики зависимости постоянных, переменных и полных затрат санатория от количества пациентов. Средние затраты на лечение. Снижение постоянных и переменных издержек.

    контрольная работа [188,8 K], добавлен 24.01.2011

  • Применение дисперсионного анализа для исследования влияния качественных переменных на зависимую количественную переменную. Регрессионный анализ со статистической значимостью. Процесс проведения дисперсионного, кластерного, регрессионного анализов.

    курсовая работа [498,5 K], добавлен 11.05.2022

  • Дискриминантный анализ как раздел многомерного статистического анализа. Дискриминантный анализ при нормальном законе распределения показателей. Применение дискриминантного анализа при наличии двух обучающих выборок. Решение задачи в системе statistika.

    курсовая работа [140,3 K], добавлен 21.01.2011

  • Производственно-хозяйственная деятельность цеха холодной прокатки нержавеющей ленты ОАО "ММЗ "Серп и Молот". Разработка мероприятий, направленных на снижение переменных затрат с целью повышения рентабельности продукции холоднокатаной нержавеющей ленты.

    дипломная работа [9,1 M], добавлен 05.01.2009

  • Классификация затрат по определенным признакам для обеспечения точности и унификации расчетов. Группировка затрат по экономическим элементам, целевому назначению и месту возникновения, роли в производственном процессе. Способы снижения себестоимости.

    презентация [1,1 M], добавлен 27.10.2010

  • Особенности взаимосвязи конкуренции и монополии, плюсы и минусы данных систем, специфика их взаимодействия. Использование достижений научно-технического прогресса. Роль инноваций, унификации и стандартизации. Плюсы и минусы свободной конкуренции.

    эссе [6,8 K], добавлен 15.04.2014

  • Статистический метод исследования влияния нескольких независимых переменных на зависимую переменную, определение их вклада в ее вариацию. Связь между несколькими независимыми переменными. Цели регрессионного анализа. Уравнение многомерной регрессии.

    презентация [122,6 K], добавлен 17.12.2012

  • Методика маржинального анализа прибыли и показателей рентабельности. Определение и анализ безубыточного объема продаж и зоны безопасности предприятия. Определение критической суммы постоянных и переменных затрат, критического уровня цены реализации.

    курсовая работа [505,3 K], добавлен 19.07.2010

  • Рассмотрение различных условий, состояний рынка, приведение необходимых анализов и требуемых расчетов для реализации инвестиционного проекта по оказанию услуги по ремонту коробок переменных передач на предприятии ООО "Набережночелнинский Автоцентр КамАЗ".

    бизнес-план [44,8 K], добавлен 16.05.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.