Кластерный анализ и его применение в классификации агрономических данных
Кластерный анализ, проверка статистической значимости и области применения техники кластеризации. Обоснование рассматриваемой методики кластеризации при природно-сельскохозяйственном районировании, выявление критериев выбора метода кластеризации.
Рубрика | Экономико-математическое моделирование |
Вид | реферат |
Язык | русский |
Дата добавления | 09.12.2010 |
Размер файла | 35,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Южный филиал национальный университет биоресурсув природопользоания Украины
Агротехнологический университет
Реферат
На тему: Кластерный анализ и его применение в классификации агрономических данных
Выполнил: ст-т 5-го курса
Агронмического ф-та
2010
Основная цель
Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами семейства млекопитающих (например, собаками) и т.д.
Проверка статистической значимости
Заметим, что предыдущие рассуждения ссылаются на алгоритмы кластеризации, но ничего не упоминают о проверке статистической значимости. Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам". Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение". Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны p-уровни (как, например, в методе K средних).
Области применения
Техника кластеризации применяется в самых разнообразных областях. Хартиган (Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д. Известны широкие применения кластерного анализа в маркетинговых исследованиях. В общем, всякий раз, когда необходимо классифицировать "горы" информации к пригодным для дальнейшей обработки группам, кластерный анализ оказывается весьма полезным и эффективным.
Меры расстояния
Объединение или метод древовидной кластеризации используется при формировании кластеров несходства или расстояния между объектами. Эти расстояния могут определяться в одномерном или многомерном пространстве. Например, если вы должны кластеризовать типы еды в кафе, то можете принять во внимание количество содержащихся в ней калорий, цену, субъективную оценку вкуса и т.д. Наиболее прямой путь вычисления расстояний между объектами в многомерном пространстве состоит в вычислении евклидовых расстояний. Если вы имеете двух- или трёхмерное пространство, то эта мера является реальным геометрическим расстоянием между объектами в пространстве (как будто расстояния между объектами измерены рулеткой). Однако алгоритм объединения не "заботится" о том, являются ли "предоставленные" для этого расстояния настоящими или некоторыми другими производными мерами расстояния, что более значимо для исследователя; и задачей исследователей является подобрать правильный метод для специфических применений.
Евклидово расстояние
Это, по-видимому, наиболее общий тип расстояния. Оно попросту является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:
расстояние(x,y) = {i (xi - yi)2 }1/2
Заметим, что евклидово расстояние (и его квадрат) вычисляется по исходным, а не по стандартизованным данным. Это обычный способ его вычисления, который имеет определенные преимущества (например, расстояние между двумя объектами не изменяется при введении в анализ нового объекта, который может оказаться выбросом). Тем не менее, на расстояния могут сильно влиять различия между осями, по координатам которых вычисляются эти расстояния. К примеру, если одна из осей измерена в сантиметрах, а вы потом переведете ее в миллиметры (умножая значения на 10), то окончательное евклидово расстояние (или квадрат евклидова расстояния), вычисляемое по координатам, сильно изменится, и, как следствие, результаты кластерного анализа могут сильно отличаться от предыдущих.
Квадрат евклидова расстояния
Иногда может возникнуть желание возвести в квадрат стандартное евклидово расстояние, чтобы придать большие веса более отдаленным друг от друга объектам. Это расстояние вычисляется следующим образом (см. также замечания в предыдущем пункте):
расстояние(x,y) = i (xi - yi)2
Расстояние городских кварталов (манхэттенское расстояние)
Это расстояние является просто средним разностей по координатам. В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако отметим, что для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). Манхэттенское расстояние вычисляется по формуле:
расстояние(x,y) = i |xi - yi|
Расстояние Чебышева
Это расстояние может оказаться полезным, когда желают определить два объекта как "различные", если они различаются по какой-либо одной координате (каким-либо одним измерением). Расстояние Чебышева вычисляется по формуле:
расстояние(x,y) = Максимум|xi - yi|
Степенное расстояние
Иногда желают прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Это может быть достигнуто с использованием степенного расстояния. Степенное расстояние вычисляется по формуле:
расстояние(x,y) = (i |xi - yi|p)1/r
где r и p - параметры, определяемые пользователем. Несколько примеров вычислений могут показать, как "работает" эта мера. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра - r и p, равны двум, то это расстояние совпадает с расстоянием Евклида.
Процент несогласия
Эта мера используется в тех случаях, когда данные являются категориальными. Это расстояние вычисляется по формуле:
расстояние(x,y) = (Количество xi yi)/ i
Правила объединения или связи
На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами? Другими словами, необходимо правило объединения или связи для двух кластеров. Здесь имеются различные возможности: например, вы можете связать два кластера вместе, когда любые два объекта в двух кластерах ближе друг к другу, чем соответствующее расстояние связи.
Другими словами, вы используете "правило ближайшего соседа" для определения расстояния между кластерами; этот метод называется методом одиночной связи. Это правило строит "волокнистые" кластеры, т.е. кластеры, "сцепленные вместе" только отдельными элементами, случайно оказавшимися ближе остальных друг к другу. Как альтернативу вы можете использовать соседей в кластерах, которые находятся дальше всех остальных пар объектов друг от друга. Этот метод называется метод полной связи. Существует также множество других методов объединения кластеров, подобных тем, что были рассмотрены.
Одиночная связь (метод ближайшего соседа)
Как было описано выше, в этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Это правило должно, в известном смысле, нанизывать объекты вместе для формирования кластеров, и результирующие кластеры имеют тенденцию быть представленными длинными "цепочками".
Полная связь (метод наиболее удаленных соседей)
В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями").
Этот метод обычно работает очень хорошо, когда объекты происходят на самом деле из реально различных "рощ". Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является "цепочечным", то этот метод непригоден.
Невзвешенное попарное среднее
В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные "рощи", однако он работает одинаково хорошо и в случаях протяженных ("цепочного" типа) кластеров. Отметим, что в своей книге Снит и Сокэл (Sneath, Sokal, 1973) вводят аббревиатуру UPGMA для ссылки на этот метод, как на метод невзвешенного попарного арифметического среднего - unweighted pair-group method using arithmetic averages.
Взвешенное попарное среднее
Метод идентичен методу невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (т.е. число объектов, содержащихся в них) используется в качестве весового коэффициента. Поэтому предлагаемый метод должен быть использован (скорее даже, чем предыдущий), когда предполагаются неравные размеры кластеров. В книге Снита и Сокэла (Sneath, Sokal, 1973) вводится аббревиатура WPGMA для ссылки на этот метод, как на метод взвешенного попарного арифметического среднего - weighted pair-group method using arithmetic averages.
Невзвешенный центроидный метод
В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести. Снит и Сокэл (Sneath and Sokal (1973)) используют аббревиатуру UPGMC для ссылки на этот метод, как на метод невзвешенного попарного центроидного усреднения - unweighted pair-group method using the centroid average.
Взвешенный центроидный метод (медиана)
Этот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего. Снит и Сокэл (Sneath, Sokal 1973) использовали аббревиатуру WPGMC для ссылок на него, как на метод невзвешенного попарного центроидного усреднения - weighted pair-group method using the centroid average.
Метод Варда
Этот метод отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами. Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. Подробности можно найти в работе Варда (Ward, 1963). В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера
Кластерный анализ в сельском хозяйстве
Кластерный анализ (ISODATA) и метод анализа спектральных кривых. Распознавание без обучения обычно используют для разбиения изображения на однородные по спектральной отражательной способности классы. Использование в нашем случае этого метода обусловлено тем, что изначально неизвестно состояние растительности на полях и невозможно провести какое-либо обучение. В качестве исходного изображения был использован многослойный файл, собранный из двух спектральных каналов (красного и ближнего ИК) четырех дат съемки. Период съемки охватывает начало вегетационного сезона, время развития растительности до наступления засухи, время максимального развития сельскохозяйственной засухи и окончание вегетационного сезона.
В данном случае выделенные классы соответствали растительности в разном состоянии в течение вегетационного сезона. Анализ и интерпретация выделенных классов проводились несколькими способами. Во-первых, это метод анализа спектральных кривых выделенных классов. Известно, что чем лучше состояние растительности, тем выше ее отражательная способность в ближнем ИК-канале спектра. Поэтому высокие значения отражательной способности растительности в четных слоях изображения говорят о хорошем состоянии растительности в течение всего вегетационного сезона и наоборот, высокие значения в четных слоях за первые две даты и низкие значения за последние даты говорят об ухудшении или гибели растительности. Значения нечетных каналов помогают идентифицировать нерастительные объекты, такие как города, открытые почвы, водные объекты.
Использование многослойного файла при распознавании облегчает интерпретацию полученных результатов и уменьшает ошибки при распознавании и сличении сельскохозяйственных полей с разным состоянием растительности. Этот подход тем более удачен, поскольку применим к территории, где величина полей превышает пространственное разрешение изображений всего в 3-5 раз. Для надежного выявления растительности, меняющей свое состояние от даты к дате рекомендуется при неконтролируемой классификации задавать не менее 40 классов.
Метод вегетационных индексов
Интерпретация полученных кластеров проводится как методом анализа спектральных кривых классов, так и методом вегетационных индексов. В качестве оценки состояния растительности, соответствующей каждому выделенному классу использовался нормализованный вегетационный индекс (NDVI), как наиболее работоспособный при определении состояния растительности на разных типах почв. В качестве входных параметров для вычисления NDVI были средние значения кластеров, соответствующих разному состоянию растительности.
кластерный анализ техника кластеризация районирование
Метод главных компонент
Традиционно метод главных компонент используют для сжатия информации и избавления от разного типа шума. Однако он может успешно применяться и при тематическом дешифрировании . Наибольшие дисперсии (контрасты), присутствующие в многозональном (многослойном) изображении, составляют первую главную компоненту. Последующие главные компоненты содержат данные с меньшими дисперсиями (контрастами). По этим компонентам, после устранения влияния предыдущих, можно выделить очень тонкие детали изображения, которые были затенены более высоким контрастом в первоначальном изображении.
При исследовании изменения состояния растительности в течение вегетационного сезона (анализ ряда дат съемки) первая главная компонента включает в себя данные с самыми высокими контрастами, которые характерны для растительности в неизменно хорошем состоянии. (Нужно учитывать, что при анализе используются два спектральных канала - красный и ближний ИК, где контрастность наиболее значительна у хорошей растительности). Вторая главная компонента, включает изменения данных с меньшими контрастами, т.е. выявляет изменения состояния растительности как в лучшую сторону, так и в худшую сторону. Однако, значения второй главной компоненты выше в случае улучшения
Кластерный анализ - основной метод природно-сельскохозяйственного районирования на современном этапе.
Кластерный метод - многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, а затем упорядочивающая объекты в сравнительно однородные группы. Главная цель кластерного анализа - нахождение групп схожих объектов в выборке данных. Эти группы удобно называть кластерами.
Цель природно-сельскохозяйственного районирования - нахождение групп административных образований, схожих по природным и сельскохозяйственным условиям. Если на определенном уровне абстракции, представить административное образование в виде объекта, которому присущи, выражаемые в числовой форме свойства, характеризующие природные и сельскохозяйственные условия, то статистические методы кластерного анализа можно использовать при проведении природно-сельскохозяйственного районирования. На сегодняшний день не существует четких критериев выбора метода кластерного анализа для целей природно-сельскохозяйственного районирования.
По мнению автора, при природно-сельскохозяйственном районировании, возможно, применять агломеративные иерархические методы кластерного анализа: метод полной связи, метод Уорда; а также метод кластеризации «К средних». Каждый метод использует свой подход к образованию групп. В агломеративных иерархических методах на первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Когда связываются вместе несколько объектов, расстояния между кластерами в каждом методе определяется по своим собственным правилам (правила объединения или связи для двух кластеров).
Расстояния между объектами определяются в многомерном пространстве. Наиболее прямой путь вычисления расстояний между объектами в многомерном пространстве состоит в вычислении евклидовых расстояний. Существуют также и иные методы вычислений расстояний между объектами (квадрат евклидова расстояния, манхэттенское расстояние, расстояние Чебышева и др.). По мнению автора, при проведении природно-сельскохозяйственного районирования целесообразно использовать квадрат евклидова расстояния - наиболее общий тип расстояний, придающий большие веса более отдаленным друг от друга объектам. Квадрат евклидова расстояния вычисляется по формуле:
расстояние(x,y) = ?i (xi - yi)2
Все кластерные алгоритмы нуждаются в оценках расстояний между объектами. Ясно, что когда вычисляется расстояние, необходимо задать масштаб. Поскольку различные измерения используют различные типы шкал (числа, є, доли), то данные необходимо стандартизировать. Стандартизация определяет трансформацию данных, вычитая каждое значение из некоторого базисного значения и деля на стандартное отклонение. Стандартизация позволяет все исходные значения (не обращая внимания на их начальные распределения и единицы измерения) привести к набору сравнимых элементов из распределения с нулевым средним и стандартным отклонением равным 1. Данный вид преобразования очень широко применим, так как он упрощает механизм сравнения переменных. Кроме того, применение стандартизации к исходным данным делает результаты статистических методов совершенно независимыми их размахов и единиц измерения.
Для метода полных связей (метод «наиболее удаленных соседей») правило объединения указывает, что сходство на включение между кандидатами на включение в существующий кластер и любым из элементов этого кластера не должно быть меньше некоторого порогового уровня, имеется тенденция к обнаружению относительно компактных гиперсферических кластеров, образованных объектами с большим сходством. Расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями").
Метод Уорда построен так, чтобы оптимизировать минимальную дисперсию внутри кластеров: объединяются те группы или объекты, для которых средняя квадратическая ошибка получает минимальное приращение. Метод имеет тенденцию к нахождению кластеров приблизительно равных размеров и имеющих гиперсферическую форму. Метод Уорда использует методы дисперсионного анализа для оценки расстояний между кластерами, метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге.
Метод кластеризации «К средних» существенно отличается от иерархических агломеративных методов. Его использование возможно, если у исследователя есть гипотеза относительно числа кластеров по наблюдениям или по переменным. Метод «К средних» позволяет образовать необходимое число кластеров так, чтобы они были настолько различны, насколько это возможно. В общем случае, метод K средних строит ровно k различных кластеров, расположенных на возможно больших расстояниях друг от друга.
Для получения объективных результатов природно-сельскохозяйственного районирования на стадии обоснования рассматриваемой методики и выявления критериев выбора метода кластеризации, природно-сельскохозяйственное районирование целесообразно проводить в три этапа.
На первом этапе, для выявления количества и состава природно-сельскохозяйственных районов используются агломеративные иерархические методы. При этом вопрос о количестве кластеров решается исследователем на основании анализа расстояния между объектами.
Размещено на Allbest.ru
Подобные документы
Многомерный статистический анализ. Математические методы построения оптимальных планов сбора, систематизации и обработки данных. Геометрическая структура многомерных наблюдений. Проверка значимости уравнения регрессии. Кластерный и факторный анализ.
курсовая работа [2,6 M], добавлен 10.03.2011Выполнение кластерного анализа предприятий с помощью программы Statgraphics Plus. Построение линейного уравнения регрессии. Расчет коэффициентов эластичности по регрессионным моделям. Оценка статистической значимости уравнения и коэффициента детерминации.
задача [1,7 M], добавлен 16.03.2014Построение типологических регрессий по отдельным группам наблюдений. Пространственные данные и временная информация. Сферы применения кластерного анализа. Понятие однородности объектов, свойства матрицы расстояний. Проведение типологической регрессии.
презентация [322,6 K], добавлен 26.10.2013Расчет матриц парных коэффициентов корреляции, оценка их значимости. Построение уравнения регрессии. Точечный и интервальный прогноз значения У. Кластерный анализ методом К-средних. Упорядочивание субъектов РФ в порядке убывания по значениям факторов.
курсовая работа [2,2 M], добавлен 10.11.2013Цели сегментации рынка в маркетинговой деятельности. Сущность кластерного анализа, основные этапы его выполнения. Выбор способа измерения расстояния или меры сходства. Иерархические, неиерархические методы кластеризации. Оценка надежности и достоверности.
доклад [214,7 K], добавлен 02.11.2009Создание комбинированных моделей и методов как современный способ прогнозирования. Модель на основе ARIMA для описания стационарных и нестационарных временных рядов при решении задач кластеризации. Модели авторегрессии AR и применение коррелограмм.
презентация [460,1 K], добавлен 01.05.2015Основные показатели финансового состояния предприятия. Кризис на предприятии, его причины, виды и последствия. Современные методы и инструментальные средства кластерного анализа, особенности их использования для финансово-экономической оценки предприятия.
дипломная работа [1,4 M], добавлен 09.10.2013Построение уравнения множественной регрессии в линейной форме с полным набором факторов, отбор информативных факторов. Проверка значимости уравнения регрессии по критерию Фишера и статистической значимости параметров регрессии по критерию Стьюдента.
лабораторная работа [217,9 K], добавлен 17.10.2009Расчет параметров парной линейной регрессии. Оценка статистической значимости уравнения регрессии и его параметров с помощью критериев Фишера и Стьюдента. Построение матрицы парных коэффициентов корреляции. Статистический анализ с помощью ППП MS EXCEL.
контрольная работа [1,6 M], добавлен 14.05.2008Проверка нулевой и альтернативной гипотез с целью выполнения статистической проверки. Особенности использования тестовой статистики для проверки ряда на наличие тренда. Преимущества применения метода повторной выборки при проверке гидрологических данных.
презентация [47,5 K], добавлен 16.10.2014