Интеллектуальный анализ данных и моделирование зависимости урожайности зерновых от затрат
Методы получения адекватных моделей для решения управленческих задач. Свойства почв и метеоусловий северной и центральной зон Краснодарского края. Оценка урожайности по методу наименьших квадратов. Моделирование с помощью кусочно-линейной регрессии.
Рубрика | Математика |
Вид | статья |
Язык | русский |
Дата добавления | 26.04.2017 |
Размер файла | 375,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://allbest.ru
Кубанский государственный аграрный университет,
УДК 519.2+681.3
Интеллектуальный анализ данных и моделирование зависимости урожайности зерновых от затрат Научный журнал КубГАУ, №36(2), 2008 года. http://ej.kubagro.ru/2008/02/pdf/16.pdf
Кацко Игорь Александрович,
к.т.н., профессор
Краснодар, Россия
Начало XXI века с точки зрения экономического анализа данных характеризуется интенсивным внедрением различных средств анализа данных - начиная от средств анализа в бизнес приложениях (Excel) и статистических пакетах (SAS, Statistica, SPSS и др.) до специализированных программ извлечения знаний из баз и хранилищ данных - Data Mining систем (например, PolyAnalyst, Deductor).
Вместе с этим следует отметить - несмотря на рекламные акции с претензией на универсальность указанных выше средств анализа данных и все их плюсы - программные средства и были и остаются инструментарием анализа данных в руках специалиста.
Развитие сельского хозяйства (и других отраслей) требует получения адекватных познавательных моделей для решения задач принятия управленческих решений.
Какой из подходов необходимо использовать? Для ответа на поставленный вопрос в настоящей работе рассматривается задача нахождения зависимости урожайности зерновых от ряда экономических факторов с использованием пакетов Statistica и PolyAnalyst, на примере сельскохозяйственных предприятий северной и центральной зоны Краснодарского края, которые характеризуются близкими свойствами почв, климата и метеоусловий.
Следует отметить, что статистическая зависимость не позволяет установить причинность связи. Причинность в экономических исследованиях подтверждается только содержательно и может подкрепляться или не подкрепляться статистически.
Задача исследователя - найти аналитическую функцию, которая наилучшим образом описывает экспериментальные данные в соответствии с предполагаемой связью.
Большое разнообразие реальных ситуаций служило стимулом эволюции регрессионного анализа, развитию метода в направлении снятия классических ограничений и распространению его принципов на новые явления и процессы.
Многие новые веяния внедрялись в пакеты прикладных программ.
В столь небольшом обзоре нереально полностью описать даже один пакет. Мы остановимся на кратком обзоре двух из них - Statistica 6.1 и PolyAnalyst 5.0. Обе системы содержат средства интеллектуального анализа данных.
Statistica в основном ориентируется на классические методы математической статистики, многомерного статистического анализа и нейронных сетей.
Так, например, статистический модуль Общая линейная модель, является современным обобщением линейной регрессионной модели и позволяет включать в планы категориальные предикторные переменные наряду с непрерывными и многомерные зависимые переменные.
Основная идеология методов многомерного статистического анализа используемых в системе Statistica сводится к использованию теории алгебраических инвариантов не изменяющихся при линейных преобразованиях (например, собственные значения, собственные вектора, определители, декомпозиция матриц, корреляция между переменными и т.д.).
В нашем случае рассматривалось 547 сельскохозяйственных предприятий из которых 169 принадлежат северной и центральной зоне Краснодарского края - основным производителям зерновых.
Рассматривались следующие факторы: затраты на 1га - x1 (тыс.руб.); оплата труда на 1га (тыс.руб.) - x2; затраты на семена на 1га (тыс.руб.) - x3; затраты на удобрения на 1 га (тыс.руб.) - x4; затраты на ГСМ на 1 га (тыс.руб.) - x5; амортизация (тыс.руб.) - x6; урожайность ц/га - y.
Рис. 1. Диаграмма размаха
Графическое изображение анализируемых данных в виде «ящика с усами» (рис. 1) показывает, что наибольший разброс имеют переменные амортизации на 1 га и затрат на 1га остальные переменные различаются незначительно.
Регрессионный анализ с использованием Statistica 6.0 показал, что линейная модель объясняет всего 16,2% вариации урожайности и кроме свободного члена и затрат на удобрения на 1 га других значимых переменных нет (табл.1).
После выбора опции Кусочно-линейная регрессия во вкладке стартовой панели модуля Нелинейное оценивание, STATISTICA производит оценивание по методу наименьших квадратов следующей модели:
y = (b01 +b11*x1 +...+bm1*xm)*(y <= bn) + (b02 +b12*x1 +...+bm2*xm )*(y > bn)
Таким образом, производится оценивание с использованием двух различных уравнений линейной регрессии; одно для значений y, которые меньше или равны точки разрыва (bn) и одно для значений y больше точки разрыва.
Таблица 1. - Итоги анализа регрессионной зависимости урожайности от затрат.
моделирование управленческий урожайность регрессия
Для оценки параметров модели использовалось несколько численных методов оптимизации (табл. 2).
Из таблицы 2 следует, что лучше всего - на 70,7% вариацию урожайности объясняет зависимость найденная с помощью квази-ньютоновского метода оптимизации (хотя и в этом случае практически все факторы не являются статистически значимыми). Анализ коэффициентов проводится стандартно.
Результаты пошаговой регрессии, несмотря значимость факторов включенных в модель, объясняют всего 13% вариации урожайности (табл.3).
Таблица 2. - Результаты моделирования с помощью кусочно-линейной регрессии.
Методы оптимизации |
Точки разрыва |
B0 |
Затраты на 1га, x1 |
Оплата труда на 1га, x2 |
Затраты на семена на 1га, x3 |
Затраты на удобрения на 1 га, x4 |
Затраты на ГСМ на 1 га, x5 |
Амортизация, x6 |
Объясненная доля дисперсии: |
R R |
|
Квазиньютоновский |
Y<= 47.199 |
30.358 |
0.582 |
0.207 |
-1.694 |
1.726 |
-0.002 |
3.932 |
0.707 |
0.841 |
|
Y> 47.199 |
45.686 |
1.206 |
1.828 |
1.029 |
-0.225 |
-0.015 |
-0.885 |
||||
Хука-дживиса |
Y<= 49.139 |
28.312 |
0.799 |
0.375 |
-1.998 |
2.252 |
0.022 |
3.347 |
0.702 |
0.838 |
|
Y> 49.139 |
43.299 |
1.517 |
1.702 |
1.217 |
-0.119 |
-0.007 |
-0.538 |
||||
Хука-дживиса и квазиньютоновский |
Y<= 49.139 |
28.312 |
0.799 |
0.375 |
-1.998 |
2.252 |
0.022 |
3.347 |
0.702 |
0.838 |
|
Y> 49.139 |
43.299 |
1.517 |
1.702 |
1.217 |
-0.119 |
-0.007 |
-0.538 |
||||
Розенброка |
Y<=49.142 |
20.126 |
0.264 |
0.227 |
5.316 |
2.697 |
0.099 |
3.591 |
0.547 |
0.74 |
|
Y> 49.142 |
26.990 |
3.384 |
1.461 |
-9.231 |
-0.428 |
0.081 |
0.884 |
||||
Розенброка и квазиньютоновский |
Y<=49.053 |
28.320 |
0.799 |
0.375 |
-1.998 |
2.252 |
0.022 |
3.348 |
0.702 |
0.838 |
|
Y> 49.053 |
43.309 |
1.517 |
1.702 |
1.221 |
-0.121 |
-0.007 |
-0.538 |
Таблица 3. - Итоги пошаговой регрессии
Таким образом, полученные с использованием пакета Statistica модели, неудовлетворительно описывают зависимость урожайности зерновых от затрат.
PolyAnalyst формулирует и проверяет гипотезы о виде регрессионной зависимости на внутреннем языке программирования с помощью функциональных примитивов (простейших программ). Результаты анализа представляются в виде понятном пользователю - таблиц, графиков и формул. Следует отметить, что авторы рассматривают методы линейной регрессии, поиска зависимостей в системе PolyAnalyst как дальнейшее развитие методов классического регрессионного анализа.
Следует отметить, что все описанные выше модули (как в принципе и все методы ИАД) используют классические статистические методы на этапах поиска и оценки моделей, и оценки её адекватности [1]. Например, надёжность полученных результатов основывается на стандартном отклонении
и стандартной ошибке
,
где уi - зависимая переменная; - соответствующее значение, предсказанное моделью; n - число наблюдений; - квадрат дисперсии переменной y. Значимость найденной зависимости оценивается с помощью индекса значимости
.
Здесь sreal - стандартное отклонение, полученное на реальных данных; srand - стандартное отклонение случайных данных, в которых значение результативной переменной случайно перемешано для разных наблюдений, k=const. Считается, что результат моделирования значим, если значение
Iz >2,0.
Стандартный подход к оценке значимости модели - коэффициент детерминации R squared (чем ближе он к единице, тем лучше модель).
Визуальный подход к оценке значимости модели заключается в изображении зависимости предсказанных значений (ypredicted), от реальных (yreal): чем ближе точки лежат к прямой ypredicted=yreal, тем точнее модель описывает данные.
Оценка значимости линейных регрессионных моделей основывается на известной статистике Фишера-Снедекора F-ratio: , где bj - j-й коэффициент модели; - стандартное отклонение коэффициента, который лежит в основе отбора наилучших переменных в уравнение регрессии (обычно переменная включается, если F-ratio>2,0).
Линейная регрессия в системе PolyAnalyst позволила найти зависимость: Урожайность = +38.1469 +0.794892*"затраты на 1га" +2.68959*"Затраты на ГСМ на 1 га".
стандартная ошибка |
0.9512 |
|
R-squared |
0.09516 |
Поиск законов (в виде формул) позволил найти:
Лучшее по значимости правило: Урожайность = (58.9852 *"Оплата труда на 1га"*"затраты на 1га"*"затраты на 1га"*if(NewVar,1 ,0.761038)+120.481 *"Оплата труда на 1га"*"затраты на 1га")/("Оплата труда на 1га"*"затраты на 1га"*"затраты на 1га"+25.472 *"Оплата труда на 1га"+0.0620379 *"затраты на 1га"*"затраты на 1га")
Лучшее по точности правило: Урожайность = (59.7531 *"Оплата труда на 1га"*"Оплата труда на 1га"*"затраты на 1га"*"затраты на 1га"*if(NewVar,1 ,0.761038)+119.49 *"Оплата труда на 1га"*"Оплата труда на 1га"*"затраты на 1га"-1.51034 *if(NewVar,1 ,0.761038))/("Оплата труда на 1га"*"Оплата труда на 1га"*"затраты на 1га"*"затраты на 1га"+25.472 *"Оплата труда на 1га"*"Оплата труда на 1га"+0.0754276 *"Оплата труда на 1га"*"затраты на 1га"*"затраты на 1га"-0.11112).
Уровень |
Стд.ош. |
Стд.откл. |
Значим.. |
R-squared |
|
наиб. знач. |
0.7519 |
10.58 |
> 100 |
0.4346 |
|
наиб. точн. |
0.7454 |
10.49 |
> 100 |
0.4444 |
Получено несколько моделей. Какую следует выбрать? Простая линейная регрессия и пошаговая регрессии описывают дисперсию урожайности всего на 16% и 14% соответственно. Кусочно-линейная регрессия описывает свыше 70% вариации урожайности, но практически все переменные не являются статистически значимыми - значим только свободный член.
Линейная регрессия в системе PolyAnalyst возможно более приемлема хотя коэффициент корреляции очень мал, но значение индекса значимости 5,142 говорит о том, что модель достаточно хорошо описывает данные по случайной выборке (что соответствует идеологии бутстреп-метода).
Наличие числовой информации о деятельности объекта предполагает эконометрический подход. Важнейшим моментом скептического отношения практиков к эконометрическим исследованиям является уверенность в том, что данные, которые являются основой моделирования часто содержат неточности, либо вообще фальсифицированы. Современная прикладная статистика рекомендует в этом случае обращаться к робастным методам - устойчивым к всевозможным ошибкам. Между тем для практика важна оценка зависимостей между факторами, возможность прогнозирования и управления, а не сам факт получения устойчивых моделей.
В рамках новой экономической парадигмы, сформировавшейся в мире после экономических кризисов, статистические результаты и измерения, полученные на предшествующих этапах развития региональной и мировой экономики не имеют научной силы, в связи с возможностью попадания в точки структурных изменений системы (точки бифуркаций). Поэтому оспариваются и традиционные способы прогнозирования и научные результаты полученные с помощью этих методов.
Таким образом, имеющиеся эконометрические методы, преимущественно ориентированные на вероятностную парадигму данных и имеющейся неопределенности, недостаточны для построения адекватных моделей функционирования и прогнозирования АПК.
Результаты оптимизация структурных (и других) параметров деятельности предприятия и всего АПК также часто не удовлетворяет практиков.
Одна из причин - предположение детерминируемости оптимизируемых переменных (в крайне редком случае - стохастичности). В силу этого исследователи настроены на разработку принципиально новой теории и методологии построения моделей функционирования и прогнозирования сельскохозяйственных предприятий в условиях данных не имеющих детерминированной или вероятностной природы, что подтверждает актуальность настоящей статьи.
Однако приведенный выше анализ показал, что в анализе данных нельзя ограничиваться только одной точкой зрения - и регрессия в Statistica и аналогичные средства в системе PolyAnalyst взаимно дополняют друг друга в описании изучаемого процесса. Рассмотрение данных с двух альтернативных точек зрения позволяет лучшее проникнуть в суть проблемы. Таким образом «интеллектуализация» методов математической и прикладной статистики - это свершившийся факт, который можно и нужно использовать.
Потенциально с помощью этой модели (и вообще подобных моделей) можно прогнозировать урожайность в разные моменты времени. Даже если точный прогноз не всегда достижим, то хотя бы тенденцию к росту или спаду урожайности. Это необходимо для оценки государственными органами потенциальных возможностей сельского хозяйства. В последние годы сокращается количество многофакторных опытов, падает авторитет прикладной статистики и эконометрики.
Между тем, невозможно прогнозировать деятельность АПК, изучать его ресурсы без математических моделей различного рода. Модели должны быть адаптивными и разными для разных зон с/х деятельности. Так полученные модели могут с успехом использоваться в северной и центральной зоне Краснодарского края, но сама идеология применения интеллектуального анализа для обработки данных конечно применима везде. Необходимость подобных моделей подтверждается опытом развития аграрной науки как у нас в стране, так и за рубежом.
Литература
1. Арсеньев С.Б. Извлечение знаний из медицинских баз данных. Москва, Мегапьютер. WEB: http://www.megaputer.ru/
2. Боровиков В.П. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. 2-е изд. - СПб.: Питер, 2003. - 688с.:илл.
Аннотация
Интеллектуальный анализ данных и моделирование зависимости урожайности зерновых от затрат. Кацко Игорь Александрович, к.т.н., профессор. Кубанский государственный аграрный университет, Краснодар, Россия. УДК 519.2+681.3
В статье проводится сравнительный анализ применения методов интеллектуального анализа данных и регрессионного анализа данных на примере моделирования зависимости урожайности зерновых культур от затрат, по данным о деятельности сельхоз организаций Краснодарского края за 2006г.
Рассмотрено два подхода: регрессии с разрывом, основывающейся на классическом варианте и реализованной в пакете Statistica; многопараметрической линейной регрессии, основанной на идеологии эволюционного программирования.
На основе результатов анализа делается вывод о том, в анализе данных нельзя ограничиваться только одной точкой зрения - и регрессия в Statistica и аналогичные средства в системе PolyAnalyst взаимно дополняют друг друга в описании изучаемого процесса.
Ключевые слова: интеллектуальный анализ данных моделирование, зависимость, урожайность зерновых, затраты
Annotation
Intellectual analysis of date and modelling of dependence of grains yielding on expenditures. Katsko Igor Alexandrovich, Cand. Tech. Sci., professor. Kuban State Agrarian University, Krasnodar, Russia. UDC 519.2+681.3
Comparative analysis of intellectual data analysis methods application and regressive data analysis on the example of modeling of grains yielding dependence on expenditures, by data on activities of agricultural organizations of Krasnodar region for 2006 is carried out in the article.
Two approaches: regression with rupture, based on the classical variant and realized in the packet “Statistica”; multi parametric linear regression, based on the ideology of evolutional programming are carried out in the article.
There was made a conclusion on the basis of the analysis results that it was impossible to be restricted only by one point of view - and regression in Statistica and analogous means in system PolyAnalyst mutually supplement each other in the description of investigating process.
Key words: intellectial analysis of data, modeling, dependence, grain yielding, expenditures
Размещено на Allbest.ru
Подобные документы
Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.
контрольная работа [380,9 K], добавлен 05.04.2015Статистическое описание и выборочные характеристики двумерного случайного вектора. Оценка параметров линейной регрессии, полученных по методу наименьших квадратов. Проверка гипотезы о равенстве средних нормальных совокупностей при неизвестных дисперсиях.
контрольная работа [242,1 K], добавлен 05.11.2011Прямолинейные, обратные и криволинейные связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Метод наименьших квадратов. Оценка значимости коэффициентов регрессии. Проверка адекватности модели по критерию Фишера.
курсовая работа [232,7 K], добавлен 21.05.2015Основные задачи регрессионного анализа в математической статистике. Вычисление дисперсии параметров уравнения регрессии и дисперсии прогнозирования эндогенной переменной. Установление зависимости между переменными. Применение метода наименьших квадратов.
презентация [100,3 K], добавлен 16.12.2014Вероятностное обоснование метода наименьших квадратов как наилучшей оценки. Прямая и обратная регрессии. Общая линейная модель. Многофакторные модели. Доверительные интервалы для оценок метода наименьших квадратов. Определение минимума невязки.
реферат [383,7 K], добавлен 19.08.2015Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.
задача [133,0 K], добавлен 21.12.2008Исследование точности прогнозирования случайного процесса с использованием метода наименьших квадратов. Анализ расхождения между трендом и прогнозом, последующая оценка близости распределения расхождений наблюдений и распределения сгенерированного шума.
курсовая работа [1,0 M], добавлен 29.01.2010Рассмотрение основных методов решения школьных задач на движение двух тел в разных и одинаковых направлениях: анализ и синтез, сведение к ранее решенным, математическое моделирование (знаковые, графические модели), индукция, исчерпывающая проба.
презентация [11,8 K], добавлен 08.05.2010Непрерывная и точечная аппроксимация. Интерполяционные полиномы Лагранжа и Ньютона. Погрешность глобальной интерполяции, квадратичная зависимость. Метод наименьших квадратов. Подбор эмпирических формул. Кусочно-постоянная и кусочно-линейная интерполяции.
курсовая работа [434,5 K], добавлен 14.03.2014Основные понятия математического моделирования, характеристика этапов создания моделей задач планирования производства и транспортных задач; аналитический и программный подходы к их решению. Симплекс-метод решения задач линейного программирования.
курсовая работа [2,2 M], добавлен 11.12.2011