Обработка, анализ экспериментальных данных, аналитическое моделирование 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Обработка, анализ экспериментальных данных, аналитическое моделирование



Экономические данные почти всегда представлены в виде таблиц. Числовые данные, содержащиеся в таблицах, обычно имеют между собой явные (известные) или неявные (скрытые) связи.

Явно связаны показатели, которые получены методами прямого счета, т.е. вычислены по заранее известным формулам. Связи второго типа заранее неизвестны. Однако специалисты должны уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Одну из таких возможностей предоставляет использование аппарата математической статистики.

Проведение дисперсионного анализа позволяет решить задачу отбора важнейших факторов и их взаимодействия в сложных многофакторных ситуациях.

Корреляционно-регрессионный анализ (КРА) позволяет выявить скрытые зависимости и выразить их в виде формул, т.е. математически смоделировать явления или процессы.

Технология КРА может помочь:

· в проверке некоторых гипотез относительно существования связей между зависимыми переменными и факторами,

· при поиске статистически значимых моделей для целей объяснения, предсказания и управления.

Представление экономических и других данных в электронных таблицах в наши дни стало простым и естественным. Оснащение же электронных таблиц средствами КРА способствовало тому, что из группы сложных, глубоко научных и потому редко используемых, почти экзотических методов, КРА превращается для специалиста в повседневный, эффективный и оперативный аналитический инструмент.

Этапы КРА в условиях MS Excel:

1. нулевой этап - это этап сбора данных, создает фундамент прогнозам. Поэтому имеется ряд требований и правил, которые следует соблюдать при сборе данных:

· данные должны быть наблюдаемыми, т. е. полученными в результате замера, а не расчета. Наблюдения следует спланировать;

· данных необходимо в 4-6 раз больше, чем число факторов, влияние которых хотят выразить математически;

· чем больше неодинаковых (не повторяющихся) данных, и чем они однороднее, тем лучше получится уравнение, если связи существенны;

· подозрительные данные могут быть вызваны ошибками наблюдений и экспериментов - для упрощения анализа до начала решения такие данные рекомендуется отбрасывать (исключать из массива).

2. первый этап - этап корреляционного анализ, цель которого - определить характер связи (прямая, обратная) и силу связи (связь отсутствует, связь слабая, умеренная, заметная, сильная, весьма сильная, полная связь).

На характер связи указывает знак коэффициента корреляции: положительный – связь прямая, отрицательный – обратная.

Сила связи определяется качественно по шкале Чеддока:

 

Показания тесноты связи (коэффициент корреляции) 0.1-0.3 0.3-0.5 0.5-0.7 0.7-0.9 0.9-0.99
Характеристика силы связи слабая умеренная заметная высокая весьма высокая

 

Корреляционный анализ создает информацию о характере и степени выраженности связи (коэффициент корреляции - R), которая используется для отбора существенных факторов, а также для планирования эффективной последовательности расчета параметров регрессионных уравнений.

При одном факторе вычисляют коэффициент корреляции, а при наличии нескольких факторов строят корреляционную матрицу, из которой выясняют два вида связей:

· связи зависимой переменной с независимыми и

· связи между самими независимыми.

Рассмотрение матрицы позволяет,

во-первых, выявить факторы, действительно влияющие на исследуемую зависимую переменную, и выстроить (ранжировать) их по убыванию связи;

во-вторых, минимизировать число факторов в модели, исключив часть факторов, которые сильно или функционально связаны с другими факторами (речь идет о связях независимых переменных между собой).

Наиболее надежными на практике бывают одно- и двухфакторные модели.

Если будет обнаружено, что два фактора имеют сильную или полную связь между собой, то в регрессионное уравнение достаточно будет включить один из них;

3. второй этап - э тап расчета параметров и построение регрессионных моделей. Здесь стремятся отыскать наиболее точную меру выявленной связи, для того чтобы можно было прогнозировать, предсказывать значения зависимой величины Y, если будут известны значения независимых величин X1, Х2,.... Хn. Эту меру обобщенно выражают математической моделью линейной множественной регрессионной зависимости:

 

Yвычисленное = bо + b1X1 + b2Х2 +…+ bnХn

 

Excel вычисляет параметры модели:

· свободный член bо (константа, или пересечение с осью OY) и

· коэффициенты bn (коэффициенты регрессии).

Осуществление второго этапа сильно зависит от выводов, которые получены при анализе корреляционной матрицы.

Необходимо найти наилучшее уравнение. После получения каждого варианта уравнения обязательной процедурой является оценка его статистической значимости, поскольку главная цель - получить уравнение наивысшей значимости, поэтому второй этап КРА неразрывно связан с третьим.

Однако в связи с тем, что расчеты выполняет ЭВМ, а решение на основе оценки значимости уравнения принимает исследователь (принять или отбросить уравнение), условно можно выделить третий этап этой человеко-машинном технологии как интеллектуальный немашинный этап, для которого почти все данные по оценке значимости уравнения подготавливает ЭВМ.;

4. третий этап. На этом этапе выясняют статистическую значимость, т.е. пригодность полученной модели для использования ее в целях предсказания значений отклика.

При этом Excel

· рассчитывает по модели теоретические значения для ранее наблюденных значений зависимой величины и

· вычисляет отклонения теоретических значений от наблюдаемых значений,

· на основе этого строит графиков, в т. ч. график подборки (он иллюстрирует, насколько хорошо подобрана линия регрессии к наблюденным данным) и график остатков.

Исследователь должен рассмотреть эти графики. В остатках не должно наблюдаться закономерности, т.е. корреляции с какими-либо значениями (если она есть, то, в модель не включен какой-то закономерно действующий, но не известный, скрытый фактор, о котором нет данных),

· вычисляет для оценки качества полученной модели целый ряд коэффициентов которые обязан рассмотреть исследователь, сравнивая их с известными статистическими критериями и оценивая модель с точки зрения здравого смысла.

На этом этапе исключительно важную роль играют:

· коэффициент детерминации (R2). R2 - это квадрат множественного коэффициента корреляции R между наблюдаемым значением Y и его теоретически значением Yр вычисленным на основе модели с определенным набором факторов

Коэффициент детерминации измеряет действительность модели. Он может принимать значения от 0 до 1 (от 0 до 100%).

R2 показывает, насколько процентов независимые факторы оказывают влияние на зависимый фактор Yр. Величина R2 зависит от набора включенных в модель независимых факторов X1, Х2, …, Хn. Очень хорошо, если R2 > = 80%.

Остальная доля показывает зависимость Yр зависит от других, не участвовавших в модели факторов.

Задача исследователя - находить факторы, увеличивающие R2, и давать объяснение вариаций прогноза, чтобы получить идеальное уравнение.

Однако, коэффициент R2 самое большее может достигнуть величины 1 (или 100%), когда все значения факторов различны. А если в данных есть повторяющиеся опыты или оказываются зависимыми между собой независимые факторы (явление автокорреляции), то величина R2 не может достигнуть 1, как бы хороша ни была модель. Поэтому дубликаты данных или один из зависимых от другого независимый фактор следует удалять из исходной таблицы до начала расчета регрессии.

R2=1 лишь при полном согласии экспериментальных (наблюденных) и теоретических (расчетных) данных, т. е. когда теоретические значения точно совпадают с наблюдаемыми. Однако это считается весьма маловероятным случаем.

· F-критерий значимости регрессии (коэффициент Фишера).

Средствами регрессионного анализа Excel вычисляется F-критерий значимости регрессии для уравнения в целом. Это рассчитанное по наблюденным данным значение Fp (F расчетный, наблюденный) следует сравнивать с соответствующим критическим значением Fk, (F критический, табличный). Fк исследователь выбирает из публикуемых статистических таблиц на заданном уровне вероятности (на том, на каком вычислялись параметры модели, например, 95%).

Если наблюденное значение Fp < Fk, уравнение нельзя считать значимым. В иной терминологии об этом же может быть сказано: не отвергнута нуль-гипотеза относительно значимости всех коэффициентов регрессии в постулируемой модели, т. е. коэффициенты получаемого уравнения регрессии практически равны нулю.

Электронная технология КРА анализа становится абсолютно бесполезной, если расчетные данные будут толковаться не вполне правильно;

5. четвертый этап. На четвертом этапе КРА, если полученная модель статистически значима, ее применяют для прогнозирования (предсказания), управления или объяснения.

Если же обнаружена статистическая незначимость, то модель отвергают, предполагая, что истинной окажется какая-то другая форма связи (нелинейная), которую надо искать. С самого начала работы (по умолчанию) строилась и проверялась линейная регрессионная модель. Незначимость ее служит основанием для того, чтобы отвергнуть только линейную форму модели.

Для поиска наилучшего регрессионного уравнения в условиях применения компьютера используют следующие методы:

1. Метод исключения исследует не все, а только наилучшие регрессионные уравнения, в чем и состоит его экономичность:

· На первом этапе рассчитывается уравнение, включающее все независимые переменные.

· Затем, рассматривая корреляционную матрицу, находят в ней независимую переменную, имеющую самую слабую (по модулю) связь с зависимой, (т. е. с наименьшим по модулю значением коэффициента корреляции), и исключают ее из уравнения.

· Заново пересчитывают уравнение с меньшим числом независимых переменных. Если по сравнению с предыдущим расчетом значимость уравнения в целом (Fp) и коэффициент детерминации (R2) повысились, то исключение сделано правильно.

· Далее отыскивают в корреляционной матрице следующую независимую переменную с наименьшим значением коэффициента корреляции и поступают аналогичным образом.

Исключения независимых переменных (по одной) и пересчеты уравнений продолжают до тех пор, пока не обнаружат снижение значимости уравнения и доли объясненной вариации (R2) по сравнению с последним предшествующим расчетом. Это служит сигналом нецелесообразности последнего исключения.

Метод исключения - удовлетворительный метод, особенно для статистиков, которые любят видеть все переменные в уравнении, чтобы "чего-то не упустить". Метод исключения начинается с наиболее полного уравнения, включающего все переменные, и состоит в последовательном уменьшении числа переменных до тех пор, пока не принимается решение об использовании уравнения с оставшимися членами.

2. Шаговый метод - это попытка прийти к тем же результатам, действуя в противоположном направлении, начиная с однофакторной модели. При этом, как и в предыдущем методе, обязательно ориентируются на данные корреляционной матрицы. Т. е. при шаговом методе:

· на первом шаге расчета в уравнение включают не все, а только один фактор с наибольшим по модулю значением коэффициента корреляции между независимой и зависимой переменной.

· на каждом следующем шаге из оставшихся не включенными в уравнение независимых переменных в предыдущую модель добавляют только одну независимую переменную, наиболее связанную с зависимой, и заново пересчитывают все параметры регрессии.

· после пересчета сравнивают полученные оценки нового уравнения с оценками предшествующего шага.

Так продолжают до тех пор, пока не получат наилучшее уравнение с наибольшими расчетными значениями F и R2.

Шаговый метод представляет собой попытку прийти к тем же результатам, действуя в обратном направлении, т. е. включая переменные по очереди в уравнение до тех пор, пока уравнение не станет удовлетворительным. Порядок включения определяется с помощью частного коэффициента корреляции как меры важности переменных, еще не включенных в уравнение. Этот метод наиболее экономичен при обработке данных на ЭВМ. Однако использование этого метод для автоматического выбора наилучшего уравнения с помощью ЭВМ является слишком затруднительным.

Замечания

1. Добавления или исключения факторов по одному в каждом из названных методов позволяют заметить и выделить роль каждого отдельного фактора в регрессионной модели. Если этот принцип не соблюдается, т.е. факторы исключаются (при методе исключения) или добавляются (при шаговом методе) по два или более, то наилучшую модель отыскать можно, но трудно понять, какой же именно фактор наиболее существенно изменяет (улучшает или ухудшает) статистическую значимость уравнения.

2. Владея двумя методами поиска наилучшего регрессионного уравнения при наличии Excel, их можно применять по усмотрению исследователя.. При этом расчеты организуются по замыслу исследователя и сохраняется полный контроль за их выполнением. Имеется возможность тщательного оценивания результатов по формальным критериям, как это делают математики, а также с точки зрения здравого смысла, как это постоянно делают специалисты в своих предметных областях знания - в маркетинге, финансах и др. Этот стиль применения сложных методов и их компьютерных инструментов соответствует современному уровню технологий конечного пользователя.

3.Когда независимых переменных много, перед началом анализа полезно построить линейную диаграмму всех исходных данных, чтобы попытаться увидеть некоторые сильные или функциональные зависимости. Если масштабы данных весьма различны, то строят несколько диаграмм с разными шкалами.

4. Корреляцию моделируют с помощью Точечного графика или Диаграмма рассеяния, выбирая подтип графика, который дает точечные образы данных (без линий). График моделирует связи двух переменных. Числовые данные блока двух смежных столбцов (строк) отражаются по обеим осям графика, левый на оси X, где данные автоматически сортируются по возрастанию. Например, Х - расходы на рекламу, Y -количество проданных товаров, т. е. возникает картина того, как рост расходов на рекламу влияет на изменение продаж. Визуальный образ рассеяния дублируется в числовом виде в корреляционной матрице.

5. При расчете множественной регрессии в окне Регрессия важно заказать График подборки, тогда по числу независимых переменных автоматически выводится серия точечных графиков корреляции, на которые вторым цветом нанесены точки теоретических значений зависимого фактора Y.



Поделиться:


Последнее изменение этой страницы: 2017-02-10; просмотров: 178; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.191.102.112 (0.02 с.)