Тема 2. Предмет и предпосылки корреляционно-регрессионного анализа 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Тема 2. Предмет и предпосылки корреляционно-регрессионного анализа



 

На практике в целях моделирования обычно ограничиваются вскрытием простого случая статистической связи – корреляционной, при которой изменения значений x независимой переменной X приводят к закономерному изменению условного математического ожидания случайной величины Y: y (x)= M { Y | X = x }. Таким образом, корреляционная зависимость Y (X) проявляется в изменении средних значений Y при изменении X, в то же время при каждом фиксированном значении x величина Y остается случайной, т.е. может принимать множество различных значений с разными вероятностями. Функция y (x) называется регрессией величины Y по X, то есть, регрессия есть зависимость среднего значения какой-либо случайной величины от некоторой другой величины или от нескольких величин. Уравнение y = y (x) называется уравнением регрессии, а соответствующий график – линией регрессии. Наиболее простым является тот случай, когда регрессия Y по X линейна. Функция регрессии y (x) обладает следующим свойством: среди всех действительных функций f (x) минимум математического ожидания M {(Y – f (X))2} достигается для функции f (x)= y (x). Это свойство применяется для прогноза Y по X. Аналогично определяется регрессия Y по X.

Когда при изменении значения признака X среднее значение признака Y не изменяется закономерным образом, а закономерно изменяется другая статистическая характеристика (показатели вариации, асимметрии, эксцесса и т.п.), связь следует назвать не корреляционной, а статистической.

Статистическая связь между двумя признаками подразумевает, что каждый из них имеет случайную вариацию индивидуальных значений относительно средней величины. Когда такую вариацию имеет только один из признаков, а значения другого являются жестко детерминированными, говорят лишь о регрессии, а не о статистической или корреляционной связях.

Сам термин «корреляция» (от лат. correlation – соотношение) означает вероятностную зависимость между величинами, не имеющими, вообще говоря, строго функционального характера. В отличие от функциональной, корреляционная зависимость в экономических процессах возникает тогда, когда один из исследуемых показателей зависит не только от данного второго, но и от других случайных факторов, или, когда среди экономических условий, от которых зависят эти показатели, имеются общие для них обоих условия. Статистическая корреляция в изучаемой экономической системе представляет интерес тогда, когда она указывает на наличие закономерной связи между рассматриваемыми экономическими факторами. Определение наличия корреляционной зависимости между случайными факторами или величинами, установление ее направления и количественная оценка тесноты связи являются основными задачами корреляционного анализа. Исходя из результатов корреляционного анализа проводят регрессионный анализ.

Целью регрессионного анализа является построение общего вида уравнений регрессии, получение статистических оценок неизвестных параметров, входящих в уравнение регрессии и проверка статистических гипотез о регрессии. В связи с тем, что при решении практических задач оба метода, корреляционный и регрессионный анализ, применяют чаще всего комплексно, то их объединяют в один вид исследования и называют – корреляционно-регрессионный анализ.

Корреляционно-регрессионный анализ является составной частью многомерного статистического анализа, который включает систематизацию и обработку многомерных статистических данных, выявление характера и структуры взаимосвязей между компонентами исследуемого случайного многомерного признака, построение, в конечном счете, многофакторной математической модели исследуемой сложной системы. Корреляционно-регрессионный анализ широко используется в разнообразных сферах прикладных исследований, в частности, в изучении сложных экономических процессов и систем. Однако решение экономических задач многомерными методами статистического анализа и интерпретации конечных результатов исследования требуют глубоких знаний и умения правильно оценивать полученную информацию.

Профессор Дж.Тьюки утверждает, что знание множественного регрессионного анализа при обработке экспериментальных данных совершенно необходимо. «В то же время не стоит полагать, что очень легко овладеть этим методом настолько, чтобы свободно пользоваться им на практике, принимая все необходимые меры предосторожности для избежания ошибок» [4, с. 670]. О трудностях использования корреляционно-регрессионного анализа в научных исследованиях и проведении при этом вычислений на ЭВМ говорят ученые Н.Джонсон и Ф.Лион: «Тем, кто понимает суть регрессии и корреляции, советы не нужны. Тем, кто не понимает, никакие советы не помогут» [5, с. 500]. Реализация многомерных методов статистики требует системного подхода и оптимального конструирования этапов получения и обработки экономической информации.

К сожалению, методы корреляционно-регрессионного анализа можно применять не ко всем экономическим данным. Использование этих методов для получения статистических математических моделей сложных систем основано на ряде предпосылок, выполнение которых необходимо для того, чтобы свойства полученных математических моделей были научно обоснованы и, в конечном счете, обеспечили прикладную полезность решения реальных задач. Профессор В.В.Швырков обращает внимание на определяющую важность выполнения предпосылок в прикладной статистике, которая пользуется выборочной совокупностью. «Однако репрезентативность выборочной совокупности в отношении генеральной совокупности неизвестна» [6, с. 7]. И далее: «Теория традиционной статистики безупречна с математической точки зрения». Однако, «практика традиционной статистики характеризуется… недостатками». В частности, «она базируется на вере в непогрешимость необоснованных предпосылок, например, относительно таких категорий, как однородность, репрезентативность и случайность» [6, с. 7]. Предпосылки многофакторного регрессионного анализа формулируют обоснованность полученных результатов и свойств моделей.

Следуя [3, с. 194-195], [7, с. 177-179], перечислим основные предпосылки применения корреляционно-регрессионного метода.

1. Наличие данных по достаточно большой совокупности. Какое именно число объектов наблюдения достаточно для анализа, зависит от цели исследования, требуемой точности и надежности, от числа факторов, корреляция с которыми изучается. Считается, что число наблюдений n и количество факторов m должно удовлетворять соотношению: (n + m)<(n − m)2 [1, с. 47]. Некоторые специалисты полагают, что число наблюдений должно быть по крайней мере в 3 – 4 раза больше (а лучше в 8 – 10 раз), чем количество факторных признаков, присутствующих в модели множественной регрессии [7, с. 208]. В частности, метод множественной линейной регрессии не применим при n <(m +1). Исследователь, располагая определенным числом наблюдений, сам решает вопрос о выборе количества факторов. Кроме того, метод пошаговой регрессии позволяет производить отбор наиболее существенных факторов и строить более сокращенную модель регрессии.

2. Достаточно качественная однородность совокупности объектов наблюдения. Нарушение этого условия может извратить параметры корреляции. Резко выделяющееся наблюдение может привести к неверным выводам по регрессионной модели. Поэтому в начале исследования необходимо исключить из рассмотрения аномальные наблюдения.

3. Желательно, чтобы исходные данные подчинялись совместному (m +1) -мерному нормальному закону распределения (m – количество факторных переменных случайного вектора (X 1, …, Xm, Y) [8, с. 76]. Это условие связано с применением метода наименьших квадратов при оценке параметров корреляции. При проверке значимости регрессионного уравнения и нахождении доверительных интервалов требование нормальности распределения предъявляют лишь к результативному признаку Y. На практике предпосылка нормальности распределения выборочных данных обычно выполняется приближенно, но и тогда метод наименьших квадратов дает неплохие результаты. Если отклонения от нормального закона существенны, то эффективность оценок коэффициентов моделей значительно уменьшается. Поэтому при грубом нарушении предпосылки о нормальном распределении результативного признака следует преобразовать результаты наблюдений и получить распределение близкое к нормальному. Проверку гипотезы о нормальном распределении можно провести с помощью известных критериев: критерия Колмогорова, критерия ω2, критериям χ2 Пирсона [3, с. 170]. При проверке можно воспользоваться пакетами прикладных компьютерных программ по статистике (см., например, [9]).

4. Факторные признаки (X 1, X 2, …, Xm) не должны находиться между собой в функциональной зависимости. Фактическое обеспечение указанной предпосылки является одной из проблем многофакторного регрессионного анализа. Если эта предпосылка не выполняется, то задача является некорректно поставленной и требует специальных методов ее решения. В частности, выбору устойчивой структуры многофакторного уравнения регрессии в условиях мультиколлинеарности факторов посвящена монография С.Г.Радченко (см. [10, гл. 3-4, 6-9]). Наличие значительной связи (мультиколлинеарности) факторных признаков может привести к построению «ложной» регрессии. Поэтому при обнаружении такой связи в процессе корреляционно-регрессионного анализа, по крайней мере, один из факторных признаков исключается из рассмотрения, как правило, это тот признак, который оказывает наименьшее влияние на результативный показатель.

Фактически сформулированные выше требования при решении конкретных практических задач могут выполняться лишь с некоторой точностью. Поэтому исследователю, по выражению С.Г.Радченко, «желательно сформулировать действия предварительного характера для «блокирования» отрицательных следствий невыполнения предпосылок» [10, с. 57].

 



Поделиться:


Последнее изменение этой страницы: 2021-01-08; просмотров: 105; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.216.94.152 (0.009 с.)