Исследование корреляционных зависимостей 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Исследование корреляционных зависимостей



МАД Лабораторная работа 2

ИССЛЕДОВАНИЕ КОРРЕЛЯЦИОННЫХ ЗАВИСИМОСТЕЙ

МЕЖДУ ПРИЗНАКАМИ

Цель работы: научиться исследоватькорреляционные зависимости между признаками.

Задание для работы в аудитории

По предложенным преподавателем исходным данным требуется исследовать влияние некоторых признаков X 1 , X 2, X 3, X 4, X 5.  на  признак Y.

Для выполнения поставленного задания необходимо:

1. Построить графики данных для X 1 , X 2, X 3, X 4, X 5.,  Y. Оцените визуально наличие или отсутствие грубых погрешностей в каждом признаке. Удалите резко выделяющееся наблюдение признака.

 

2. Проверить гипотезу о нормальном распределении признаков: Y,   X 1 , X 2, X 3, X 4, X 5..

В отчете результаты выполнения представить в виде таблицы:

Статистические характеристики исходной информации

Номер пере-

менной

Среднее арифме-тическое значение

Среднее

квадра-

тическое отклонение

Вариа-ция, %

Асим-

метрия

Эксцесс

Ошибка

Асим- метрии Эксцесса
У              
Х1              
Х2              
             
Хn              

 

При проверке нормальности распределения признаков используйте неравенства (11) и (12) теоретической части описания лабораторной работы. Сделайте выводы.

 

2. В случае невыполнения предпосылок об однородности и нормальности анализируемых случайных величин необходимо провести корректировку исходного массива данных.

В отчете результаты выполнения представить в виде таблицы.

Распределение значений признака по диапазонам рассеяния признака относительно

 

Границы диапазонов, млн. руб.

Количество значений xi, находящихся в диапазоне

Процентное соотношение рассеяния значений xi по диапазонам, %

  Признак Ком-мен тарий Признак Ком-мен тарий Признак Коммен-тарий
А 1 2 3 4 5 6
[ ; ] [ ;  ]        
[ ; ] [ ;  ]        
[ ; ] [ ;  ]        

 

Сделать выводы.

Посмотрите, имело ли смысл не удалять из выборочных данных резко выделяющиеся наблюдения признака (п.1). Если это не имело смысла (наблюдение не является резко выделяющимся), верните наблюдение в выборку.

 

3. Постройте поля корреляции для определения существования и форм зависимости признака Y от признаков X 1 , X 2, X 3, X 4, X 5.

В отчете  привести поля корреляции. Сделать выводы по каждому полю корреляции.

 

4. Изучите зависимость признака Y от признаков X 1 , X 2, X 3, X 4, X 5. путем расчета выборочных парных линейных коэффициентов корреляции.

В отчете привести формулу расчета выборочных парных линейных коэффициентов корреляции. Результаты расчетов свести в таблицу.

 

Исследование корреляционной зависимости признака Y от признаков

X 1 , X 2, X 3, X 4, X 5.

  X 1 X 2 X 3 X 4 X 5
1.Парные линейные коэффициенты корреляции          
Комментарий о силе связи между  и y          

 

Сделать выводы.

 

5. Проверьте значимость каждого выборочного коэффициента корреляции.

 

В отчете привести теоретическую часть проверки значимости выборочного коэффициента корреляции. Результаты расчетов свести в таблицу.

Проверка значимости выборочных коэффициентов корреляции

 
1.Фактическое значение t-критерия Стьюдента          
2. Табличное значение t-критерия Стьюдента          
3. Комментарий о значимости выборочного коэффициента корреляции          

 

Сделать выводы.

 

 

6. Постройте доверительный интервал для каждого коэффициента корреляции: .

Результаты расчетов свести в таблицу.

Доверительные интервалы выборочных коэффициентов корреляции

 
1.Парные линейные коэффициенты корреляции          
2. Средняя ошибка коэффициента корреляции          
3. Коэффициент доверия t          
4.Доверительный интервал выборочного коэффициента корреляции          

 

Сделать выводы.

 

7. Построить матрицу парных линейных коэффициентов корреляции и выявить коллинеарные признаки.

В отчете привести матрицу парных линейных коэффициентов корреляции, проанализировать ее, сделать выводы. Пример анализа корреляционной матрицы представлен в настоящих методических указаниях.

 

8. Сделать выводы по каждому пункту и по всей работе в целом с целью определения признаков, которые целесообразно включить в уравнение линейной регрессии. Предложить модели уравнений регрессии.

Индивидуальные задания выполняются по вариантам.

 

 

Требования к отбору факторов для корреляционного анализа

 

Отбор факторов для корреляционного анализа является очень важным моментом. От того, насколько правильно он сделан, зависит точность выводов по итогам анализа. Главная роль при отборе факторов принадлежит теории, а также практическому опыту анализа. При этом необходимо придерживаться следующих правил.

1. При отборе факторов в первую очередь следует учитывать причинно-следственные связи между показателями, так как только они раскрывают сущность изучаемых явлений. Анализ же таких факторов, которые находятся только в математических соотношениях с результативным показателем, не имеет практического смысла.

2. При создании многофакторной корреляционной модели необходимо отбирать самые значимые факторы, которые оказывают решающее воздействие на результативный показатель, так как охватить все условия и обстоятельства практически невозможно. Факторы, которые имеют критерий надежности по Стьюденту меньше табличного, не рекомендуется принимать в расчет.

3. Все факторы должны быть количественно измеримы, т.е. иметь единицу измерения.

4. В корреляционную модель линейного типа не рекомендуется включать факторы, связь которых с результативным показателем имеет криволинейный характер.

5. Не рекомендуется включать в корреляционную модель взаимосвязанные факторы. Если парный коэффициент корреляции между двумя факторами больше 0,85, то по правилам корреляционного анализа один из них необходимо исключить, иначе это приведет к искажению результатов анализа.

6. Нежелательно включать в корреляционную модель факторы, связь которых с результативным показателем носит функциональный характер.

Большую помощь при отборе факторов для корреляционной модели оказывают аналитические группировки, способ сопоставления параллельных и динамических рядов, линейные графики. Благодаря им можно определить наличие, направление и форму зависимости между изучаемыми показателями. Отбор факторов можно производить также в процессе решения задачи корреляционного анализа на основе оценки их значимости по критерию Стьюдента, о котором будет сказано ниже.

Поскольку корреляционная связь с достаточной выразительностью и полнотой проявляется только в массе наблюдений, объем выборки данных должен быть достаточно большим, так как только в массе наблюдений сглаживается влияние других факторов. Чем большая совокупность объектов исследуется, тем точнее результаты анализа.

По коэффициенту вариации.

Если коэффициент вариации превышает 33%, говорить о нормальности распределения данных выборки нельзя. Предварительный анализ с помощью коэффициента вариации дает самую грубую оценку.

 

2. По коэффициентам эксцесса и асимметрии (получаются неплохие результаты при большом числе наблюдений (n > 100) и использовании выборочных коэффициентов эксцесса и асимметрии).

Для нормально распределенной случайной величины коэффициенты эксцесса и асимметрии равны 0. Поэтому, если соответствующие эмпирические величины достаточно малы, можно предположить, что генеральная совокупность распределена по нормальному закону.

. Принято говорить, что предположение о нормальности распределения не противоречит имеющимся данным, если асимметрия лежит в диапазоне от -0,2 до 0,2, а эксцесс – от -1 до 1.

 

В практических расчетах в качестве асимметрии применяется нормированный коэффициент асимметрии третьего порядка, который не зависит от масштаба, выбранного при измерении варианта, так как является отвлеченной величиной:

.                                                                                          (8)

Если , то в ряду распределения преобладают варианты, которые меньше, чем средняя, т.е. ряд отрицательно асимметричен (или с левосторонней скошенностью – более длинная ветвь влево). Если , то для ряда распределения характерна положительная асимметрия (правосторонняя скошенность – более длинная ветвь вправо),  при симметричном распределении, так как варианты равноудалены от  и имеют одинаковую частоту. Поэтому .

Для определения крутизны (заостренности) распределения вычисляется центральный момент четвертого порядка и определяется нормированный момент четвертого порядка:

.                                                                                          (9)

Для нормального распределения . При оценке крутизны в качестве эталонного выбирается нормальное распределение, которое сравнивается с фактическим и вычисляется показатель эксцесса распределения:

                                                                                      (10)

При симметричном распределении . Если , то распределение является островершинным, если  - плосковершинным. В результате более при сравнении распределений двух случайных величин при равенстве их средних предпочтительной является величина с большим коэффициентом эксцесса.

Однако случай, когда  и , чисто теоретический. На практике для признания симметричности распределения используют следующее допущение:

если ,                                                                              (11)

где  (n – число значений случайной величины),

то асимметрия считается несущественной, а ее наличие объясняется воздействием случайных факторов. В противном случае асимметрия статистически значима (существенна) и факт ее наличия требует дополнительной интерпретации.

Аналогично, если

,                                                                                        (12)

где

то эксцесс считается незначительным и его величиной можно пренебречь.

3. На основе среднего абсолютного отклонения. Для не очень больших выборок (n <120) можно вычислить среднее абсолютное отклонение (САО):

где n – объем выборки;

- среднее значение выборки.

Для выборки, имеющей приближенно нормальный закон распределения, должно выполняться условие:

.

4. На основе критериев согласия (например, χ2 (хи-квадрат)).

При малом n (50< n < 100) наиболее убедительные результаты дает использование критериев согласия. Здесь нулевая гипотеза Н0 представляет собой утверждение о том, что распределение генеральной совокупности, из которой получена выборка, не отличается от нормального. Один из критериев - непараметрический критерий χ2 (хи-квадрат). Он основан на сравнении эмпирических частот интервалов группировки с теоретическими (ожидаемыми) частотами, рассчитанными по формулам нормального распределения. Для его применения желательно иметь не менее 40 – 50 выборочных данных, сгруппированных не менее чем в 7 интервалов, в каждом из которых находится хотя бы 5 наблюдений.

 

5. На основе размаха варьирования. Проверку гипотезы нормальности распределения для сравнительно широкого класса выборок (3< n <1000) можно выполнить с помощью метода, основанного на размахе варьирования R.

Для его использования определяют размах упорядоченной совокупности наблюдений ():

.

Если фактическое численное значение  критерия попадает в диапазон табличных значений: для n=10 =2,670 ….3,685; для n=20 =3,180 … 4,490; для n=30 = 3,470 …4,890, для уровня значимости α=0,05, то нулевая гипотеза  о ненормальном распределении случайной величины отвергается и принимается альтернативная гипотеза  о нормальном распределении случайной величины.

Анализ  можно проводить и при 10% уровне значимости (α=0,10).

В случае невыполнения предпосылок об однородности и нормальности анализируемых случайных величин необходимо провести корректировку исходного массива данных. С этой целью можно воспользоваться «правилом трех сигм». Для каждой случайной величины формируется таблица 2.5

 

Таблица 2.5 - Распределение значений признака по диапазонам рассеяния признака относительно

 

Границы диапазонов, млн. руб.

Количество значений xi, находящихся в диапазоне

Процентное соотношение рассеяния значений xi по диапазонам, %

  Первый признак Второй признак Первый признак Второй признак Первый признак Второй признак
А 1 2 3 4 5 6
[ ; ] [ ;  ]        
[ ; ] [ ;  ]        
[ ; ] [ ;  ]        

 

На основе данных таблицы 2.5  структура рассеяния значений признака по трем диапазонам сопоставляется со структурой рассеяния по правилу «трех сигм», справедливому для нормальных и близких к нему распределений:

68,3% значений располагаются в диапазоне (),

95,4% значений располагаются в диапазоне (),

99,7% значений располагаются в диапазоне ().

Если полученная в табл. 2.5 структура рассеяния хi по 3-м диапазонам незначительно расходится с правилом «трех сигм», можно предположить, что распределение единиц совокупности по данному признаку близко к нормальному.

Расхождение с правилом «трех сигм» может быть существенным. Например, менее 60% значений хi попадают в центральный диапазон () или значительно более 5% значения хi выходит за диапазон (). В этих случаях распределение нельзя считать близким к нормальному.

Если исходные данные неоднородные или не распределены нормально, то их корректируют. Из массива первичной информации исключаются все резко выделяющиеся (аномальные) значения, т.е. значения, уровень которых не попадает в интервал или используют правила отсева грубых погрешностей. Данный критерий надежен при числе измерений n ≥ 20...50. Это правило обычно считается чересчур жестким, в связи с этим рекомендуется назначать границу цензурирования исходя из объёма выборки: при 6 < n ≤1000 она равна 4 «сигма»; при 100 < n ≤1000 − 4,5 «сигма»; при 1000 < n ≤10000 − 5 «сигма». Данное правило используется только при нормальном распределении.

Пример отсева грубых погрешностей методом максимального относительного отклонения:

Пирометром измеряется температура поверхности нагретого тела. Будем предполагать, что температура видимой поверхности нагретого тела во всех точках одинакова. Различными исследователями было проведено шесть измерений температуры и получены следующие их значения: Температура, 0С: 925, 950, 975, 1000, 1025, 1050 (n=6).

    Имеются ли среди этих измерений грубые погрешности? Предварительно вычислим оценки  и S:

 

    Для определения Sx использовали (n-1), т.к. истинное значение измеряемой температуры нам не известно. Заметим, что здесь это важно, т.к. сделано мало измерений (всего n=6).

    Выберем измерения, имеющие наибольшее отклонение от среднеарифметического значения. Таких значений оказалось два: 925 0C и 1050 0C.

Для оценки нуль-гипотезы о несущественности отклонения выбранного от  используется распределение Стьюдента. С этой целью рассчитывается максимальное относительное отклонение . При этом предполагается, что случайная величина  распределена по нормальному закону. Максимальное относительное отклонение сравнивается с теоретическим значением критерия Стьюдента t, которое зависит от уровня значимости α (0,05; 0,1; 0,01) и числа степеней свободы =n-1.

Если tэксп>ta, , то имеется достаточно основания с вероятностью P=1- α исключить "выскакивающее" значение как грубую ошибку и отвергнуть нуль-гипотезу. В противном случае tэксп<ta, , нуль-гипотеза принимается и от отсева "выскакивающего значения" лучше воздержаться с вероятностью P.

    Вычислим

 

    При a=0,05 и =n-1=5 определяем t0,05;5=2,57.

    Так как tэксп<ta, , то от отсева выделяющихся наблюдений лучше воздержаться.

Аналогично проводим расчеты для второго значения - 925 0C:

Так как  tэксп<ta, , то от отсева выделяющихся наблюдений лучше воздержаться.

В результате сформирован новый массив данных, который используется в дальнейшем анализе. Однако для этого массива тоже предварительно рассчитываются основные характеристики.

 

Другой способ отсева грубых погрешностей – на основе размаха варьирования. Для этого определяют размах упорядоченной совокупности наблюдений ():

.

Если какой-либо член вариационного ряда, например , резко отличается от всех других, то производят проверку, используя следующее соотношение:

.

где  – выборочное среднее арифметическое значение, вычисленное после исключения предполагаемого промаха;

z – критериальное значение.

Нулевую гипотезу (об отсутствии грубой погрешности) принимают, если указанное неравенство выполняется. Если  не удовлетворяет вышеуказанному соотношению, то этот результат исключают из вариационного ряда.

Коэффициент z зависит от числа членов вариационного ряда n, что представлено в таблице 2.6.

Таблица 2.6 – Критерий вариационного размаха

n 5 6 7 8-9 10-11 12-15 16-22 23-25 26-63 64-150
z 1,7 1,6 1,5 1,4 1,3 1,2 1,1 1,0 0,9 0,8

 

Пример

По 25 территориям страны изучается влияние климатических условий на урожайность зерновых у (ц/га). Для этого были отобраны две объясняющие переменные: х1 – количество осадков в период вегетации (мм), х2 – средняя температура воздуха (град. С). Построена матрица парных коэффициентов корреляции (табл. 1.5).

 

Таблица 2.6 – Матрица парных линейных коэффициентов корреляции

  у Х1 Х2
У 1,00    
Х1 0,85 1,00  
Х2 -0,5 -0,3 1,00

Поясните смысл приведенных коэффициентов. Какое уравнение лучше строить: 1) парную регрессию у на х1; 2) парную регрессию у на х2; 3) множественную регрессию?

Решение

1. В клетках матрицы находятся парные линейные коэффициенты корреляции. Они оценивают степень линейной связи между двумя признаками.

2. Анализ первого столбца матрицы парных коэффициентов корреляции. По матрице можно сделать вывод о сильной положительной связи между признаками у и   х1 и об умеренной отрицательной связи между признаками у и   х2. В данном случае целесообразным является построение парной регрессии у на х1 и множественной регрессии. Выбор между ними будет основываться на величине коэффициента детерминации регрессионной модели.

 3. Анализ всех остальных элементов матрицы (кроме элементов первого столбца). Между признаками х1 и     х2 мультиколлинеарности   не наблюдается, так как парный линейный коэффициент корреляции между этими признаками равен -0,3 (слабая связь). Поэтому выводы п.2 остаются в силе.

Вопросы к защите лабораторной работы №2

1. Сформулируйте понятия функциональной и стохастической зависимостей.

2. Какая взаимосвязь случайных величин называется корреляционной?

3. Перечислите требования к отбору исходных факторов для изучения корреляционной зависимости между ними.

4. Поясните требование однородности исходных данных.

5. Поясните, что представляет собой коэффициент вариации и как он рассчитывается?

6. Что представляет собой дифференциальная функция нормального распределения?

7. Назовите основные свойства нормального распределения.

8. Назовите варианты проверки гипотезы о нормальном распределении исходных данных.

9. Поясните, каким образом проверяется гипотеза о нормальном распределении случайной величины на основе коэффициентов асимметрии и эксцесса?

10. Поясните, каким образом проверяется гипотеза о нормальном распределении случайной величины на основе критерия χ2 (хи-квадрат).

11. Поясните, в чем заключается правило «трех сигм»? Каким образом его используют в практических исследованиях?

12. В каких случаях требуется корректировка исходной информации, предполагаемой для использования в корреляционном анализе?

13. Каким образом осуществляют корректировку исходной информации, используя правило «трех сигм»?

14. Каким образом можно осуществить отсев грубых погрешностей методом максимального относительного отклонения?

15. Каким образом можно осуществить отсев грубых погрешностей с использованием размаха вариации?

16. В чем заключается основная задача корреляционного анализа?

17. Для оценки какой корреляционной зависимости используется выборочный коэффициент корреляции? Каковы его свойства?

18. Что такое «поле корреляции»? Каким образом оно анализируется?

19. Как проверяется значимость коэффициента корреляции?

20. Поясните, что представляет собой матрица парных линейных коэффициентов корреляции?

21. Для совокупности трех случайных величин X, Y, Z получена матрица выборочных коэффициентов корреляции Укажите наиболее тесно связанные пары величины.

22. Каким образом выявляются мультиколлинеарные признаки?

23. Что оценивает выборочный коэффициент множественной корреляции?

24. Поясните практическое использование матрицы парных линейных коэффициентов корреляции.

ПРИЛОЖЕНИЯ

Критические значения критерия Стьюдента

 при уровне значимости 0,10, 0,05, 0,01

 

Число степеней свободы

α

Число степеней свободы

α

0,10 0,05 0,01 0,10 0,05 0,01
1 6,3138 12,706 63,657 18 1,7341 2,1009 2,8784
2 2,9200 4,3027 9,9248 19 1,7291 2,0930 2,8609
3 2,3534 3,1825 5,8409 20 1,7247 2,0860 2,8453
4 2,1308 2,7764 4,6041 21 1,7207 2,0796 2,8304
5 2,0150 2,5706 4,0321 22 1,7171 2,0739 2,8188
6 1,9432 2,4469 3,7074 23 1,,7139 2,0687 2,8073
7 1,8946 2,3646 3,4995 24 1,7109 2,0639 2,7969
8 1,8595 2,3060 3,3554 25 1,7081 2,0595 2,7874
9 1,8331 2,2622 3,2498 26 1,7056 2,0555 2,7787
10 1,8125 2,2281 3,1693 27 1,7033 2,0518 2,7707
11 1,7959 2,2010 3,1058 28 1,7011 2,0484 2,7633
12 1,7823 2,1788 3,0545 29 1,6991 2,0452 2,7564
13 1,7709 2,1604 3,0123 30 1,6973 2,0423 2,7500
14 1,7613 2,1448 2,9768 40 1,6839 2,0211 2,7045
15 1,7459 2,1199 2,9208 60 1,6707 2,0003 2,6603
16 1,7459 2,1199 2,9208 120 1,6577 1,9799 2,6174
17 1,7396 2,1098 2,8982 1,6449 1,9600 2,5758

 

МАД Лабораторная работа 2

ИССЛЕДОВАНИЕ КОРРЕЛЯЦИОННЫХ ЗАВИСИМОСТЕЙ

МЕЖДУ ПРИЗНАКАМИ

Цель работы: научиться исследоватькорреляционные зависимости между признаками.

Задание для работы в аудитории

По предложенным преподавателем исходным данным требуется исследовать влияние некоторых признаков X 1 , X 2, X 3, X 4, X 5.  на  признак Y.

Для выполнения поставленного задания необходимо:

1. Построить графики данных для X 1 , X 2, X 3, X 4, X 5.,  Y. Оцените визуально наличие или отсутствие грубых погрешностей в каждом признаке. Удалите резко выделяющееся наблюдение признака.

 

2. Проверить гипотезу о нормальном распределении признаков: Y,   X 1 , X 2, X 3, X 4, X 5..

В отчете результаты выполнения представить в виде таблицы:

Статистические характеристики исходной информации

Номер пере-

менной

Среднее арифме-тическое значение

Среднее

квадра-

тическое отклонение

Вариа-ция, %

Асим-

метрия

Эксцесс

Ошибка

Асим- метрии Эксцесса
У              
Х1              
Х2              
             
Хn              

 

При проверке нормальности распределения признаков используйте неравенства (11) и (12) теоретической части описания лабораторной работы. Сделайте выводы.

 

2. В случае невыполнения предпосылок об однородности и нормальности анализируемых случайных величин необходимо провести корректировку исходного массива данных.

В отчете результаты выполнения представить в виде таблицы.

Распределение значений признака по диапазонам рассеяния признака относительно

 

Границы диапазонов, млн. руб.

Количество значений xi, находящихся в диапазоне

Процентное соотношение рассеяния значений xi по диапазонам, %

  Признак Ком-мен тарий Признак Ком-мен тарий Признак Коммен-тарий
А 1 2 3 4 5 6
[ ; ] [ ;  ]        
[ ; ] [ ;  ]        
[ ; ] [ ;  ]        

 

Сделать выводы.

Посмотрите, имело ли смысл не удалять из выборочных данных резко выделяющиеся наблюдения признака (п.1). Если это не имело смысла (наблюдение не является резко выделяющимся), верните наблюдение в выборку.

 

3. Постройте поля корреляции для определения существования и форм зависимости признака Y от признаков X 1 , X 2, X 3, X 4, X 5.

В отчете  привести поля корреляции. Сделать выводы по каждому полю корреляции.

 

4. Изучите зависимость признака Y от признаков X 1 , X 2, X 3, X 4, X 5. путем расчета выборочных парных линейных коэффициентов корреляции.

В отчете привести формулу расчета выборочных парных линейных коэффициентов корреляции. Результаты расчетов свести в таблицу.

 

Исследование корреляционной зависимости признака Y от признаков

X 1 , X 2, X 3, X 4, X 5.

  X 1 X 2 X 3 X 4 X 5
1.Парные линейные коэффициенты корреляции          
Комментарий о силе связи между  и y          

 

Сделать выводы.

 

5. Проверьте значимость каждого выборочного коэффициента корреляции.

 

В отчете привести теоретическую часть проверки значимости выборочного коэффициента корреляции. Результаты расчетов свести в таблицу.

Проверка значимости выборочных коэффициентов корреляции

 
1.Фактическое значение t-критерия Стьюдента          
2. Табличное значение t-критерия Стьюдента          
3. Комментарий о значимости выборочного коэффициента корреляции          

 

Сделать выводы.

 

 

6. Постройте доверительный интервал для каждого коэффициента корреляции: .

Результаты расчетов свести в таблицу.

Доверительные интервалы выборочных коэффициентов корреляции



Поделиться:


Последнее изменение этой страницы: 2021-03-10; просмотров: 132; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.118.45.162 (0.21 с.)