ЗНАЕТЕ ЛИ ВЫ?

Элементы корреляционного анализа



Статистическая зависимость случайных величин. Уравнения регрессии

Зависимость между значениями одной случайной величины и условным математическим ожиданием другой случайной величины носит название статистической.

Чтобы изучить статистическую зависимость, нужно знать условное математическое ожидание случайной величины. Для его оценки необходимо знать аналитический вид двумерного распределения (X,Y). Однако, суждение об аналитическом виде двумерного распределения, сделанного по отдельной ограниченной по объёму выборке, может привести к серьёзным ошибкам. Поэтому идут на упрощение и переходят от условного математического ожидания случайной величины к условному среднему значению, т.е. принимают, что

Статистическую зависимость Y от X описывают с помощью уравнения вида

где – условное математическое ожидание величины Y, соответствующее данному значению х. х – отдельные значения величины Х; – некоторая функция. Это уравнение называется уравнением регрессии Y на Х.

Обратную статистическую зависимость можно описать уравнением регрессии X на Y:

где - условное математическое ожидание величины Х, соответствующее данному значению y случайной величины Y; - некоторая функция.

Функции и называют соответственно регрессиями Y на X и X на Y, а их графики – линиями регрессии Y на Х и X на Y. Уравнения регрессии выражают математическое ожидание случайной величины Y (или X) для случая, когда другая переменная принимает определенное число.

В зависимости от вида уравнений регрессии и формы соответствующих линий регрессии говорят о различной форме статистической зависимости между изучаемыми величинами – линейной, квадратичной, показательной и т.д.

Если функции , линейные, т.е. уравнения регрессии можно представить в виде:

где A,B,C,D – некоторые параметры, то описываемые этими уравнениями зависимости Y от X и X от Y называются линейными; линии регрессии при этом – прямые. Если линия регрессии не является прямой, то такую зависимость называют нелинейной.

Как уже было сказано выше, возможности практического применения статистической зависимости весьма ограниченны. Поэтому для характеристики формы связи между двумя случайными величинами, полученными в результате выборочных наблюдений, используют корреляционную зависимость (или ). Уравнения, описываемые подобной зависимостью, называют выборочными уравнениями регрессии.

Если функции , линейные, то выборочные уравнения линейной регрессии Y на X и X на Y можно представить в виде:

где и – условные средние значения величин Y и X, параметры b и d – оценки B и D, и – выборочные оценки коэффициентов A и C.

Угловые коэффициенты и линий регрессии носят названия выборочных коэффициентов регрессии Y на X и X на Y соответственно. Они определяются как:

; ,

где

Из курса аналитической геометрии следует, что коэффициент линейной регрессии (угловой коэффициент линии регрессии) численно равен тангенсу угла наклона линии регрессии к соответствующей оси координат. Следовательно, чем больше, например, коэффициент линейной регрессии Y на X, то есть, чем больше угол наклона прямой к оси Ох, тем больше изменяется среднее значение величины Y при изменении значений величины X.

Корреляционная зависимость. Коэффициент корреляции

Зависимость между значениями одной случайной величины и условным средним значением другой случайной величины носит название корреляционной(от англ. correlation – согласование, связь, взаимосвязь, соотношение, взаимозависимость); термин впервые введен Гальтоном в 1888г.

Направление корреляционной связи

– прямая;

– oбратная.


Сила корреляционной связи

Схема оценки корреляционной связи по коэффициенту корреляции

Сила связи Направление связи
прямая (+) обратная (-)
Сильная от + 1 до +0,7 от – 1 до – 0,7
Средняя от + 0,699 до + 0,3 от – 0,699 до – 0,3
Слабая от + 0,299 до 0 от – 0,299 до 0

Коэффициент корреляции Пирсона (1896 г.) изменяется в пределах от –1 до +1. Значение 0,00 интерпретируется как отсутствие корреляции. Корреляция определяет степень, с которой значения двух переменных пропорциональны друг другу.

Задачами корреляционного анализа являются:

1. Установить силу корреляционной связи.

2. Установить вид корреляционной связи (прямая или обратная).

 

Типовые задачи

 

Дан интервальный ряд величин X и Y, где X – длина волоса, Y – настриг шерсти овец.

xi 14,5 18,5 21,7 19,7 16,7 22,2 11,8 20,4 14,1 19,5
yi 4,5 4,8 4,9 5,0 4,4 4,8 3,9 5,1 4,4 4,5

Найти коэффициент регрессии; уравнение регрессии; коэффициент корреляции; коэффициент детерминации.

Построить график зависимости настрига шерсти от длины волоса и график уравнения регрессии.

Решение

1. Составим Табл. 4 и будем вносить в нее данные по мере выполнения необходимых расчетов (выполним округление до второго знака после запятой).

Табл. 4

11,8 3,9 139,24 -6,11 37,33 -0,73 0,53 46,2
14,1 4,4 198,81 -3,81 14,52 -0,23 0,05 62,04
14,5 4,5 210,25 -3,41 11,63 -0,13 0,017 65,25
16,7 4,4 278,89 -1,21 1,46 -0,23 0,05 73,48
18,5 4,8 342,25 0,59 0,35 0,17 0,029 88,8
19,5 4,5 380,25 1,59 2,53 -0,13 0,017 87,75
19,7 5,0 388,09 1,79 3,20 0,37 0,14 98,5
20,4 5,1 416,16 2,49 6,20 0,47 0,22 104,04
21,7 4,9 470,89 3,79 14,36 0,27 0,073 106,33
22,2 4,8 492,84 4,29 18,40 0,17 0,029 106,56
Сумма 179,10 46,3 3317,67   110,18   1,16 838,77

2. Среднюю арифметическую для длины волоса и настрига шерсти найдем по формулам:

Средняя длина волоса и настриг шерсти составляет 17,91 см и 4,63 кг соответственно.

Дисперсия для длины волоса и настрига шерсти равна:

Среднее квадратическое отклонение для длины волоса и настрига шерсти равно:

Коэффициент вариации для длины волоса и настрига шерсти:

Среднее квадратическое отклонение показывает, что длина волос и настриг шерсти овец по данной совокупности колеблется в пределах см и кг. соответственно. Коэффициент вариации составляет 18,54% для длины волоса 7,56% для настрига шерсти. Следовательно, разброс величин по длине волоса средний, а по настригу незначительный.

3. Найдем линейное уравнение регрессии.

При парной корреляции устанавливают зависимость между двумя признаками, один из которых является факторным, другой - результативным. Связь между ними может иметь различный характер. Поэтому важно правильно установить форму связи между признаками и в соответствии с этим подобрать математическое уравнение, выражающее эту связь.

После того, как определен вид уравнения связи, необходимо найти числовые значения его параметров. При вычислении параметров применяют различные методы: метод наименьших квадратов, метод средних, метод наименьшего предельного уклонения и др. Наиболее распространенным является метод наименьших квадратов. При его использовании находят такие значения параметров уравнения регрессии, при которых сумма квадратов отклонений фактических данных от расчетных является минимальной:

,

где y – фактическое значение результативного признака;

- расчетное значение результативного признака.

Построим график («корреляционное облачко») зависимости настрига шерсти (результативный признак) от длины волоса (факторный признак) (Рис. 9).

Рис. 9. Зависимость настрига шерсти от длины волоса

Анализ исходных данных показывает, что с увеличением длины волоса настриг шерсти повышается (что подтверждается графиком). Расположение точек на графике показывает, что связь между признаками имеет прямолинейный характер и поэтому может быть выражена уравнением прямой линии:

Для определения неизвестных параметров уравнения а0 и а1 необходимо решить систему уравнений:

По данным таблицы 4 составим систему:

Из решения данной системы получим:

ao = 3,072

a1 = 0,087

Тогда уравнение регрессии будет иметь вид:

y = 0,087x + 3,072

Коэффициент регрессии а1 = 0,087 характеризует изменение настрига шерсти по данной совокупности в зависимости от длины волоса. При увеличении или уменьшении длины волоса на 1 ед. длины настриг шерсти овец, соответственно, увеличивается или уменьшается на 0,087 кг.


4. Построим линейное уравнение регрессии (Рис. 10).

Рис. 10. Зависимость настрига шерсти от длины волоса. Уравнение регрессии

Анализ графика показывает, что исходные данные лежат достаточно близко к прямой уравнения регрессии. Следовательно, выборка 10 овец из всего стада для проведения статистического анализа данных взята верно.

5. Коэффициент корреляции показывает не только тесноту связи, но и ее направление, меняется в пределах от −1 до +1.

,

где - средние значения факторного и результативного признаков;

- среднее значение произведений факторного и результативного признаков;

, - средние квадратические отклонения факторного и результативного признаков.

Если коэффициент корреляции положительный, то связь между признаками прямая (прямо пропорциональная), если отрицательный, то связь обратная (обратно пропорциональная). Если коэффициент корреляции равен , то имеет место линейная зависимость между признаками. Если коэффициент корреляции равен нулю, то линейной зависимости между признаками нет.

.

Коэффициент детерминации равен квадрату коэффициента корреляции (r2) и показывают, какая доля общей вариации результативного признака определяется изучаемым фактором.

Значение коэффициента корреляции близко к единице, следовательно, полученное уравнение регрессии достаточно хорошо описывает исследуемую зависимость.

Коэффициент детерминации показывает, что 67% в среднегодовом настриге шерсти овец объясняется длиной волоса. Остальные 33% – неучтенные факторы (толщина волоса, грязь и т.д.).

Вопросы для самопроверки

 

1. В чем состоит различие между функциональной и статистической зависимостью между случайными величинами?

2. В чем состоят две основные задачи корреляционного анализа?

3. Какую корреляционную зависимость называют линейной?

4. Запишите выборочные уравнения прямых регрессии. Дайте определение выборочного коэффициента корреляции и перечислите его основные свойства.

5. Что следует сказать о зависимости двух случайных величин, если коэффициент корреляции равен нулю? Если коэффициент корреляции ранен единице? Если коэффициент корреляции ранен минус единице?

6. В чем суть метода наименьших квадратов для определения параметров линии регрессии?

 


Варианты контрольной работы

При выполнении и оформлении контрольной работы студент должен придерживаться следующих правил:

1. В заголовке контрольной работы должны быть ясно выписаны фамилия студента, его инициалы, номер задания.

2. Контрольную работу следует выполнять в тетради, обязательно чернилами (не красными), с оставлением полей для замечаний преподавателя.

3. Решения контрольных задач и задач для самостоятельного изучения следует располагать в порядке номеров, указанных в заданиях; перед решением каждой задачи надо выписывать полностью ее условие.

4. Графики следует выполнять с использованием карандаша и линейки.

5. В графическом изображении необходимо отразить название графика и подписи по осям.

6. В работе следует записывать полное решение.

Контрольная работа, выполненная небрежно, без промежуточных вычислений, с пропуском задач и без соблюдения изложенных выше правил, возвращается обратно для переработки. Контрольная работа, выполненная не по своему варианту, не проверяется. Номер варианта соответствует последней цифре номера студенческого билета (зачетной книжки).

Задание 1

Дан статистический ряд нормально распределенной случайной величины х. Рассчитать среднее арифметическое, среднее квадратическое, моду, медиану, размах вариации, дисперсию, среднее квадратическое отклонение, коэффициент вариации. Построить полигон распределения, гистограмму и кумуляту.

Вариант 1

37,7 37,5 38,2 37,8 37,1 38,1

хi – температура животного.

Вариант 2

40,4

хi –длина яиц

Вариант 3

1,7 1,5 1,2 1,8 1,6 1,4 0,9

хi – масса тушек бройлера.

Вариант 4

хi – масса 3-х месячных телят.

Вариант 5

1,7 1,5 1,4 1,6 1,8 1,3

хi – масса тушек бройлера.

Вариант 6

хi – масса 3-х месячных телят.

Вариант 7

3,5 4,5 3,7 4,2 3,6 4,4 3,9

хi – масса тушек кролика.

Вариант 8

4,3 4,7 5,2 5,7 6,1

хi – масса тушек индейки.

Вариант 9

1,2 1,4 1,5 1,7 2,4 2,6 2,7

хi – масса печени.

Вариант 10

1,2 1,6 1,8 2,2 2,3 2,4

хi – масса легкого животного

 

 


Задание 2

Вычислить коэффициент корреляции, коэффициент детерминации, найти уравнение регрессии двух случайных величин Х и У. Построить график зависимости величин Х и У и уравнения прямой регрессии.

х у х у х у х у х у х у х у х у х у х у

 


Библиографический список

1. Гмурман, В.Е. Теория вероятностей и математическая статистика / В.Е. Гмурман. – М.: Юрайт-Издат; серия: Бакалавр. Базовый курс, 2013. – 479 с.

2. Гмурман, В.Е. Руководство к решению задач по теории вероятностей и математической статистике: учебное пособие / В.Е. Гмурман. – М.: Юрайт Издат; серия: Бакалавр. Прикладной курс, 2014. – 418 с.

3. Федькина, Т.В. Использование математических методов в животноводстве и ветеринарии: учеб.-метод. пособие / Т.В.Федькина. – М.: ФГОУ ВПО МГАВМиБ им. К. И. Скрябина, 2010. – 93 с.

4. Джугели, Т.П. Статистическая обработка экспериментальных данных: Метод. указ. / Т.П.Джугели, И.В.Кутликова, Т.В.Федькина. – М.: ФГОУ ВПО МГАВМиБ, 2008. – 54 с.

 


Содержание

 

Введение. 3

1 Статистическое распределение и числовые характеристики выборки. 4

1.1 Выборки и их характеристики. 4

1.1.1 Выборочный метод и способы составления выборок. 4

1.1.2 Статистическое распределение и его геометрическое изображение. 5

1.1.3 Числовые характеристики вариационного ряда. 6

1.2 Статистические оценки. 11

1.2.1 Точечные оценки. 11

1.2.2 Интервальные оценки. 13

1.2.3 Доверительный интервал для оценки математического ожидания нормального распределения при известной дисперсии. 13

1.2.4 Доверительный интервал для оценки математического ожидания при неизвестной дисперсии. 15

1.2.5 Доверительный интервал для оценки среднего квадратического отклонения нормального распределения. 16

1.3 Типовые задачи. 17

1.4 Вопросы для самопроверки. 24

2 Элементы корреляционного анализа. 25

2.1 Статистическая зависимость случайных величин. Уравнения регрессии. 25

2.2 Корреляционная зависимость. Коэффициент корреляции. 26

2.3 Типовые задачи. 27

2.4 Вопросы для самопроверки. 31

3 Варианты контрольной работы.. 32

Библиографический список. 35

 

 





Последнее изменение этой страницы: 2016-04-26; Нарушение авторского права страницы

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.204.42.98 (0.037 с.)