Расчет коэффициента корреляции 





Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Расчет коэффициента корреляции



Номер пробы n Содержание железа, % Отклонения и их произведения
общего х магнетитового y
52,0 45,7 14,9 16,6 222,01 275,56 247,34
49,4 45,4 12,3 16,3 151,29 265,69 200,49
34,5 28,4 -2,6 -0,7 6,76 0,49 1,82
41,5 36,6 4,8 7,5 232,04 56,25 36,00
36,5 22,1 -0,6 -7,0 0,36 49,00 4,20
22,7 10,9 -14,4 -18,2 207,36 331,24 282,08
42,3 27,5 5,2 -1,6 27,04 2,56 -8,32
20,0 10,3 -17,1 -18,8 292,41 353,44 321,48
23,9 17,3 -13,2 -11,8 174,24 139,24 155,76
23,8 16,0 -13,3 -13,1 176,89 171,61 174,23
33,2 23,8 -0,9 -5,3 15,21 28,09 20,67
61,8 55,8 24,7 26,7 610,09 712,89 659,49
63,7 57,3 26,6 28,2 707,56 795,24 750,12
22,1 15,2 -15,0 -13,9 225,00 193,21 208,50
50,0 45,7 12,9 16,6 166,41 275,56 214,14
43,4 35,4 6,3 6,3 39,69 39,69 39,69
37,0 29,6 -0,1 0,5 0,01 0,25 -0,05
28,6 20,7 -8,5 -8,4 72,25 70,56 71,40
23,5 13,4 -13,6 -15,7 184,96 246,49 213,52
32,0 24,7 -5,1 -4,4 26,01 19,36 22,44
               
               
Сумма 742,3 581,8 0,3 -0,2 3328,59 4026,42 3595,00
Среднее 37,1 29,1 - - 166,43 201,32 179,75
Характеристики - -
                 

 

По данным таблицы 3.1 имеем: = 37,1; = 29,1; = = 166,43; = 201,32; sх = 12,90; sу = 14,19; Кху = 179,75; r = 179,75/(12,90×14,19) = 0,982. Вычисленный коэффициент корреляции r = 0,982 близок к единице, следовательно, связь между свойствами сильная и положительная. Чтобы убедиться в реальности связи, вычислим критерий Стьюдента по формулам (3.6):

.

Тот же критерий на основе нормального закона распределения:

.

В обоих случаях критерий t значительно больше трех, поэтому линейная связь между содержаниями железа общего и магнетитового доказана надежно.7

 

 

3.1.3. Уравнение линейной регрессии

 

Если между величинами х и у установлена линейная статистическая зависимость, то представляет интерес найти ее выражение в виде уравнения прямой линии у = ах + b (где а и b – коэффициенты). Такое уравнение называется уравнением регрессии. Если величина х неслучайная, то существует одно уравнение регрессии. Если обе величины (х и у) случайные, то имеется два уравнения регрессии и можно вычислять зависимости как у от х, так и х от у. Расчет уравнения сводится к определению наиболее вероятного значения у, когда известно значение х. Опуская вывод, запишем уравнение линейной зависимости через статистические характеристики:

. (3.12)

Аналогичный вид имеет второе уравнение зависимости х от у:

. (3.13)

Эти уравнения пересекаются в точке средних значений и . В уравнения входят пять статистических характеристик, рассмотренных в предыдущем подразделе.

Как указывалось, дисперсия случайной величины является характеристикой ее рассеяния около математического ожидания или среднего значения. Уравнение регрессии (3.12) позволяет определить еще одну остаточную дисперсию sd, которая характеризует рассеяние значений случайной величины около линии регрессии:

(3.14)

где di – отклонения значений случайной величины у от линии регрессии.

Дисперсии и связаны между собой соотношением

. (3.15)

Разность между ними также является дисперсией, учтенной (поглощенной) уравнением регрессии. Она называется дисперсией тренда В некоторых публикациях ее называют дисперсией закономерной изменчивости, противопоставляя случайной остаточной дисперсии. Между тремя дисперсиями существует соотношение

, (3.16)

которое можно рассматривать как разложение дисперсии на две составляющие – закономерную и случайную. Если принять дисперсию за 100 %, то дисперсии тренда и остаточную можно выразить в процентах от нее.

Уравнение линейной регрессии позволяет решать несколько практических задач. Первое назначение уравнения описательное, потому что часто важен сам факт линейной зависимости и ее аналитическое выражение. Но наибольшая эффективность уравнения заключается в возможности прогнозирования значения одной случайной величины, если известно значение другой. Поскольку зависимость носит статистический характер, прогнозирование по уравнению (3.12) будет сопровождаться погрешностью tsd или, учитывая формулу (3.15), погрешностью где t – коэффициент вероятности. Чем больше коэффициент корреляции по абсолютной величине, тем меньше погрешность прогнозирования. Для надежного прогнозирования необходимо использовать лишь такие зависимости, у которых коэффициент корреляции больше 0,87.

 

8Пример 3.2. По условиям примера 3.1 необходимо рассчитать уравнение зависимости содержания железа магнетитового у от содержания железа общего х в руде.

По данным табл.3.1

или после раскрытия скобок у = 1,080х – 11,0. При t = 2 погрешность прогнозирования по уравнению . Поэтому можно записать у = 1,080х – 11,0 ± 5,4.


Из табл.3.1 имеем дисперсию = 201,32; остаточную дисперсию = 201,32(1 – 0,9822) = 7,18; дисперсию тренда = = 201,32 – 7,18 = 194,14. Приняв за 100 %, найдем, что дисперсия тренда составит 96,4 %, а остаточная дисперсия отклонений равна 3,6 % от общей дисперсии.

Линию полученного уравнения можно нанести на график (рис.3.2). Она пересечет ось абсцисс при значении х = 11,0/1,080 = 10,2 %, что указывает на вероятное среднее содержание железа в немагнитных минералах руды. В качестве второй точки для проведения линии регрессии можно использовать средние значения = 37,1 и = 29,1.

Отметим, что существует и второе уравнение зависимости х от у, оно имеет вид

или х = 0,893у + 11,1, его погрешность 4,9. Линии обоих уравнений пересекаются в точке средних значений и .7

 

3.1.4. Двухмерное нормальное распределение.

Эллипс рассеяния

 

Облако точек на рис.3.1, как и во многих других случаях, в первом приближении имеет эллипсовидную форму. В ряде задач нужно знать параметры эллипса, охватывающего облако, и построить эллипс на чертеже.

Идеальный эллипс возникает в том случае, когда система двух случайных величин и каждая из них в отдельности подчиняются нормальному закону распределения. Но и при заметных отклонениях от него конфигурация облака может быть охарактеризована эллипсом рассеяния.

Двухмерное нормальное распределение системы двух случайных величин описывается формулой плотности вероятности

. (3.17)

В формулу входит пять статистических характеристик, рассмотренных выше. Если спроектировать облако точек на оси Ох и Оу и построить гистограммы частот величин х и у, то каждая из них подчиняется нормальному закону (рис.3.3):

       
 
   
 


Облако точек заключено внутри эллипса, выраженного уравнением

, (3.18)

где t – коэффициент вероятности.

Если t будет принимать другие значения, будут построены подобные эллипсы иного размера (рис.3.4).

В центре эллипса точки расположены гуще, к краям их плотность убывает. Вероятность попадания точек в эллипс при нормальном распределении с параметром (квантилью) t описывается формулой

. (3.19)

Для построения эллипса необходимо знать положение его центра, размеры осей (полуосей) и их ориентировку по отношению к осям координат.

Центр эллипса имеет координаты и . Эллипс характеризуется размером, формой и ориентировкой осей на плоскости. Размер эллипса возрастает при увеличении рассеяния точек, т.е. при возрастании дисперсий и . Форма эллипса зависит в основном от коэффициента корреляции r. Чем ближе он по модулю к единице, тем более узким и вытянутым оказывается эллипс. В пределе, при r = 1, эллипс вырождается в отрезок прямой линии. Ориентировка эллипса характеризуется углом поворота его осей по отношению к системе координат. Угол можно найти из уравнения

. (3.20)

Его решение дает два угла a1 и a2, отличающихся друг от друга на 90°. Чтобы найти полуоси эллипса, начало координат переносят в центр эллипса, в точку и поворачивают координатные оси на угол a1 или a2. Обозначим новые оси координат u и v, тогда уравнение эллипса (3.18) приобретает канонический вид:

(3.21)

откуда следует, что полуоси эллипса равны и .

Дисперсии разброса точек и в новой системе координат связаны с дисперсиями и соотношениями:

Сумма дисперсий при переносе и повороте координат не меняется. Она зависит от взаимного расположения точек в облаке и является инвариантом:

(3.22)

Таким образом, чтобы построить эллипс рассеяния, достаточно знать координаты его центра , угол поворота осей a1 или a2 и длину полуосей и .

3.1.5. Нелинейная регрессия. Метод наименьших квадратов

 

Зависимости между свойствами могут быть не только линейными, но и более сложными – нелинейными и многофакторными. Для обработки любых зависимостей существует эффективный метод наименьших квадратов. Суть метода состоит в том, что изучаемая зависимость аппроксимируется таким алгебраическим выражением (трендом), который дает наименьшее расхождение с наблюдаемыми значениями.

Пусть значения величины у нелинейно зависят от значений величины х (точки на рис.3.5). Нужно подобрать такую функцию f(x),в которой отклонения между фактическими yi и расчетными (теоретическими) ут = f(x) значениями будут наименьшими. Отклонения di = yiyт могут быть положительными и отрицательными. Главный принцип метода заключается в требовании, чтобы сумма квадратов всех отклонений от линии зависимости была минимальной:

(3.23)

 
 


Вид аппроксимирующей функции f(x)должен быть задан либо на основании теоретических соображений (например, гиперболическая зависимость плотности руды от ее состава в примере 1.3), либо путем эмпирического подбора. Например, в качестве функции f(x) могут быть использованы полином порядка p: f(x) = = a0 + a1x + a2x2 + … + apxp; синусоида f(x) = asin(bx + c);показательная функция f(x) = aebx и др. В каждой функции присутствуют постоянные коэффициенты a, b, c (их число зависит от вида функции), значения которых заранее не известны и которые определяют положение кривой на графике (рис.3.5). Следовательно, и сумма квадратов отклонений также зависит от значений коэффициентов, т.е. является их функцией:

Чтобы найти минимум этой функции, нужно взять частные производные по неизвестным коэффициентам и приравнять их нулю:

(3.24)

В результате будет получена система уравнений, в которой число уравнений равно числу неизвестных. Решая эту систему, найдем искомые коэффициенты a, b, c

Когда коэффициенты в функции f(x)определены, можно найти расчетные значения yт = f(x) для каждого xi и сравнить их с фактическими yi, т.е. найти отклонения di = yi – yт. Далее вычисляют дисперсии отклонений:

(3.25)

и, наконец, определяют корреляционное отношение:

(3.26)

которое заключено в интервале от нуля до единицы (0 £ h £ 1) и характеризует степень нелинейной зависимости между величинами х и у. Чем ближе h к единице, тем сильнее зависимость. При h = 0 связь отсутствует.

Зная дисперсию исходных данных и дисперсию случайных отклонений , можно по их разности найти еще одну дисперсию которая характеризует изменчивость расчетных значений ут и может быть названа закономерной. Приняв общую дисперсию за 100 %, можно найти соотношение между и в процентах.

Рассмотренная схема обработки данных применима к исследованию линейных и нелинейных, однофакторных и многофакторных зависимостей. В частном случае простой линейной зависимости y = ax + b использование метода наименьших квадратов дает уравнение регрессии (3.12), а корреляционное отношение по абсолютной величине совпадет с коэффициентом корреляции.

3.1.6. Применение метода наименьших квадратов

к параболической зависимости

 

Имеется нелинейная зависимость (рис.3.6). Требуется рассчитать нелинейную параболическую зависимость по методу наименьших квадратов. Уравнение параболы имеет вид

y = ax2 + bx + c. (3.27)

Следовательно, для каждой точки графика справедливо соотношение (см. рис.3.5)

.

Из этого выражения найдем отклонения di и сумму квадратов отклонений, которая является функцией y от неизвестных коэффициентов a, b, c:

y(a, b, c) =


Чтобы отыскать ми­нимум функции y(a, b, c), необходимо найти частные производные от функции по неизвестным a, b, c и приравнять производные нулю:

После раскрытия скобок и преобразования получим систему трех уравнений с тремя неизвестными

(3.28)

Заметим, что Для удобства последующей записи введем смешанные начальные моменты:

Разделим левые и правые части всех уравнений системы (3.28) на n и запишем систему через смешанные начальные моменты:

am40 + bm30 + cm20 = m21;

am30 + bm20 + cm10 = m21; (3.29)

am20 + bm10 + c = m01.

Для того чтобы найти коэффициенты a, b, c в уравнении параболы (3.27), нужно вычислить все моменты, входящие в систему (3.29), и решить ее. Система уравнений (3.29) линейна относительно неизвестных a, b, c,что существенно облегчает расчеты. Нередко встречаются такие зависимости (например, гиперболические), которые приводят к сложной нелинейной системе, которую нельзя решить алгебраическим путем. Подобные системы решают методом последовательных приближений.

8Пример 3.3. По простиранию рудного тела от произвольной точки отсчета на расстоянии хi от нее измерена мощность yi (рис.3.6, табл.3.2). Требуется рассчитать параболическую зависимость мощности линзообразного рудного тела.

Порядок расчета начальных моментов приведен в табл.3.2, последняя строка которой содержит данные, необходимые для составления системы уравнений (3.29):

33076a + 2079b + 139,5c = 178,8;

2079a + 139,5b + 10,5c = 15,61;

139,5a + 10,5c + c = 1,575.

Решая систему, найдем коэффициенты a = –0,0270; b = 0,532; c = = –0,242. Следовательно, уравнение аппроксимирующей параболы имеет вид

ут = –0,0270х2 + 0,532х – 0,242.

 

Таблица 3.2





Последнее изменение этой страницы: 2016-04-26; просмотров: 148; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 54.158.251.104 (0.016 с.)