Статистическая значимость коэффициента корреляции 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Статистическая значимость коэффициента корреляции



Часто целью исследований является определение существования связей между с.в. X и Y. Поскольку коэффициент корреляции вычислен на основе выборочных данных, то не исключено, что его ненулевое значение является не отражением действительной связи между признаками, а просто получено в результате специфики данной выборки (тогда как в генеральной совокупности коэффициент корреляции равен нулю, т.е. линейной связи между признаками нет). В этом случае обычно проверяется статистическая гипотеза равенства нулю коэффициента корреляции, вычисленного по всей генеральной совокупности: при альтернативе . Критерием для проверки нулевой гипотезы о равенстве нулю генерального коэффициента корреляции совокупности (или соответственно о независимости случайных величин X и Y) является отношение выборочного коэффициента корреляции к своей ошибке

.

Статистика в этом случае описывается функцией

,

где - объем выборки. Число степеней свободы для проверки критерия равно . Далее гипотезу проверяют по таблицам распределения Стьюдента в соответствие с выбранным уровнем значимости. Если полученное значение статистики окажется больше или равным соответствующего табличного значения, нулевую гипотезу отвергают. Другой вариант проверки заключается в построении 95% доверительного интервала для вычисленного значения коэффициента корреляции и проверки попадания нулевого значения в этот интервал. Если ноль не содержится в построенном доверительном интервале, то с вероятностью 0,95 исследуемые величины имеют зависимость в генеральной совокупности (коэффициент корреляции является статистически значимым), в противном случае - с высокой вероятностью в генеральной совокупности может оказаться нулевая корреляция, т.е. отсутствие связи (коэффициент корреляции является статистически незначим). Необходимо подчеркнуть, что величина коэффициента корреляции еще не гарантирует его значимости: даже большой коэффициент может оказаться статистически незначимым (например, при малом объеме выборки), а небольшой коэффициент (если выборка велика) - значимым.

 


Лабораторная работа

Задание 1. Нахождение выборочных характеристик

Необходимо по заданной выборке, используя средства электронных таблиц, вычислить точечные оценки указанных параметров. Вычисления провести двумя способами и сравнить полученные результаты.

Задача 1.1.

В рамках медицинского обследования были получены данные о росте у группы мужчин в количестве 101 человека. Результаты обследования приведены в следующей таблице:

Таблица1. Выборка распределения значения роста у 101 мужчины

номер Рост номер рост номер рост номер рост
M1   M27   M53 178,1 M79 185,7
M2 159,8 M28   M54 175,3 M80 183,2
M3 170,2 M29 181,3 M55 182,3 M81 175,3
M4 160,2 M30 185,5 M56   M82 193,4
M5 176,2 M31 174,9 M57 179,5 M83 182,9
M6 182,2 M32 192,8 M58 184,9 M84 162,3
M7 170,7 M33 163,1 M59 197,8 M85 168,8
M8 175,2 M34 171,1 M60 174,1 M86 175,2
M9 172,8 M35   M61 171,1 M87 172,8
M10   M36 183,1 M62   M88 174,9
M11 184,4 M37 192,7 M63 174,1 M89  
M12 177,9 M38 163,3 M64 168,7 M90 198,1
M13 169,1 M39 168,5 M65 153,3 M91  
M14   M40 168,3 M66 178,5 M92 184,3
M15 157,4 M41   M67 171,3 M93 172,6
M16 185,8 M42 168,7 M68   M94 192,1
M17   M43 184,1 M69 168,7 M95 174,4
M18 187,4 M44 192,7 M70 185,1 M96 147,4
M19 168,8 M45 161,9 M71   M97 168,4
M20   M46 185,5 M72 157,9 M98  
M21 169,1 M47 168,9 M73 175,5 M99 169,8
M22   M48 174,9 M74 168,9 M100 174,1
M23 184,9 M49 185,6 M75 174,9 M101 184,2
M24   M50 173,7 M76 175,6  
M25 163,4 M51 163,6 M77 173,7  
M26 183,1 M52 185,7 M78 163,6  

В первой колонке таблицы приведен номер обследуемого пациента, во второй – его рост. Требуется построить вариационный ряд, найти и сравнить выборочные характеристики ряда, полученные двумя способами:

· вычислением по формуле, определяющей соответствующую характеристику

· с использованием встроенной функции из библиотеки статистических функций EXCEL

Для выполнения задания данные наблюдений необходимо перенести на рабочий лист электронной таблицы EXCEL, разместив их в двух первых колонках

Таблица 2. Способы вычисления выборочных характеристик

Выборочная характеристика Способ вычисления
Расчет по формулам С использованием функций EXCEL
  Объем выборки Количество данных (посчитать визуально) СЧЕТ(диапазон данных)
  Выборочное среднее СРЗНАЧ(диапазон данных)
  Выборочная дисперсия ДИСПР(диапазон данных)
  Стандартное отклонение СТАНДОТКЛОНП(диапазон данных)
  Минимальное значение выборки СОРТИРОВКА с последующим указанием минимального значения МИН(диапазон данных)
  Максимальное значение выборки СОРТИРОВКА с последующим указанием максимального значения МАКС(диапазон данных)
  Размах выборки Разность между максимальным и минимальным значением МАКС(диапазон данных) -МИН(диапазон данных)
  Медиана () СОРТИРОВКА с последующим указанием медианы МЕДИАНА(диапазон данных)
  Квартили () СОРТИРОВКА с последующим указанием квартилей КВАРТИЛЬ(диапазон данных, номер квартиля)
  Стандартная ошибка среднего арифметического Соответствующая функция отсутствует
  Коэффициент вариации Соответствующая функция отсутствует
  Коэффициент асимметрии СКОС(диапазон данных)
  Коэффициент эксцесса ЭКСЦЕСС(диапазон данных)

 


(колонки и ) таким образом, что в первой колонке будет записан номер пациента, а во второй – его рост. Далее, используя приведенные формулы и встроенные статистические функции в библиотеке функций EXCEL, вычислить и сравнить между собой значения выборочных характеристик. В таблице 2 приведен список формул для вычисляемых значений с указанием библиотечных функций EXCEL

Пояснения к таблице 2:

При расчете по формулам объем выборки определяется количеством использованных строк в электронной таблице под данные, а при вычислении по формулам необходимо использовать функцию =СЧЕТ(диапазон данных). В данной задаче под диапазоном данных понимается набор адресов ячеек, которые содержат значения роста обследуемого контингента.

При расчете по формулам для вычисления среднего арифметического (выборочного среднего) используется формула (), где - варианта выборки(значение роста -го человека), - объем наблюдений. Для вычисления суммы необходимо использовать функцию = СУММ(диапазон данных), а значение берется из ячейки, где вычислен объем выборки. Другой способ вычисления среднего использует встроенную функцию СРЗНАЧ(диапазон данных)

При вычислении значения дисперсии по формулам необходимо использовать функции = СУММ(диапазон данных) и функцию =СЧЕТ(диапазон данных) ). Следует обратить внимание, что вычисление суммы при нахождении дисперсии проводится по отношению к квадрату разности , который необходимо вычислить для значения каждой варианты , используя для этого формулы EXCEL и записывая данные вычислений в некоторый свободный столбец электронной таблицы. Поскольку значение одно и то же для всех значений , то при задании формулы, вычисляющей разности необходимо задать абсолютный адрес для ячейки, где хранится . Вычисление производится для одного индивида, а затем тиражируется на всех пациентов с использованием технологий, имеющихся в электронных таблицах.

Вычисление значения дисперсии с использованием библиотеки статистических функций производится с использованием функции =ДИСПР(диапазон данных ) [11]

Стандартное (средне-квадратичное) отклонение находится как корень из дисперсии с помощью функции =КОРЕНЬ(диапазон данных). В библиотеке EXCEL для вычисления указанной параметра имеется функция =СТАНДОТКЛОНП(диапазон данных) [12]

Для вычисления некоторых оценок рекомендуется использовать ранжирование. Для этого необходимо скопировать исходные данные роста в некоторый столбец (запрещается изменение исходных данных без копирования, так как это ведет к потере исходной информации), с последующей сортировкой значений в новом столбце. После сортировки минимальные и максимальные значения находятся на противоположных концах построенного ряда. Минимальное и максимальное значение можно также рассчитать используя встроенные функции =МИН(диапазон данных) и = МАКС(диапазон данных)

Первый способ вычисления медианы в нахождении в отсортированной последовательности варианты, выше и ниже которой, в столбце значений находится одинаковое количество вариант. Для вычисления медианы вторым способом необходимо использовать функцию =МЕДИАНА(диапазон данных)

Квартили – значения, отсекающие по 1/4 части вариационного ряда. Необходимо найти квартили для значений 0,25 и 0,75. Первый способ вычисления варианты для значения 0,25 заключается в нахождении в отсортированной последовательности варианты, выше которой в столбце значений находится четвертая часть значений ряда. Соответственно для вычисления 3-ей квартили необходимо найти значение варианты, выше которой находится ¾ значений вариационного ряда. Для вычисления значения квартили с использованием встроенной функции необходимо вызвать функцию =КВАРТИЛЬ(диапазон данных; номер квартиля)

Ниже приведена таблица соответствия номеров квартиля и значений функции

Номер квартиля Результат
  Минимальное значение варианты в заданном вариационном ряде
  Значение варианты, отсекающей четверть вариационного ряда
  Значение варианты, отсекающей половину вариационного ряда (совпадает с медианой)
  Значение варианты, отсекающей три четверти вариационного ряда
  Максимальное значение варианты в заданном вариационном ряде

 

Стандартную ошибку среднего арифметического и коэффициент вариации необходимо посчитать только с использованием формул.

При вычислении значения коэффициента асимметрии по формулам необходимо использовать функции = СУММ(диапазон данных) и - функцию =СЧЕТ(диапазон данных) ). Следует обратить внимание, что вычисление суммы при нахождении дисперсии проводится по отношению к кубу разности , которое необходимо вычислить для значения каждой варианты , используя для этого формулы EXCEL и записывая данные вычислений в некоторый свободный столбец электронной таблицы. В библиотеке EXCEL имеется функция =СКОС(диапазон данных), которая вычисляет коэффициент асимметрии.

При вычислении значения коэффициента эксцесса по формулам необходимо использовать функции = СУММ(диапазон данных) и- функцию =СЧЕТ(диапазон данных) ). Следует обратить внимание, что вычисление суммы при нахождении дисперсии проводится по отношению к четвертой степени разности , которое необходимо вычислить для значения каждой варианты , используя для этого формулы EXCEL и записывая данные вычислений в некоторый свободный столбец электронной таблицы. В библиотеке EXCEL имеется функция = ЭКСЦЕСС(диапазон данных), которая вычисляет коэффициент эксцесса.


Результаты вычислений необходимо представить в виде таблицы:

 

Характеристика формулы функции
  Объем выборки    
  Среднее арифметическое    
  Дисперсия    
  Стандартное отклонение    
  Минимальное значение    
  Максимальное значение    
  Размах выборки    
  Медиана (0,5)    
  1-я квартиль (0,25)    
  3-я квартиль (0,75)    
  Стандартная ошибка среднего арифметического    
  Коэффициент вариации    
  Коэффициент асимметрии    
  Коэффициент эксцесса    

Алгоритм выполнения задания 1 по шагам [13]:

1. Запустить программу EXCEL. Набрать с клавиатуры данные по значениям роста для выборки из 101 мужчин, или при наличии электронного варианта таблицы, выделить и скопировать исходные данные через буфер обмена в первый лист программы EXCEL, расположив их в двух первых столбцах (A и B) рабочего листа.

2. Скопировать (или набрать с клавиатуры) наименования вычисляемых параметров, расположив их в столбцах G и H, предварительно расширив столбец H. (столбцы C,D,E,F необходимы для проведения промежуточных вычислений)

3. Вычислить значение объема выборки, используя функцию =СЧЕТ(диапазон данных) (в качестве диапазона данных выбирается столбец В (значения роста)). С этой целью, установить курсор в ячейку J2, нажав на кнопку перейти в режим набора формул и выбрать строку «СЧЕТ» из выпадающего списка с наименованием формул. Далее необходимо указать диапазон исходных данных, который для данного параметра определяется данными столбца В.

 

4. В ячейке I3 вычислить значение среднего арифметического по формуле с использованием функции = СУММ(диапазон данных) и имеющегося объема выборки. Формула расчета параметра выглядит следующим образом: =СУММ(B1:B101)/ J2

5. Вычислить значение среднего арифметического по формуле СРЗНАЧ(диапазон данных ). Сравнить результаты двух вычислений

6. Для расчета дисперсии в ячейке C1 вычислить значение формулы с последующим тиражированием построенной формулы на весь вариационный ряд (ячейки С1:С101). При вычислении формулы необходимо обратить внимание на адрес среднего арифметического. Этот адрес должен быть не относительным, а абсолютным (не должен меняться при копировании формул), и должен быть набран с использованием знака $. Окончательная формула для ячейки C1 должна выглядеть следующим образом: =(B1-J$2)*(B1-J$2).

7. Используя значения, полученные в шаге 6, в ячейке I4 вычислить значение дисперсии по формуле . Для этого, после тиражирования формулы =(B1-J$2)*(B1-J$2) на весь столбец С, вычисляется сумма значений по этому столбцу, которая делится на объем выборки.

8. Параллельно провести вычисление значения функции ДИСПР(диапазон данных).

9. В ячейке I5 вычислить значение стандартного отклонения как квадратный корень из дисперсии. Параллельно в ячейке J5 провести вычисления по формулам из статистической библиотеки.

10. Скопировать данные роста (столбец В) в ячейки столбца F и отсортировать скопированные данные (только в пределах столбца F) по неубыванию. Заполнить минимальное, максимальное значения ряда, медиану, квартили, указывая адреса ячеек, где расположены эти данные. Параллельно сосчитать эти данные по формулам из статистической библиотеки.

11. Подсчитать размах выборки, используя найденные значения максимума и минимума.

12. Рассчитать стандартную ошибку среднего арифметического и коэффициент вариации, используя найденные значения среднего арифметического и стандартное отклонение.

13. Рассчитать в ячейке D1 значение формулы , протиражировать построенную формулу с использованием данных всего столбца В, и посчитать по формуле коэффициент асимметрии. Параллельно в ячейке J14 провести вычисления по формулам из статистической библиотеки.

14. Рассчитать в ячейке E1 значение формулы , протиражировать построенную формулу на данные всего столбца E и посчитать коэффициент эксцесса. Параллельно в ячейке J15 провести вычисления по формулам из статистической библиотеки.

 

Задача 1.2.

Дана таблица распределения числа различных типов правонарушений по районам некоторого региона. В каждом районе указано число жителей, проживающих в этом районе.

 

Номер Наименование района Число жителей Число правонарушения первого типа Число правонарушений второго типа Число правонарушений третьего типа
  район 1        
  район 2        
  район 3        
  район 4        
  район 5        
  район 6        
  район 7        
  район 8        
  район 9        
  район 10        
  район 11        
  район 12        
  район 13        
  район 14        
  район 15        
  район 16        
  район 17        
  район 18        
  район 19        
  район 20        
  район 21        
  район 22        
  район 23        
  район 24        
  район 25        
  район 26        
  район 27        
  район 28        
  район 29        
  район 30        
  район 31        
  район 32        
  район 33        
  район 34        
  район 35        
  район 36        
  район 37        
  район 38        
  район 39        
  район 40        

 

Требуется построить вариационный ряд (по показателям число правонарушений на одного жителя), найти выборочные характеристики данной выборки:

· вычислением по формуле, определяющей соответствующую характеристику

· с использованием встроенной функции из библиотеки статистических функций EXCEL

 

Задача 1.3.

На предприятии работают 100 человек. В таблице приводится зарплата каждого из сотрудников данного предприятия:

 

                   
                   
                   
                   
                   
                   
                   
                   
                   
                   

 

Требуется построить вариационный ряд, найти выборочные характеристики данной выборки:

· вычислением по формуле, определяющей соответствующую характеристику

· с использованием встроенной функции из библиотеки статистических функций EXCEL

 

Задача 1.4.

Изготавливается тираж книги, один из размеров которой должен быть 20 см. По опытному тиражу произведена оценка отклонений размера для 100 пробных экземпляров. Результаты измерений сведены в таблицу, где отклонение в сотых долях мм книги.


 

                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   

Требуется построить вариационный ряд, найти выборочные характеристики данной выборки:

· вычислением по формуле, определяющей соответствующую характеристику

· с использованием встроенной функции из библиотеки статистических функций EXCEL

Задача 1.5.

Ниже приведены данные выборочного обследования семей по средне-душевому доходу (в у.е.)

10,984 22,672 17,536 21,400 29,096 22,368 25,680 26,040 23,048 17,944
14,952 38,608 30,072 25,576 28,920 27,554 16,304 32,192 33,224 14,568
27,248 21,456 36,272 38,840 22,872 27,792 22,664 17,936 24,552 31,056
7,336 26,984 24,240 13,096 22,112 24,528 20,688 24,376 26,832 26,552
28,320 13,944 26,032 6,112 16,304 16,328 27,554 27,936 17,064 29,232

Требуется построить вариационный ряд, найти выборочные характеристики данной выборки:

· вычислением по формуле, определяющей соответствующую характеристику

· с использованием встроенной функции из библиотеки статистических функций EXCEL

Задача 1.6.

В рамках обследования были получены данные о росте у группы женщин в количестве 101 человека. Результаты обследования приведены в следующей таблице:

Таблица. Выборка распределения значения роста у 101 женщины

номер рост номер рост номер рост номер рост
Ж1   Ж28 166,5 Ж55 187,4 Ж82 168,9
Ж 2 149,8 Ж29 174,3 Ж56   Ж83  
Ж3 180,5 Ж30 170,6 Ж57 160,6 Ж84 152,6
Ж4 159,4 Ж31   Ж58 159,5 Ж85  
Ж5 163,3 Ж32 164,1 Ж59 166,4 Ж86 168,8
Ж6 163,5 Ж33 169,3 Ж60 167,3 Ж87 163,6
Ж7   Ж34 168,4 Ж61 159,7 Ж88 171,5
Ж8 168,2 Ж35 175,5 Ж62   Ж89  
Ж9 166,4 Ж36 180,4 Ж63 168,3 Ж90 169,3
Ж10   Ж37 157,3 Ж64   Ж91 157,4
Ж11 171,3 Ж38 163,3 Ж65 157,7 Ж92 160,7
Ж12 173,4 Ж39 168,9 Ж66 168,5 Ж93 165,7
Ж13 170,4 Ж40 170,3 Ж67 169,5 Ж94 168,4
Ж14   Ж41 162,6 Ж68 164,5 Ж95 172,5
Ж15 162,7 Ж42 192,4 Ж69 167,3 Ж96 151,1
Ж16   Ж43 159,8 Ж70   Ж97 161,4
Ж17   Ж44   Ж71   Ж98  
Ж18 174,5 Ж45 173,6 Ж72 154,6 Ж99 163,7
Ж19 170,3 Ж46 174,7 Ж73 161,5 Ж100 171,3
Ж20 160,6 Ж47 168,9 Ж74 166,7 Ж101  
Ж21 164,4 Ж48 175,4 Ж75 172,4  
Ж22 170,3 Ж49 167,4 Ж76 164,6  
Ж23 169,5 Ж50 164,7 Ж77 172,4  
Ж24 160,3 Ж51 173,6 Ж78 163,6  
Ж25 163,4 Ж52 165,6 Ж79 181,4  
Ж26 162,7 Ж53 155,4 Ж80 163,2  
Ж27   Ж54 170,5 Ж81    

Требуется построить вариационный ряд, найти выборочные характеристики данной выборки:

· вычислением по формуле, определяющей соответствующую характеристику

· с использованием встроенной функции из библиотеки статистических функций EXCEL


Задание 2 Построение гистограммы выборки

При анализе статистических данных в большинстве случаев исследователю не доступна информация о законе распределения исходной случайной величины. Одним из способов оценивания функции распределения случайной величины является построение эмпирической функции распределения на базе имеющегося материала. Для построения эмпирической функции распределения необходимо представление выборки в сгруппированном виде с подсчетом разброса значений исходной с.в. по построенным по некоторому правилу интервалам с дальнейшим анализом полученных данных. Интервалы группирования зависят от природы задачи. Обычно внутренние интервалы выбираются одинаковой длины. Часто для определения числа интервалов используют формулы Старджеса , где означает наименьшее целое число большее или равное . На практике значение можно полагать равным . На первом шаге формируется вариационный ряд (данные упорядочиваются по неубыванию: ), вычисляется длина интервалов . Иногда, чтобы и попали внутрь интервалов, границы интервалов подсчитываются по формулам: и . При этом число интервалов увеличивается на 1, а границы интервалов образуют следующую последовательность . Далее определяется количество элементов попадания элементов выборки в каждый интервал и по полученным данным строится гистограмма. При графическом изображении интервальных вариационных рядов распределения, частоты выражаются в виде прямоугольников соответствующей длины. По оси абсцисс откладываются значения признака. На этих отрезках строятся прямоугольники, которые сомкнуты друг с другом, с равными основаниями и площади которых пропорциональны вычисленным частотам. Полученный ступенчатый многоугольник, состоящий из определенного числа следующих друг за другом прямоугольников различной высоты, называется гистограммой. Часто на гистограмму накладывают график функции плотности некоторого известного распределения. Поскольку гистограмма строится по имеющейся выборке, она отражает функцию распределения искомой случайной величины с некоторым приближением. Визуально сравнить гистограмму выборки с теоретической кривой плотности некоторого известного распределения.

Задача 2.1

 

Для данных, приведенных в задаче 1 предыдущего задания, построить гистограмму выборки, совместив его с графиком ожидаемой функции плотности. В качестве ожидаемой функции рассмотреть функцию плотности нормального распределения.

Для построения гистограммы необходимо выполнить следующую последовательность действий:

· Построить исходную выборку

· Выбрать длину интервала и разбить область значений выборки на заданное число интервалов (в задании предлагается задать длину интервала как параметр)

· Для каждого интервала подсчитать число вариант, попавших в данный интервал

· Построить формулу для предполагаемой теоретической плотности

· Построить график ступенчатой кривой, у которой высота ступеньки над -м интервалом пропорциональна числу вариант, попавших в этот интервал.

· Наложить на гистограмму график кривой нормального распределения, определяемого параметрами (среднее значение, стандартное отклонение) заданной выборки.

 

При подсчете числа попаданий в заданные интервалы удобно использовать функцию ЧАСТОТА, предназначенную для подсчета количеств попаданий значений с.в. в заданные интервалы разбиений числовой оси прямой. Она относится к классу так называемых функций массива. Для ее вызова необходимо:

1. Положить длину интервала =5.

2. Для заданной выборки найти минимальное и максимальные значения роста и записать данные в таблицу. Положить границу первого интервала равной =МИН(диапазон данных)-h/2

3. В некотором столбце, например в ячейках с адресами B2:B15 начав с границы первого интервала с использованием формул арифметической прогрессии перечислить границы интервалов группировок длины h.



Поделиться:


Последнее изменение этой страницы: 2016-08-12; просмотров: 665; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.138.110.119 (0.094 с.)