Заглавная страница
Избранные статьи
Случайная статья
Познавательные статьи
Новые добавления
Обратная связь

ТОП 10 на сайте

Приготовление дезинфицирующих растворов различной концентрации

Техника нижней прямой подачи мяча.

Франко-прусская война (причины и последствия)

Организация работы процедурного кабинета

Смысловое и механическое запоминание, их место и роль в усвоении знаний

Коммуникативные барьеры и пути их преодоления

Обработка изделий медицинского назначения многократного применения

Образцы текста публицистического стиля

Четыре типа изменения баланса

Задачи с ответами для Всероссийской олимпиады по праву

Мы поможем в написании ваших работ!

ЗНАЕТЕ ЛИ ВЫ?

Влияние общества на человека

Приготовление дезинфицирующих растворов различной концентрации

Практические работы по географии для 6 класса

Организация работы процедурного кабинета

Изменения в неживой природе осенью

Уборка процедурного кабинета

Сольфеджио. Все правила по сольфеджио

Балочные системы. Определение реакций опор и моментов защемления

Главная Избранные Случайная статья Познавательные Новые добавления Обратная связь FAQ

Статистическая значимость коэффициента корреляции

⇐ ПредыдущаяСтр 8 из 11Следующая ⇒

Часто целью исследований является определение существования связей между с.в. X и Y. Поскольку коэффициент корреляции вычислен на основе выборочных данных, то не исключено, что его ненулевое значение является не отражением действительной связи между признаками, а просто получено в результате специфики данной выборки (тогда как в генеральной совокупности коэффициент корреляции равен нулю, т.е. линейной связи между признаками нет). В этом случае обычно проверяется статистическая гипотеза равенства нулю коэффициента корреляции, вычисленного по всей генеральной совокупности: при альтернативе . Критерием для проверки нулевой гипотезы о равенстве нулю генерального коэффициента корреляции совокупности (или соответственно о независимости случайных величин X и Y) является отношение выборочного коэффициента корреляции к своей ошибке

Статистика в этом случае описывается функцией

где - объем выборки. Число степеней свободы для проверки критерия равно . Далее гипотезу проверяют по таблицам распределения Стьюдента в соответствие с выбранным уровнем значимости. Если полученное значение статистики окажется больше или равным соответствующего табличного значения, нулевую гипотезу отвергают. Другой вариант проверки заключается в построении 95% доверительного интервала для вычисленного значения коэффициента корреляции и проверки попадания нулевого значения в этот интервал. Если ноль не содержится в построенном доверительном интервале, то с вероятностью 0,95 исследуемые величины имеют зависимость в генеральной совокупности (коэффициент корреляции является статистически значимым), в противном случае - с высокой вероятностью в генеральной совокупности может оказаться нулевая корреляция, т.е. отсутствие связи (коэффициент корреляции является статистически незначим). Необходимо подчеркнуть, что величина коэффициента корреляции еще не гарантирует его значимости: даже большой коэффициент может оказаться статистически незначимым (например, при малом объеме выборки), а небольшой коэффициент (если выборка велика) - значимым.

Лабораторная работа

Задание 1. Нахождение выборочных характеристик

Необходимо по заданной выборке, используя средства электронных таблиц, вычислить точечные оценки указанных параметров. Вычисления провести двумя способами и сравнить полученные результаты.

Задача 1.1.

В рамках медицинского обследования были получены данные о росте у группы мужчин в количестве 101 человека. Результаты обследования приведены в следующей таблице:

Таблица1. Выборка распределения значения роста у 101 мужчины

номер	Рост	номер	рост	номер	рост	номер	рост
M1		M27		M53	178,1	M79	185,7
M2	159,8	M28		M54	175,3	M80	183,2
M3	170,2	M29	181,3	M55	182,3	M81	175,3
M4	160,2	M30	185,5	M56		M82	193,4
M5	176,2	M31	174,9	M57	179,5	M83	182,9
M6	182,2	M32	192,8	M58	184,9	M84	162,3
M7	170,7	M33	163,1	M59	197,8	M85	168,8
M8	175,2	M34	171,1	M60	174,1	M86	175,2
M9	172,8	M35		M61	171,1	M87	172,8
M10		M36	183,1	M62		M88	174,9
M11	184,4	M37	192,7	M63	174,1	M89
M12	177,9	M38	163,3	M64	168,7	M90	198,1
M13	169,1	M39	168,5	M65	153,3	M91
M14		M40	168,3	M66	178,5	M92	184,3
M15	157,4	M41		M67	171,3	M93	172,6
M16	185,8	M42	168,7	M68		M94	192,1
M17		M43	184,1	M69	168,7	M95	174,4
M18	187,4	M44	192,7	M70	185,1	M96	147,4
M19	168,8	M45	161,9	M71		M97	168,4
M20		M46	185,5	M72	157,9	M98
M21	169,1	M47	168,9	M73	175,5	M99	169,8
M22		M48	174,9	M74	168,9	M100	174,1
M23	184,9	M49	185,6	M75	174,9	M101	184,2
M24		M50	173,7	M76	175,6
M25	163,4	M51	163,6	M77	173,7
M26	183,1	M52	185,7	M78	163,6

В первой колонке таблицы приведен номер обследуемого пациента, во второй – его рост. Требуется построить вариационный ряд, найти и сравнить выборочные характеристики ряда, полученные двумя способами:

· вычислением по формуле, определяющей соответствующую характеристику

· с использованием встроенной функции из библиотеки статистических функций EXCEL

Для выполнения задания данные наблюдений необходимо перенести на рабочий лист электронной таблицы EXCEL, разместив их в двух первых колонках

Таблица 2. Способы вычисления выборочных характеристик

№	Выборочная характеристика	Способ вычисления
Расчет по формулам	С использованием функций EXCEL
	Объем выборки	Количество данных (посчитать визуально)	СЧЕТ(диапазон данных)
	Выборочное среднее		СРЗНАЧ(диапазон данных)
	Выборочная дисперсия		ДИСПР(диапазон данных)
	Стандартное отклонение		СТАНДОТКЛОНП(диапазон данных)
	Минимальное значение выборки	СОРТИРОВКА с последующим указанием минимального значения	МИН(диапазон данных)
	Максимальное значение выборки	СОРТИРОВКА с последующим указанием максимального значения	МАКС(диапазон данных)
	Размах выборки	Разность между максимальным и минимальным значением	МАКС(диапазон данных) -МИН(диапазон данных)
	Медиана ()	СОРТИРОВКА с последующим указанием медианы	МЕДИАНА(диапазон данных)
	Квартили ()	СОРТИРОВКА с последующим указанием квартилей	КВАРТИЛЬ(диапазон данных, номер квартиля)
	Стандартная ошибка среднего арифметического		Соответствующая функция отсутствует
	Коэффициент вариации		Соответствующая функция отсутствует
	Коэффициент асимметрии		СКОС(диапазон данных)
	Коэффициент эксцесса		ЭКСЦЕСС(диапазон данных)

(колонки и ) таким образом, что в первой колонке будет записан номер пациента, а во второй – его рост. Далее, используя приведенные формулы и встроенные статистические функции в библиотеке функций EXCEL, вычислить и сравнить между собой значения выборочных характеристик. В таблице 2 приведен список формул для вычисляемых значений с указанием библиотечных функций EXCEL

Пояснения к таблице 2:

При расчете по формулам объем выборки определяется количеством использованных строк в электронной таблице под данные, а при вычислении по формулам необходимо использовать функцию =СЧЕТ(диапазон данных). В данной задаче под диапазоном данных понимается набор адресов ячеек, которые содержат значения роста обследуемого контингента.

При расчете по формулам для вычисления среднего арифметического (выборочного среднего) используется формула (), где - варианта выборки(значение роста -го человека), - объем наблюдений. Для вычисления суммы необходимо использовать функцию = СУММ(диапазон данных), а значение берется из ячейки, где вычислен объем выборки. Другой способ вычисления среднего использует встроенную функцию СРЗНАЧ(диапазон данных)

При вычислении значения дисперсии по формулам необходимо использовать функции = СУММ(диапазон данных) и функцию =СЧЕТ(диапазон данных) ). Следует обратить внимание, что вычисление суммы при нахождении дисперсии проводится по отношению к квадрату разности , который необходимо вычислить для значения каждой варианты , используя для этого формулы EXCEL и записывая данные вычислений в некоторый свободный столбец электронной таблицы. Поскольку значение одно и то же для всех значений , то при задании формулы, вычисляющей разности необходимо задать абсолютный адрес для ячейки, где хранится . Вычисление производится для одного индивида, а затем тиражируется на всех пациентов с использованием технологий, имеющихся в электронных таблицах.

Вычисление значения дисперсии с использованием библиотеки статистических функций производится с использованием функции =ДИСПР(диапазон данных ) [11]

Стандартное (средне-квадратичное) отклонение находится как корень из дисперсии с помощью функции =КОРЕНЬ(диапазон данных). В библиотеке EXCEL для вычисления указанной параметра имеется функция =СТАНДОТКЛОНП(диапазон данных) [12]

Для вычисления некоторых оценок рекомендуется использовать ранжирование. Для этого необходимо скопировать исходные данные роста в некоторый столбец (запрещается изменение исходных данных без копирования, так как это ведет к потере исходной информации), с последующей сортировкой значений в новом столбце. После сортировки минимальные и максимальные значения находятся на противоположных концах построенного ряда. Минимальное и максимальное значение можно также рассчитать используя встроенные функции =МИН(диапазон данных) и = МАКС(диапазон данных)

Первый способ вычисления медианы в нахождении в отсортированной последовательности варианты, выше и ниже которой, в столбце значений находится одинаковое количество вариант. Для вычисления медианы вторым способом необходимо использовать функцию =МЕДИАНА(диапазон данных)

Квартили – значения, отсекающие по 1/4 части вариационного ряда. Необходимо найти квартили для значений 0,25 и 0,75. Первый способ вычисления варианты для значения 0,25 заключается в нахождении в отсортированной последовательности варианты, выше которой в столбце значений находится четвертая часть значений ряда. Соответственно для вычисления 3-ей квартили необходимо найти значение варианты, выше которой находится ¾ значений вариационного ряда. Для вычисления значения квартили с использованием встроенной функции необходимо вызвать функцию =КВАРТИЛЬ(диапазон данных; номер квартиля)

Ниже приведена таблица соответствия номеров квартиля и значений функции

Номер квартиля Результат

Минимальное значение варианты в заданном вариационном ряде

Значение варианты, отсекающей четверть вариационного ряда

Значение варианты, отсекающей половину вариационного ряда (совпадает с медианой)

Значение варианты, отсекающей три четверти вариационного ряда

Максимальное значение варианты в заданном вариационном ряде

Стандартную ошибку среднего арифметического и коэффициент вариации необходимо посчитать только с использованием формул.

При вычислении значения коэффициента асимметрии по формулам необходимо использовать функции = СУММ(диапазон данных) и - функцию =СЧЕТ(диапазон данных) ). Следует обратить внимание, что вычисление суммы при нахождении дисперсии проводится по отношению к кубу разности , которое необходимо вычислить для значения каждой варианты , используя для этого формулы EXCEL и записывая данные вычислений в некоторый свободный столбец электронной таблицы. В библиотеке EXCEL имеется функция =СКОС(диапазон данных), которая вычисляет коэффициент асимметрии.

При вычислении значения коэффициента эксцесса по формулам необходимо использовать функции = СУММ(диапазон данных) и- функцию =СЧЕТ(диапазон данных) ). Следует обратить внимание, что вычисление суммы при нахождении дисперсии проводится по отношению к четвертой степени разности , которое необходимо вычислить для значения каждой варианты , используя для этого формулы EXCEL и записывая данные вычислений в некоторый свободный столбец электронной таблицы. В библиотеке EXCEL имеется функция = ЭКСЦЕСС(диапазон данных), которая вычисляет коэффициент эксцесса.

Результаты вычислений необходимо представить в виде таблицы:

№ Характеристика формулы функции

Объем выборки

Среднее арифметическое

Дисперсия

Стандартное отклонение

Минимальное значение

Максимальное значение

Размах выборки

Медиана (0,5)

1-я квартиль (0,25)

3-я квартиль (0,75)

Стандартная ошибка среднего арифметического

Коэффициент вариации

Коэффициент асимметрии

Коэффициент эксцесса

Алгоритм выполнения задания 1 по шагам [13]:

1. Запустить программу EXCEL. Набрать с клавиатуры данные по значениям роста для выборки из 101 мужчин, или при наличии электронного варианта таблицы, выделить и скопировать исходные данные через буфер обмена в первый лист программы EXCEL, расположив их в двух первых столбцах (A и B) рабочего листа.

2. Скопировать (или набрать с клавиатуры) наименования вычисляемых параметров, расположив их в столбцах G и H, предварительно расширив столбец H. (столбцы C,D,E,F необходимы для проведения промежуточных вычислений)

3. Вычислить значение объема выборки, используя функцию =СЧЕТ(диапазон данных) (в качестве диапазона данных выбирается столбец В (значения роста)). С этой целью, установить курсор в ячейку J2, нажав на кнопку перейти в режим набора формул и выбрать строку «СЧЕТ» из выпадающего списка с наименованием формул. Далее необходимо указать диапазон исходных данных, который для данного параметра определяется данными столбца В.

4. В ячейке I3 вычислить значение среднего арифметического по формуле с использованием функции = СУММ(диапазон данных) и имеющегося объема выборки. Формула расчета параметра выглядит следующим образом: =СУММ(B1:B101)/ J2

5. Вычислить значение среднего арифметического по формуле СРЗНАЧ(диапазон данных ). Сравнить результаты двух вычислений

6. Для расчета дисперсии в ячейке C1 вычислить значение формулы с последующим тиражированием построенной формулы на весь вариационный ряд (ячейки С1:С101). При вычислении формулы необходимо обратить внимание на адрес среднего арифметического. Этот адрес должен быть не относительным, а абсолютным (не должен меняться при копировании формул), и должен быть набран с использованием знака $. Окончательная формула для ячейки C1 должна выглядеть следующим образом: =(B1-J$2)*(B1-J$2).

7. Используя значения, полученные в шаге 6, в ячейке I4 вычислить значение дисперсии по формуле . Для этого, после тиражирования формулы =(B1-J$2)*(B1-J$2) на весь столбец С, вычисляется сумма значений по этому столбцу, которая делится на объем выборки.

8. Параллельно провести вычисление значения функции ДИСПР(диапазон данных).

9. В ячейке I5 вычислить значение стандартного отклонения как квадратный корень из дисперсии. Параллельно в ячейке J5 провести вычисления по формулам из статистической библиотеки.

10. Скопировать данные роста (столбец В) в ячейки столбца F и отсортировать скопированные данные (только в пределах столбца F) по неубыванию. Заполнить минимальное, максимальное значения ряда, медиану, квартили, указывая адреса ячеек, где расположены эти данные. Параллельно сосчитать эти данные по формулам из статистической библиотеки.

11. Подсчитать размах выборки, используя найденные значения максимума и минимума.

12. Рассчитать стандартную ошибку среднего арифметического и коэффициент вариации, используя найденные значения среднего арифметического и стандартное отклонение.

13. Рассчитать в ячейке D1 значение формулы , протиражировать построенную формулу с использованием данных всего столбца В, и посчитать по формуле коэффициент асимметрии. Параллельно в ячейке J14 провести вычисления по формулам из статистической библиотеки.

14. Рассчитать в ячейке E1 значение формулы , протиражировать построенную формулу на данные всего столбца E и посчитать коэффициент эксцесса. Параллельно в ячейке J15 провести вычисления по формулам из статистической библиотеки.

Задача 1.2.

Дана таблица распределения числа различных типов правонарушений по районам некоторого региона. В каждом районе указано число жителей, проживающих в этом районе.

Номер	Наименование района	Число жителей	Число правонарушения первого типа	Число правонарушений второго типа	Число правонарушений третьего типа
	район 1
	район 2
	район 3
	район 4
	район 5
	район 6
	район 7
	район 8
	район 9
	район 10
	район 11
	район 12
	район 13
	район 14
	район 15
	район 16
	район 17
	район 18
	район 19
	район 20
	район 21
	район 22
	район 23
	район 24
	район 25
	район 26
	район 27
	район 28
	район 29
	район 30
	район 31
	район 32
	район 33
	район 34
	район 35
	район 36
	район 37
	район 38
	район 39
	район 40

Требуется построить вариационный ряд (по показателям число правонарушений на одного жителя), найти выборочные характеристики данной выборки:

· вычислением по формуле, определяющей соответствующую характеристику

· с использованием встроенной функции из библиотеки статистических функций EXCEL

Задача 1.3.

На предприятии работают 100 человек. В таблице приводится зарплата каждого из сотрудников данного предприятия:

Требуется построить вариационный ряд, найти выборочные характеристики данной выборки:

· вычислением по формуле, определяющей соответствующую характеристику

· с использованием встроенной функции из библиотеки статистических функций EXCEL

Задача 1.4.

Изготавливается тираж книги, один из размеров которой должен быть 20 см. По опытному тиражу произведена оценка отклонений размера для 100 пробных экземпляров. Результаты измерений сведены в таблицу, где отклонение в сотых долях мм книги.

Требуется построить вариационный ряд, найти выборочные характеристики данной выборки:

· вычислением по формуле, определяющей соответствующую характеристику

· с использованием встроенной функции из библиотеки статистических функций EXCEL

Задача 1.5.

Ниже приведены данные выборочного обследования семей по средне-душевому доходу (в у.е.)

10,984	22,672	17,536	21,400	29,096	22,368	25,680	26,040	23,048	17,944
14,952	38,608	30,072	25,576	28,920	27,554	16,304	32,192	33,224	14,568
27,248	21,456	36,272	38,840	22,872	27,792	22,664	17,936	24,552	31,056
7,336	26,984	24,240	13,096	22,112	24,528	20,688	24,376	26,832	26,552
28,320	13,944	26,032	6,112	16,304	16,328	27,554	27,936	17,064	29,232

Требуется построить вариационный ряд, найти выборочные характеристики данной выборки:

· вычислением по формуле, определяющей соответствующую характеристику

· с использованием встроенной функции из библиотеки статистических функций EXCEL

Задача 1.6.

В рамках обследования были получены данные о росте у группы женщин в количестве 101 человека. Результаты обследования приведены в следующей таблице:

Таблица. Выборка распределения значения роста у 101 женщины

номер	рост	номер	рост	номер	рост	номер	рост
Ж1		Ж28	166,5	Ж55	187,4	Ж82	168,9
Ж 2	149,8	Ж29	174,3	Ж56		Ж83
Ж3	180,5	Ж30	170,6	Ж57	160,6	Ж84	152,6
Ж4	159,4	Ж31		Ж58	159,5	Ж85
Ж5	163,3	Ж32	164,1	Ж59	166,4	Ж86	168,8
Ж6	163,5	Ж33	169,3	Ж60	167,3	Ж87	163,6
Ж7		Ж34	168,4	Ж61	159,7	Ж88	171,5
Ж8	168,2	Ж35	175,5	Ж62		Ж89
Ж9	166,4	Ж36	180,4	Ж63	168,3	Ж90	169,3
Ж10		Ж37	157,3	Ж64		Ж91	157,4
Ж11	171,3	Ж38	163,3	Ж65	157,7	Ж92	160,7
Ж12	173,4	Ж39	168,9	Ж66	168,5	Ж93	165,7
Ж13	170,4	Ж40	170,3	Ж67	169,5	Ж94	168,4
Ж14		Ж41	162,6	Ж68	164,5	Ж95	172,5
Ж15	162,7	Ж42	192,4	Ж69	167,3	Ж96	151,1
Ж16		Ж43	159,8	Ж70		Ж97	161,4
Ж17		Ж44		Ж71		Ж98
Ж18	174,5	Ж45	173,6	Ж72	154,6	Ж99	163,7
Ж19	170,3	Ж46	174,7	Ж73	161,5	Ж100	171,3
Ж20	160,6	Ж47	168,9	Ж74	166,7	Ж101
Ж21	164,4	Ж48	175,4	Ж75	172,4
Ж22	170,3	Ж49	167,4	Ж76	164,6
Ж23	169,5	Ж50	164,7	Ж77	172,4
Ж24	160,3	Ж51	173,6	Ж78	163,6
Ж25	163,4	Ж52	165,6	Ж79	181,4
Ж26	162,7	Ж53	155,4	Ж80	163,2
Ж27		Ж54	170,5	Ж81

Требуется построить вариационный ряд, найти выборочные характеристики данной выборки:

· вычислением по формуле, определяющей соответствующую характеристику

· с использованием встроенной функции из библиотеки статистических функций EXCEL

Задание 2 Построение гистограммы выборки

При анализе статистических данных в большинстве случаев исследователю не доступна информация о законе распределения исходной случайной величины. Одним из способов оценивания функции распределения случайной величины является построение эмпирической функции распределения на базе имеющегося материала. Для построения эмпирической функции распределения необходимо представление выборки в сгруппированном виде с подсчетом разброса значений исходной с.в. по построенным по некоторому правилу интервалам с дальнейшим анализом полученных данных. Интервалы группирования зависят от природы задачи. Обычно внутренние интервалы выбираются одинаковой длины. Часто для определения числа интервалов используют формулы Старджеса , где означает наименьшее целое число большее или равное . На практике значение можно полагать равным . На первом шаге формируется вариационный ряд (данные упорядочиваются по неубыванию: ), вычисляется длина интервалов . Иногда, чтобы и попали внутрь интервалов, границы интервалов подсчитываются по формулам: и . При этом число интервалов увеличивается на 1, а границы интервалов образуют следующую последовательность . Далее определяется количество элементов попадания элементов выборки в каждый интервал и по полученным данным строится гистограмма. При графическом изображении интервальных вариационных рядов распределения, частоты выражаются в виде прямоугольников соответствующей длины. По оси абсцисс откладываются значения признака. На этих отрезках строятся прямоугольники, которые сомкнуты друг с другом, с равными основаниями и площади которых пропорциональны вычисленным частотам. Полученный ступенчатый многоугольник, состоящий из определенного числа следующих друг за другом прямоугольников различной высоты, называется гистограммой. Часто на гистограмму накладывают график функции плотности некоторого известного распределения. Поскольку гистограмма строится по имеющейся выборке, она отражает функцию распределения искомой случайной величины с некоторым приближением. Визуально сравнить гистограмму выборки с теоретической кривой плотности некоторого известного распределения.

Задача 2.1

Для данных, приведенных в задаче 1 предыдущего задания, построить гистограмму выборки, совместив его с графиком ожидаемой функции плотности. В качестве ожидаемой функции рассмотреть функцию плотности нормального распределения.

Для построения гистограммы необходимо выполнить следующую последовательность действий:

· Построить исходную выборку

· Выбрать длину интервала и разбить область значений выборки на заданное число интервалов (в задании предлагается задать длину интервала как параметр)

· Для каждого интервала подсчитать число вариант, попавших в данный интервал

· Построить формулу для предполагаемой теоретической плотности

· Построить график ступенчатой кривой, у которой высота ступеньки над -м интервалом пропорциональна числу вариант, попавших в этот интервал.

· Наложить на гистограмму график кривой нормального распределения, определяемого параметрами (среднее значение, стандартное отклонение) заданной выборки.

При подсчете числа попаданий в заданные интервалы удобно использовать функцию ЧАСТОТА, предназначенную для подсчета количеств попаданий значений с.в. в заданные интервалы разбиений числовой оси прямой. Она относится к классу так называемых функций массива. Для ее вызова необходимо:

1. Положить длину интервала =5.

2. Для заданной выборки найти минимальное и максимальные значения роста и записать данные в таблицу. Положить границу первого интервала равной =МИН(диапазон данных)-h/2

3. В некотором столбце, например в ячейках с адресами B2:B15 начав с границы первого интервала с использованием формул арифметической прогрессии перечислить границы интервалов группировок длины h.

⇐ Предыдущая 2 3 4 5 6 789 10 11 Следующая ⇒

Читайте также:

Где возникла философия и почему?

Относительная высота сжатой зоны бетона

Сущность проекции Гаусса-Крюгера и использование ее в геодезии

Тарифы на перевозку пассажиров

Последнее изменение этой страницы: 2016-08-12; просмотров: 665; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.138.110.119 (0.094 с.)