Основные задачи математической статистики. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Основные задачи математической статистики.



Основные понятия математической статистики.

При проведении медико-биологических экспериментов исследователя обычно интересует какой-ли­бо количественный или качественный признак у ряда особей, составляющих данную попу­ля­цию. В результате таких опытов исследователь получает ряд отличающихся друг от друга и в то же вре­мя сходных в некоторых существенных отношениях объектов. Этот ряд, лучше назвать его мно­жеством, есть совокупность. Серия наблюдений или измерений есть совокупность. Объем со­во­купности – это число единиц совокупности. Его принято обозначать N. Следует заметить, что в не­которых программах, например, в EXCEL, вместо объема используется понятие размер. От­дель­ные члены совокупности называются вариантами (от латинского variance, variantis – различимый, из­меняющийся). Совокупность всех объектов, для которой имеется типичная характеристика или приз­нак, называется генеральной совокупностью. Это теоретически бесконечно большая (N аҐ) со­во­купность. Ясно, что генеральную совокупность изучить невозможно. На практике ис­следо­ва­тель имеет дело с выборочными совокупностями или просто выборками. Можно сказать, что мно­жество объектов – это генеральная совокупность, его подмножество – выборочная сово­куп­ность.

Статистические показатели выборочной совокупности.

Графики вариационных рядов (гистограммы) - это как бы «сгущение исходного материала», его наглядная картина. Но для сравнения разных выборок нужны количественные показатели. Существует два таких показателя (на самом деле две группы), но для простоты мы рассмотрим только основные. Вариационные ряды (выборки) могут различаться:

¨ по значению признака, вокруг которого концентрируется большинство вариант, то есть сред­нее арифметическое;

¨ по степени отклонения от среднего показателя, то есть вариационный размах, сред­не­квад­ра­тич­ное отклонение, или дисперсия.

Остановимся подробнее на обсуждении этих величин.

Среднее арифметическое

.

 

О величине среднего арифметического уже много было сказано в предыдущих главах. Что нового можно добавить с точки зрения биологической статистики?

Среднее арифметическое является обобщающей величиной, которая как бы впитывает в себя все особенности данной совокупности или ряда. Величина дает сводную обощенную харак­те­рис­ти­ку данного изучаемого признака.

Математическое ожидание - есть характеристика генеральной совокупности (), то есть то значение случайной величины, которое близко к истинному. Выборочное значение , то есть полученное по результатам выборки не равно математическому ожиданию, но чем больше объем выборки (), тем меньше отклонение выборочного от .

В биологических исследованиях может представлять известный интерес среднее геометрическое:

Пример. Пусть, например, необходимо вычислить средний за год ежемесячный темп прибавки веса грудного ребенка по результатам измерения относительного увеличения веса за каждый месяц.

· за 1-й месяц - в 1,23 раза;

· за 2-й месяц - в 1,19 раза;

· за 3-й месяц - в 1,2 раза и т.д.

В этом случае более адекватным выражением среднемесячного темпа привеса будет не среднее арифметическое, а среднее геометрическое значение. Для характеристики абсолютного увеличения веса более адекватным будет среднее арифметическое.

Мода -это еще одна характеристика положения распределения. В тех выборочных совокупностях, где может быть произведена только классификация вариант по какому-нибудь качественному признаку, наиболее типичную группу, в которую входит больше всего вариант, называют модой. Можно использовать эту характеристику и для количественных оценок. На рисунке изображено распределение по возрасту заболевших дифтерией. Очевидно, что знание среднего возраста заболевших менее интересно, чем знание возраста, в котором чаще всего происходит заболевание (от 2 до 4 лет). В частности, при решении вопроса о том, где должны быть сосредоточены главные профилактические усилия: в школах или в дошкольных учреждениях.

Если же распределение более или менее симметрично, то мода и среднее арифметическое значение близки друг к другу.

Дисперсия

Однако, знания только среднего арифметического еще недостаточно для характеристики сово­куп­нос­ти, так как главной особенностью совокупности является наличие разнообразия между ее чле­на­ми, то есть вариации. Характеристикой вариации является средний квадрат отклонений (или­ дисперсия), .

Для генеральной совокупности находится по следующей формуле:

,

а среднеквадратичное отклонение s, соответственно:

.

Для выборочной совокупности формулы отличаются. Обратите внимание, в знаменателе вместо стоит , вместо математического ожидания используется среднее арифметическое, определенное для выборки, а вместо (оценка среднеквадратичного отклонения для выборки).

Чем объяснить такое различие формул? Для ответа на этот вопрос нужно познакомиться с таким понятием как число степеней свободы.

Числом степеней свободы называется число независимых переменных (вариант) минус число на­ло­женных связей (ограничений). Число степеней свободы принято обозначать либо df (degrees of freedom), либо n (греческая буква ню).

Если изучаемая совокупность состоит из трех вариант, то при расчете среднего арифметического , так как никаких ограничений в данной ситуации не налагается.

А теперь рассмотрим ситуацию, когда по какой-то причине эти три числа (варианты) должны быть такими, чтобы их сумма была равна заданному числу, например, 300. Тогда из исходных трех вариант только 2 могут быть любыми по величине. Что же до третьей варианты, она выбирается равной . То есть в данном опыте накладывается одно ограничение и число сте­пе­ней свободы будет . С похожим ограничением мы сталкиваемся при рас­че­те дисперсии или среднеквадратичного отклонения, когда подсчитывается сумма квадратов от­кло­нений от среднего арифметического . Фиксированное значение и является в дан­ном случае ограничением. Следовательно, при вычислении дисперсии и среднеквадратичного от­клонения для выборочной совокупности следует в знаменателе записывать вместо . Что же касается генеральной совокупности, то при разница между и пренебрежимо мала, поэтому можно считать, что .

 

Распределение Стьюдента.

 

Нормальное распределение достаточно хорошо описывает поведение непрерывной слу­чай­ной величины не только при , но и при конечных, но достаточно больших объемах вы­бо­рок (N >30). Что касается малых выборок (N <30), здесь распределение непрерывной слу­чай­ной величины может заметно отличаться от нормального.

Для таких ситуаций было предложено распределение случайной величины

.

Результат был указан в 1908 году английским исследователем Вильямом Госсетом, опуб­ли­ко­вав­шим свою работу под псевдонимом Стьюдент, но строго был получен З.Фишером в 1925 году.

По виду эта формула напоминает выражение для нормированной случайной величины

.

Однако, между ними весьма существенная разница. В числителе вместо индивидуальных значений Х стоит выборочное среднее арифметическое, а в знаменателе вместо среднеквадратичного от­кло­нения генеральной совокупности s стоит ошибка среднего арифметического для выборки.

Плот­ность вероятности случайной величины , подчиняющейся распределению Стьюдента, выражается формулой:

,

где BN зависит от объема выборки. При малых значениях N кривая плотности вероятности значительно отличается от нормальной кривой. По мере увеличения числа наблюдений N распределение Стьюдента довольно быстро приближается к нормальному распределению и уже при N= 20 практически не отличается от него. Оно отражает специфику изменения малой выборки (N <30), распределяющейся по нормальному закону в зависимости от N.

Практическим следствием открытия закона распределения Стьюдента явилось изменение формул, определяющих границы доверительного интервала для математического ожидания случайной величины при заданной доверительной вероятности РD. Доверительный интервал должен вычисляться по формуле:

.

Сравним значения доверительных интервалов в случае распределения Гаусса и распределения Стью­дента для одной и той же доверительной вероятности:

PD Распределение Гаусса Распределение Стьюдента
0,95

Через обозначена ошибка среднего для генеральной совокупности.

Исследования Стьюдента сыграли громадную роль, так как дали возможность работать с ма­­­лыми выборками. Обратим еще раз ваше внимание на то, что главная задача, которую решает математи­чес­кая ста­тис­ти­ка (ради чего, собственно говоря, эта наука и существует), заключается в том, чтобы на ос­но­ва­нии изучения выборки делать выводы о свойствах генеральной совокупности. Выборка - это лишь часть генеральной совокупности.

Типы ошибок.

Ошибки измерения принято подразделять на систематические и случайные. Систе­ма­ти­чес­кие ошибки вызываются факторами, действующими одинаковым образом при многократном пов­торении измерений, проводящихся одним и тем же методом с помощью одних и тех же изме­ри­тельных приборов, и поэтому они сохраняют свою величину и знак от измерения к измерению.

Случайные ошибки обязаны своим происхождением ряду причин, действие которых неодинаково в каж­дом опыте и не может быть учтено. То есть даже для измерений, выполненных одинаковым обра­зом, величина и знак случайной ошибки изменяются от измерения к измерению.

Встречается еще один тип ошибок - это грубые ошибки, или промахи. Источником их яв­ля­ется не­достаток внимания экспериментатора. Для устранения промахов нужно соблюдать акку­рат­ность и тщательность в работе и записях результатов.

 

Основные понятия математической статистики.

При проведении медико-биологических экспериментов исследователя обычно интересует какой-ли­бо количественный или качественный признак у ряда особей, составляющих данную попу­ля­цию. В результате таких опытов исследователь получает ряд отличающихся друг от друга и в то же вре­мя сходных в некоторых существенных отношениях объектов. Этот ряд, лучше назвать его мно­жеством, есть совокупность. Серия наблюдений или измерений есть совокупность. Объем со­во­купности – это число единиц совокупности. Его принято обозначать N. Следует заметить, что в не­которых программах, например, в EXCEL, вместо объема используется понятие размер. От­дель­ные члены совокупности называются вариантами (от латинского variance, variantis – различимый, из­меняющийся). Совокупность всех объектов, для которой имеется типичная характеристика или приз­нак, называется генеральной совокупностью. Это теоретически бесконечно большая (N аҐ) со­во­купность. Ясно, что генеральную совокупность изучить невозможно. На практике ис­следо­ва­тель имеет дело с выборочными совокупностями или просто выборками. Можно сказать, что мно­жество объектов – это генеральная совокупность, его подмножество – выборочная сово­куп­ность.

Основные задачи математической статистики.

Статистику можно рассматривать как:

· учение о совокупностях;

· учение о вариациях;

· учение о методах приведения данных к компактной форме.

Задачи, возникающие в связи с анализом результатов наблюдений, можно подразделить на три типа:

1) Проблема спецификации, которая состоит в выборе математической формы генеральной со­вокупности.

2) После того, как задача спецификации решена, возникает проблема оценки. Она зак­лю­чает­ся в том, что следует установить способ вычисления по данной выборке статистики, при­год­ной для оценки неизвестного параметра генеральной совокупности.

3) Проблема распределения состоит в выводе точной математической формы распределения на­ших оценок в случайных выборках и в определении других статистик, предназначенных для проверки пригодности приведенной ранее спецификации (критерии согласия).

Таким образом, статистическая обработка некоторой массы наблюдений логически содержит в себе то же чередование индуктивного и дедуктивного методов, которые вообще свойственны науке. Сначала со всей тщательностью формулируется некоторая гипотеза; из нее де­дук­тив­ным путем выводятся логические следствия; эти следствия сравниваются с надлежащими наб­лю­­дениями. Если эти последние находятся в полном соответствии с дедуктивными выводами, то гипотеза считается подтвержденной, по крайней мере до тех пор, пока не будут получены но­вые и более точные данные.На­личие в приведенной выше общей схеме статистического исследования дедуктивных вы­во­дов, относящихся к выборкам и покоящихся на допущении существования генеральной со­во­куп­ности, из которой эти выборки взяты, определяет собой то особое положение, которое за­ни­мает в статистике классическая теория вероятностей. Если дана некоторая генеральная со­во­купность, то мы имеем возможность определить вероятность появления данной выборки и вмес­те с этим вероятность (если эта задача имеет более или менее простое математическое ре­ше­ние) появления данного значения статистики, исчисленной по этой выборке. Указанная вы­ше проблема распределения может рассматриваться как приложение и соответствующее раз­витие теории вероятностей.

4.3 Схема предварительной обработки экспериментальных данных.

Исходный числовой материал или совокупность полученных на опыте значений случайной величины называют статистическим рядом. Например, есть ста­тис­ти­чес­кий ряд. Первый этап обработки этого экспериментального материала – составление вариа­ци­он­ного ряда. Для этого из всей имеющейся выборочной совокупности находят наименьшее и наибольшее значения, фактически границы интервала, в котором лежат все вы­ше­пере­чис­лен­ные значения . Весь диапазон значений разбивается на кла­с­сы (ма­лые интервалы). Если совокупность имеет , то число классов можно взять рав­ным или , где – число классов (малых интервалов).

Для определения значения в литературе предлагается несколько формул:

· берется целая часть получившегося числа;

· (формула Стерджеса, Sturges, 1926 г.);

· (формула К.Брукса и Н.Краузерса, 1963 г.).

Длина малого интервала рассчитывается по формуле:

Затем составляется таблица распределения, точнее закон распределения случайной величи­ны представляется в виде интервальной таблицы частот:

Dx1 Dx2 Dx3 ... Dxk
...

Здесь Dxk - -тый интервал, - частота попадания в заданный интервал.

На базе интервальной таблицы может быть построена гистограмма, то есть закон рас­пре­де­ле­ния может быть представлен в виде графика.

Примечание: При группировке вариант следует обратить внимание на следующее:

1. начало первого интервала не обязательно должно быть равно , можно брать ок­руг­лен­ное число;

2. длина интервала должна оставаться постоянной;

3. одна и та же величина не должна встречаться дважды, то есть, если некоторое значение попадает на границу интервала, то учитывать его следует только для одного интервала, либо для i-того, либо для (i+1)-го интервала.

При анализе графиков вариационных рядов (гистограмм) выявляются следующие законо­мер­ности:

· большинство вариант располагается около середины вариационной кривой, образуя максимум;

· распределение вариант в обе стороны от максимума кривой более или менее симметрично;

· частота вариант постепенно убывает к краям вариационного ряда.

Перечисленные закономерности есть не что иное, как закономерности случайной величины, рассмотренной в предыдущей главе (см., например, нормальное распределение). Далее следует переходить к оценке количественных характеристик выборочной совокупности, а именно статистических показателей.



Поделиться:


Последнее изменение этой страницы: 2016-09-18; просмотров: 764; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.15.235.196 (0.049 с.)