Первичная обработка результатов наблюдения 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Первичная обработка результатов наблюдения



После завершения отбора необходимого числа единиц в выборку и регистрации предусмотренных программой наблюдения изучаемых признаков этих единиц, переходят к  обработке этих данных.

Статистическая обработка выборки начинается с составления дискретного вариационного ряда. Обычно полученные наблюдаемые данные представляют собой множество расположенных в беспорядке чисел. Просматривая это множество чисел, зачастую бывает трудно выявить какую-либо закономерность их варьирования (изменения). Для изучения закономерностей варьирования значений случайной величины опыт­ные данные подвергаются обработке. При систематизации выборочных данных используются дискретные и интервальные ряды распределений.

Причём, прежде всего полученные экспериментальные данные ранжируются.

Ранжирование - расположение результатов наблюдений над случайной ве­личиной в порядке возрастания или убывания.

После ранжирования опытные данные объединяются в группы, т. е. группи­руются. Каждое значение случайной величины, входящее в отдельную группу сгруппированного ряда, называется вариантом, а изменение этого значения – варьированием. Для каждой группы сгруппированного ряда данных можно под­считать численность вариант, т. е. определить число, показывающее, сколько раз встречается соответствующий вариант в ряде наблюдений, это число называется частотой варианта, обозначается ni. Сумма частот вариант равна объёму вы­борки n. Отношение частоты варианта к объёму выборки называется относитель­ной частотой, или частостью, обозначается р i *р i * = .

Отметим, что сумма относительных частот равна единице

р1* + р2* +…+ р i * = .

Дискретным вариационным рядомраспределения называется ранжирован­ная совокупность вариантов х i с соответствующими им частотами ni или часто­стями р i *.

Если изучаемая случайная величина является непрерывной, то ранжирование и группировка наблюдаемых значений не позволяют выявить характерные черты варьирования её значений. Нецелесообразно также построение дискретного ряда для дискретной случайной величины, число возможных значений которой велико. В этом случае следует построить интервальный вариационный ряд распределения. Для его построения весь интервал варьирования наблюдаемых значений случайной величины разбивается на ряд частичных интервалов и подсчитывается частота по­падания значений величины в каждый частичный интервал.

Интервальным вариационным рядом называется упорядоченная совокуп­ность интервалов варьирования случайной величины с соответствующими часто­тами или частостями попаданий в каждый из них значений величины.

Число интервалов определяется либо по таблице рекомендуемого числа интервалов для выборок разного объёма, приведённой ниже, либо рассчиты­вается по формуле Стерджеса (Sturges, 1926 г.)

 

 

Рекомендуемое число интервалов для выборок разного объёма

Объём выборки n 10-30 30-60 60-100 100-300 300-400
Число интервалов k 4-5 5-6 7 8 9

На практике считают, что правильно составленный ряд распределения содержит от 6 до 15 частичных интервалов.

Затем определяется шаг или ширина интервала по формуле:             

,

где  - максимальное значение измеряемого показателя в упорядоченной (ран­жированной) выборке;  - минимальное значение показателя.

     Полученное значение шага обычно округляют в большую сторону до размерно­сти измеряемого показателя.

     Нижняя граница первого интервала выбирается чуть меньшей или равной ми­нимальному значению выборки, то есть от  до .

     После этого заполняется таблица (табл. 10.1) по результатам выборки, кото­рые распределены в интервалы, т. е. результаты измерений представляются в виде вариационного ряда по образцу, где количество строк зависит от количества ин­тервалов.

                                                                Таблица 10.1

№ интервала Границы интервала Срединное значение интервала Частота ni Накопленная частота Частость р i* Накопленная частость
1 2 3 4 5 6 7
             

 

В первый столбец таблицы вписывается номер интервала.

Во второй столбец – границы интервала. Причем верхняя граница первого интервала определяется прибавлением шага интервала к его нижней границе. Этот результат является также и нижней границей для следующего интервала. Макси­мальное число верхней границы последнего интервала должно быть больше или равно максимальному значению показателя в выборке.

В третий столбец вписываются срединные значения интервалов.

Середины интервалов являются средними арифметическими значениями границ интервалов. Причём достаточно определить середину первого интервала, прибавив к ней шаг интервала, получить середину второго интервала и т.д.

Четвёртый столбец – частота (ni), т. е. количество значений, попавших в задан­ный интервал. Если граничный результат был учтен в интервале, то в последую­щем интервале учитываются значения выше граничного результата.

Пятый столбец – накопленная частота, которая рассчитывается сум­мированием частот предыдущих интервалов. Причем в последней строке этого столбца обязательно должно быть число, равное объему выборки (n).

Шестой столбец – частость(р i *), т. е. отношение частоты к объёму выборки.

Седьмой столбец – накопленная частость, получаемая суммированием час­тостей предыдущих интервалов. В последней строке столбца 6 получается еди­ница.

Распределение измерений, представленное в столбцах 2(границы интервалов) и 4(частота) или 2(границы интервалов) и 6(частость), назы­вается вариационным рядом.

Графическое представление результатов измерений выражается в построе­нии трех графиков: полигона частот (рис.10.1), гистограммы (рис. 10.2) и полигона накопленных частот (кривой сумм или кумуляты) (рис.10. 4).

Полигон частот и гистограмма показывают распределение измеряемых показателей и их сгруппированность вокруг среднего значения.

Для построения полигоначастот в декартовых координатах по оси абсцисс откладываются срединные значения интервалов, а по оси ординат – соответст­вующие им частоты (или частости).

 

 

 

 


                                                        

 

 

 

 

Рис. 10.1. Полигон частот результатов

Для построения гистограммы по оси абсцисс откладываются границы ин­тервалов и на них восстанавливаются прямоугольники до уровня частот, соответ­ствующих интервалам, отложенных по оси ординат (рис.10.2). Площадь гистограммы равна сумме всех частот, т. е. объёму выборки, или сумме частостей, т. е. единице.

 

 


Рис. 10.2. Гистограмма распределения результатов

Если нанести на гистограмму пунктирной линией полигон распределения частот, то мы получим первоначальное представление о дифференциальной функ­ции распределения.

Таким образом, теоретическим аналогом гистограммы является плот­ность распределения вероятностей, или дифференциальная функция распре­деления (рис. 10.3).

 

Рис. 10.3. Плотность распределения вероятностей

 

Иначе говоря, гистограмма является экспериментальным аналогом плотности распределения вероятностей генеральной совокупности.

На основе полученного вариационного ряда необходимо построить функцию распределения выборки или эмпирическую функцию F *(x), то есть функцию найденную по данным эксперимента.

Если за  принять некоторое значение в табличном ряду, а за – число наблюдений, расположенных левее   в том же табличном ряду, то эмпирической функцией распределения случайной величины называют функцию F *(x), определяющую для каждого значения x относительную частоту события X < x:

                                  F *(x)= .

Эта функция служит приближённой оценкой теоретической функции распределения F (x) случайной величины Х. Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция F (x) определяет вероятность события Х<х, а эмпирическая функция  определяет относительную частоту этого же события.  обладает всеми свойствами F (x), а именно:

1) значения эмпирической функции принадлежат интервалу [0;1];

2) F *(x)- неубывающая функция;

3) если  - наименьшее значение, - наибольшее, то F *(x)= 0 при и F *(x)= 1 при x > .

Эмпирическую функцию F *(x) называют полигоном накопленных частот сумм или кумулятой. Онапоказывает прирост показателей от интер­вала к интервалу, поэтому его ещё называют кривой сумм. Для по­строения полигона накопленных частот по оси абсцисс откладываются верхние границы интервалов, а по оси ординат – соответствующие им накопленные час­тоты (или накопленные частости) (рис. 10.4).                                накопленная

                             частота

 

 


Рис.10.4. Полигон накопленных частот результатов

Теоретическим аналогом полигона накопленных частот результатов яв­ляется функция распределения, или интегральная функция распределения (рис.10.5).

Рис. 10.5. Функция распределения

Иначе говоря, полигон накопленных частот результатов является экс­периментальным аналогом функции распределения.

    На основании полученных выборочных данных необходимо сделать предположение, относительно закона распределения изучаемого признака. Для того чтобы проверить, согласуется ли это предположение с данными наблюдений, вычисляют частоты наблюдаемых значений, т.е. находят теоретически сколько раз величина Х должна была принять каждое из наблюдаемых значений, если она распределена по предполагаемому закону. Для этого находят выравнивающие (теоретические) частоты по формуле:                                                                                         где n –число испытаний, - вероятность наблюдаемого значения , вычисленная при допущении, что Х имеет предполагаемое распределение.

В случае непрерывного распределения весь интервал возможных значений делят на k непересекающихся интервалов и вычисляют вероятности  попадания Х в i -й частичный интервал, а затем, как и для дискретного распределения, умножают число испытаний на эти вероятности. Эмпирические и выравнивающие частоты сравнивают, и при небольшом расхождении данных, делают заключение о выбранном законе распределения.

  На следующем этапе производится аналитический анализ, в ходе которого находятся основные статистические характеристики вариационного ряда.

К основным статистическим характеристикам ряда измерений (вариацион­ного ряда) относятся характеристики положения (средние характе­ристики, или центральная тенденция выборки); характеристики рассеяния (ва­риации, или колеблемости) и х арактеристики формы распределения.

    К характеристикам положения относятся среднее арифметическое значе­ние (среднее значение), мода и медиана.

К характеристикам рассеяния (вариации, или колеблемости) относятся: размах вариации, дисперсия, среднее квадратическое (стандартное) отклонение, ошибка средней арифметической (ошибка средней), коэффициент вариации и др.

К характеристикам формы относятся коэффициенты асимметрии, (мера ско­шенности) и эксцесс.

Приведем формулы для расчёта основных статистических характеристик.

 Характеристики положения



Поделиться:


Последнее изменение этой страницы: 2021-12-15; просмотров: 74; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.17.79.60 (0.022 с.)