Оценки параметров генеральной совокупности по ее выборке 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Оценки параметров генеральной совокупности по ее выборке



1. Выборка как набор случайных величин. Пусть имеется неко­торая генеральная совокупность, каждый объект которой наделен количественным признаком X. При случайном извлечении объекта из генеральной совокупности становится известным значение х признака X этого объекта. Таким образом, мы можем рассматри­вать извлечение объекта из генеральной совокупности как испыта­ние, X— как случайную величину, а х — как одно из возможных значений X.

Допустим, что из теоретических соображений удалось устано­вить, к какому типу распределений относится признак X. Естест­венно, возникает задача оценки (приближенного определения) пара­метров, которыми описывается это распределение. Например, если известно, что изучаемый признак распределен в генеральной сово­купности нормально, то необходимо оценить, т. е. приближенно найти математическое ожидание и среднее квадратическое откло­нение, так как эти два параметра полностью определяют нормаль­ное распределение.

Обычно в распоряжении исследователя имеются лишь данные выборки генеральной совокупности, например значения количест­венного признака х1, х2,.... хn, полученные в результате п наблю­дений (здесь и далее наблюдения предполагаются независимыми). Через эти данные и выражают оцениваемый параметр.

Опытные значения признака X можно рассматривать и как зна­чения разных случайных величин Х1, Х2,..., Хn с тем же распреде­лением, что и X, и, следовательно, с теми же числовыми характе­ристиками, которые имеет X. Значит, М(Хi) = М(Х) и D(Xi) = D(X). Величины Х1, Х2,..., Хn можно считать независимыми в силу неза­висимости наблюдений. Значения х1, x2,..., хn в этом случае называ­ются реализациями случайных величин Х1, Х2,..., Хn. Отсюда и из предыдущего следует, что найти оценку неизвестного параметра — это значит найти функцию от наблюдаемых случайных величин Х1, Х2,..., Хn, которая и дает приближенное значение оцениваемого па­раметра.

2. Генеральная и выборочная средние. Методы их расчета. Пусть изучается дискретная генеральная совокупность объема N относи­тельно количественного признака X.

Определение 1. Генеральной средней (или а) называется среднее арифметическое значений признака генеральной совокупности.

Если все значения х1, х2,..., хN признака генеральной совокуп­ности объема N различны, то

Если же значения признака х1, х2,...., хk имеют соответственно частоты N1, N2,..., Nk, причем N1 + N2 +... + Nk = N, то

или

(4.1)

Как уже отмечалось (п. 1), извлечение объекта из генеральной совокупности есть наблюдение случайной величины X.

Пусть все значения х1, х2,..., хN различны. Так как каждый объект может быть извлечен с одной и той же вероятностью 1/N, то

М (X) =

т.е.

(4.2)

M(X) = .

Такой же итог следует, если значения х1, х2,...., хk имеют соот­ветственно частоты N1, N2,..., Nk.

В случае непрерывного распределения признака X по определе­нию полагают = М(Х).

Пусть для изучения генеральной совокупности относительно количественного признака X произведена выборка объема n.

Определение 2. Выборочной средней называется сред­нее арифметическое значений признака выборочной совокупности.

Если все значения х1, х2,..., хn признака выборки объема n различны, то

(4.3)

Если же значения признака х1, х2,...., хk имеют соответственно частоты n1, n2,…, nk причем n1+n2+…+nk = n, то

или

(4.4)

Пример 1. Выборочным путем были получены следующие данные о массе 20 морских свинок при рождении (в г): 30, 30, 25, 32, 30, 25, 33, 32, 29, 28, 27, 36, 31, 34, 30, 23, 28, 31, 36, 30. Найдем выборочную среднюю .

Согласно формуле (4.4), имеем:

Итак, = 30.

Далее, не уменьшая общности рассуждений, будем считать зна­чения х1, х2,..., хn признака различными.

Разумеется, выборочная средняя для различных выборок того же объема n из той же генеральной совокупности будет получаться, вообще говоря, различной. И это не удивительно — ведь извлечение i -го по счету объекта есть наблюдение случайной величины Xi, а их среднее арифметическое

есть тоже случайная величина.

Таким образом, всевозможные получающиеся выборочные сред­ние есть возможные значения случайной величины , которая называется выборочной средней случайной величиной.

Найдем М( ), пользуясь тем, что M(Xi) = М(Х) (см. п. 1).

С учетом свойств математического ожидания (см. гл. II) получаем:

.

Итак, М( ) (математическое ожидание выборочной средней) совпадает с а (генеральной средней).

Теперь найдем D( ). Так как D(Xi) = D(X) (п. 1) и Х1, Х2,..., Хn независимы, то, согласно свойствам дисперсии (см. гл. II), получаем

т.е.

(4.5)

Наконец, отметим, что если варианты хi —большие числа, то для облегчения вычисления выборочной средней применяют следу­ющий прием. Пусть С— константа.

Так как

то формулу (4.3) можно преобразовать к виду

(4.6)

За константу С (так называемый ложный нуль) берут некоторое среднее значение между наименьшим и наибольшим значениями xi (i =1, 2,..., n).

Пример 2. Имеется выборка:

x 1 = 71,88; х 2 = 71,93; х 3 = 72,05; х 4 = 72,07;

х 5 = 71,90; х 6 = 72,02; х 7 =71,93; х 8 = 71,77;

х 9 = 72,11; х 10 = 71,96.

Требуется найти .

Возьмем С =72,00 и вычислим разности :

= -0,12; = -0,07; = 0,05; = 0,07;

=-0,10; = 0,02; = -0,07; = -0,23;

= 0,11; = -0,04.

Их сумма: = -0,38; их среднее арифметическое = -0,038 ≈ -0,04. Выборочная средняя

= 72,00-0,04 = 71,96.

3. Генеральная и выборочная дисперсии. Для того чтобы охарак­теризовать рассеяние значений количественного признака X гене­ральной совокупности вокруг своего среднего значения, вводят сле­дующую характеристику — генеральную дисперсию.

Определение 1. Генеральной дисперсией Dr называется сред­нее арифметическое квадратов отклонений значений признака X генеральной совокупности от генеральной средней .

Если все значения х1, х2,..., хN признака генеральной совокуп­ности объема N различны, то

Если же значения признака х1, х2,...., хk имеют соответственно частоты N1, N2,..., Nk, причем N1 + N2 +... + Nk = N, то

(4.7)

Пример 1. Генеральная совокупность задана таблицей рас­пределения:

 

xi        
Ni        

 

Найдем генеральную дисперсию.

Согласно формулам (4.1) и (4.7), имеем:

Генеральным средним квадратическим отклонением (стандартом) называется

Пусть все значения х1, х2,..., хN различны.

Найдем дисперсию признака X, рассматриваемого как случай­ная величина:

Так как М(Х) = и Р{Х = хi} = (см. п. 2), то

т.е.

Таким образом, дисперсия D(X) равна Dr.

Такой же итог можно получить, если значения х1, х2,...., хk имеют соответственно частоты N1, N2,..., Nk.

В случае непрерывного распределения признака X по определе­нию полагают

Dr = D(X). (4.8)

С учетом формулы (4.8) формула (4.5) (п. 2) перепишется в виде

откуда или . Величина называ­ется средней квадратической ошибкой.

Для того чтобы охарактеризовать рассеяние наблюдаемых зна­чений количественного признака выборки вокруг своего среднего значения вводят выборочную дисперсию.

Определение 2. Выборочной дисперсией DB называется сред­нее арифметическое квадратов отклонений наблюдаемых значений признака X от выборочной средней .

Если все значения х1, х2,..., хn признака выборки объема n различны, то

(4.9)

Если же значения признака х1, х2,...., хk имеют соответственно частоты n 1, n 2,…, n k, причем n 1 + n 2 +... + пk=п, то

(4.10)

Пример 2. Пусть выборочная совокупность задана таблицей распределения:

 

xi        
ni        

 

Найдем выборочную дисперсию. Согласно формулам (4.4) и (4.10), имеем:

 

Выборочным средним квадратическим отклонением (стандартом) называется квадратный корень из выборочной дисперсии:

 

В условиях примера 2 получаем, что

Далее, не уменьшая общности рассуждений, будем считать зна­чения х1, х2,..., хn признака различными.

Выборочную дисперсию, рассматриваемую нами как случайная величина, будем обозначать :

Теорема. Математическое ожидание выборочной дисперсии равно ((n -1)/ n)Dr, т.е.

Доказательство. С учетом свойств математического ожи­дания (см. гл. II) получаем

Вычислим одно слагаемое . Имеем

Вычислим по отдельности эти математические ожидания.

Согласно свойству 1 дисперсии (см. гл. II) и формулам (4.2), (4.8) имеем

Далее, с учетом свойства 4 математического ожидания (см. гл. II)

но слагаемое этой суммы, у которого второй индекс равен i, т.е. М(XiXi), равно . У всех остальных слагаемых М(XiXj) индексы разные. Поэтому в силу независимости Xi и Xj (см. гл. II)

Так как имеется n -1 таких слагаемых, то

В силу свойства 1 дисперсии (см. гл. II) получаем

Нами уже найден (см. пп. 2 и 3):

Поэтому

Таким образом,

и не зависит от индекса суммирования i. Поэтому

Что и требовалось доказать.

В заключение этого пункта отметим, что если варианты хi большие числа, то для облегчения вычисления выборочной дис­персии DB формулу (4.9) преобразуют к следующему виду:

(4.11)

где С — ложный нуль.

Действительно, с учетом формулы (4.3) имеем

откуда

Пример 3. Для выборки, указанной в примере 2 из п. 2, найдем DB (ложный нуль остается прежним С =72,00)

∑(xi-C)2= ∑αi2=0144 + 0,0049 + 0,0025 + 0,0049 +

+ 0,0100 + 0,0004 + 0,0049 + 0,0529 + 0,0121 + 0,0016 = 0,1086;

b-С)2 = (-0,038)2 = 0,0014.

Наконец, согласно формуле (4.11)

Db≈1/10*0,1086 - 0,0014 = 0,0094.

4. Оценки параметров распределения. Одной из задач статистики является оценка параметров распределения случайной величины X по данным выборки. При этом в теоретических рассуждениях считают, что генеральная совокупность бесконечна. Это делается для того, чтобы можно было переходить к пределу при n→∞, где n — объем выборки. Для оценки параметров распределения X из данных выборки составляют _ выражения, которые должны служить оценками неизвестных параметров. Например X(см. п. 2) является оценкой генеральной средней, а Ŝ 2 (см. п. 3) —оценкой генеральной дисперсии Dr. Обозначим через Θ оцениваемый параметр, через Θn— оценку этого параметра [Θn - является выражением составленным из Х1, Х2, …., Хn (см. п. 1)]. Для того чтобы оценка Θn давала хорошее приближение, она должна удовлетворять определенным требованиям. Укажем эти требования.

Несмещенной называют оценку Θn, математическое ожидание которой равно оцениваемому

параметру Θ, т. е. M(Θn) = Θ, в противном случае оценка называется смещенной.

Пример 1. Оценка X является несмещенной оценкой генеральной средней а, так как М(Х) = а (см. п. 2).

Пример 2. Оценка S2 является смещенной оценкой генеральной дисперсии D, так как, согласно установленной выше теореме (см. п. 3),

M(S2)=n-1/n*Dr≠Dr

Пример 3. Наряду с выборочной дисперсией S2 рассматривают еще так называемую

исправленную дисперсию S2 = n-1/n*S2, которая является также оценкой генеральной дисперсии. Для S2 с учетом установленной выше теоремы (см. п. 3) имеем

M(S2) =M(n-1/n*S2)= n-1/n*M(S2)= n/n-1*n-1/n*Dr=Dr.

Таким образом, оценка S2 в отличие от оценки S2 является несмещенной оценкой генеральной дисперсии. Явное выражение для S2 имеет вид S2 = n/n-1* S2= n/n-1*1/n∑(Xi-X)2=1/n-1*∑(Xi-X)2 т.е.

S2= n/n-1*∑(Xi-X)2 (4.12)

Естественно в качестве приближенного неизвестного параметра брать несмещенные оценки для того, чтобы не делать систематической ошибки в сторону завышения или занижения.

Состоятельной называют такую оценку Θn параметра Θ, что для любого наперед заданного числа ε>0 вероятность Р{| Θn - Θ |< ε } при n→∞ стремится к единице*. Это значит, что при достаточно больших и можно с вероятностью, близкой к единице, т. е. почти наверное, утверждать, что оценка Θn отличается от оцениваемого параметра Θ меньше, чем на ε.

Очевидно, такому требованию должна удовлетворять всякая оценка, пригодная для практического использования.

Заметим, что несмещенная опенка Θn будет состоятельной, если при n→∞ ее дисперсия стремится к нулю: D(Θn) → 0. Это следует из неравенства Чебышева ((2.33) см. § 2.8, п. 1).

Пример 4. Как было установлено (см. п. 3), D(Х) = Dr /n. Отсюда следует, что несмещенная оценка X является и состоятельной, так как

limD(X)=lim Dr /n= Dr lim1/n=0

Можно показать, что несмещенная оценка S2 является также состоятельной. Поэтому в качестве оценки генеральной дисперсии принимают исправленную дисперсию. Заметим, что оценки S2 и S2 отличаются множителем n/n-1, который стремится к 1 при n→∞. На практике S2 и S2 не различают при n>30.

Для оценки генерального среднего квадратичного отклонения используют исправленное среднее квадратичное отклонение, которое равно квадратному корню из исправленной дисперсии:

S=√n/n-1∑(Xi-X)2 (413)

Левые части формул (4.12), (4.13), в которых случайные величины Х1, Х2,..., Хn заменены их реализациями х1, х2,..., хn и X — выборочной средней xB, будем обозначать соответственно через и s.

Отметим, что если варианты — большие числа, то для облегчения

вычисления формулу для аналогично формуле (4.9) преобразуют к виду

, (4.14)

где С—ложный нуль.

Оценки, обладающие свойствами несмещённости и состоятельности, при ограниченном числе опытов могут отличаться дисперсиями.

Ясно, что чем меньше дисперсия оценки, тем меньше вероятность грубой ошибки при определении приближенного значения параметра. Поэтому

необходимо, чтобы дисперсия оценки была минимальной. Оценка, обладающая таким свойством, называется эффективной.

Из отмеченных требований, предъявляемых к оценке, наиболее важными являются требования несмещенности и состоятельности.

Пример 5. С плодового дерева случайным образом отобрано 10 плодов. Их

массы (в граммах) записаны в первой колонке приведенной ниже таблицы. Обработаем статистические данные выборки. Для вычисления и s по формулам (4.6) и (4.14) введем ложный нуль С= 250 и все необходимые при этом вычисления сведем в указанную таблицу:

 

  i х, х,-С (х,-СГ)2
  і   -25  
         
         
         
      -30  
      -5  
      г39  
      -16  
      -20  
      -19  
Сумма   -, -72  

 

Следовательно,

s= =28

Отсюда s/ = 9 (г).

Итак, оценка генеральной средней массы плода равна 243 г со средней квадратичной ошибкой 9 г.

Оценка генерального среднего квадратичного отклонения массы плода равна 28 г.

П р и м е р 6. Через каждый час измерялось напряжение в электросети.

Результаты измерений (в вольтах) представлены в следующей таблице:

 

i                        
X,                        
i                        
х,                        

 

Найти оценки для математического ожидания и дисперсии результатов измерений. Оценки для математического ожидания и дисперсии найдем по формулам (6) и (14), положив С=220. Все необходимые вычисления приведены в нижеследующей таблице:

 

i х,-С (xi-C)2 i xi-C (xi-C)2 i xi-C (xi-C)2
        -5        
  -1     -2     -1  
                 
                 
  -2              
  -3           -2  
                 
        -4     -1  
Сумма                

 

 

Следовательно,

 

(B)

=7.06 (B2)

 



Поделиться:


Последнее изменение этой страницы: 2016-04-08; просмотров: 796; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 35.175.112.61 (0.102 с.)