Интервальное оценивание генеральной доли (вероятности события). 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Интервальное оценивание генеральной доли (вероятности события).



Пусть проводится n независимых испытаний, в каждом из которых событие A может произойти с одной и той же вероятностью p. Тогда относительная частота p * появлений события A в серии из n испытаний принимается в качестве точечной оценки для вероятности p появления события в каждом испытании. При этом величину p * называют выборочной долей появлений события A, а pгенеральной долей. Доверительный интервал для генеральной доли имеет границы .

При n > 30 предельная ошибка:

(повторная выборка)

, (бесповторная выборка)

При : по таблице распределения Стьюдента (двусторонняя область) и (повторная выборка), (бесповторная выборка).

Пример. С помощью случайного повторного отбора руководство фирмы провело выборочный опрос 900 своих служащих. Среди опрошенных оказалось 270 женщин. Постройте доверительный интервал, с вероятностью 0,97 накрывающий истинную долю женщин во всем коллективе фирмы.

Решение. По условию g = 0.97, n = 900, m = 270, значит, выборочная доля равна: (относительная частота женщин среди опрошенных).

Так как отбор является повторным и объем выборки велик (n = 900), предельная ошибка выборки определяется по формуле

Искомый доверительный интервал имеет границы

Ответ. С вероятностью 0,97 можно гарантировать, что доля женщин во всем коллективе фирмы находится в интервале от 0,27 до 0,33.

Или: С вероятностью 0,97 можно гарантировать, что доля женщин во всем коллективе фирмы находится в интервале от 27% до 33%.◄

Пример. Владелец автостоянки считает день «удачным», если автостоянка заполнена более, чем на 80%. В течение года было проведено 40 проверок автостоянки, из которых 24 оказались «удачными». С вероятностью 0,98 найдите доверительный интервал для оценки истинной доли «удачных» дней в течение года.

Решение. По условию задачи n = 40, m = 24, N = 365, g = 0,98. Тогда Предельную ошибку найдем по формуле , так как выборка бесповторная (в один день две проверки не проводилось):

Искомый доверительный интервал имеет границы

.

Ответ. С вероятностью 0,98 можно утверждать, что доля «удачных» дней в течение года находится в интервале от 0,49 до 0,71

(от 49% до 71%).◄

 

Вопросы для самопроверки

 

1. В чем сущность задачи по определению параметров генеральной совокуп­ности? В чем особенности этой задачи?

2. Как вычисляется средняя арифметическая выборки при малом и боль­ших объемах ее?

3. Как вычисляется дисперсия выборки в случаях малого и большого объ­ема ее?

4. Какая величина принимается за среднюю генеральной совокупности, а какая — за дисперсию?

5 Что понимается под доверительным интервалом и доверительной вероят­ностью?

6. Как вычисляется среднее квадратическое отклонение средней выборки?

7. Назовите выборочные числовые характеристики.

8. Что такое статистики и для чего они служат?

9. Какими свойствами должны обладать оценки?

10. Какова вероятность попадания генеральной средней в интервал размером ±2(+3) средних квадратических отклонений средней выборки при нормальном распределении.

11. Что называется доверительным интервалом и доверительной вероятностью?

Дайте общую схему построения доверительного интервала.

12. Как изменяется доверительный интервал с увеличением надежности? С увеличением объема выборки?

13. Как изменяется доверительный интервал в зависимости от того, известны ли другие параметры точно или нет?

14. Если доверительная вероятность будет увеличена, то как изменится до­верительный интервал при других равных условиях.

15. Что надо сделать с объемом выборки, чтобы уменьшить доверительный интервал при том же значении доверительной вероятности?

 

ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ

Линейная корреляция

Рассмотрим выборку двумерной случайной величины (Х, Y). Примем в качестве оценок условных математических ожиданий компонент их условные средние значения, а именно: условным средним назовем среднее арифметическое наблюдавшихся значений Y, соответствующих Х = х. Аналогично условное среднее -среднее арифметическое наблюдавшихся значений Х, соответствующих Y = y. Введем уравнения регрессии Y на Х и Х на Y:

M (Y / x) = f (x), M (X / y) = φ (y).

Условные средние и являются оценками условных математических ожиданий и, следовательно, тоже функциями от х и у, то есть

= f* (x) - (1)

- выборочное уравнение регрессии Y на Х,

= φ * (у) - (2)

- выборочное уравнение регрессии Х на Y.

Соответственно функции f* (x) и φ* (у) называются выборочной регрессией Y на Х и Х на Y, а их графики – выборочными линиями регрессии. Выясним, как определять параметры выборочных уравнений регрессии, если этих уравнений известен.

При совместном исследовании двух случайных величин по имеющейся выборке (х 1, у 2), (х 2, у 2),…,(xk, yk) возникает задача определения зависимости между ними. Если вид функции y = f (x, a, b,...) задан, то требуется найти значения коэффициентов a, b,..., при которых yi наименее отличаются от f (xi). В методе наименьших квадратов коэффициенты должны быть такими, что принимает минимальное значение.

а) Линейная зависимость y = ax + b. Если , то из условия получаем:

б) Квадратичная зависимость y = (ax + b)2. Отсюда и система для определения a, b может быть получена по аналогии с предыдущим случаем с помощью замены yi на :

в) Показательная зависимость Логарифмируя, получаем: ln y=ax + b, и система уравнений для a, b имеет вид:

г) Зависимость вида Тогда y 2 = ax + b, и условия для а и b можно задать так:

д) Логарифмическая зависимость y = ln(ax + b), то есть ey = ax + b, и

 

 

Пример. Найти параметры зависимости между х и у для выборки

 

xi 1,4 1,7 2,6 3,1 4,5 5,3
yi 2,5 4,7 18,3 29,8 74,2 110,4

 

для случаев: 1) линейной зависимости y = ax + b;

2) квадратичной зависимости y = (ax + b)2;

3) показательной зависимости y = eax + b.

Определить, какая из функций является лучшим приближением зависимости между х и у.

По виду выборки достаточно очевидно, что связь между х и у скорее всего не является линейной – у растет не пропорционально х. Проверим это предположение, найдя коэффициенты а и b для каждой из функций. Для этого вычислим предварительно = 3,1; = 40,0;

Теперь можно решать линейные системы для а и b:

1) то есть линейная зависи-мость имеет вид: у = 27,34 х – 44,74.

2) квадратичная функция:

у = (2,29 х – 1,68)2.

3) показательная функция:

у = е 0,94 х + 0,04.

Вычислим значения

:

 

yi 2,5 4,7 18,3 29,8 74,2 110,4
(yi)лин -6,46 1,74 26,34 40,0 78,29 100,13 379,93
(yi)кв 2,33 4,9 18,27 29,37 74,4 109,35 1,397
(yi)показ 3,85 5,09 11,67 18,8 69,5 146,66 1503,81

 

Итак, наилучшим приближением является квадратичная функция.◄

Пусть изучается двумерная случайная величина (Х, Y), и получена выборка из п пар чисел (х 1, у 1), (х 2, у 2),…, (хп, уп). Будем искать параметры прямой линии среднеквадратической регрессии Y на Х вида

Y = ρyxx + b, (3)

Подбирая параметры ρух и b так, чтобы точки на плоскости с координатами (х 1, у 1), (х 2, у 2), …, (хп, уп) лежали как можно ближе к прямой (3). Используем для этого метод наименьших квадратов и найдем минимум функции

. (4)

Приравняем нулю соответствующие частные производные:

.

В результате получим систему двух линейных уравнений относительно ρ и b:

. (5)

Ее решение позволяет найти искомые параметры в виде:

. (6)

При этом предполагалось, что все значения Х и Y наблюдались по одному разу.

Теперь рассмотрим случай, когда имеется достаточно большая выборка (не менее 50 значений), и данные сгруппированы в виде корреляционной таблицы:

 

Y X
x 1 x 2 xk ny
y1 y 2ym n 11 n 12n 1 m n 21 n 22n 2 m … … … … nk 1 nk 2nkm n 11+ n 21+…+ nk 1 n 12+ n 22+…+ nk 2 …………….. n 1 m +n 2 m +…+ nkm
nx n 11+ n 12+…+ n 1 m n 21+ n 22+…+ n 2 m nk 1+ nk 2+…+ nkm n=nx =ny

 

Здесь nij – число появлений в выборке пары чисел (xi, yj). Поскольку , заменим в системе (5)

, где пху – число появлений пары чисел (х, у). Тогда система (5) примет вид:

. (7)

Можно решить эту систему и найти параметры ρух и b, определяющие выборочное уравнение прямой линии регрессии:

.

Но чаще уравнение регрессии записывают в ином виде, вводя выборочный коэффициент корреляции. Выразим b из второго уравнения системы (7):

.

Подставим это выражение в уравнение регрессии: . Из (7)

, (8)

где Введем понятие выборочного коэффициента корреляции

и умножим равенство (8) на : , откуда . Используя это соотношение, получим выборочное уравнение прямой линии регрессии Y на Х вида

. (9)

Коэффициент корреляции – безразмерная величина, которая служит для оценки степени линейной зависимости между Х и Y: эта связь тем сильнее, чем ближе | r | к единице. Для любых переменных Х и Y абсолютная величина коэффициента корреляции не превосходит единицы: . По абсолютной величине этого коэффициента судят о силе связи между величинами: если – связь слабая, – связь умеренная, – связь сильная, – величины некоррелированные (независимые).

Для качественной оценки тесноты корреляционной связи между X и Y можно воспользоваться и таблицей Чеддока:

Диапазон изменения | rB | 0,1-0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9-0,99
Характер тесноты связи слабая умеренная заметная высокая весьма высокая

Итак,если для выборки двумерной случайной величины (X, Y): {(xi, yi), i = 1, 2,..., n } вычислены выборочные средние и и выборочные средние квадратические отклонения σх и σу, то по этим данным можно вычислить выборочный коэффициент корреляции (другие обозначения )

 

и получить линейные уравнения, описывающие связь между Х и Y, которые называются выборочным уравнением прямой линии регрессии Y на Х:

и выборочным уравнением прямой линии регрессии Х на Y:

.

Степень приближения регрессионной линии к наблюдениям измеряется коэффициентом детерминации

,

где – значения, найденные по уравнению регрессии.

Коэффициент детерминации показывает, на сколько процентов найденная функция регрессии описывает связь между исходными признаками. При можно делать прогноз .

 

Пример. Для выборки двумерной случайной величины

 

i                    
xi 1,2 1,5 1,8 2,1 2, 3 3,0 3,6 4,2 5,7 6,3
yi 5,6 6,8 7,8 9,4 10,3 11,4 12,9 14,8 15,2 18,5

 

вычислить выборочные средние, выборочные средние квадратические отклонения, выборочный коэффициент корреляции и составить выборочное уравнение прямой линии регрессии Y на Х.

 

Для определения выборочного коэффициента корреляции вычислим предварительно Тогда

Выборочное уравнение прямой линии регрессии Y на Х имеет вид: или

Пример. По данным корреляционной таблицы найти выборочный корреляционный момент (ковариацию):

 

X Y -1      
         
         

Выборочный корреляционный момент определяется равенством :

.

Здесь , - варианты (наблюдавшиеся значения) признаков и , - частота пары вариант , - объем выборки, , - выборочные средние.

Найдем выборочные средние с помощью соотношения :

, ,

где , - частоты вариант и .

Так как , получаем

, .

Тогда

Пример. По заданной корреляционной таблице найти выборочные средние среднеквадратические отклонения sΧ, sΥ, коэффициент корреляции ρΧΥ и уравнение линейной регрессии Y на X. Вычислить условные средние по дан-ным таблицы и найти наибольшее их отклонение от значений, вычисляемых из уравнения регрессии.

 

Y X           nX
             
             
             
             
             
             
nY              

 

 

Вычислим выборочные средние и среднеквадратические отклонения для X,Y

Выборочный коэффициент корреляции между Х и У отыскивается по формуле

Согласно таблице

откуда

Выборочное линейное уравнение регрессии У на Х имеет вид

или, с учётом вычисленных значений,

 

Условное среднее при x = xi вычисляется по формуле

где - число выборочных значений yj , наблюдавшихся при данном x i. Согласно данным из таблицы находим

Значения условных средних , отыскиваемые по уравнению регрессии:

 
 


Отклонения значений,

будут d1 = 0-0.45=-0.45; d2 = 2.6- 1.96 = 0.65; d3 = -0.51, d4 = 0.55; d5 = -0.05;

d6 = 0.05. Наибольшее по абсолютной величине отклонение равно 0.65. ◄

Пример. Выборочно обследовано 100 снабженческо-сбытовых предприятий некоторого региона по количеству работников X и объёмам складской реализации Y (д.е.). Результаты представлены в корреляционной таблице;

 

X У           ny
             
             
             
             
             
             
nх           n=100

 

По данным исследования требуется:

1) в прямоугольной системе координат построить эмпирические ломаные регрессии Y на X и X на Y, сделать предположение в виде корреляционной связи;

2) оценить тесноту линейной корреляционной связи;

3) проверить гипотезу о значимости выборочного коэффициента корреляции, при уровне значимости α=0,05;

4) составить линейные уравнения регрессии У на X и X на У, построить их графики в одной системе координат;

5) используя полученные уравнения регрессии, оценить ожидаемое среднее значение признака Y при х=40 чел.; дать экономическую интерпретацию полученных результатов.

1. Для построения эмпирических ломаных регрессии вычислим условные средние и Вычисляем . Так как при х=5 признак Y имеет распределение

2.

YY      
ni      


 

то условное среднее .

При х=15 признак Y имеет распределение

 

Y        
ni        

 

тогда .

 

Аналогично вычисляются все и .Получим таблицы, выражающие корреляционную зависимость Y от X (табл.2) и X от Y (табл.3).

 

 

Таблица 2

x          
130,8 132,86 135,74 137,08 137,86

 

 

Таблица 3

y            
6,25   19,54 32,35   43,57

В прямоугольной системе координат построим точки Аii, ), соединив их отрезками, получим эмпирическую линию регрессии Y на X. Аналогично строятся точки В j(,yj) и эмпирическая линия регрессии X на Y (см. рис.).

 

 

 
 

       
 
 
   
 
 

 

 


 

       
   
 
 
 

 


 

 

       
   
 
 
 


 
 

 

 

 

Построенные эмпирические ломаные регрессии Y на X и X на Y свидетельствуют о том, что между количеством работающих (X) и объёмом складских реализаций (Y) существует линейная зависимость. Из графика видно, что с увеличением X величина также увеличивается, поэтому можно выдвинуть гипотезу о прямой линейной корреляционной зависимости между количеством работающих и объёмом складских реализаций.

2. Оценим тесноту связи. Вычислим выборочный коэффициент корреляции, предварительно вычислив характеристики по формулам

, , , , ,

, : ;

; ; ;

.

 

Это значение rB говорит о том, что линейная связь между количеством работников и объемом складских реализаций высокая. Этот вывод подтверждает первоначальное предположение, сделанное исходя из графика.

3. Запишем теоретические уравнения линейной регрессии:

, .

Подставляя в эти уравнения найденные величины, получаем искомые уравнения регрессии:

1) уравнение регрессии Y на X:

, или ;

 

2) уравнение регрессии X на Y:

, или .

Построим графики найденных уравнений регрессии. Зададим координаты двух точек, удовлетворяющих уравнению . Пусть х = 10, тогда , А1(10; 132,41), Если х = 40, тогда , А2(40; 137,51). Аналогично находим точки, удовлетворяющие уравнению , В1(10,2; 131), В2(43; 139). Графики прямых линий регрессии изображены ниже на рисунке.

 

 

 

 

Контроль: точка пересечения прямых линий регрессии имеет координаты . В нашем примере: С(29,8; 135,78).

4. Найдём среднее значение Y при х =40 чел., используя уравнение регрессии Y на X. Подставим в это уравнение х=40, получим

.

Ожидаемое в генеральной совокупности среднее значение объёма складских реализаций при заданном количестве работников (х=40) составляет 137,51 д.е.

Замечание 1. Если в корреляционной таблице даны интервальные распределения, то за значения вариант надо брать середины частичных интервалов.

Замечание 2. Если данные наблюдений над признаками X и Y заданы в виде корреляционной таблицы с равноотстоящими вариантами, то целесообразно перейти к условным вариантам:

, ,

где h1 – шаг, т.е. разность между двумя соседними вариантами xi; С1 – «ложный нуль» вариант xi (в качестве «ложного нуля» удобно принять варианту, которая расположена примерно в середине ряда); h2 – шаг вариант Y; С2 – «ложный нуль» вариант Y.

В этом случае выборочный коэффициент корреляции

,

где , ,

, .

Зная эти величины, находят , , σх, σу по формулам

, , , .

Найденные величины подставляем в уравнения (10).

Так в данном примере С1 =25, h1=10, С2=136, h2=2; , .

Корреляционная таблица в условных вариантах имеет вид

 

U V -2 -1       ny
-3            
-2            
-1            
             
             
             
nx           n=100

 

По этой таблице и приведённым выше формулам находим характеристики:

;

;

;

;

; ;

;

;

;

; .

В результате получаем те же уравнения линейной регрессии:

; .◄

 

Пример. Найти выборочное уравнение прямой линии регрессии:

а) на , б) на , если известны: выборочные средние , , выборочные дисперсии , , выборочный коэффициент корреляции .

а) Выборочное уравнение прямой линии регрессии на имеет вид

,

где , .

Поскольку , , получаем уравнение

, или .

б) Согласно выборочному уравнению прямой линии регрессии на :

.

Поэтому получаем

, или .◄

Пример. Некоторая фирма занимается поставками различных грузов на короткие расстояния внутри города. Перед менеджером стоит задача оценить стоимость таких услуг, зависящую от затрачиваемого на поставку времени. В качестве наиболее важного фактора, влияющего на время поставки, менеджер выбрал пройденное расстояние. Были собраны данные о десяти поставках:

Расстояние, миль Время, мин Расстояние, миль Время, мин
3,5   1,3  
2,4   1,0  
4,9   3,0  
4,2   1,5  
3,0   4,1  

Постройте график исходных данных, определите по нему характер зависимости между расстоянием и затраченным временем, найдите уравнение регрессии, проанализируйте силу регрессионной зависимости и сделайте прогноз времени поездки на 2 мили.

Построим диаграмму рассеяния, т.е. график исходных данных:

Помимо расстояния на время поставки влияют пробки на дорогах, время суток, дорожные работы, квалификация водителя, вид транспорта. Построенные точки не находятся точно на линии, что обусловлено описанными выше факторами, но эти точки собраны вокруг прямой, поэтому можно предположить линейную связь между параметрами.

Уравнение линейной регрессии , коэффициенты этого уравнения можно найти по формулам: . Расчеты поместим в таблицу.

 



Поделиться:


Последнее изменение этой страницы: 2017-02-07; просмотров: 328; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.134.104.173 (0.229 с.)