Розділ 2. Методи оцінки параметрів розподілів 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Розділ 2. Методи оцінки параметрів розподілів



РОЗДІЛ 2. МЕТОДИ ОЦІНКИ ПАРАМЕТРІВ РОЗПОДІЛІВ

Предмет і задачі математичної статистики

Математична статистика – це математична дисципліна, яка займається розробкою методів і моделей аналізу даних з метою виявлення закономірностей у результаті спостережень над масовими випадковими явищами та процесами. Математична статистика базується на поняттях і методах теорії ймовірностей, але розв’язує свої специфічні задачі. У теорії ймовірностей припускається, що імовірності настання окремих подій відомі. Вважаються відомими закони розподілу випадкових величин або їх числові характеристики. Оперуючи цими поняттями, у теорії ймовірностей знаходять закони розподілу і числові характеристики інших більш складних подій і випадкових величин. Як правило, на практиці ймовірності настання подій, закони розподілу випадкових величин або параметри цих розподілів невідомі. Для їх визначення (оцінювання) проводяться спеціальні спостереження або експерименти.

При обробці результатів експериментів статистичними методами основні поняття теорії ймовірностей – імовірності випадкових подій, закони розподілу випадкових величин тощо, виступають як деякі математичні моделі реальних закономірностей. Таким чином, теорія ймовірностей розробляє математичні моделі для описання реальних закономірностей масових випадкових явищ, формує систему поглядів на статистичну обробку та аналіз результатів експериментів.

Математична статистика розробляє методи математичної обробки результатів випробувань і визначення ймовірнісних характеристик випадкових явищ на основі експериментальних даних.

Сучасну математичну статистику визначають як науку про прийняття рішень в умовах невизначеності.

Основні задачі математичної статистики полягають у розробці методів:

· планування і організації статистичних спостережень;

· збору статистичних даних;

· «згортки інформації», тобто групування і скорочення статистичних даних з метою зведення великої кількості даних до невеликого числа параметрів, які у стислому вигляді характеризують усю досліджувану сукупність;

· аналізу статистичних даних;

· прогнозування випадкових подій і явищ.

Методи і засоби наукового аналізу даних, які належать до масових явищ, з метою визначення деяких узагальнюючих ці дані характеристик і виявлення статистичних закономірностей і складають предмет математичної статистики.

До основних задач статистичного аналізу відносяться такі задачі:

· визначення розподілів випадкових величин за результатами їх спостережень. До цієї загальної задачі зводиться багато частинних, наприклад, визначення ймовірностей подій, функцій розподілу, параметрів розподілу тощо;

· перевірка статистичних гіпотез про вигляд невідомого розподілу або про величини параметрів розподілу, вид якого відомий, перевірка гіпотез про однорідність та незалежність вибірок;

· аналіз залежностей між випадковими величинами (кореляційний і регресійний аналіз).

Варіаційні ряди та їх характеристики

Варіаційні ряди

Вихідним матеріалом при розв’язанні задач математичної статистики є послідовність незалежних спостережень випадкових величин. Це означає, що є ймовірнісний експеримент, у якому спостерігається випадкова величина Х і виконується n незалежних реалізацій цього експерименту. Спостережувані значення випадкової величини – називаються випадковою вибіркою або просто вибіркою. Кількість спостережень n – об’ємом вибірки. Множина можливих значень випадкової величини X, які можуть спостерігатися при багатократній реалізації експерименту, називається генеральною сукупністю або вибірковим простором. З точки зору теорії ймовірностей вибірка є реалізацією деякої випадкової величини X. Отже, поняття генеральної сукупності, у певному сенсі, аналогічно поняттю випадкової величини, оскільки повністю обумовлено певним комплексом умов.

Задачі математичної статистики виникають, коли закон розподілу ймовірностей випадкової величини X невідомий, при цьому методи статистичного аналізу дозволяють одержати інформацію про різні закономірності у генеральній сукупності. У залежності від того, який клас можливих розподілів генеральної сукупності і що потрібно знати про функцію розподілу, виникають різні статистичні задачі.

У практиці статистичних спостережень розрізняють два види спостережень: суцільне, коли вивчаються усі об’єкти (елементи) сукупності, і несуцільне, вибіркове, коли вивчається частина об’єктів. Прикладом суцільного спостереження є перепис населення, який охоплює усе населення країни. Вибірковим спостереженням є, наприклад, вибірковий контроль якості продукції, коли для контролю вибирається частина продукції з усієї продукції, що виготовляється.

Сутність вибіркового методу полягає у тому, що за деякою частиною генеральної сукупності (за вибіркою) судять про її властивості в цілому. Для того, щоб за даними вибірки мати можливість судити про генеральну сукупність, вона повинна бути відібрана випадково. Вибірка називається репрезентативною (представницькою), якщо вона досить добре відтворює генеральну сукупність. Використовують два способи утворення вибірки:

повторний вибір (за схемою поверненої кулі), коли випадково відібраний і обстежений елемент повертається у загальну сукупність і може бути повторно відібраний;

безповторний вибір (за схемою неповерненої кулі), коли випадково відібраний елемент не повертається у загальну сукупність.

Нехай – деяка вибірка ( -вимірний випадковий вектор). Побудуємо на основі цієї вибірки упорядкований за зростанням випадковий вектор тобто вектор, у якому

ØПослідовність у якій називається варіаційним рядом. Спостережені значення випадкової величини X (ознаки) називають варіантами (порядковими статистиками).

Ø Розмахом варіювання або шириною вибірки називається статистика

(2.1)

Ø Рангом елемента вибірки називається номер, який він одержує в упорядкованій за зростанням послідовності , тобто у варіаційному ряді.

Так, ранг 1 одержить найменше із спостережених значень вибірки, ранг 2 – друге за величиною значення і т. д., ранг найбільше із чисел .

Оскільки розгляд і осмислення вибіркових даних (особливо при великій кількості спостережень n) ускладнено і за ними практично неможливо уявити характер розподілу випадкової величини X, то вибірки групують. Кількість інтервалів (розрядів) групування вибирають таким чином, щоб згрупований варіаційний ряд не був громіздким, але і не дуже малим, щоб не втратити особливості розподілу ознаки. Якщо коливання щільності розподілу ймовірності не дуже великі, то бажано вибирати однакові розряди. Якщо ж є згущення варіант, то бажано розряди вибирати так, щоб згущення були якомога ближче до середини розрядів. Із границями розрядів повинно як можна менше співпадати значень варіант.

У сукупностях з розподілами, близькими до нормального, кількість груп k (нижня оцінка) орієнтовно можна визначити за формулою Стерджеса:

де n – об’єм вибірки.

ØЧисла, які дорівнюють кількості варіант із даного розряду, називаються частотами (позначимо їх як , а відношення їх до загальної кількості спостережень n – відносними частотами або частками:

.

При вивченні варіаційних рядів поряд, з поняттям частота, використовується поняття накопиченої частоти , яка показує кількість варіант із значенням, меншим за x. Відношення накопиченої частоти до загальної кількості спостережень n називається накопиченою часткою:

.

ØВаріаційний ряд називається дискретним, якщо будь-які його варіанти відрізняються на постійну величину, i – неперервним (інтервальним), якщо варіанти відрізняються на скільки завгодно малу величину.

Дискретний і інтервальний варіаційні ряди представляються у вигляді:

а) дискретний варіаційний ряд:

 
 
 

де значення випадкової величини X, які спостерігались у експерименті;

кількість спостережень (частота) ;

відносна частота ; об’єм вибірки.

б) інтервальний варіаційний ряд:

 

де інтервали, на які розбитий діапазон значень випадкової величини X; частота попадань в i-й інтервал.

Алгоритм групування варіаційного ряду:

· визначаємо розмах вибірки R;

· задаємо кількість розрядів групування k і визначаємо їх довжину:

· визначаємо границі розрядів:

· визначаємо частоти або частки попадання варіант у задані розряди.

Функції Mathcad, які застосовуються при групуванні варіаційних рядів:

Емпірична функція розподілу

Ø Емпіричною функцією розподілу (статистичною функцією розподілу, функцією розподілу вибірки) називається функція , яка визначає для кожного значення x відносну частоту події . Отже, за означенням:

, (2.2)

де – кількість варіант, менших ; – об’єм вибірки.

Іншими словами, для даного емпірична функція розподілу представляє собою накопичену частку. Зауважимо, що при будь-якому значенні величини , а отже і є випадковими.

Якщо вибірка представлена варіаційним рядом, то

. (2.3)

На відміну від емпіричної функції розподілу вибірки , функцію розподілу генеральної сукупності називають теоретичною функцією розподілу. Відмінність між ними полягає у тому, що визначає ймовірність події , а – частоту цієї події.

Емпірична функція розподілу має усі властивості, що і функція розподілу ймовірностей :

1. Значення функції належать відрізку [0,1];

2. – неспадна функція;

3. Якщо – найменша варіанта, то = 0 при ;

4. Якщо – найбільша варіанта, то = 1 при ;

Згідно з законом великих чисел, функція збігається за ймовірністю до висхідного розподілу . Це означає, що при великих числа і мало відрізняються одне від одного у тому смислі, що

при будь-якому .

Більш того має місце теорема Глівенка: емпірична функція розподілу рівномірно по з імовірністю 1 збігається при до теоретичного розподілу :

.

Розглянемо тепер задачу статистичного аналізу щільності розподілу неперервно розподіленої випадкової величини. Така задача в практичних застосуваннях зустрічається частіше, ніж розглянута задача статистичного аналізу функції розподілу.

Нехай – повторна вибірка, кожний елемент якої має щільність розподілу – відповідний варіаційний ряд з розмахом варіювання Розіб’ємо інтервал на інтервалів де Нехай кількість елементів варіаційного ряду, що попадають у і-й інтервал .

Ø Статистика

(2.4)

називається емпіричною щільністю розподілу.

Середні величини

Кожній числовій характеристиці випадкової величини відповідає її статистична аналогія. Статистичні (вибіркові) числові характеристики є випадковими функціями вибіркових значень.

Середня величина характеризує типовий для сукупності розмір ознаки або, як іноді говорять, центральну тенденцію у розподілі. Очевидно практичне використання такої характеристики доцільне у тому випадку, коли окремі варіанти ряду розподілу концентруються поблизу деякого значення. Якщо ж сукупність дуже неоднорідна, результати спостережень значно відрізняються один від одного і не виявляють загальної тенденції, її використання стає чисто формальним.

Існують різні форми середніх. До вибору форми середнього слід підходити керуючись задачею дослідження і визначальною властивістю розподілу, яка повинна бути виражена цією характеристикою.

Основним видом середніх є середнє арифметичне.

Ø Середнім арифметичним варіаційного ряду називається величина, яка обчислюється на основі вибіркових даних за формулами

 

 

де – варіанти дискретного варіаційного ряду або середини інтервалів інтервального варіаційного ряду, – частоти, – відносні частоти,

.

Важливіша властивість середнього арифметичного – сума відхилень варіант від середнього значення дорівнює 0:

.

При розв’язанні практичних задач можуть застосовуватись і інші форми середнього – середнє геометричне і середнє гармонічне.

Ø Емпіричним середнім геометричним називається величина, яка обчислюється на основі вибіркових даних (для ознак з додатними можливими значеннями) за формулою:

(2.6)

Середнє геометричне знаходить застосування при розрахунках темпів зміни величини, зокрема, у тих випадках, коли мають справу з величиною, зміни якої відбуваються приблизно у прямо пропорційній залежності з досягнутим до цього моменту рівнем самої величини, наприклад, рівнем доходу, або ж коли мають справу із середнім з відношень, наприклад, при розрахунках індексів цін.

Ø Емпіричним середнім гармонічним називається величина, яка обчислюється на основі вибіркових даних за формулою:

(2.7)

Гармонічне середнє значення ряду чисел завжди менше середнього геометричного значення тих же чисел, а тим більше – їх середнього арифметичного. Область його застосування досить обмежена. В економіці, зокрема, користуються іноді середнім гармонічним при аналізі середніх норм часу, а також у деяких видах індексних розрахунків.

Окрім розглянутих середніх, які називаються аналітичними у статистичному аналізі, застосовують структурні або порядкові середні. Із них найбільш широко застосовуються медіана і мода.

Ø Медіаною Ме варіаційного ряду називається значення ознаки, яке розділяє ранжовану сукупність на дві рівні за чисельністю групи: перша містить варіанти із значеннями меншими Me, друга – зі значеннями варіант більшими Me.

Із означення емпіричної функції розподілу (накопиченої частоти) випливає, що:

. (2.8)

Для дискретного варіаційного ряду з непарним числом членів медіана дорівнює середньому члену, а для ряду з парним числом членів – півсумі двох середніх членів.

Для інтервального варіаційного ряду знаходиться медіанний інтервал із умови . Значення медіани на цьому інтервалі знаходиться за інтерполяційною формулою:

, (2.9)

де – накопичена частота, менша n/2, – наступна накопичена частота, більша або рівна n/2.

Зазначимо, що медіана може бути приблизно визначена за допомогою емпіричної функції розподілу або кумуляти як значення варіанти Me, для якої Це зручно зробити графічно.

Ø Модою Mo варіаційного ряду називається значення варіанти, якій відповідає найбільша частота.

У багатьох випадках мода є найбільш характерною для ряду розподілу і навколо неї концентрується більша частина варіант. При зміні крайніх членів ряду мода не змінюється, тобто вона має певну сталість до варіації ознаки. Тому її особливо зручно застосовувати при дослідженні рядів з невизначеними границями. Моду доцільно застосовувати також і в тому випадку, коли при вивченні варіації ознаки важко визначити одну превалюючу над усіма іншими частоту.

Для дискретного варіаційного ряду мода знаходиться безпосередньо за означенням.

Для інтервального варіаційного ряду визначається модальний інтервал , якому відповідає найбільша щільність відносної частоти. Величина моди всередині модального інтервалу визначається за інтерполяційною формулою

, (2.10)

де , , – частоти відповідно модального, попереднього до модального і наступного за модальним інтервалів. У цій формулі замість частот можна використовувати частки.

Якщо визначений модальний інтервал, то реалізація такої формули не викликає труднощів.

Для строго симетричного розподілу, у якого частоти варіант, які рівновіддалені від моди, рівні, значення середньої арифметичної, медіани і моди співпадають, тобто . При порушенні симетрії ці три показника розходяться. Але якщо порушення симетрії не дуже сильно виражене, то між вказаними трьома видами середньої буде виконуватись наближена рівність

. (2.11)

На гістограмі розподілу мода визначається таким чином. Знаходиться прямокутник з найбільшою частотою (відносною частотою). З’єднуючи відрізками прямих вершини цього прямокутника з відповідними вершинами двох сусідніх прямокутників, одержують точку перетину цих відрізків (діагоналей), абсциса якої і буде модою варіаційного ряду.

Показники варіації

Середні величини тим більш характерні для даного розподілу, чим тісніше групуються окремі варіанти навколо середньої, тобто чим менше вони розсіяні. Тому середні характеристики повинні бути доповнені вимірюванням варіації ознаки відносно середньої, тобто характеристиками розсіювання.

Сама груба оцінка розсіювання, яка оцінюється за даними варіаційного ряду, може бути одержана за допомогою розмаху варіювання:

, (2.12)

де , – найменша і найбільша варіанти ряду.

Однак цей показник не дає уявлення про характер варіаційного ряду, розташування варіант навколо середньої і може сильно змінюватись від додавання або виключення крайніх варіант навіть із найменшою частотою.

Для оцінки варіювання значень ознаки відносно середньої використовуються різні характеристики розсіювання, які відрізняються одна від одної вибраною формою середнього і способами оцінки відхилень від неї окремих варіант.

Ø Середнім лінійним відхиленнямd варіаційного ряду називається середнє арифметичне абсолютних відхилень значень варіант від їх середньої арифметичної:

 

 

Ø Дисперсією варіаційного ряду (вибірковою дисперсією) називається середнє арифметичне квадратів відхилень значень варіант від їх середньої арифметичної:

 

Дисперсія дає характеристику варіації у квадратних одиницях. Для характеристики варіації у тих же одиницях, що і значення ознаки, на базі дисперсії визначається середнє квадратичне відхилення.

Ø Середнім квадратичним відхиленнямs називається корінь квадратний із дисперсії:

. (2.15)

Характеристикою варіації є також і коефіцієнт варіації, який дорівнює процентному відношенню середнього квадратичного відхилення до середнього арифметичного:

. (2.16)

Коефіцієнт варіації має ту ж природу, що і , і виявляється більш зручним для порівняльної оцінки варіації у розподілах з різними значеннями середнього арифметичного. Однак він втрачає смисл при і стає малонадійним при близьких до 0 значеннях середнього.

Якщо коефіцієнт варіації ознаки, яка приймає тільки додатні значення, високий (наприклад більше 100%), то як правило, це свідчить про неоднорідність вибірки.

Властивості дисперсії:

1. Дисперсія постійної величини дорівнює 0.

2. Якщо усі варіанти збільшити (зменшити) у одне і теж число разів k, то дисперсія збільшиться (зменшиться) у разів:

3. Якщо усі варіанти збільшити (зменшити) на одне і теж число, то дисперсія не зміниться:

4. Дисперсія дорівнює різниці між середнім арифметичним квадратів варіант і квадратом середнього арифметичного:

.

Дійсно,

5. Якщо варіаційний ряд складається із декількох груп спостережень, то загальна дисперсія дорівнює сумі середнього арифметичного групових дисперсій та міжгрупової дисперсії (правило складання дисперсій):

,

де – загальна дисперсія, n – об’єм усієї сукупності, – i-та варіанта загального ряду, – загальне середнє;

– середнє арифметичне групових дисперсій, m – кількість груп, – об’єм j-ї групи;

– дисперсія j-ї групи, -i-та варіанта у j-й групі, – середнє арифметичне j-ї групи;

– міжгрупова дисперсія.

Алгоритм реалізації моделі

● задаємо початкові дані моделі і генеруємо вибірку ;

● утворюємо простий варіаційний ряд шляхом сортування вибірки за зростанням (функція );

● знаходимо мінімальне і максимальне значення варіаційного ряду, визначаємо розмах вибірки знаходимо довжину інтервалів групування варіаційного ряду для заданої кількості інтервалів (функції

● визначаємо масив границь інтервалів групування варіаційного ряду ;

● за допомогою функції знаходимо масив частотного розподілу варіаційного ряду ;

● визначаємо числові характеристики варіаційного ряду: середнє значення дисперсію середнє квадратичне відхилення медіану , моду , коефіцієнт асиметрії ексцес (функції Mathcad

● будуємо гістограму частот і графік щільності теоретичного розподілу;

● визначаємо емпіричну функцію розподілу і будуємо її графік.

Алгоритм у Mathcad

Початкові дані

Моделювання вибірки об’єму із генеральної сукупності розподіленої за нормальним законом з параметрами і одержання варіаційного ряду

Фрагмент варіаційного ряду

Визначення розмаху вибірки

Задання кількості інтервалів групування і визначення довжини інтервалів групування

Визначення масиву границь інтервалів групування

Визначення масиву частотного розподілу варіаційного ряду

Числові характеристики:середнє арифметичне, дисперсія, середнє квадратичне відхилення емпіричного розподілу

Медіана

Модальний інтервал ( номер модального інтервалу) і мода

Коефіцієнт асиметрії

Ексцес

Щільність нормального розподілу з параметрами

Середини інтервалів

Емпірична функція розподілу

Рис.2.1. Гістограма частот і графік щільності нормального розподілу

Рис. 2.2. Графіки емпіричної і теоретичної функцій розподілу F i G

і значення функції розподілу у точці (відмічено знаком +).

Теоретична функція розподілу з параметрами

Значення теоретичної функції розподілу у точці Ме

Метод моментів

Метод моментів ґрунтується на тому, що невідомі параметри теоретичного розподілу (розподілу генеральної сукупності) визначаються із рівнянь, які дістаються прирівнюванням важливіших числових характеристик (моментів) теоретичного розподілу відповідним числовим характеристикам емпіричного розподілу. Так, нехай заданий, наприклад, вид теоретичного розподілу , який визначається невідомим параметром . Для знаходження одного параметра необхідне одне рівняння відносно даного параметра. Для цього використовується момент 1-го порядку (математичне сподівання) теоретичного розподілу і відповідна числова характеристика емпіричного розподілу – вибіркове середнє. Знаходимо математичне сподівання як функцію від :

і функцію вибірки:

Прирівнюючи їх, одержуємо рівняння для визначення оцінки невідомого параметра :

(2.28)

Для знаходження оцінок двох невідомих параметрів , звичайно беруть математичне сподівання і дисперсію теоретичного розподілу та відповідні їм числові характеристики емпіричного розподілу – вибіркове середнє і вибіркову дисперсію . Одержують два рівняння:

(2.29)

Розв’язуючи цю систему, знаходять відповідні оцінки .



Поделиться:


Последнее изменение этой страницы: 2017-02-10; просмотров: 548; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.142.119.241 (0.147 с.)