Поняття вибірки. Числові характеристики вибірки 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Поняття вибірки. Числові характеристики вибірки



Вимірювані ознаки як випадкові величини

Досліджувані процеси та явища, зазвичай підлягають впливу великої

кількості різноманітних чинників, далеко не всі з яких підлягають контролю.

Внаслідок цього детермінований перебіг процесів та явищ починає володіти

ознаками стохастичності. Цим пояснюється невизначеність результатів

дослідження та мінливість отриманих даних. Іншими словами, має місце як

закономірна, так і випадкова тенденція. Отже, результати досліджень мають

випадковий характер, тобто, ознаки, що підлягають дослідженню, є

випадковими величинами.

Під випадковою величиною розуміють величину, яка за результатами

дослідження може приймати деяке значення з наперед заданої їх множини.

Випадкове в одиничному прояві стає закономірним у масовому явищі.

На вивчення таких закономірностей спрямовані методи математичної

статистики. Їх застосування стає можливим завдяки теоретичній і практичній

обґрунтованості переході від випадкового в одиничному явищі до

об’єктивної закономірності в масі таких явищ. Знання цих закономірностей

розширює можливості наукового аналізу даних, дозволяє здійснювати

прогнозування розвитку досліджуваних явищ, готувати науково

обґрунтовані альтернативи управлінських рішень.

Випадкова величина має кількісну характеристику, що називається

імовірністю, можливості появи деякого значення при певних умовах, які

можуть повторюватись багаторазово. Правило, яке дозволяє знаходити

імовірність можливих подій, пов’язаних зі значеннями випадкової величини,

називається законом розподілу. В дослідженні в ролі імовірності значення

ознаки часто виступає відносна частота його появи, а в ролі закону розподілу

– відповідний частотний розподіл. Саме цим визначається можливість

застосування методів математичної статистики до опрацювання результатів

досліджень.

Процедури формування вибірки

В процесі дослідження як правило не існує можливості вивчити всю

сукупність об’єктів, що цікавить дослідника. Тому доводиться мати справу

лише з невеликою їх кількістю, яка називається вибіркою. Всю вихідну

сукупність об’єктів в такому випадку називають генеральною сукупністю.

Вибірка – це підмножина досліджуваної сукупності, що дозволяє

робити при правильному її формуванні точні висновки щодо генеральної

сукупності в цілому. Необхідними атрибутами елементів вибірки є їх

незалежність і відповідність однаковому закону розподілу. При цьому сам

закон розподілу може бути невідомим, але друга умова свідчить про

однорідність елементів вибірки.

До переваг вибіркових досліджень у порівнянні з суцільними варто

віднести:

 оперативність отримання результатів;

 економічність проведення дослідження;

 більшу достовірність отриманих результатів.

Першим кроком в побудові будь-якої моделі формування вибірки є

визначення відповідної генеральної сукупності. Вирішення цього завдання

далеко не завжди буває очевидним. По-перше, генеральна сукупність може

бути задана і описана лише на основі певних змістовних уявлень. По-друге,

ідеальна генеральна сукупність, що задається теоретичним описом предмету

дослідження, майже ніколи повністю не співпадатиме з реальною сукупністю

внаслідок природних змін соціально-економічної системи. По-третє,

ідеальна генеральна сукупність — це теоретична абстракція, яка співпадає з

реальною сукупністю лише за певними характеристиками. Вибірка

здійснюється з реальної сукупності, перехід від якої до ідеальної сукупності

забезпечується не лише правилами статистичного виводу, але і деякою

часткою теоретичної уяви. По-четверте, в ході дослідження характеристики

об’єктів реальної генеральної сукупності можуть змінюватись, що ускладнює

формування обґрунтованих висновків.

Якщо побудована вибірка відповідає прийнятному рівневі точності, то

вона є репрезентативною, тобто вірно відображає властивості генеральної

сукупності. В іншому випадку можна говорити про наявність істотної

вибіркової помилки. Її визначають як розбіжність між оцінкою деякого

показника, отриманого на підставі дослідження вибірки, і дійсним значенням

цього показника в генеральній сукупності.

Репрезентативність вибірки забезпечує імовірнісний спосіб її

формування. За якого кожен елемент генеральної сукупності має однакову

імовірність потрапляння до вибірки. Існує декілька типів імовірнісної

вибірки, що розрізняються характером вибіркової процедури, серед яких

відзначимо: просту випадкову, систематичну, стратифіковану, кластерну і

багатоступінчату.

Основні характеристики описової статистики

Зібрані дані самі про себе нічого не говорять. Їх потрібно звести до

того вигляду, який дозволив би зрозуміти їх зміст, отримати з них необхідну

інформацію та зробити певні висновки.

Тому подальша мета роботи з даними – виявлення статистичних

закономірностей, що цікавлять дослідника. В певному сенсі воно являє

собою стиснення, усереднення інформації, що міститься в даних, спрямоване

на виявлення прихованих в ній статистичних закономірностей.

Вивчення статистичних закономірностей здійснюється в рамках

математичної статистики, яка надає різноманітний інструментарій для

вирішення подібних завдань. Саме це, в першу чергу, зумовлює необхідність

використання апарату математичної статистики. З іншого боку, за допомогою

статистичних методів можна перенести виявлені закономірності з вибіркової

сукупності об’єктів, яка безпосередньо була обстежена, на всю генеральну

сукупність.

Опис даних зазвичай досягається за допомогою найпростіших способів стиснення

початкових даних, які входять до описової, або дескриптивної, статистики, яка є одним

із напрямків аналізу даних. В загальному вигляді вона являє собою техніку збору і

опрацювання кількісних даних, спрямованих на перетворення їх у форму, зручну для

сприйняття і подальшого аналізу. Методи описової статистики спрямовані на отримання

та відображення основних характеристик вибіркової сукупності даних. Вони надають

дослідникові зрозумілу інформацію щодо вибірки і позбавляють його необхідності

проглядати всю сукупність значень.

Результати застосування методів описової статистики можна подати у табличному,

графічному або аналітичному вигляді.

Табличний вигляд вибіркової сукупності дозволяє представити вибіркову

сукупність у вигляді таблиць за допомогою сумарних статистик з поділом даних на

категорії. В його основі покладено групування даних. Розрізняють типологічне,

структурне та аналітичне групування.

Типологічне групування вирішує задачу розбиття вибірки на окремі якісно

однорідні групи і виявлення на цій основі різних часткових підсукупностей, що відають

певним соціально-економічним типам.

При структурному групуванні відбувається розподіл виділених за допомогою

технологічного групування типів явищ, однорідних сукупностей на групи, що

характеризують їх структуру за деякою ознакою. Вона дає можливість описати складові

частини сукупності або будову типів, а також проаналізувати структурні зрушення.

Аналітичне (факторне) групування дозволяє оцінювати зв’язки між взаємодіючими

ознаками.

Багатомірне групування проводиться за двома і більше ознаками. Окремим

випадком такого групування є комбінаційне групування, що базується на двох і більш

ознаках, узятих у взаємозв’язку.

Групування, виконане за однією ознакою, називається простим. Серед групувань

такого типу виділяють ряди розподілу. Вони являють собою групування, в яких для

характеристики груп (впорядковано розташованих за значенням ознаки) застосовується

один показник – чисельність групи. Іншими словами, це ряд чисел, що показує, як

розподіляються одиниці деякої сукупності за ознакою, що вивчається. Ряди, побудовані за

атрибутивною ознакою, називаються атрибутивними рядами розподілу. Ряди розподілу,

побудовані за кількісною ознакою, називаються варіаційними рядами. Вони складаються з

варіант – числових значень кількісної ознаки у ряді розподілу, та частот, що відображають

кількість окремих варіант або груп варіаційного ряду. Варіаційні ряди залежно від

характеру варіації підрозділяються на дискретні та інтервальні.

Аналітичні показники з рахунок своєї інформативності дозволяють

відобразити основні властивості вибірки. Їх можна поділити точкові та

інтервальні. Точкові показники виражаються одним числом. Їх в свою чергу

також можна поділити на три групи: показники положення, показники

мінливості та показники асиметрії. Показники, що входять до кожної групи,

представлені у табл. 7.1. Слід зазначити, що їх зручно розраховувати за

згрупованими даними, які подані у вигляді варіаційного ряду.

Таблиця 7.1

Аналітичні точкові показники описової статистики

Група Показник Опис

Показники

положення

мода

значення, яке у вибірці зустрічається найбільш

часто;

медіана

значення, що знаходиться точно посередині

розподілу вибірки. при цьому половина значень

завжди знаходиться вище медіани, а половина –

завжди нижче. якщо кількість різних значень

вибірки є парною, то то медіаною є середнє

арифметичне двох центральних її елементів;

вибіркове середнє

середнє значення елементів вибірки, яке

розраховується за формулою простої середньої, а

для варіаційного ряду – зваженої середньої;

квантиль

точка, яка ділить сукупність спостережень на

групи з відповідними пропорціями в кожній з них.

найбільш поширеними квантилями є:

квартиль – ділить на чотири частини;

квінтель – ділить на п’ять частин;

дециль – ділить на десять частин;

процентиль – ділить на сто частин.

Показники

мінливості

розмах

різниця між найбільшим на найменшим

значеннями вибірки

міжквартильний

розмах

різниця між верхнім та нижнім квартилями;

середнє лінійне

відхилення

середнє арифметичне абсолютних значень

відхилень кожного значення вибірки від її

середнього вибіркового;

дисперсія, стандартне

(середньоквадратичне)

відхилення.

ступінь розсіювання значень вибірки відносно її

вибіркового середнього;

коефіцієнт осциляції відношення розмаху до вибіркового середнього;

відносне відхилення

за абсолютною

величиною

відношення середнього лінійного відхилення до

вибіркового середнього;

коефіцієнт варіації відношення середньоквадратичного відхилення до

вибіркового середнього

відносна квартальна

відстань

відношення міжквартильного розмаху до

вибіркового середнього.

Показник

асиметрії коефіцієнт асиметрії

ступінь симетричності розподілу даних навколо

центру (вибіркового середнього). додатне значення

даного параметра показує на зміщення даних

ліворуч від центру, від’ємне – вправо.

Медіана характеризує середину розподілу: 50% спостережень будуть мати

значення, не більші за медіанне, а 50% – не менші. Медіана володіє властивістю

мінімальності: сума абсолютних відхилень значень вибірки від медіани є мінімальною

величиною в порівнянні з відхиленням їх від будь-якої іншої величини. Крім того, медіана

не чутлива до зміни найбільшого та найменшого значень вибірки, що також говорить на її

користь.

Мода є показником, який добре відображає типове значення вибірки, що часто є

основним при визначенні центру. З іншого боку, у вибірках досить часто може

спостерігатись мультимодальність, що ускладнює розрахунок інших характеристик

вибірки, основаних на моді. Але саме вона надає додаткову інформацію про природу

досліджуваної сукупності. Наприклад, при дослідженні уподобань респондентів вона

може свідчити про наявність декількох різних думок. Мультимодальність може бути

наслідком неоднорідності вибіркової сукупності, що також є важливим для дослідника.

Також потрібно зазначити, що при малому обсязі вибірки мода може бути дуже

нестабільною і для різних вибірок однієї і тієї ж генеральної сукупності давати

діаметрально протилежні результати.

Вибіркове середнє є найбільш поширеною оцінкою центру розподілу. Важливою

характеристикою цього показника є те, що кожне значення вибірки здійснює істотний

вплив на нього. Тому у випадку асиметричного розподілу значень вибірки, коли декілька

крайніх значень зустрічаються найчастіше, та наявності так званих «помилок» – значень,

що істотно відрізняються від їх основного масиву, воно може невірно характеризувати

центр розподілу. В такому випадку більш адекватною оцінкою центра вибірки виступає

медіана. Однак з іншого боку, вибіркове середнє завжди є центром точної рівноваги всіх

значень вибірки. Крім того, доведено, що воно є незміщеною оцінкою середнього

значення (математичного сподівання) всієї генеральної сукупності, тому його часто

використовують в ролі цього значення.

Міри відносного положення – квантилі – використовуються для опису

місцеположення конкретного значення вибірки відносно інших її значень.

Вибір найбільш адекватної оцінки центра вибірки залежить в першу чергу від

властивостей самої вибірки. Наприклад в ситуації, коли вибірка містить досить велику

кількість малих значень, і декілька великих значень, які істотно відрізняються від

основного масиву даних, жодна з оцінок не дасть вірного уявлення про центр вибірки.

Крім того. характеристики центра розподілу не завжди дає повну інформації про вибірку,

оскільки зовсім не відображають мінливість значень вибірки. Саме для цього

використовуються показники другої групи. Їх основне призначення - відображення

ступеня групування значень вибірки навколо вибіркового середнього.

Асиметрію кількісно можна оцінити лише за одним показником, числове значення

якого показує ступінь зміщення значень вибірки відносно центру. Однак додатково про

асиметрію може також свідчити взаємне розташування медіани та вибіркового

середнього, а також аналіз графічних характеристик вибірки.

Розрахунок точкових оцінок характеристик залежить від вибірки і тому може

давати відхилення як від істинних характеристик генеральної сукупності, так і між

характеристиками, обчисленими для різних вибірок. Тому для підвищення надійності

розрахунків і наступних за ними висновків використовують інтервальні оцінки

параметрів. Вони вказують не точне значення параметра, а інтервал, якому належить

оцінюване значення генеральної сукупності.

Довірчим інтервалом називають інтервал, який дозволяє із заданою точністю

невідому характеристику генеральної сукупності. В межах границь цього інтервалу можна

мати деякий рівень упевненості щодо наявності в ньому досліджуваної характеристики

генеральної сукупності. Цей рівень задається у вигляді довірчої імовірності, яка зазвичай

має значення, не менше за 0,95.Так, значення довірчої імовірності =0,95 означає, що 95

інтервалів зі 100, побудованих за значеннями вибіркових характеристик різних вибірок

дійсно будуть містити невідоме значення оцінюваного параметра. При цьому залишається

невідомим, де саме в цьому інтервалі знаходиться оцінюване значення.

Використання довірчих інтервалів підвищує ефективність та надійність висновків,

однак ускладнює розрахунки, які будуть проводитись на базі оцінюваних параметрів

вибірки.

Для розрахунку та відображення характеристик описової статистики можна

скористатись як системою обробки електронних таблиць, так і спеціалізованими

сучасними програмними пакетами статистичних розрахунків, таких, як STATISTICA,

SPSS, STADIA та іншими.

Розрахунок необхідного обсягу вибірки

Вибіркові сукупності зазвичай використовуються при проведенні

опитувань, в панельних та експериментальних дослідженнях. Для того, що

отримані дескриптивні оцінки мала бажаний ступінь точності, потрібно

розрахувати відповідний мінімальний обсяг вибірки. Для його визначення на

практиці використовують наступні підходи:

 довільний підхід, заснований на застосуванні «правила великого

пальця» (наприклад, бездоказово встановлюється розмір вибірки в 5 % від

сукупності);

 на основі рекомендацій замовника дослідження;

 виходячи з бюджету дослідження;

 на основі статистичних розрахунків, виходячи з певних вимог до

надійності і достовірності отримуваних результатів.

Найбільш теоретично обґрунтованим є останній підхід. Вихідною

інформацією для цього слугують:

 довірча імовірність ;

 величина граничної помилки ;

 варіація генеральної сукупності p, тобто частка об’єктів у ній із

заданою властивістю; ця величина визначає імовірність появи у вибірці

об’єкту з цією властивістю.

Тоді мінімальний обсяг вибірки визначається за формулою

z

 pq

n , (7.1)

де z - верхня процентна точка стандартного нормального розподілу

при заданій довірчій імовірності ;

q=1 – p.

На практиці береться округлення виразу правої частини формули (7.1)

до наступного цілого числа.

Зазвичай значення величини p оцінити складно. При його визначенні

перш за все необхідно провести попередній якісний аналіз досліджуваної

сукупності, в першу чергу встановити схожість одиниць сукупності за

демографічними, соціальними і іншими характеристиками, що являють

інтерес для дослідника. В тому випадку, якщо обґрунтовані міркування щодо

значення цього показника відсутні, використовується деяке огрублення

формули (7.1), при якому обирається найгірший випадок, при якому p=0,5.

Тоді формула (7.1) прийме вигляд:

2

z

n . (7.2)

Можливо визначати обсяг вибірки на основі апріорної інформації про

мінливість вибірки. Тоді

2 2

z s

n , (7.3)

де s

– оцінка дисперсії.

Якщо ж обсяг вибірки перевищує п’ять відсотків від обсягу генеральної

сукупності, то остання вважається малою і у формули (7.1) – (7.3) вводиться

поправочний коефіцієнт. Обсяг вибірки в даному випадку визначається за

формулою:

 

N

N n

n n, (7.4)

де n1 – виправлений обсяг вибірки;

n – початково розрахований обсяг вибірки за формулами (7.1) – (7.3);

N – обсяг генеральної сукупності.

Слід зазначити, що обсяг вибірки визначає точність отриманих

результатів у статистичному сенсі, але він не гарантує їх репрезентативність.

Остання властивість визначається методами формування вибірки, про що

говорилось вище.

Інший клас завдань, пов’язаний з необхідністю вивести властивості

великої сукупності, ґрунтуючись на наявній інформації про властивості

вибірки з цієї сукупності, вирішується за допомогою методів індуктивної

статистики, або теорії статистичного виводу, заснованої на імовірнісному

підході до ухвалення рішень. Скориставшись моделлю для аналізу

отриманих вибіркових даних, можна також застосувати деякі методи

статистичного виводу, що дозволяють визначити, чи виконуються виявлені

при аналізі даних відношення на рівні великої сукупності, з якої отримана

вибірка.



Поделиться:


Последнее изменение этой страницы: 2016-07-16; просмотров: 1153; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 35.175.201.245 (0.115 с.)