Розділ 1. Сукупність, вибірка і типи даних 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Розділ 1. Сукупність, вибірка і типи даних



 

Генеральні та вибіркові сукупності

В більшості випадків питання статистичної обробки даних виникає тоді, коли дослідникові необхідно чисельно охарактеризувати явище. Так, одноразове визначення активності алкогольдегідрогенази у культурі пекарських дріжджів мало про що не свідчить. Ця активність залежить від дуже багатьох чинників. Тому повторне визначення активності для цієї самої культури або культури дріжджів, вирощених у подібних умовах, буде відрізнятися. Іншими словами, активність алкогольдегідрогенази у дріжджів буде варіювати. Для оцінки цієї варіації потрібно провести бодай декілька незалежних визначень, або повторів. Середнє значення активності, обраховане на основі значень повторів, а також показники варіації вже є інформативнішими. Набір значень, який ми отримали в результаті незалежних вимірювань вважатиметься вибіркою, а окремі значення варіантами. Власне цей набір даних може бути підданий надалі статистичній обробці. Проте вибірка – це не тільки значення, отримані в кількох незалежних вимірюваннях. Частіше під вибіркою розуміють також набір значень, отриманих після вимірювань, зроблених для групи об’єктів, наприклад, для кількох культур дріжджів у нашому випадку. Такою групою можуть бути листки або насіння різних дерев, пацієнти з різними синдромами, риби одного виду і т.д.

Будь-яка група, незалежно від її розміру, в статистиці називається сукупністю. Об’єкти, які входять у сукупність, мають певні ознаки, які відрізняють їх від інших об’єктів. Розрізняють генеральні та вибіркові сукупності. Генеральною сукупністю є всі об’єкти, які відносяться до категорії, що цікавить дослідника. Наприклад, всі мухи виду Drosophila melanogaster, всі листки дуба, всі дафнії Івано-Франківської області і т.д. В окремих випадках є можливість вивчити всю генеральну сукупність (наприклад, коли вивчаємо зріст всіх студентів одного курсу, або вміст гемоглобіну для всіх в місті хворих на певну рідкісну хворобу). Проте, дослідник не може вивчити повністю великі генеральні сукупності. Уявлення про генеральну сукупність можна скласти за її частиною – вибірковою сукупністю. Вибіркова сукупність, або вибірка – це частина сукупності, відібрана за певними правилами для дослідження з генеральної сукупоності.

Для того, щоб за вибіркою скласти правильне уявлення про генеральну сукупність, вона має бути репрезентативною. Єдиний принцип, який береться в основу відбору об’єктів у вибірку – принцип випадковості. Для реалізації цього принципу, дослідник створює такі умови відбору, щоб у кожного представника генеральної сукупності була однакова ймовірність потрапити у вибірку.

Вибірки, задіяні в експерименті, можуть бути незалежними та залежними. В незалежних вибірках об’єкти ніяк не пов’язані один з одним. Якщо кожному об’єктові однієї вибірки відповідає об’єкт з іншої вибірки, то такі вибірки є залежними.

 

Уявлення про малу вибірку

Одне з основних питань математичної статистики: якою повинна бути мінімальна необхідна кількість інформації для отримання достатньої статистично коректної достовірності результату?

За Р. Фішером мінімальне число зразків не може бути менше 4. В іншому випадку, неминуче виникає систематична помилка (систематична помилка, або зсув (bias) – це систематичне (невипадкове, однонаправлене) відхилення результатів від дійсних значень). Розрізняють декілька основних типів цих помилок. Зсув, зумовлений відбором, виникає, коли порівнювані групи розрізняються не лише за ознакою, яка вивчається, але й за іншими чинниками, що впливають на результат. Зсув, зумовлений виміром, виникає тоді, коли в порівнюваних групах використовуються різні методи виміру. Зсув, зумовлений чинниками, які втручаються, виникає, коли один чинник пов'язаний з іншим і ефект одного спотворює ефект іншого.

Дослідники на практиці найчастіше мають справу з малою вибіркою, коли кількість варіант є меншою за 30 (4 ≤ n ≤ 30). Розробка теорії малої вибірки належить англійському статистикові У.С. Госсету, який у 1908 році опублікував свою працю «Біометрика» під псевдонімом «Стьюдент». Дослідження, які стосуються малих вибірок, пов'язані також з іменами А.М. Колмогорова, Дж. Ноймана і А. Вальда. Так, А.М. Колмогоров запропонував критерій достатності статистики при обмеженому числі спостережень. Дж. Нойман створив новий напрямок у математичній статистиці, основне положення якого говорить: "Завдання статистики – виявляти загальний характер поведінки об'єкту в умовах невизначеності". А. Вальд розробив розділ статистики, який називається послідовним аналізом. За ним, необхідний обсяг вибірки, визначається в процесі самих випробувань. Ідеї Колмогорова, Ноймана і Вальда в частині малих вибірок розвинені у багатьох роботах, бібліографію яких можна знайти у фундаментальних працях із математичної статистики.

Типи даних

У багатьох випадках дослідник має справу з числами. Багато показників, таких як концентрація речовин, оптична густина, розміри, маса, можуть бути виміряні з великою точністю і мати певне числове значення. В інших випадках показники є цілими числами – кількість листків на деревах, кількість відкладених яєць або лялечок комах. Інші ознаки – стать, стан (норма або мутація), колір. Часто, коли технічно неможливо зробити вимір і отримати певне числове значення у початківців опускаються руки. Проте багато ознак, які на перший погляд не виражаються числами, можна «оцифрувати», статистично обробити, а отже, отримати значущу інформацію про явище.

Ознаки поділяють на якісні та кількісні. Кількісні ознаки можна виміряти, порахувати і виразити в тих чи інших одиницях виміру. За якісними ознаками об’єкти можна поділити на чіткі категорії. Якісна ознака може мати декілька станів. Так, вовна тварини може бути чорною, білою, коричневою, рудою; колір очей – чорним, карим, сірим, зеленим, блакитним і т.д. Деякі якісні ознаки мають два стани, наприклад, стать, ген (мутантний або нормальний), обстежуваний (здоровий чи хворий). Такі якісні ознаки називаються альтернативними. У свою чергу, кількісні ознаки поділяють неперервні, подані дійсними числами (наприклад, зріст, маса тіла, концентрація речовин), та дискретні, подані цілими числами (наприклад, кількість тварин в певній дослідній групі). Якісні ознаки поділяють на категоріальні та порядкові або рангові. Категоріальні ознаки – це, наприклад, стать, вікові групи. Якщо категорій тільки дві – мутантний або нормальний, присутній або відсутній, живий – мертвий, і т. ін., то ознаки називають дихотомічними. Інколи доводиться мати справу з ознаками, які можна описати за допомогою фізичних величин. Ступінь розвитку таких ознак суб’єктивно оцінюється описом «краще» або «гірше», «більше» або «менше». У таких випадках об’єктові присвоюють ранг – умовне числове значення, яке описує ступінь розвитку ознаки. Тому такі ознаки називаються ранговими.

Розрізняють також декілька шкал вимірювання, за якими класифікують типи даних. Так, виділяють інтервальну шкалу (в цій шкалі виражаються такі вимірювання як температура або час), шкалу найменувань, або номінальну (статі, номери телефонів), порядкову (оцінки успішності – «задовільно», «добре», «відмінно») та шкалу відношень (відсотки, долі одиниці).

 


Структура даних

Дані можуть бути первинними і вторинними. Первинні дані – це результати безпосередніх вимірів. Вторинні дані утворюються усередненням первинних даних. Наприклад, необхідно дізнатись масу тіла людини та з’ясувати рівень глюкози у неї в крові. Одноразове зважування дає досить точний результат і його, як правило, не повторюють. Методика визначення концентрації глюкози в крові складніша і дає менш точний результат. Тому роблять декілька паралельних визначень, за результатами яких обраховується середнє арифметичне. Паралельні виміри є первинними даними, а усереднений результат – вторинним.

Якщо один і той самий об’єкт вимірюється двічі (у різних експериментальних умовах), то отримані дані утворюють пари. Пари даних отримуються також у тому випадку, коли кожному об’єктові однієї вибірки відповідає цілком певний об’єкт з іншої вибірки. Такі дані є попарно зв’язані.

 

Заокруглення даних

Сучасні калькулятори і комп’ютери дозволяють проводити дуже точні розрахунки. Дуже часто, значення середніх виходять числами, які мають багато знаків після коми. Зрозуміло, що в реальності ми не можемо отримати таке число. До якого знаку можна округлювати середні значення так, щоб не втратити точність з одного боку і не ввести колег в оману – з іншого? Є декілька правил, які дозволяють коректно заокруглити пораховане на комп’ютері значення середньої без втрати точності:

1. Якщо вихідні вимірювання виконують до десятої долі одиниці, то всі наступні розрахунки округляються до десятої долі. Тобто заокруглення в розрахунках відповідає точністю визначень вихідних вимірювань. Так, при подачі середнього арифметичного значення і стандартного відхилення, треба враховувати точність вихідних даних. Необхідно також враховувати точність вимірювань приладів, за допомогою яких дослідник отримує результати.

2. Заокруглюють тільки кінцеве значення обчислень, а всі проміжні обчислення проводять з усіма знаками.

3. Результат вимірювання заокруглюється до того ж десяткого розряду, яким закінчується заокруглене значення абсолютної похибки. Наприклад, результат 5,6342, похибка ±0,11. Результат заокруглюють до 5,63 (5,63±0,11).

4. У переважній більшості випадків заокруглення проводять до трьох значущих цифр. Значущими цифрами числа вважаються всі цифри від першої зліва, яка не дорівнює нулю, до останньої цифри справа. При цьому нулі, які записані у вигляді множника 10n, не враховуються. Так, число 15,0 має три значущі цифри; число 40 – дві значущі цифри; число 127,20 – п’ять значущих цифр; 0,515×10 – три значущі цифри; 0,0066 – дві значущі цифри. Наприклад, потрібно записувати 312 замість 312,3; 12,4 замість 12,41; 1,12 замість 1,121; 0,323 замість 0,3231. Чому саме заокруглюють до трьох значущих цифр? При такому заокругленні максимальна похибка заокруглення знаходиться в межах від 0,06 до 0,5%, що є досить точним показником. Якщо б ми заокруглювали за однією або двома значущими цифрами, то максимальна похибка заокруглення знаходилась би в межах від 6 до 50 % і від 0,6 до 5 %, відповідно.

5. Розрізняють записи наближених чисел за кількістю значущих цифр.

6. Якщо обчислення проводиться в декілька дій, то проміжні результати не заокруглюються, а заокруглюється тільки остаточний результат.

Приклад 1. Розрізняють числа 2,3 і 2,30. Запис 2,3 означає, що вірні тільки цілі і десяті частки, справжнє значення числа може бути, наприклад, 2,33 і 2,28. Запис 2,30 означає, що вірні й соті частки: справжнє значення числа може бути 2,303 і 2,298, але не 2,41 і не 2,382.

Приклад 2. Запис 373 означає, що всі цифри вірні: якщо за останню цифру ручатися не можна, то число має бути записане як 3,7×102.

Приклад 3. Якщо в числі 4720 надійні лише дві перші цифри, воно має записуватись як 4,7×103.

6. При заокругленні даних слід скористатись правилом арифметичного заокруглення:

- якщо за останньою цифрою, яку зберігають, слідують цифри 0, 1, 2, 3 і 4, то її залишають такою ж самою (заокруглення з недостачею). Наприклад, число 1,562 заокруглюють до 1,56;

- якщо за останньою цифрою, яку зберігають, стоять цифри 6, 7, 8, 9, то цю цифру збільшують на одну одиницю (заокруглення з надлишком). Наприклад, число 1,566 заокруглюють до 1,57;

- якщо цифра, що відкидається дорівнює 5, а наступні за нею цифри невідомі або нулі, то останню цифру, що зберігається, не змінюють, якщо вона парна, і збільшують на одиницю, якщо вона непарна. Наприклад, число 1234,50 заокруглюють до 1234, а число 8765,50 – до 8766;

- якщо цифра, що відкидається дорівнює 5, але за нею слідують відмінні від нуля цифри, то останню цифру, що залишається, збільшують на одиницю. Наприклад, число 1,5554 заокруглюють до 1,56.

 

 



Поделиться:


Последнее изменение этой страницы: 2017-01-19; просмотров: 254; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.94.251 (0.012 с.)