Основні поняття математичної статистики і числові характеристики випадкових величин 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Основні поняття математичної статистики і числові характеристики випадкових величин



Мета роботи: Ознайомитися із різними типами шкал та даних вимірювань, ї основними характеристиками статистичного ряду

Забезпечення: персональний комп’ютер IBM PC AT, операційна оболонка Windows XP, текстовий процесор Word, електронні таблиці Microsoft Excel.

 

Теоретична частина

Дані та статистика. Типи даних

Мета більшості досліджень полягає в зборі даних, які згодом допомагають отримати інформацію у будь-якій галузі знання. Дані грунтуються на спостереженнях однієї або декількох змінних; термін «змінна» означає кількісний показник, здатний змінюватися. Наприклад, ми можемо зібрати основну клінічну та демографічну інформацію про хворих зі специфічною хворобою. Змінні, які викликають інтерес, можуть включати стать, вік і зростання хворого. Зазвичай ми отримуємо дані з вибірки індивідуумів, які представляють популяцію. Наша мета полягає в тому, щоб згрупувати ці дані і отримати від них потрібну інформацію. Статистика використовує різні методи, наприклад збір даних, їх узагальнення, аналіз та підведення підсумків, заснованих на отриманих даних; щоб досягти мети, ми використовуємо статистичні методи. Дані можуть мати різні форми. Перше, що ми повинні знати, перш ніж ми виберемо статистичний метод, це до якого типу відноситься кожна змінна. Кожну змінну та результуючі показники можна розділити на два типи: категоріальний (якісний) або числовий (кількісний).

Категоріальні (якісні) дані.

Дані цього типу зустрічаються тоді, коли індивідуум може належати тільки до однієї з безлічі категорій змінної.

Номінальні дані - ті, в яких категорії не впорядковуються, а просто мають назви. Наприклад, група крові (1, 2) і сімейний стан (заміжня, вдова, не заміжня і т. д.). Немає підстав вважати, що бути заміжньою краще (або гірше), ніж бути не заміжньою.

Ординальні (рангові, порядкові) дані - ті, в яких категорії (градації, рівні) можуть упорядковуватися. Це стадії хвороби (запущена стадія, середня, початкова стадія хвороби або відсутність хвороби), вираженість болю (сильна, помірна, слабка, відсутність болю) і т. д.

Категоріальна (якісна) змінна - це бінарна, або дихотомічна, змінна, що включає тільки дві можливі категорії: «так / ні», «помер / живий» чи «хворий має захворювання / хворий не має жодних захворювань».

 

Числові (кількісні) дані

Припускають, що змінна має деяку числову величину (значення) можна підрозділити числові дані на два типи.

Дискретні дані - ті, при яких змінна може приймати лише певні числові значення. Часто це результат підрахунку подій, таких як кількість відвідувань лікаря на рік або число захворювань у людини за останні 5 років.

Неперервні дані - ті, які не мають ніяких обмежень, змінна може приймати будь-які значення, наприклад маса тіла або зростання.

 

Різниця між типами даних

Використання різних статистичних методів залежить від того, є дані категоріальними або числовими. Цілком певна відмінність між категоріальними і числовими даними в деяких випадках стає не зовсім зрозумілим. Наприклад, змінну з безліччю встановлених категорій (наприклад біль може мати 7 категорій) важко відрізнити від дискретної числової змінної. Різниця між дискретними і безперервними числовими даними може бути ще менш зрозумілою.

Похідні (вторинні) дані

У медицині ми можемо зіткнутися з безліччю інших типів даних. Вони включають в себе:

- відсотки. Вони можуть з'явитися при оцінці стану хворого під час лікування, наприклад обсяг форсованого видиху за 1 с може збільшитися на 24% після лікування новим препаратом. Відсотки відображають ступінь поліпшення, а не абсолютні дані; - пропорції, або відносини. Можливі два варіанти пропорцій, або відношень. Наприклад, при визначенні індексу маси тіла (індекс Кеглі) масу тіла (кг) ділять на його квадрат його росту (м2). Таким чином становлять судження чи перевищує його/її маса тіла норму чи, навпаки, вона є недостатньою;

- інтенсивність. Це відносна частота захворювань, яка отримується від ділення числа захворювань на тривалість аналізованого періоду. Ці дані використовуються при епідеміологічному дослідженні;

- мітки, оцінки. Це довільні дані, що застосовуються тоді, коли ми не можемо виміряти кількість. Наприклад, відповіді на питання щодо якості життя можна узагальнити, щоб отримати оцінку якості життя кожного індивідуума. Усі ці змінні можна розглядати як безперервні в більшості досліджень.

Цензуровані дані

Визначити цензуровані дані допоможуть наступні приклади.

• Якщо ми проводимо лабораторні вимірювання, використовуючи прилад який може виявити значення тільки вище певного рівня, будь-яка величина нижче цього рівня не. буде виявлена. Наприклад, при вимірюванні рівнів вірусу кількість нижче межі вимірювання дає привід для твердження "вірус не виявлено", хоча в зразку всі ж може перебувати якийсь вірус.

• цензуровані дані отримуємо тоді, коли деякі хворі вибувають з дослідження до того, як це дослідження буде закінчене.

 

Статистичні методи дослідження являються потужним інструментом обробки великих масивів інформації з метою виявлення закономірностей, що лежать в основі досліджуваних явищ і перевірки обґрунтованості пропозицій, що висуваються. Кінцева мета всякого дослідження або наукового аналізу полягає в знаходження зв'язків (залежностей) між змінними. При дослідженнях подіям, процесам або вимірюваним величинам ми присвоюємо певні числа (змінні). Змінні - це те, що можна вимірювати, контролювати або що можна міняти в дослідженнях. Одним із факторів, що визначає кількість інформації, що міститься в змінній, являється тип шкали, в якій проведено вимірювання. Розрізняють наступні чотири типи шкал вимірювань:

1) 1-номінальна;

2) 2- порядкова;

3) 3- інтервальна;

4) 4-відносна (шкала відношення).

Відповідно, маємо чотири типизмінних: номінальна, порядкова, інтервальна і відносна.

 

Номінальні змінні використовуються тільки для якісної класифікації. Це означає, що дані змінні можуть бути виміряні тільки в термінах належності до деяких, істотно різних класів, при цьому ми не зможемо визначити їх кількість. Наприклад, стать, група крові, національність. Часто номінальні змінні називають категоріальними.

Порядкові змінні дозволяють ранжирувати (упорядковувати) об'єкти, вказавши які з них більшою чи меншою мірою володіють якістю, вираженою даною змінною. Проте вони не дозволяють сказати "на скільки більше" або "на скільки менше". Типовий приклад порядкової змінної – стадії хвороби. Відповідні спостереження можуть бути представлені впорядкованими категоріями "добре", "середнє", "погано".

Інтервальні змінні дозволяють не тільки упорядковувати об'єкти вимірювання, але і чисельно виразити і порівняти відмінності між ними. Наприклад, температура, виміряна в градусах Фаренгейта або Цельсія, утворює інтервальну шкалу. Ви можете не тільки сказати, що температура 40 градусів вища, ніж температура 30 градусів, але і що збільшення температури з 20 до 40 градусів удвічі більше збільшення температури від 30 до 40 градусів.

Відносні змінні дуже схожі на інтервальні змінні. Тут, на додаток до всіх властивостей змінних, виміряних в інтервальній шкалі можливе з’ясування питання "у скільки разів". Типовими прикладами шкал відносних змін є вимірювання часу або простору. Наприклад, температура по Кельвіну утворює шкалу відношення, і ви можете не тільки стверджувати, що температура 200 градусів вища, ніж 100 градусів, але що вона і удвічі вища. Можливі математичні операції в різних шкалах вимірювання приведені в таблиці 1.

 

Таблиця 5.1. Математичні операції в різних шкалах

Назва шкали Можливі операції
Класифікації
Порядку
Інтервальна
Відношення

 

В залежності від виду шкал вимірювання змінних для дослідження зв’язків між ними використовують різні статистичні методи: регресійний і кореляційний аналіз, аналіз расових рядів, дисперсійний і коваріаційний аналіз, тощо.

Відзначимо дві найпростіші властивості залежностей між змінними: величина залежності і надійність залежності.

Величину залежності легше зрозуміти і виміряти, ніж надійність. Наприклад, якщо будь-який чоловік у вибірці мав значення WCC (рівень лейкоцитів у крові) вищий, ніж будь-яка жінка, то ми можемо сказати, що залежність між двома змінними (стать і WCC) дуже висока. Іншими словами, можливо передбачити значення однієї змінної по значенню іншої. Надійність ("істинність") залежності означає ймовірність, що залежність, подібна знайденій нами, буде знову виявлена (іншими словами, підтвердиться) на даних іншої вибірки, взятої з тієї ж самої генеральної сукупності. Слід пам'ятати, що вивчення даної конкретної вибірки не є кінцевою метою дослідження; вибірка представляє інтерес лише постільки, оскільки вона дає інформацію про всю генеральну сукупність. Якщо наше дослідження задовольняє деяким спеціальним критеріям (про це буде сказано пізніше), то надійність знайдених залежностей між змінними нашої вибірки можна кількісно оцінити і представити за допомогою стандартної статистичної міри (так званий p-рівень або статистичний рівень значущості). Статистична значущість результату представляє собою міру впевненості в його "істинності".

Як визначити, чи є результат дійсно значущим? Не існує ніякого способу уникнути свавілля при ухваленні рішення про те, який рівень значущості слід дійсно вважати "значущим". Вибір певного рівня значущості, вище за який результати відкидаються як помилкові, є достатньо довільним. На практиці остаточне рішення залежить від того, чи був результат передбачений апріорі (тобто до проведення досліду) або виявлений апостапріорно в результаті багатьох аналізів і порівнянь, виконаних з безліччю даних, а також на традиції, наявній в даній області досліджень. Зазвичай в багатьох областях результат p <0,05 є прийнятною межею статистичної значущості, проте слід пам'ятати, що цей рівень все ще включає досить велику ймовірність помилки (5%). Результати, на рівні p<0,05 зазвичай розглядаються як статистично значущі, а результати з рівнем p<0,005 або p<0,001 як високо значущі. Проте слід розуміти, що дана класифікація рівнів значущості достатньо довільна і є всього лише неформальною угодою, прийнятою на основі практичного досвіду в тій або іншій області дослідження.

 



Поделиться:


Последнее изменение этой страницы: 2016-08-15; просмотров: 1044; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.15.3.154 (0.008 с.)