Представлення та візуалізація даних 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Представлення та візуалізація даних



Базова класифікація даних 3 способами:

· За кількістю змінних

· За типом представлення інформації

· За часом

За кількістю даних

· Одновимірні. Використовуємо інформацію про одну змінну. Спостереження за ВВП

· Двовимірні. Складається з двох ознак, зареєстрованих для всіх об’єктів. Дані по експорту/імпорту.

· Багатовимірні. Більше 2-х ознак одночасно. Можна визначити типове значення, діапазон розсіювання та взаємозв’язок між ними.

За типом представлення інформації

· Кількісні – значення, які приймаємо – це числа, що мають змістову інтерпретацію.

o Дискретні – приймають значення з певного списку чисел.

o Неперервні – значення, з усього числового діапазону.

· Якісні – приймають не числові значення

o Порядкові – значення, які відповідають певним категоріям, які можемо впорядкувати по зростанню (статус родини:вищий, середній, низький)

o Номінальні приймають значення з певного переліку категорій.

o Біпарне значення – два взаємовиключаючих значення – стать.

За часом

· Часові ряди, якщо значення залежить від часового показника

· Відносні до одного часового зрізу

Дані бувають:

· Первинні – самостійно проводимо збір інформації

· Вторинні – дані, що вже готові.

Описові статистики

Для полегшення представлення частот розподілу використовуємо певні числові характеристики.

Описові або дискретивні статистики. Статистика – позначення певної числової функції, що описує результати спостереження.

Частота використання 2 групи описової статистики:

· Міри центральної тенденції

· Міри варіації/розсіювання

· Міри центральної тенденції

Вказує на розташування центральних бо середніх значень змінної, навколо якого згуртовані всі інші значення.

Воно пов’язане мінімальною та максимальною точкою.

Можемо сказати, що мінімальне значення не більше середнього і максимальне значення не менше середнього.

Мода (Мо) – це значення, що зустрічається найбільш часто.

Розподілення оцінок за симетср 3 4 4 5 3 4 3 5 4 4 4 4 – четвірка мода

Якщо в розподілі значень змінної зустрічається 2 або більше мод – розподіл бімодальний або мультимодальний.

Якщо частота приблизно однакова – то моди не існує

Для якісної змінної мода це єдиний спосіб визначення центральної тенденції.

Для кількісної змінних у випадку неперервних змінної спочатку модальний інтервал, а вже потім модальне значення.

Медіана (Ме) – це значення змінної, що відповідає середній впорядкованості, ряду всіх значень.

Для того, щоб знайти Медіану, треба впорядкувати всі значення змінної від мінімального до максимального і визначення те значення, яке розташоване точно в середині впорядкованого ряду і є медіана.

Якщо кількість значень парна, то медіана як середньоарифметична двох центральних значень.

5 4 5 2 3 4 5 3 – Медіана 2,5

Для кількісних неперервних знаходимо медіальний інтервал, а потім визначаємо значення медіани.

Середнє значення (“х” з горизональної палочкою зверху) – найбільш поширена центральна тенденція для кількісної змінної. Сума всіх значень ділиться на кількість

4 2 3 – Середнє значення 3,33

Властивості

· Якщо скласти результат віднімання від відхилень середнього арифмитичного, то сума = 0.

3 5 7 9 – середнє значення 24/4= 6

3 – 6 = -3

5 – 6 = -1

7 – 6 = 1

9 – 6 = 3

(-3) + (-1) + 1 + 3 = 0

· Сума квадратів відхиленн всіх змінних від середнього менша суми квардатів відхилення від будь-якого іншого значення. Помилка обумовлена як сума квадратів відхилень, завжди мінімальна.

Зауваження

До вибору міри центральної тенденції

· Якщо розподіл – унімодальний і симетричний, то медіана, мода і середнє значення співпадають

· На медіану не впливає дуже великі та дуже малі значення змінної

· На середнє значення впливають всі значення

· У випадку бімодального розподілу центральної тенденції може не існувати взагалі

· У певних вибірках значення моди не стабільне.

Розмір варіації дає уявлення про діапазаон

R = max – min

Квантові варіації поділяють весь діапазон значень змінної певної групи з відповідним пропорціями

· Квартиль

· Квітель

· Децель

· Перцептель

Лінія - впорядкований кількісний розподіл вибірки (1,1,2,3,4,5,6,7,8,8,9,10...)

 

Median

|---------------||---------------|---------------||----------------|

min Q1 Q2 max

25% 75%

<--------------------------------range------------------------>

<--------Q-range----------->

 

Q1- upper quartile (верхній квартиль)

Q1- lower quartile (нижній квартиль)

range (розмах; повний діапазон) = max - min

quartile range (квартильний розмах) = Q2-Q1 -тобто, 50% вибірки навколо медіани

percentile (перцентиль; "відсоткове значення") - будь-який відсоток на лінії, і відповідно значення яке в цьому "місці" (напр, Q1=Percentile-25%, Q2=Percentile-75%, Median=Percentile-50% і т.д.)

Дисперсія – описує неоднорідність всіх значень вибірки. Показує наскільки розсіяними є дані відносно середнього арифметичного.

 

 n ≥100

 n<100

Стандартне відхилення вимірює в тих самих одиницях, що ми вимиріюємо змінну.

Сигма = усереднене відхилення від середнього значення

σ мала – згуртування навколо середнього значення

σ велика – неоднорідні дані і тим сильніше розкидані.

 

Використання стандартного відхилення можна порівняти міри розсіювання різних змінних, або однієї змінної для різних сукупностей

Показник за допомогою якого ми будмео вимірювати – коефіцієнт варіації

 

Приклад

Нехай ми обчислюємо середнє значення та стандартне відхилення тривалості ситрат часу на вачання

Соціологія Х=6 σ = 2 (однор)
Політологія Х =3,5 σ = 4
Психологія Х = 4,5 σ = 4
Історичний Х = 6 σ = 6 (неодн)

 

Порівняти всі чотири групи за формулою σ/х×100%

Соціологія = 2/6 100% = 33%

Політологія 4/3,5 100% = 114%

Психологія = 4/4,5 100% = 88%

Історичний 6/6 100% = 100%

Чим нижче значення – однорідне

Чим вище значення – неоднорідне

 

А- коефіцієнт асиметрії (симетрчний розподіл значень знмінних)

А = 0 – розподіл симетричний, Медіана=Моді=Середньому значенню

А > 0 - правостороння ассиметрія (Медіана<Моди<Середнього значення)

А<0 – лівостороння ассиметрія (Медіана>Моди>Середнього значення)

 

Е – коефіцієнт крутизни розподілу

Е = 0 – розподіл співпадає з нормальний

Е>0 – більш гострий розподіл

Е<0 – більш пологий розподіл

 



Поделиться:


Последнее изменение этой страницы: 2021-12-15; просмотров: 58; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.143.228.40 (0.012 с.)