Аналіз даних із застосуванням методів математичної статистики 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Аналіз даних із застосуванням методів математичної статистики



Вступ

Комп'ютер є універсальним інструментом для виконання будь-яких дій з інформацією. Але для цього необхідно написати для комп'ютера на зрозумілій йому мові інструкцію - програму, що пояснює як саме потрібно обробити інформацію. Адже, сам комп'ютер абсолютно не володіє ніякими знаннями – вони всі знаходяться у виконуваних на ньому програмах. З розширенням можливостей комп’ютера, відповідно потребується все більш різноманітне програмне забезпечення (ПЗ) для вирішення тих або інших завдань.

Отже, програмне забезпечення - комп'ютерні програми і дані, призначені для розв'язку певного кола завдань і зберігаються в цифровому вигляді. Винайдення комп’ютера дозволило фахівцям з різних сфер полегшити наше життя. Основними з них є MathCad та Microsoft Exel, які дають змогу значно спростити процес обрахунку та опрацювання даних.

До складу Microsoft Excel входить набір засобів аналізу даних (так званий пакет аналізу), призначений для вирішення складних статистичних і інженерних задач.Табличні процесори ввійшли в набір основних прикладних програм для тих працівників, які розв’язують обліково-аналітичні задачі, даними для яких є різноманітні таблиці, фінансові звіти, статистичні довідки. На основі електронних таблиць можуть будуватися дуже складні моделі, що відображають господарську діяльність підприємств, бухгалтерський облік і т.д. Оскільки персональні комп’ютери, як правило, мають хороші можливості для роботи з графічною інформацією, в табличні процесори вбудовуються засоби підтримки ділової графіки. Можливість представлення даних у вигляді різноманітних графіків та гістограм забезпечує наочність та зручність для візуального аналізу.

Сучасні табличні процесори дозволяють не тільки безпомилково проводити арифметичні операції над числами в стовпцях і рядках, але і будувати за табличними даними діаграми, проводити складний фінансово-економічний чи статистичний аналіз, автоматизувати різноманітні сфери бухгалтерської і економічної діяльності, знаходити оптимальні по певних критеріях варіанти вирішення конкретних економічних задач.

Mathcad - програмний засіб, середовище для виконання на комп'ютері різноманітних математичних та технічних розрахунків, забезпечена простим в освоєнні і в роботі графічним інтерфейсом, яка надає користувачеві інструменти для роботи з формулами, числами, графіками та текстами. У середовищі Mathcad доступні більше сотні операторів та логічних функцій, призначених для чисельного і символьного розв'язування математичних задач різної складності.

Виконання курсової роботи ставить за мету набуття навиків:

− первинного статистичного аналізу результатів інженерного експерименту;

− обробки та аналізу даних в середовищі табличного процесора MS Excel;

− обробки та аналізу даних в середовищі інтегрованого математичного пакету Math CAD;

− оформлення результатів роботи відповідно до існуючих вимог засобами MS Word.

 

Завданням курсової роботи є комплексне вирішення задач первинного статистичного аналізу експериментальних даних із використанням засобів Excel і MathCAD. При цьому студенти самостійно вирішують таке коло питань:

– визначення основних статистичних характеристик;

– відображення моделей розподілу вибірок даних у вигляді гістограм;

– перевірка гіпотези про нормальність закону розподілу за показниками асиметрії та ексцесу;

– статистичний аналіз зв’язків (визначення вибіркового коефіцієнта кореляції, побудова моделі лінійної регресії).

 

Теористична частина

Аналіз даних із застосуванням методів математичної статистики

Математична статистика — розділ математики та інформатики, в якому на основі дослідних даних вивчаються імовірнісні закономірності масових явищ. Основними задачами математичної статистики є статистична перевірка гіпотез, оцінка розподілу статистичних імовірностей та його параметрів, вивчення статистичної залежності, визначення основних числових характеристик випадкових вибірок, якими є: вибіркове середнє, вибіркові дисперсії, стандартне відхилення. Прикладом перевірки таких гіпотез є з'ясування питання про те, змінюється чи не змінюється виробничий процес з часом. Прикладом оцінки параметрів є оцінка середнього значення статистичної змінної за дослідними даними. Для вивчення статистичної залежності використовують методи теорії кореляції. Загальні методи математичної статистики є основою теорії похибок.

Математична статистика широко використовує методи теорії ймовірностей для вибудови і перевірки математичних моделей. Її методи розширюють можливості науковогопередбачення і раціонального прийняття рішення багатьох задач, де суттєві параметри не можуть бути з'ясовані чи контрольовані з достатньою точністю.

Основними задачами математичної статистики є:

1. Складання статистичного ряду або статистичної сукупності на основі генеральної і вибіркової сукупностей,яке ґрунтується на обчисленні частот появи значень випадкової величини.

2. На основі записаного статистичного ряду будуються функції розподілу f(x) і F(x).

3. Оцінка невідомих параметрів розподілу (матиматичне сподівання, дисперсія, середнє квадратичне відхилення, різні початкові і центральні моменти).

4. Статистична перевірка гіпотез.

 

Статистичні методи обробки й інтерпретації даних спираються на теорію ймовірностей. Теорія ймовірностей є основою методів математичної статистики. Без використання фундаментальних понять і законів теорії ймовірностей неможливе узагальнення висновків математичної статистики, а значить і обґрунтованого їх використання для наукових і практичних цілей.

Для того, щоб мати можливість перенесення вибіркових показників або на інші, або на більш поширені сукупності, необхідно мати математично обґрунтовані положення щодо відповідності і спроможності вибіркових характеристик характеристиками цих поширених так званих генеральних сукупностей. Такі положення базуються на теоретичних підходах і схемах, пов'язаних з імовірнісними моделях реальності, наприклад, на аксіоматичному підході, на законі великих чисел і т.д. Тільки з їхньою допомогою можна переносити властивості, які встановлено за результатами аналізу обмеженої емпіричної інформації, або на інші, або на поширені сукупності.

Таким чином, в математичній статистиці використовуються два паралельних рядка показників: перший рядок, що має відношення до практики (це вибіркові показники) і другий, що базується на теорії (це показники імовірнісної моделі). Наприклад, емпіричним частотам, що визначені на вибірці, відповідають поняття теоретичної ймовірності; вибірковому середньому (практика) відповідає математичне очікування (теорія) і т.д. Причому, в дослідженнях вибіркові характеристики, як правило, є первинними. Вони розраховуються на основі спостережень, вимірювань, дослідів, після чого проходять статистичне оцінювання спроможності та ефективності.

Характеристика можливостей інтегрованого пакета MathCAD для вирішення задач статистичного аналізу даних.

Mathcad — система комп'ютерної алгебри з класу систем автоматизованого проектування, орієнтована на підготовку інтерактивних документів з обчисленнями і візуальним супроводженням, відрізняється легкістю використання і застосування для колективної роботи.

Mathcad був задуманий і спочатку написаний Алленом Раздовим з Массачусетського технологічного інституту (MIT), співзасновником компанії Mathsoft Inc., яка з 2006 року є частиною корпорації PTC (Parametric Technology Corporation).

Mathcad має простий і інтуїтивний для використання інтерфейс користувача. Для введення формул і даних можна використовувати як клавіатуру, так і спеціальні панелі інструментів.

 

Можливості

Mathcad містить сотні операторів і вбудованих функцій для вирішення різних технічних завдань. Програма дозволяє виконуватичисельні і символьні обчислення, проводити операції з скалярними величинами, векторами і матрицями, автоматично переводити одні одиниці вимірювання в інші.

Функції задаються своїми іменами та значеннями аргументу, що записані у круглих дужках. Функції, як і змінні, і числа, можуть входити у склад математичних виразів. У відповідь на звернення до них, функції повертають обчислені значення. Нище представлені деякі з цих функцій.

Гіперболічні функції

· sinh (z) - гіперболічний синус

· cosh(z) - гіперболічний косинус

· tanh(z) - гіперболічний тангенс

· sech(z) - гіперболічний секанс

· csch(z) - гіперболічний косеканс

· coth(z) - гіперболічний котангенс

Тригонометричні функції.

· sin (z) - синус cos (z) - косинус

· tan (z) - тангенс sec (z) - секанс

· csc (z) - косеканс cot (z) - котангенс

Функції сортування

· Mathcad має три функції для сортування масивів і одну для обертання порядку їх елементів:

· sort(v) – повертає елементи вектора v, відсортовані у порядку зростання.

· csort (A, n) – сортує рядки матриці А таким чином, щоб розташувати елементи у стовпчика n у порядку зростання. Результат має той же самий розмір, що і вхідна матриця A.

· rsort (A, n) – сортує стовпці матриці таким чином, щоб розташувати елементи у рядку n у порядку зростання. Результат має той же самий розмір, що і матриця A.

· reverse (v) – обертає порядок елементів вектора v.

· reverse (A) – Обертає порядок елементів рядків матриці A.

Для обчислення числових характеристик вибірки, що утримується в масиві Х розмірності m×n в MathCAD призначені наступні функції:

ü max(Х) – для пошуку найбільшого елемента в масиві даних;

ü min(Х) – пошук мінімального елемента в масиві даних;

ü sort(Х) – побудова варіаційного ряду, тобто сортування вихідних даних по зростанню;

ü mean(Х) – обчислення вибіркового середнього по масиву даних;

ü var(Х) – для визначення вибіркової дисперсії;

ü stdev(Х) – для обчислення середньоквадратичного відхилення;

ü median(A) – для розрахунку значення медіани – варіанти, що поділяє варіаційний ряд на дві частини;

ü cvar(Х,Y) – для розрахунку коефіцієнта вибіркової коваріації;

ü соrr(Х,Y) – для обчислення значення коефіцієнта кореляції.

У MathCAD для побудови гістограми випадкової величини Y необхідно:

· розрахувати проміжок групування

· визначити кількість проміжків, при необхідності заокруглення значення використати вбудовану функцію ceіl(a), де а - дійсне число.

· встановити границі інтервалів, починаючи від хmin, при j=2..r.

· визначити кількість, значень mi випадкової величини, що попадають в кожний з проміжків. Для цього, використовується вбудована функції hist(int, х), яка повертає вектор, елементами якого є шукані частоти -значення mi. Аргументи даної функції: х - вектор, в якому записані вхідні дані, int — вектор, в якому записані границі інтервалів.

Виконати аналогічну задачу у MathCAD з використанням вбудованих функцій і можливостей графічних побудов:

slope(x,y)а коефіцієнт лінійної регресії, що визначає tg кута нахилу лінії регресіїї до осі абсцис;

intercept(x,y)b коефіцієнт лінійної регресії, що визначає відрізок, який відсікає пряма на осі OY;

corr(x,y)- коефіцієнт кореляції.

Вбудовані функції для регресії загального вигляду:

- Linfit (x, y, F) - вектор параметрів лінійної комбінації функційпользователя, що здійснює регресію даних;

- Genfit (x, y, g, G) - вектор параметрів, що реалізують регресію даннихс допомогою функцій користувача загального виду;

Слід пам'ятати про основну область застосування Mathcad — для задач інженерного характеру і створення навчальних інтерактивних документів можливостей візуалізації цілком достатньо. Досвідчені користувачі Mathcad демонструють можливість візуалізації надзвичайно складних математичних конструкцій, але об'єктивно це вже виходить за рамки призначення пакету.

 

 

Практичне частина

 

2. 1 Аналіз статистичних даних засобами Excel


 

 

Основні статистичні характеристики  
Середнє значення 5,22
Мода 1,061538434
Медіана 3,90
Середнє геометричне значення 3,495268916
Середнє квадратичне 4,16563995
Дисперсія 17,3525562
Ексцес -0,72597419
Асиметрия 0,692603621

 

Мінімальне значення 0,71
Максимальне значення 13,34
Об`єм вибірки  
Ширина інтервалу до гістограми 2,175948818
  0,71
  2,88
  5,06
  7,24
  9,41
  11,59
  13,76

 

 

 

 

 

 

Коефіцієнт регресії  
a -0,406594791
b 11,11124591
   
Коефіцієнт кореляці -0,802911119

 

 

 

 

         
Перевірка за х свідчить, що вибірка не підлягає нормальному закону розподілу.

 

Вступ

Комп'ютер є універсальним інструментом для виконання будь-яких дій з інформацією. Але для цього необхідно написати для комп'ютера на зрозумілій йому мові інструкцію - програму, що пояснює як саме потрібно обробити інформацію. Адже, сам комп'ютер абсолютно не володіє ніякими знаннями – вони всі знаходяться у виконуваних на ньому програмах. З розширенням можливостей комп’ютера, відповідно потребується все більш різноманітне програмне забезпечення (ПЗ) для вирішення тих або інших завдань.

Отже, програмне забезпечення - комп'ютерні програми і дані, призначені для розв'язку певного кола завдань і зберігаються в цифровому вигляді. Винайдення комп’ютера дозволило фахівцям з різних сфер полегшити наше життя. Основними з них є MathCad та Microsoft Exel, які дають змогу значно спростити процес обрахунку та опрацювання даних.

До складу Microsoft Excel входить набір засобів аналізу даних (так званий пакет аналізу), призначений для вирішення складних статистичних і інженерних задач.Табличні процесори ввійшли в набір основних прикладних програм для тих працівників, які розв’язують обліково-аналітичні задачі, даними для яких є різноманітні таблиці, фінансові звіти, статистичні довідки. На основі електронних таблиць можуть будуватися дуже складні моделі, що відображають господарську діяльність підприємств, бухгалтерський облік і т.д. Оскільки персональні комп’ютери, як правило, мають хороші можливості для роботи з графічною інформацією, в табличні процесори вбудовуються засоби підтримки ділової графіки. Можливість представлення даних у вигляді різноманітних графіків та гістограм забезпечує наочність та зручність для візуального аналізу.

Сучасні табличні процесори дозволяють не тільки безпомилково проводити арифметичні операції над числами в стовпцях і рядках, але і будувати за табличними даними діаграми, проводити складний фінансово-економічний чи статистичний аналіз, автоматизувати різноманітні сфери бухгалтерської і економічної діяльності, знаходити оптимальні по певних критеріях варіанти вирішення конкретних економічних задач.

Mathcad - програмний засіб, середовище для виконання на комп'ютері різноманітних математичних та технічних розрахунків, забезпечена простим в освоєнні і в роботі графічним інтерфейсом, яка надає користувачеві інструменти для роботи з формулами, числами, графіками та текстами. У середовищі Mathcad доступні більше сотні операторів та логічних функцій, призначених для чисельного і символьного розв'язування математичних задач різної складності.

Виконання курсової роботи ставить за мету набуття навиків:

− первинного статистичного аналізу результатів інженерного експерименту;

− обробки та аналізу даних в середовищі табличного процесора MS Excel;

− обробки та аналізу даних в середовищі інтегрованого математичного пакету Math CAD;

− оформлення результатів роботи відповідно до існуючих вимог засобами MS Word.

 

Завданням курсової роботи є комплексне вирішення задач первинного статистичного аналізу експериментальних даних із використанням засобів Excel і MathCAD. При цьому студенти самостійно вирішують таке коло питань:

– визначення основних статистичних характеристик;

– відображення моделей розподілу вибірок даних у вигляді гістограм;

– перевірка гіпотези про нормальність закону розподілу за показниками асиметрії та ексцесу;

– статистичний аналіз зв’язків (визначення вибіркового коефіцієнта кореляції, побудова моделі лінійної регресії).

 

Теористична частина

Аналіз даних із застосуванням методів математичної статистики

Математична статистика — розділ математики та інформатики, в якому на основі дослідних даних вивчаються імовірнісні закономірності масових явищ. Основними задачами математичної статистики є статистична перевірка гіпотез, оцінка розподілу статистичних імовірностей та його параметрів, вивчення статистичної залежності, визначення основних числових характеристик випадкових вибірок, якими є: вибіркове середнє, вибіркові дисперсії, стандартне відхилення. Прикладом перевірки таких гіпотез є з'ясування питання про те, змінюється чи не змінюється виробничий процес з часом. Прикладом оцінки параметрів є оцінка середнього значення статистичної змінної за дослідними даними. Для вивчення статистичної залежності використовують методи теорії кореляції. Загальні методи математичної статистики є основою теорії похибок.

Математична статистика широко використовує методи теорії ймовірностей для вибудови і перевірки математичних моделей. Її методи розширюють можливості науковогопередбачення і раціонального прийняття рішення багатьох задач, де суттєві параметри не можуть бути з'ясовані чи контрольовані з достатньою точністю.

Основними задачами математичної статистики є:

1. Складання статистичного ряду або статистичної сукупності на основі генеральної і вибіркової сукупностей,яке ґрунтується на обчисленні частот появи значень випадкової величини.

2. На основі записаного статистичного ряду будуються функції розподілу f(x) і F(x).

3. Оцінка невідомих параметрів розподілу (матиматичне сподівання, дисперсія, середнє квадратичне відхилення, різні початкові і центральні моменти).

4. Статистична перевірка гіпотез.

 

Статистичні методи обробки й інтерпретації даних спираються на теорію ймовірностей. Теорія ймовірностей є основою методів математичної статистики. Без використання фундаментальних понять і законів теорії ймовірностей неможливе узагальнення висновків математичної статистики, а значить і обґрунтованого їх використання для наукових і практичних цілей.

Для того, щоб мати можливість перенесення вибіркових показників або на інші, або на більш поширені сукупності, необхідно мати математично обґрунтовані положення щодо відповідності і спроможності вибіркових характеристик характеристиками цих поширених так званих генеральних сукупностей. Такі положення базуються на теоретичних підходах і схемах, пов'язаних з імовірнісними моделях реальності, наприклад, на аксіоматичному підході, на законі великих чисел і т.д. Тільки з їхньою допомогою можна переносити властивості, які встановлено за результатами аналізу обмеженої емпіричної інформації, або на інші, або на поширені сукупності.

Таким чином, в математичній статистиці використовуються два паралельних рядка показників: перший рядок, що має відношення до практики (це вибіркові показники) і другий, що базується на теорії (це показники імовірнісної моделі). Наприклад, емпіричним частотам, що визначені на вибірці, відповідають поняття теоретичної ймовірності; вибірковому середньому (практика) відповідає математичне очікування (теорія) і т.д. Причому, в дослідженнях вибіркові характеристики, як правило, є первинними. Вони розраховуються на основі спостережень, вимірювань, дослідів, після чого проходять статистичне оцінювання спроможності та ефективності.



Поделиться:


Последнее изменение этой страницы: 2016-07-14; просмотров: 796; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.135.183.1 (0.07 с.)