I. Випадок скалярних спостережень 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

I. Випадок скалярних спостережень



1. Метод Грабса
Переіряємо гіпотезу - найбільш підозрюваний на аномальний вимір є аномальним з рівнем значимості (1).
Спостерігається скалярна величина (2)
1.По вибірці визначаються характеристики:
середнє вибіркове ,
вибіркове стандартне відхилення
2.Будується послідовність - абсолютне значення відхилень. По цій послідовності будується варіаційний ряд.:
3. - (3).Нехай є s-й член варіаційного ряду, то . Перевіряємо на аномальність :
4.Далі розглядається така статистика , в якості отримаємо: (4), де це точка статистики . Якщо (4) несправедливе, то - аномальне і об’єм вибірки стає на 1 менше.
Далі повторюємо алгоритм, поки не буде виконуватись (4).

2. Метод Томпсона Модифікація методу Грабса
Приймаємо гіпотезу - найбільш підозрюваний на аномальний вимір є аномальним з рівнем значимості (1).
Спостерігаються скалярні величина (2)
1.По вибірці визначаються характеристики:
середнє вибіркове ,
вибіркове стандартне відхилення
2.Будується послідовність - абсолютне значення відхилень. По цій послідовності будується варіаційний ряд.
3. - (3).Якщо є s-й член варіаційного ряду, то . Перевіряємо на аномальність
4.Далі розглядається така статистика , в якості отримаємо: (4), де це точка статистики .
5.Візьмемо статистику ця статистика має асимптотичний розподіл, t-розподіл Стьюдента з параметром
Якщо нерівність несправедлива, то видаляємо. Далі повторюємо алгоритм до тих пір поки нерівність (4) не стане вірною.

3. Метод Тітьєна-Мура - Дозволяє з вибірки викидати декілька вимірів
- найбільш підозрювані виміри є виміри, вказані в послідовності (*), не є аномальними, - рівень значимості на базі вибірки (2)
1. Визначимо .
2. Будуємо послідовність :
На базі послідовності будуємо варіаційний ряд.: (5)
Найбільш підозрювані виміри це ті виміри, які фігурують в останніх k членах варіаційного ряду. (*)
3. Розглянемо наступну статистику де .
4. Таким чином область відхилення (критична область)- область малих значень, тобто область прийняття гіпотези , де - квантиль рівня статистики .
Цей критерій чутливий до:
- нормальності вибору,
- питання вибору к залишається відкритим,
- не існує алгоритму, що дозволив би вірно вибрати довжину вибірки.

 

4. Графічні методи: Розвідувальний аналіз.

 

II. Векторний випадок

Нехай спостерігається

1. Критерій на базі F-статистики.
1.Спочатку підраховують , далі підраховуємо значення коваріаційної матриці по всій вибірці, крім і-го виміру.

2.Підраховуємо - відстань Махаланобіса.

зважена норма. - додатньовизначена матриця.

3.Підраховуються такі статистики:
4.Визначимо - індекс виміру для якого відстань Махаланобіса максимальна
5. Якщо не є аномальним, тоді область прийняття гіпотези має вигляд: (*) де , це точка F розподілу з параметрами .
Якщо (*) виконується на деякому кроці, то останній з вибірки не видаляється і STOP.

2. Графічні методи: діаграма розсіювання

 

Кореляційний аналіз

З’ясовує наявність статистичною зв’яжу між змінними, що досліджуються

Схема по які досліджується наявність статистичного зв’язку.

  1. Вводиться характеристика статистичного зв’язку.
  2. Обчислюється точкова чи інтервальна характеристика цієї оцінки.
  3. Здійснюється перевірка на значимість характеристики статистичного зв’язку.

I.Випадок кількісних змінних.

Нехай є змінні (скалярні) ( - залежна, - незалежна).

Треба з’ясувати по спостереженнях за істотність зв’язку між ними. Зв’язок шукається у вигляді функції регресії:
, - умовна дисперсія.

індексом кореляції для змінних називається

 

Властивості

1.

2. якщо , то зв’язку між немає.

3. якщо , то є функціональний зв’язок між ними

Коефіцієнт детермінації вказує яка частина варіації визначаються варіацією функцій регресії в точці

@Лекція 5

Коефіцієнт кореляції. Характеристика парного статистичного зв’язку.

Розглянемо нормальний випадок. Є дві величини та .

~ ,

~ ,

, вибіркове значення:

Можна довести, що .

Властивості.

 

  1. .
  2. якщо зв’язок між і відсутній.
    Якщо зв’язок між і лінійний, причому формула зв’язку: .
  3. Нехай . Якщо , то і .
    . При .

Якщо коефіцієнт кореляції прийняв проміжне значення, то перевіряємо гіпотезу Для перевірки будемо розглядати статистику: .

Ця статистика має асимптотичний t-розподіл Стьюдента з степенями свободи. Тоді логічно вважати, що гіпотеза несправедлива, коли статистика приймає екстремальні значення.

область прийняття гіпотези , де - точки t-розподілу Стьюдента з степенями свободи.

 

Характеристика парного статистичного зв’язку в загальному випадку.

Нехай спостерігаються і , з’ясуємо наявність зв’язку. Розглянемо 2 випадки:

- випадок групованих даних;

- випадок не згрупованих даних.

1. Спостереження над залежною змінною :
s- інтервалів групування, в і –му інтервалі не більш ніж спостережень.
спостережень по групі ,
вибіркове значення дисперсії .


Запишемо оцінку для індексу кореляції (кореляційне відношення): .Властивості такі ж, як і в індексу кореляції. З’ясувалося, що має асимптотичний розподіл, який тотожньо рівний .
. Припускаємо, що спостереження нормальні.
Область прийняття гіпотези: , де точка з параметрами .

2. Функцію регресії апроксимують на деякому класі параметричних функцій з точністю до вектор – параметру . .
По спостереженням досліджуваних змінних:

Методом найменших квадратів визначаємо , далі отримуємо деяку апроксимацію функції регресії .
Апроксимація індексу кореляції даних у вигляді:

Приклад:

 

Частинний коефіцієнт кореляції.

Частинним коефіцієнтом кореляції для змінних будемо називати величину: , де - алгебраїчне доповнення для елемента у звичайній кореляційній матриці:

, - звичайний коефіцієнт кореляції.

Властивості частинного співпадають з властивостями звичайного коефіцієнта кореляції.

Вибіркове значення коефіцієнта кореляції:

, .

При зв’язку не існує.

При зв’язок функціональний.

Якщо коефіцієнт прийняв проміжне значення, то перевіряється гіпотеза . Використовуємо статистику:

, де кількість третіх змінних зафіксованих на певному рівні.

Вона має - розподіл Стьюдента з степенями свободи.

Критична область – обасть великих і малих значень.

Область прийняття має вигляд:

, де точка розподілу Стьюдента з степенями свободи.

 

Множинний коефіцієнт кореляції.

Розглянемо залежну змінну і незалежну змінну . Для з’ясування зв’язку використовується

множинний коефіцієнт кореляції

, де , .

Множинний коефіцієнт детермінації: .

Властивості множинного коефіцієнта кореляції такі ж, як і звичайного коефіцієнта кореляції.

Вибіркове значення. Функцію регресії апроксимуємо на деякому класі параметричних функцій.

, .

По отриманим спостереженням методом найменших квадратів знаходимо оцінку і підставляємо в апроксимацію. Звідси оцінка нормальна.

.

 

Методика використання.

 

Якщо , то зв’язок неістотній.

Якщо , то зв’язок функціональний.

Якщо приймає проміжне значення, то перевіряється гіпотеза .

Проаналізуємо наступну статистику:

Вона має асимптотичний розподіл, який співпадає з F– розоділом з параметрами (p-1,n-p). Тоді область прийняття – це область невеликих значень:

 

Кореляційний аналіз порядкових змінних.

Нехай залежна порядкова змінна і .

.

Нехай відбуваються спостереження над
. В результаті отримаємо вектор:
- ранжировка, де - ранг к-го об’єкту по і –й змінній, який вказує степінь прояву і –ї властивості для к-го об’єкту. Сама ранжировка – перестановка чисел від 1 до n.

 

@Лекція 6

 

Якщо всі прояви об’єктів різні, то маємо - спостереження, - ранжировка.

При наявності по деякій зміні групи об’єктів з однаковим проявом досліджуваної властивості, цим об’єктам присвоюють ранг, який дорівнює середньому арифметичному номерів тих місць, які припали на цю групу об’єктів з нерозрізненими рангами. Такий ранг називається зв’язаний (об’єднаний).

Будується таблиця рангів для доступу до об’єкта.

Змінні № об'єктів
 
 
n

Характеристики парного статистичного зв’язку.

Розглядаємо характеристики ,

В якості характеристики парного зв’язку між змінними та можемо використати коефіцієнт Спірмана, який визначається таким чином: , де - норма Евкліда.

Властивості рангу коефіцієнта Спірмана:

1. ;

2. якщо , тоді зв’язок відсутній;

3. якщо , то ранжировки по змінним співпадають, ;

якщо , тоді ранжировки протилежні, тобто .

· Розглянемо випадок наявності Нерозрізнених рангів.

В цьому випадку використовується модифікований коефіцієнт.

Ранговий коефіцієнт Спірмана обчислюється за формулою:

, де - корегуючий коефіцієнт.

кількість груп об’єктів з нерозрізненними рангами по змінній ,
- кількість членів у -й групі нерозрізнимих рангів по -й змінній.

Коли коефіцієнт приймає проміжне значення, то перевіряємо гіпотезу .

Якщо об’єм вибірки невеликий, то перевіряємо по таблиці, при .
Якщо ж , то розглядаємо статистику , що має - розподіл Стьюдента з степенями свободи.

Область прийняття гіпотези: .

· Розглянемо іншу характеристику: коефіцієнт Кендала

Ранговим коефіцієнтом Кендала для змінних та називається величина , де - кількість перестановок сусідніх елементів у ранжировці , яка приводить її до ражировки .

 

Властивості:

1. ;

2. якщо , тоді зв’язок відсутній;

3. якщо , то ранжировки по змінним співпадають, ;
якщо , тоді ранжировки протилежні, тобто .

 

Якщо є наявні нерозрізнені ранжировки, то використовують модифікований коефіцієнт Кендала: , де

. кількість груп об’єктів з нерозрізненними рангами по змінній ,
- кількість членів у -й групі нерозрізнимих рангів по -й змінній.
Як і в коефіцієнті Спірмана, якщо приймають протилежне значення, то перевіряємо його на значимість
. Перевіряємо гіпотезу . Якщо , то перевіряємо по таблиці. Якщо :використовуємо .

Зауваження. При великих існує простий зв’язок: .

 

Характеристика множинних рангових статистичних зв’язків.

Нехай аналізується m змінних .
В якості характеристики використовується коефіцієнт конкордації

Коефіцієнтом конкордації для змінної називають величину .

 

Властивості:

1. ;

2. якщо , то ранжировки по змінним співпадають: ;

3. якщо , тоді відсутній зв’язок між ранжировками.

У випадку двох нерозрізнених рангів використовуємо модифікований коефіцієнт :

, де .

Якщо приймають проміжне значення, то робимо перевірку на значимість . Коли , то за таблицею. Якщо , то розглядаємо статистику : , має - розподіл з степенем свободи.

 

Кореляційний аналіз номінальних змінних.

Нехай , - змінні, які мають відповідні градації.

Результат спостережень заноситься в таблицю спряженості. *(див. “Розвідувальний аналіз”), потім переходимо до характеристики парного статистичного зв’язку для номінальних змінних.

\

 

Вводимо статистику яка називається квадратичне спряження і позначається

Коефіцієнти:

1. - середнє значення квадратичної спряженості;

2. - коефіцієнт Пірсона;

3. - коефіцієнт Чупрова;

4. - коефіцієнт Крамера

 

Властивості коефіцієнтів.

1. , якщо коефіцієнт

2. , тоді зв’язок відсутній.

- якщо вони незалежні, то вони рівні, (або майже рівні).

@Лекція 7

 

Ентропією для змінної називають величину

 

Ймовірність, з якою приймається пара значень дорівнює .

 

Ентропією для пари називається величина .

 

5. Інформаційна міра зв’язку .

 

Властивості інформаційної міри зв’язку

зв’язок між та відсутній.

 

Спробуємо визначити вибіркове значення.

Спочатку визначимо вибіркове значення для ентропії та :

,

;

При перевірці характеристики на значимість можливі два випадки:

 

Перший випадок

якщо ми вибрали з 1 до 4, то перевірку на значимість роблять шляхом перевірки

гіпотези ,

з’ясувалося, що має хі-квадрат розподіл з степенями свободи.

Тоді критична область, область великих значень та область прийняття гіпотези:

< .

 

Другий випадок(з використанням інформаційної міри зв’язку)

,де – кількість нульових елементів у таблиці спряженості.

Виявилось, що така перетворена статистика:

.

Оскільки ця статистика невід’ємна, то область прийняття гіпотези матиме такий вигляд

(тобто, процентна точка хі-квадрат розподілу з степенями свободи).

 

Дисперсійний аналіз

Нехай є деяка кількісна скалярна змінна та є деякий вектор якісних змінних .

 

Дисперсійний аналіз займається побудовою математичної моделі зв’язку між цими змінними, а також їх аналізом.

 

Приклад

З ’ясувати вплив сорту зернових на врожай. Залежна змінна – врожайність,

якісна змінна – сорт зернових та тип міндобрив.

– врожайність, – сорт зернових, – всього сортів, – тип міндобрив, – всього міндобрив.

– спостерігаю і -й сорт зернових та j -й тип міндобрив на k -му полі.

– вплив на залежну змінну, – вплив на якісну змінну.

, де – невідомі параметри, – помилка моделі,

– вплив взаємодії і -ї градації першої змінної та j -ї градації другої змінної на врожайність зернових.

Ця модель лінійна по всім параметрам, тому для її розв’язку напрошується метод найменших квадратів(МНК).

 



Поделиться:


Последнее изменение этой страницы: 2016-08-01; просмотров: 226; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.219.189.247 (0.16 с.)