Перевірка лінійної регресії. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Перевірка лінійної регресії.



Позначимо через частинне середнє, що відповідає j -тому значенню пояснювальної змінної:

(47)

де - число значень y, що відносяться до xjk ();

. Знайдемо тепер середній квадрат відхилень yij від їх частинних середніх.

(48)

Показник (48) є мірою розсіювання дослідних даних навколо своїх частинних середніх, тобто мірою, що не залежить від вибраного вигляду регресії. В якості міри розсіювання дослідних даних навколо емпіричної регресійної прямої вибирається середній квадрат відхилень:

(49)

Обидва показники є незалежними статистичними оцінками однієї і тієї ж дисперсії . Якщо не набагато більше , то в якості гіпотетичної залежності може бути взята лінійна.

Якщо в генеральній сукупності існує лінійна регресія і умовні розподіли змінної y хоч би приблизно нормальні, то відношення середній квадратів

(50)

має F розподіл з і степенями вільності.

Значення F пораховане за формулою (50) порівняне з критичним знайденим за таблицею F -розподілу при заданому рівні значущості і степенями вільності. Якщо , то різниця між обома середніми квадратами відхилень статистично незначна і вибрана нами лінійна регресійна залежність може бути прийнята, як правдоподібна і як таке, що не протиречить дослідним даним.

Якщо , то різниця між обома середніми квадратами відхилень суттєві і гіпотезу про лінійну залежність між змінними прийняти не можна. Існує інші критерії перевірки гіпотези про лінійність регресії.

Розв’язок задач у випадку порушення класичних припущень(мультиколінеарність)

При вивченні матричної лінійної регресії часто зустрічаються з наявністю лінійного зв’язку між всіма чи деякими пояснювальними змінними. Це явище називається мультиколінеарністю.

1) Для вимірювання стохастичної мультиколінеарності можна використати коефіцієнт множинної детермінації. При відсутності кореляції між пояснювальними змінними, тобто при відсутності мультиколінеарності, коефіцієнт множинної детермінації дорівнює сумі відповідних коефіцієнтів парної детермінації:

(51)

При наявності мультиколінеарності співвідношення (1) не виконується. Тому в якості міри мультиколінеарності можна запропонувати різницю:

(52)

Чим менша ця різниця, тим менша мультиколінеарність.

2) Інший показник розроблений А.Е.Хорлом. Він базується на використанні для вимірювання мультиколінеарності чисельника формули коефіцієнта множинної детермінації. А саме, що його можна представити наступним чином:

для , (53)

Вираз (54)

є чисельником формули коефіцієнта парної кореляції між змінними та . При відсутності колінеарності загального показника мультиколінеарності можна використовувати різницю М2:

(55)

3) Також в якості показника мультиколінеарності можна також використати вираз (52), розділивши його на (56)

Чим більше М3, тим інтенсивніша мультиколінеарність.

4) Відомий показник мультиколінеарності, отримують з формули (5). Розділивши праву і ліву частини формули на , отримаємо:

(57)

Розроблені ряд методів виключення чи зменшення мультиколінеарності:

ü виключення змінних;

ü лінійне перетворення змінних;

ü виключення тренду;

ü використання попередньої інформації;

ü покрокова регресія;

ü метод головних компонентів.

Якщо зменшити мультиколінеарність не вдається, то до оцінок коефіцієнтів регресії і до значень регресії треба відноситись з великою обережністю.

Дисперсійний аналіз

Дисперсійний аналіз – статистичний метод дослідження вибіркових даних, що проводиться з метою виявлення і оцінки степені впливу на випадкову величину різних, одночасно діючих факторів.

Розрізняють три моделі дисперсійного аналізу.

Модель 1модель з постійними факторами, в якій всі можуть розглядатись, як невідомі сталі. Величина називається адитативною сталою.

Модель 2 – модель, в якій всі параметри випадкові, за виключенням, можливо одного, що є сталим. Така модель називається моделлю з випадковими факторами.

Модель 3 – це модель, в якій хоч би один параметр випадковий, і хоч би один невипадковий (але не є адитативною сталою). Цю модель називають змішаною моделлю.

Модель 1. Однофакторний дисперсійний аналіз

Розглянемо випадок, коли на результат вимірювань впливає лише один фактор. Запишемо результати вимірювань деякої ознаки на р об’єктах у вигляді матриці у:

(4)

Такий запис матриці у означає, що на кожному об’єкті, що відповідає j -ій градації деякого фактору, проведна однакова кількість спостережень, рівна п. Основне рівняння однофакторного дисперсійного аналізу в умовах моделі 1 має вигляд:

, де - генеральне середнє, (5)

що визначаєтья формулою ; (6)

- ефект j- ї градації досліджуваного фактора, що визначається формулою ; (7)

- випадкова незалежна величина, що відображає вплив на результати експеременту неконтрольованих факторів в даному спостереженні.

Статистична гіпотеза може бути сформульована наступним чином:

, тобто вплив досліджуваного фактора на всіх рівнях (градаціях) однаковий. Іншими словами, в умовах гіпотези H0 справедлива рівність: .

Перевірка гіпотези здійснюється за наступною схемою:

1) Обчислюють вибіркові середні :

, де N=np (8)

2) Знаходятьсуми квадратів відхилень вибіркових значень від відповідних середніх:

а) суму, яка характеризує зміну, обумовлену досліджуваним фактором:

; (за факторами) (9)

б) суму, яка характеризує зміну всередині кожної градації фактора:

; (залишкова) (10)

в) суму, яка характеризує загальну зміну ознаки:

; (загальна) (11)

Якщо всі допущення про величини виконуються, то справедлива рівність .

Відповідні дисперсії рівні:

(12)

Критерій, який використовують для перевірки гіпотези Н0, має вигляд:

(13)

При умові, що гіпотеза Н0 – вірна, розподіл критерію підлягає закону Фішера (F-розподіл). Гіпотеза відхиляється, якщо , де - таблиця значень F-розподілу при відповідному рівні значущості при степенях вільності .

Модель 2. Оденофакторний дисперсійний аналіз

Вибір об’єктів, що відповідають деяким градаціям досліджуваного фактору, рандомізований випадковий вибір факторів, що визначає випадковий характер факторних ефектів. Це приводить до зміни структури основного рівняння однофакторного дисперсійного аналізу. Воно набере вигляду , (14)

де - генеральна середня (адитивна стала),

- значення випадкової величини (відхилення середнього значення ознаки на j - му об’єкті (mj) від генерального середнього, тобто ).



Поделиться:


Последнее изменение этой страницы: 2016-09-18; просмотров: 312; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.191.174.168 (0.016 с.)