Парадокс методу найменших квадратів 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Парадокс методу найменших квадратів



 

Історія парадоксу

Через помилки вимірювань часто здається, що теоретичні формули й емпіричні дані суперечать одне одному. На початку минулого століття Лежандр, Гаус і Лаплас запропонували ефективний метод, що дозволяє зменшити вплив помилок вимірювань. Лежандр розробив і застосував цей метод у 1805 р. для знаходження орбіт комет. Початківцями цієї теорії були Галілей (1632), Ламберт (1760), Ейлер (1778) та інші. Новий метод, названий методом найменших квадратів, детально досліджував Гаус в своїй роботі “Теорія руху небесних тіл" (1809). Саме Гаус вказав на ймовірнісний характер цього методу. Хоча Лежандр і звинувачував Гауса в плагіаті, але він не міг пред’явити для цього достатні підстави. Гаус претендував на пріоритет лише у використанні методу, а не в його публікації. Лаплас опублікував свою основну роботу з теорії ймовірностей в 1812 р., присвятивши його “великому Наполеону”. Протягом всієї четвертої глави його роботи йде викладення числення похибок. З того часу метод найменших квадратів розвинувся в новий розділ математики.

Можливості методу часом переоцінюють і часто використовують тоді, коли інші методи підходили б більше. На цю проблему звертав увагу ще Коші (1853) під час “дебатів” з Б¢єнеме.


Парадокс

Нехай  - вибірка, утворена незалежними випадковими величинами зі щільністю

 

,

 

Ми маємо можливість спостерігати . За результатами спостережень  необхідно оцінити невідомий параметр  (параметри a, b вважаємо відомими ). Оцінка параметра  за методом найменших квадратів дорівнює

 

. (2.3.2.1)

 

Оцінка параметра  за методом максимальної правдоподібності дорівнює

 

 (2.3.2.2)

 

Оцінка параметра  за МНК - методом не збігається з оцінкою, здобутою за методом максимальної правдоподібності.

Яка з них краще?

Пояснення парадоксу

Спочатку знайдемо оцінку параметра  МНК - методом.

МНК - оцінкою параметра  називають точку, в якій функція

 

 (2.3.3.1)

 

досягає найменшого значення.

Обчислимо :

 

 

Порахуємо кожен інтеграл окремо:

перший інтеграл дорівнює

 

;

 

другий інтеграл дорівнює

 

;

 

третій інтеграл дорівнює

 

;

 

четвертий інтеграл дорівнює

 

.

 

Тоді маємо

 

.

 

Підставляємо  в формулу (2.3.3.1):

 

.

 

Візьмемо похідну від функції  по параметру :

 

.

 

Прирівнюємо похідну нулеві:

 

, .

 

Звідси знаходимо оцінку для параметра :

 

.

 

Знайдемо оцінку параметра  за методом максимальної правдоподібності. [4] Випишемо функцію максимальної правдоподібності

 

.

 

Функція  набуває максимального значення за умови, що  набуває мінімального значення.

Нехай  варіаційний ряд послідовності .

 

 

Розглянемо два випадки: n=2k-1; n=2k.

Нехай n=2k-1. На кожному з проміжків  функція

 

 

лінійна. Причому на проміжку , , спадає (кутовий коефіцієнт - коефіцієнт при  - від’ємний), і на кожному з проміжків ,  зростає. Отже, найменше значення неперервна функція  досягає в точці . Нехай n=2k. Тоді на кожному з проміжків , …, , функція  спадає, на проміжку  - постійна і на , …, , зростає. Отже, найменше значення функція  досягає в кожній точці проміжку .

Отже, за методом максимальної правдоподібності оцінкою параметра

 

 є

 

Якщо  - результати спостережень - розподілені нормально (щільність розподілу має вигляд , ), то згідно з МНК - методом та методом максимальної правдоподібності оцінкою параметра  є

 

.

 

В методі найменших квадратів Гаусс виходив з припущення про нормальний розподіл похибок (і відповідно результатів спостережень), що на практиці зустрічається дуже часто. Якщо відомо, що розподіл похибок відмінний від нормального, використовувати МНК - метод для оцінювання параметрів не рекомендують. У вказаному вище парадоксі вживання оцінки більш виправдано.

Використовуючи стандартні поняття математичної статистики, парадокс можна коротко сформулювати наступним чином: оцінка за методом найменших квадратів не завжди збігається з оцінкою максимальної правдоподібності. Дійсно, якщо  - додатна щільність, напівнеперервна знизу в точці ;  - щільність розподілу вимірювань і  є оцінка максимальної правдоподібності параметра  для , то  є щільністю нормального розподілу з нульовим середнім. Це - закон Гауса про похибки, який можна довести наступним чином: якщо припустити для простоти, що існує похідна , і добуток  максимальний за умови, що , то

 

,

 

тобто (позначаючи ) з рівності  випливає , що можливо при  лише тоді, коли ; звідки випливає, що , де  і  - додатні числа (інакше функція не була б щільністю).

Таким чином, оцінка параметра зсуву за методом найменших квадратів збігається з оцінкою максимальної правдоподібності лише для нормальних розподілів.

Парадокс оцінок дисперсії

Історія парадоксу

Найважливішою характеристикою випадкових величин і їх розподілів разом з математичним сподіванням є дисперсія.

Нехай  вибірка з розподілу . Якщо дисперсія  розподілу  скінчена, то при відомому математичному сподіванні  розподілу  вибіркова дисперсія

 

 

є незміщеною оцінкою дисперсії . Дійсно,

 

.

 

Ситуація змінюється, коли математичне сподівання розподілу  невідоме і за оцінку математичного сподівання розглядається оцінка

 

.

 

Тоді вибіркова дисперсія

 

 

вже не є незміщеною оцінкою. Дійсно,

 

.

 

Оцінка  є асимптотично незміщеною оцінкою для .

Оскільки незміщеність - одна з необхідних властивостей, яку повинна мати добра оцінка, змінимо оцінку  так, щоб одержати незміщену оцінку для , а саме: помножимо  на множник  і позначимо нову оцінку :

 

.

 

Оцінка  незміщена оцінка для  [2]. Дійсно,

 

 

Проте парадокс оцінок дисперсії говорить про те, що не завжди треба обмежуватися розглядом лише незміщених оцінок. Іноді оцінка з малим зміщенням і малою мірою розсіювання значень оцінки краще незміщеної оцінки з великою дисперсією.

 

Парадокс

Нехай  - вибірка з нормального розподілу . Оцінка

 

 

є незміщеною оцінкою для , а оцінка

 

 

для  така, що міра розсіювання оцінки  відносно  мінімальна. Отже, вимоги незміщеності і мінімуму міри розсіювання приводять до різних оцінок. Якій з оцінок віддати перевагу?


Пояснення парадоксу

Розглянемо клас оцінок  [6]. Математичне сподівання оцінок  дорівнює . В класі оцінок  існує єдина незміщена оцінка, яка відповідає  і ця оцінка , тобто . Порахуємо міру розсіювання оцінок  відносно :

 

 

Згідно з теоремою про розподіл оцінок  і  параметрів нормального розподілу випадкова величина  має  - розподіл з  ступенями вільності. Тоді при

 

,

 

Звідки

 

і

.

 

Тоді  перепишеться:

 

.

 

Позначимо функцію від  через

 

.

 

Знайдемо , при якому функція досягає найменшого значення:

 

,

,

,

.

 

При цьому

 

,

і

,

а

.

 

Одержуємо нерівність

 

.

 

Таким чином, на підставі вимоги мінімуму міри розсіювання оцінки зміщена оцінка

 

,

 

зміщення якої

 

 

мале при достатньо великому обсязі вибірки , краще оцінює дисперсію , ніж незміщена оцінка .

Цей парадокс показує, що не може бути єдиного критерію, за яким необхідно порівнювати всі оцінки, як не існує єдиної оцінки даного параметра , яка прийнятна для всіх випадків.

Зауваження. Вибіркова дисперсія

 

при відомому математичному сподіванні  є ефективною оцінкою для . Оцінка ж  не є ефективною оцінкою для . Ефективної оцінки для  (при невідомому математичному сподіванні) не існує, тобто ні для якої незміщеної оцінки параметра  нерівність Крамера - Рао не обертається в рівність. Тому й виникає парадокс: оскільки незміщеної оцінки з мінімальною дисперсією не існує, то якій віддати перевагу.


Парадокс кореляції

Історія парадоксу

До останньої третини минулого століття деякі науки (наприклад, молекулярна фізика) досягли такого рівня розвитку, що стало необхідним використання в них теорії ймовірностей і математичної статистики. У 1859 р. книга Дарвіна спричинила революцію в біології і незабаром після цього родич Дарвіна Френсис Гальтон заклав основи генетики людини. (Дослідження Менделя з генетики були знов "відкриті" лише на рубежі століть; слово "генетика" використовується лише з 1905 р., але результати Гальтона привернули загальну увагу вже в минулому столітті) Гальтон і його учні (особливо Карл Пірсон) ввели такі важливі поняття, як кореляція і регресія, які стали основними поняттями в теорії ймовірностей і математичній статистиці (а також в пов'язаних з ними науках). Вага і зріст людини, природно, тісно пов'язані між собою, але вони не визначають один одного однозначно. Кореляція виражає цей зв'язок одним числом, абсолютна величина якого не перевершує 1. Для двох випадкових величин  і  кореляція визначається таким чином. Нехай  і ,  і  позначають математичне сподівання і стандартне відхилення  і  відповідно. Тоді коефіцієнт кореляції (або коротко кореляція) для  і  визначається формулою

 

 (2.5.1.1)

 

Абсолютне значення кореляції максимальне (тобто дорівнює 1), якщо між  і  існує лінійна залежність, тобто . Якщо  і  незалежні (і їх дисперсії кінцеві), то їх кореляція дорівнює 0, іншими словами, вони некорельовані. У математичній статистиці оцінкою для кореляції , як правило, є вибірковий коефіцієнт кореляції, який будується за незалежною вибіркою  так:

 

 (2.5.1.2)

 

У ряді випадків  добре описує зв'язок між  і , але вже на рубежі століть обчислювалися залежності, позбавлені сенсу; наприклад, кореляція між числом гнізд лелек і числом немовлят. Поняття кореляції поступово містифікувалося і деякі "внутрішні" (взагалі кажучи, випадкові) зв'язки стали вважати такими, що існують, якщо була виявлена велика кореляція (тобто близька за абсолютною величиною до 1). Ось чому виникли абсолютно абсурдні результати, і це ледве не дискредитувало всю статистику. Як правило, ігнорувався той факт, що велика кореляція для  і  може бути результатом впливу якоїсь третьої величини. Наприклад, в Англії й Уельсі відмітили, що із збільшенням числа радіослухачів зростало число божевільних і розумово відсталих людей. Проте така інтерпретація абсолютно помилкова, оскільки не можна психічно захворіти від того, що слухаєш радіо. Справа лише в тому, що з часом зростає і число радіослухачів, і число випадків психічних захворювань, але між ними немає жодної причинної залежності. На жаль, невірні тлумачення не завжди настільки очевидні, наприклад, в технічних або економічних застосуваннях. Порівняння віросповідання і зростання людей дає ще один приклад надуманої залежності, згідно якої при прямуванні від Шотландії до Сіцілії доля католиків в населенні поступово зростає і в той же час середнє зростання людей спадає. Проте будь-який причинний зв'язок тут абсолютно неможливий. Розглянемо деякі парадокси кореляції.


Парадокси

2.5.2.1 Нехай випадкова величина  рівномірно розподілена на інтервалі  і . Очевидно, що між  і  існує тісний зв'язок, проте їх кореляція . (Кореляція для  і  завжди дорівнює нулеві, коли  - випадкова величина зі скінченою дисперсією і симетричним відносно нуля розподілом)

2.5.2.2 Нехай  - величини температуру в кімнаті в  різних моментів часу і  - кількість палива, яке використовують для обігріву в ті ж самі моменти часу (точніше, за даний проміжок часу). Логічно вважати, що чим більше палива використано, тим тепліше буде в кімнаті. Це означає, що кореляція для  і У строго додатна.

Проте кореляція може виявитися від’ємною, що може бути інтерпретовано так: чим більше палива використано, тим стає холодніше.

2.5.2.3 Нехай випадковий вектор  розподілений нормально, тобто щільність має вигляд

 

 

де  - математичне сподівання і дисперсія величин  і , а  - їхня кореляція. Припустимо, що абсолютна величина кореляції строго менше 1. При невідомій кореляції  ми можемо оцінити її за допомогою

 

,

 

використовуючи  вибіркових значень. Якщо  і  відомі, то доцільно у формулі для  замінити  і  відповідно на  і . Таким шляхом отримаємо нову оцінку

 

.

 

Оскільки  використовує більше інформації (а саме, значення величин  і ) можна було б чекати, що дисперсія в  менше, ніж в .

Проте А. Стюарт обчислив, що

 

 тоді як

 

таким чином, остання дисперсія більша.

 

Пояснення парадоксів

2.5.3.1 Якщо  і  незалежні, то , але обернене твердження, взагалі кажучи, не вірне. Не корельовані випадкові величини можуть бути залежні, наприклад, як у вказаному вище прикладі, коли . Тому "некорельованість" не слід розуміти як незалежність.

2.5.3.2 Не можна забувати про вплив температури поза кімнатою! Кореляції часто виходять абсолютно неймовірними тому, що обчислюваний коефіцієнт кореляції для двох випадкових величин викривляється третьою що "ззовні впливає". Якраз для того, щоб уникнути цих перешкод, було введено поняття частої кореляції. Якщо кореляція для  і У обчислюється лише після того, як вплив величини  виключено, то результат перестає бути парадоксальним. Нехай  і  позначають кореляції  і  лінійними випадковими величинами  та У,  та , У та  відповідно. Тоді частинна кореляція для  і У без впливу  дорівнює

 

 

У частковому випадку, коли  часткова кореляція для  і  збігається з кореляцією . Коли  і  невідомі, їх можна оцінити за вибіркою аналогічно тому, як це відбувалося для . За допомогою цих оцінок отримаємо оцінку коефіцієнта частинної кореляції.

2.5.3.3 Парадокс Стюарта можна розглядати з різних точок зору. Головне полягає в тому, що оцінки  і  не є незміщеними оцінками для , тобто рівність  і  невірні, тому недоцільно вважати кращою ту оцінку, в якої дисперсія менша.

 

 

Мал.2.5.3.3.1 Розглянемо випадкові величини  як вектори. Тоді кореляція для випадкових величин  і  дорівнює косінусу кута між векторами  і , а їх частинна кореляція - косінусу кута між проекціями цих векторів на площину, перпендикулярну вектору .

У той же час обидві оцінки  і  зміщені несильно (вони є асимптотично незміщеними), отже, для пояснення парадоксу потрібний додатковий аналіз.

 

Зауваження

Зсув оцінки  (у випадку двовимірного нормального розподілу) дорівнює

 

 

де  позначає вираз, який множенням на , збігається до 0. Таким чином, зсув достатньо швидко прямує до 0 (при збільшенні обсягу вибірки ). З іншого боку, цікаво відзначити, що  є незміщеною оцінкою для  і, якщо  для деякої функції , незалежної від , то , де  - довільні сталі. У 1958 р. І. Олкін і Дж. Пратт довели що, якщо оцінка коефіцієнта кореляції  явно залежить від , то можна вказати незміщену оцінку для , а саме

 

 

де  - гіпергеометрична функція, яка визначається формулою

 

,

 

де  є параметрами. А серед незміщених оцінок вже слід віддати перевагу тим, в яких дисперсія мінімальна. Можна показати, що оцінка  не лише є незміщеною, але і має найменшу дисперсію. Проте для практичних застосувань оцінка  достатньо складна, тому рекомендується використовувати її апроксимацію

 

.

 

Парадокси регресії

 

Історія парадокса

Коефіцієнт кореляції описує залежність між двома випадковими величинами одним числом, а регресія виражає цю залежність у вигляді функціонального співвідношення і тому дає більш повну інформацію. Наприклад, регресією є середня вага тіла людини як функція від його зросту. Поняття "регресія" запровадив Гальтон, який у кінці минулого століття порівнював зріст батьків зі зростом їх дітей. Він виявив, що зріст дітей у високих (або низьких) батьків звичайно вище (або нижче) середнього, але не співпадає зі зростом батьків. Лінія, яка показує, у якій мірі зріст (та інші характеристики) регресують (відновлюються) у середньому у наступних поколіннях, була названа Гальтоном лінією регресії.

 

Мал.2.6.1. Лінія регресії Гальтона.

 

Пізніше регресією стали називати будь-яку функціональну залежність між випадковими величинами. Спочатку регресійний аналіз застосовувався у біології і найважливішим науковим журналом, у якому висвітлювалась ця тема, був журнал "Біометрика" (“Biometrika”), який виходив з жовтня 1901 р. Між 1920 та 1930 р. великого значення набуло використання регресійного аналізу у економіці та виникла нова галузь науки: економетрика (термін належить Р. Фрищу (1926), який пізніше отримав Нобелевську премію). Від вивчення часткових регресійних задач дослідники поступово перейшли до регресійного аналізу структури, яка властива глобальним економічним системам. (Дж. Кейнс, Я. Тінберг та інші, наприклад, Р. Клейн, якому у 1980 р. присуджена Нобелевська премія з економіки).

Журнал "Технометрика" (“Technometrics”) виходить з 1959 р. і в основному присвячений технічним додаткам. Регресійний аналіз величини , визначається за іншою величиною , коли  важко вимірити, а достатньо легко, досить важливий.

Парадокси

Припустимо, що залежність двох величин виражається функцією наступного вигляду , (наприклад, ), де невідомі тільки параметри  (а функція відома, наприклад, лінійна квадратична і т.д.). Якщо ми можемо виміряти значення  тільки з випадковими похибками спостережень, тобто замість  ми спостерігаємо значення , які схильні до помилок, то згідно з методом найменших квадратів оцінки невідомих параметрів  мінімізують суму квадратів

 

2.6.2.1 Якщо , то оцінка параметра  мінімізує суму квадратів

 

 (2.6.2.1 1)

 

У цьому випадку задача обчислення рівняння регресії звичайно спрощується, якщо обчислити логарифм від обох членів різниці, які знаходяться у дужках, і мінімізувати таку суму квадратів

 

 (2.6.2.1 2)

 

Але ці два підходи до мінімізації дають різні оцінки. Який вихід з цієї парадоксальної ситуації?

2.6.2.2 Припустимо, що тип функції  можна обрати різними способами, наприклад,  - це багаточлен, а  - експоненціальна функція. Оберемо той тип, для якого вказана вище сума квадратів менша (при оптимальному виборі параметрів). Хоча цьому принципі часто віддають перевагу на практиці, звичайно він не виправданий (іноді необхідно встановлювати хоча б теоретичну можливість такого вибору).

2.6.2.3 Нехай  - теоретична лінія регресії та , де  () - незалежні нормально розподілені похибки з математичним сподіванням  і дисперсією  (  - невідома константа). Тепер припустимо, що спостереження ідеально погоджуються з лінією регресії, тобто  для деякого  та

 

 

Тоді оцінка параметра  за методом найменших квадратів дорівнює , але, як не парадоксально, вона не є "найкращою" оцінкою (у сенсі максимальної правдоподібності).

Пояснення парадоксів

2.6.3.1 Методу найменших квадратів відповідає перша сума квадратів. Розглянемо мінімізацію суми квадратів

 

 

де  - монотонно зростаюча функція (наприклад, ). Добрий вибір  "лінеаризує" задачу, тобто вираз для  є лінійною функцією від невідомих параметрів  (у цьому випадку легко знаходяться оптимальні значення для ). Якщо ми хочемо визначити невідомі параметри , користуючись методом найменших квадратів, то ймовірно, краще обрати другий спосіб. Але іноді треба мінімізувати все ж вихідну суму, наприклад, коли відомо, що наслідком помилки є фінансові втрати, пропорційні цій сумі, хоча така ймовірність зовсім не типова.

2.6.3.2 Перша частина питання дуже проста: сума квадратів може виявитися менша для , ніж для , але якщо взяти більше вибіркових значень, то сума квадратів стає менша при виборі .



Поделиться:


Последнее изменение этой страницы: 2021-08-16; просмотров: 84; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.221.37.56 (0.167 с.)