Опис методу та економічної суті 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Опис методу та економічної суті



 

Для того, щоб перейти до безпосереднього моделювання, необхідно навести характеристику та алгоритм факторного аналізу.

Факторний аналіз дозволяє вирішити дві важливі проблеми дослідника: описати об'єкт вимірювання всебічно і в той же час компактно. За допомогою факторного аналізу можливе виявлення прихованих змінних факторів, що відповідають за наявність лінійних статистичних кореляцій між що спостерігаються змінними.

Таким чином можна виділити 2 мети факторного аналізу:

1) визначення взаємозв'язків між змінними, (класифікація змінних)

2) скорочення числа змінних необхідних для опису даних. [28]

Існує низка методів факторного аналізу, але у дослідженні буде застосований метод головних компонент.

Метод головних компонент, або компонентний аналіз вперше був запропонований К. Пірсоном у 1901 р., який розглядав задачу найкращої (з погляду мінімізації суми квадратів відхилень) апроксимації сукупності точок прямими та площинами. Потім він був докладно розроблений американським статистиком й економістом Гарольдом Хотеллінгом у 1933 р. Його важливою перевагою є те, що він є єдиним математично обґрунтованим методом факторного аналізу.

За своєю сутністю метод полягає у виборі нової ортогональної системи координат у просторі спостережень. Як першу головну компоненту обирають напрям, вздовж якого масив спостережень має найбільшу дисперсію. Кожну наступну компоненту обирають також з умови максимізації частки дисперсії, що залишилася, вздовж неї, доповненої умовою ортогональності всім раніше обраним компонентам. При цьому із зростанням номера компоненти буде зменшуватися пов’язана з нею частка загальної дисперсії.

Кількість компонент визначається значною мірою суб’єктивно, виходячи з розуміння того, яка величина загальної дисперсії відповідає випадковій мінливості, що відображає похибку вимірювань, вплив неконтрольованих випадкових чинників тощо.

Вибір критерію інформативності в методі головних компонент передбачає, що найбільш важливу інформацію про аналізовану систему можна відобразити лінійною моделлю, яка відповідає такому вибору системи координат у тому самому просторі, що забезпечує максимальні дисперсії для проекцій досліджуваних об’єктів. Такий підхід є доцільним, якщо більшість вихідних ознак узгоджено впливає на властивість, що вивчається, і пригнічує вплив іррелевантних чинників на розподіл об’єктів. Адекватну модель можна отримати також у випадку, коли кількість пов’язаних інформативних ознак невелика, але вплив інших чинників є неузгодженим. У цьому разі не порушується однорідність еліпсоїда розсіювання, а лише зменшується його довгастість уздовж напрямку досліджуваної властивості. У факторному аналізі використовують також інші міри інформативності, що дають змогу визначити кількість істотних факторів. Критерій Кайзера, або критерій власних чисел, запропонований американським психологом Генрі Феліксом Кайзером, передбачає, що до моделі включають тільки фактори, для яких власні числа є не меншими, ніж одиниця. За змістом це означає, що таким факторам відповідає дисперсія, еквівалента принаймні дисперсії одної змінної. У противному випадку виокремлення фактора не має сенсу. Цей критерій іноді залишає в моделі занадто багато факторів.

Критерій кам’янистого осипу (критерій відсіювання) передбачає побудову графіка, де по осі абсцис відкладають порядковий номер власного числа, а по осі ординат – його значення. Згідно з Р. Кеттелом необхідно знайти точку найбільшого уповільнення спадання власних значень і враховувати лише фактори, яким відповідають власні числа, розташовані лівіше цієї точки. На відміну від попереднього цей критерій статистично необґрунтовані і часто залишає в моделі не всі істотні фактори. Втім у випадках, коли істотних факторів небагато, а кількість змінних є великою, обидва критерії є придатними для практичного застосування. На практиці часто здійснюють розрахунки, використовуючи різні критерії, а потім обирають модель, що містить найбільшу кількість факторів, яким можна надати змістову інтерпретацію. Критерії, що ґрунтуються на аналізі визначників вихідної та відтвореної кореляційної матриць, часто виявляються нестійкими. Критерії, які базуються на величині власних значень кореляційної матриці, у підсумку призводять до аналізу відсотка дисперсії, виділеної факторами. Усі загальні фактори, кількість яких дорівнює кількості параметрів, пояснюють 100% дисперсії. Якщо сума відсотків за факторами перевищує 100%, це свідчить про отримання від’ємних власних значень і, відповідно, комплексних власних векторів, що може бути наслідком некоректної редукції вихідної кореляційної матриці. Доцільно здійснювати двохетапну процедуру аналізу. На першому етапі максимальну кількість факторів не задають. Після його проведення аналізують дисперсії, оцінюють приблизну кількість факторів і проводять повторний аналіз.

Кластерний аналіз - це спосіб угруповання багатовимірних об'єктів, заснований на представленні результатів окремих спостережень точками підходящого геометричного простору з подальшим виділенням груп як "Згустків" цих точок. Власне, "кластер" (cluster) в англійській мові і означає "згусток", "гроно (винограду)", "скупчення (зірок)" і т. п. [27] Цей аналіз широко використовується у інтелектуальному аналізі даних – «дейтамайнінгу», оскільки дозволяє достатньо комплексно угруповувати дані.

Серед методів кластерного аналізу, що доступні у програмному пакеті STATISTICA, буде використовуватися метод К-середніх Мак-Куїна. Ідея цього методу запропонована в 1956 р. відомим польським математиком Гуго Штейнгаузом, який в 1920–1941 р. працював професором Львівського університету і є одним із засновником львівської математичної школи. Стандартний алгоритм методу розроблено в 1957 р. Стюартом Ллойдом, а назву введено в 1967 р. американським математиком Дж.Б. Мак-Куїном. Ще один поширений алгоритм цього методу запропонований у 1965 р. Г. Боллом та Д. Холлом.

Розв’язується задача розбиття n об’єктів на k однорідних у певному розумінні кластерів. Кількість кластерів не може бути більше кількості досліджуваної множини. На початковому етапі його реалізації вихідні точки впорядковують (можливо випадковим чином) і перші k точок у подальшому розглядають як окремі кластери, яким надають одиничні вагові коефіцієнти. Потім беруть кожну наступну точку і з’ясовують, до якого з наявних кластерів вона є найближчою. Цей кластер замінюють новим, розташованим у центрі ваги вихідного кластера й точки, яка досліджувалася. При цьому ваговий коефіцієнт отриманого кластера збільшують на одиницю порівняно із ваговим коефцієнтом вихідного. Якщо точка досліджувага точка є рівновіддаленою від декількох кластерів, то її вміщують до кластера з найменшим номером або з найбільшим ваговим коефіцієнтом. Потім почергово приєднують до наявних кластерів точки, що залишилися. При достатньо великих обсягах досліджуваних вибірок центри ваги отримуваних кластерів згодом перестають змінюватися, тобто ітераційна процедура збігається до певної границі. Якщо ж вона не збігається за задану кількість кроків, то використовують один із таких прийомів. Перший передбачає, що після розгляду останньої точки повертаються до точок, з яких поиналося дослідження. Другий підхід передбачає багаторазовий повторний вибір вихідних кластерів. При цьому на кожному етапі як вихідні обирають точки, що є найближчими до фінальних кластерів, що найчастіше отримували на попередніх етапах. Особливістю методу є алгоритмічне гарантування того, що кожний із класифікованих об’єктів буде зарахований лише до одного з кластерів.

При застосуванні цього методу немає особливої необхідності у візуалізації результатів. Але для наочності можна здійснити її за допомогою зображення просторових еліпсоїдів, що містять класифіковані об’єкти (якщо розмірність не перевищує трьох), або двовимірних зрізів простору. У багатьох випадках метод k-середніх дає змогу отримати розбиття, близьке до найкращого з погляду функціонала якості. [43]

 



Поделиться:


Последнее изменение этой страницы: 2016-06-29; просмотров: 306; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.116.90.141 (0.005 с.)