ТОП 10:

Тема 8 Імпутація часткових невідповідей



Перелік запитань

Проблеми, пов’язані з пропусками у даних
Методи зменшення рівня невідповідей
Види часткових невідповідей
Методи оброблення часткових невідповідей

Методичні вказівки

1 Проблеми, пов’язані з пропусками у даних

Однією з найбільш важливих проблем забезпечення репрезентативності вибірки є неповне повернення анкет по вибірковій сукупності, коли окремі відібрані для обстеження одиниці через певні обставини не надають інформацію.

Термін “відсутність відповіді” (невідповідь) означає у вибіркових обстеженнях, що неможливо з’ясувати значення однієї або декількох величин для одного або кількох елементів вибірки через повне або часткове неподання ними статистичного звіту. В результаті статистик-практик має вибірку з пропущеними даними.

Загалом у статистичних спостереженнях величина невідповідей за різними типами обстежень, як свідчить практика, знаходиться у межах 10 – 30 % залежно від об’єкта спостереження, способу обстеження, типу респондента, часу проведення обстеження тощо.

У статистиці підприємств, особливо в національній, цей відсоток очевидно буде меншим через добре налагоджений механізм збору даних від підприємств. Незважаючи на такий рівень невідповідей, великі за обсягом дослідження даватимуть вибірки достатньо великого обсягу для статистичного аналізу.

Проблема з відсутністю відповідей полягає не тільки в можливому збільшенні дисперсії, а і в тому, що виникає так зване зміщення за рахунок відсутності у вибірці елементів сукупності з можливо значно відмінними від середніх значень характеристиками.

Якщо можна було б припустити, що множина елементів, про які відсутня відповідь, має такі самі характеристики, як ті вибіркові одиниці, щодо яких інформація доступна, то відсутність відповіді не впливала б на достовірність висновків. Але відомі досліднику значення ознак для одиниць вибірки не дають ніякої інформації відносно тих одиниць, дані щодо яких є відсутніми.

2 Методи зменшення рівня невідповідей

Відомі методи зменшення рівня невідповідей та їх урахування при обчисленні оцінок можна поділити на три категорії:

1) Заходи, які проводяться під час планування обстеження та збору даних і спрямовані на зменшення невідповідей до незначного рівня. Таким чином відсутність відповідей не враховується при обчисленнях, оскільки низький рівень невідповідей несуттєво або зовсім не впливає на достовірність висновків;

2) Методи збору даних і обчислення оцінок, які дають незміщені оцінки параметрів;

3) Застосування для побудови оцінок моделей або припущень відносно взаємозв’язків між змінними, які коригують відсутність відповіді таким чином, що навіть значний рівень пропущених даних можна розглядати як допустимий для одержання достовірних висновків.

Очевидно, що ідеальне обстеження не має пропущених даних. Для наближення до цього ідеалу потрібно дуже ретельно планувати кожну стадію збору даних і особливо брати до уваги, як вплинуть на рівень відсутності відповіді ті чи інші заходи. Процес підготовки персоналу, вибір методу збору даних, зміст і обсяг анкети мають при цьому ключові значення.

Проте, якщо все-таки невідповіді при обстеженні мали місце, доцільно застосовувати найбільш ефективні методи для виявлення причин їх виникнення та для їх обробки.

3 Види часткових невідповідей

Відправною точкою для обробки даних є інформація отримана від респондентів. Помилки, зроблені респондентами при заповненні анкети і операторами при введенні, виявляються і виправляються в процесі редагування даних до здійснення обробки невідповідей.

Після редагування даних увесь масив одиниць вибірки умовно будемо диференціювати на:

- одиниці, які подали заповнені анкети (1);

- одиниці, які подали неповністю заповнені анкети (2);

- одиниці, які не подали анкети (3);

- одиниці, які не відповідають ознакам поля спостереження, а отже, знаходяться за його межами (4).

Очевидно, що серед одиниць із третьої групи, а в деяких випадках і другої групи, можуть знаходитись і ті, що не відповідають ознакам поля спостереження, а отже, фактично мають належати четвертій групі. Якщо існує додаткова інформація, яка дозволяє виявити такі одиниці, то вони вилучаються з третьої групи (чи другої) і приєднуються до четвертої. За відсутності такої інформації приймається одна з гіпотез:

- усі респонденти, які не повернули анкету, є респондентами за межами спостереження;

- усі респонденти, які не повернули анкету, є повними невідповідями.

Наприклад, у обстеженні підприємств одиницями за межами поля обстеження, як правило, є ті, що мають вид діяльності, який не є предметом обстеження та ті, що ліквідовані в попередніх звітному роках. Проте одиниці, які ліквідовані у звітному році і не надали звіт, визнаються повними невідповідями. Крім того при обстеженні малих підприємств до четвертої групи відносять також ті, що у звітному році перестали визначатись як малі.

Одиниці четвертої групи вилучаються з подальшої обробки та аналізу. Однак не слід вважати, що наявність елементів у цьому масиві ніяк не впливає на результати вибіркового обстеження; саме це зменшує точність оцінок, обчислених за вибірковими даними, оскільки при вилученні одиниць цього масиву зменшується загальний обсяг вибірки.

Зазначимо, що коригування вибіркових даних на невідповіді здійснюється обов’язково до проведення аналізу отриманих результатів.

Таким чином, розрізняють два види відсутності даних (невідповідей, пропусків): повна відсутність даних, коли досліджувана одиниця взагалі не надає даних (третя група) і часткова відсутність даних, коли досліджувана одиниця не надає даних лише за одним чи кількома показниками анкети, а за іншими надає (друга група).

Розрізняють три типи часткових невідповідей:

1) відсутність величин за випадковим законом;

2) пропуск не залежить від даної змінної, але залежить від іншої змінної;

3) пропуск залежить від величини змінної, по якій відсутні дані.

Перед тим, як застосовувати той чи інший метод аналізу невідповідей, важливо з’ясувати до якого саме типу невідповідей належить дана. Лише знаючи тип невідповіді та причини її виникнення, можна прийняти правильне рішення щодо найбільш прийнятного методу її обробки.

4 Методи оброблення часткових невідповідей

Для обробки часткових невідповідей застосовуються: методи прямого аналізу та методи умовного обчислення (імпутації).

Методи прямого аналізу неповних даних базуються на певних припущеннях щодо розподілу змінних. Ці методи передбачають ігнорування невідповідей.

Метод, при цьому ігноруються усі випадки відсутності величин і аналізуються лише випадки повної наявності даних, називається аналізом повного складу. Він має той недолік, що при видаленні усіх випадків, щодо яких відсутні одна чи більше ознак, обсяг вибірки може суттєво зменшитись.

Альтернативним є метод наявного складу, при якому використовується уся наявна інформація по одновимірним і багатовимірним статистичним даним. При застосуванні цього методу використовується більше інформації, ніж при аналізі повного складу. Недоліком такого методу обчислення є те, що для різних видів статистичних даних розмір вибірки різний.

Метод повного складу та метод наявного складу вимагають виконання умови, що відсутність величин носить повністю випадковий характер.

До методів прямого аналізу також відносяться методи моделювання, коли неповні дані аналізуються безпосередньо за допомогою певної моделі, в яку входять досліджувані параметри. Ці методи вимагають припущення щодо розподілу змінних. На практиці найчастіше використовують припущення, що дані мають багатовимірний нормальний розподіл. На основі такої моделі може бути визначена імовірнісна функція, яка потім максимізується за параметрами.

Найбільш широко вживаним методом моделювання є алгоритм визначення очікуваного середнього (ОМ-алгоритм). ОМ-алгоритм передбачає виконання процесу, який складається з двох етапів: очікування та максимізації. Процес проходить циклічно від одного етапу до другого, доки не буде досягнуто стабільності. На етапі максимізації параметри моделі оцінюються на основі прикладу, по якому є в наявності дані спостереження. На етапі очікування на основі моделі з отриманими на попередньому етапі параметрами розраховуються актуалізовані значення відсутніх величин. Повторення цих етапів достатню кількість разів завжди приводить до стабільних розв’язків як для параметрів моделі, так і для відсутніх величин.

Методи умовного обчислення (імпутації, заміщення, відновлення) полягають в заміщенні відсутнього значення певною величиною (замінником). У залежності від способу підбору замінника для пропуску методи умовного обчислення поділяються на детерміновані та стохастичні.

Детерміновані методи передбачають однозначну заміну відсутнього значення ознаки, а для стохастичних відсутнє значення заповнюється за ймовірнісними принципами.







Последнее изменение этой страницы: 2016-04-19; Нарушение авторского права страницы

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.231.167.166 (0.005 с.)