Тема 4. Процес знаходження нового знання 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Тема 4. Процес знаходження нового знання



  • Визначення проблеми (постановка задачі);
  • Збір та підготовка даних:
    • Оцінка даних;
    • Об'єднання й очищення даних;
    • Відбір даних;
    • Перетворення;
  • Побудова моделі;
    • Оцінка й інтерпретація;
    • Зовнішня перевірка;
  • Використання моделі;
  • Спостереження за моделлю;

Для того щоб знайти нове знання на основі даних великого сховища недостатньо просто взяти алгоритми Data Mining, запустити їх і чекати появи цікавих результатів. Знаходження нового знання - це процес, що містить у собі кілька кроків, кожний з яких необхідний для ефективного застосування засобів інтелектуальних обчислень. Основні етапи цього процесу наступні:

  1. визначення проблеми (постановка задачі);
  2. збір та підготовка даних:
    • оцінка даних;
    • об'єднання й очищення даних;
    • відбір даних;
    • перетворення;
  3. побудова моделі;
    • оцінка й інтерпретація;
    • зовнішня перевірка;
  4. використання моделі;
  5. спостереження за моделлю;

Зупинимося докладніше на кожному з цих етапів:

1. Визначення проблеми. Для того щоб найбільш повно використати всі переваги інтелектуальних технологій необхідно ясно представити мету майбутнього аналізу. Побудова моделі проводиться в залежності від мети. Якщо необхідно збільшити прибуток торгової організації, то для цілей: "збільшення кількості продажів" і "збільшення ефективності реклами" необхідно будувати різні моделі. На цьому ж етапі визначаються способи оцінки результатів майбутнього проекту і можливі витрати на його реалізацію.

2. Збір та підготовка даних. Самий довготривалий етап: може займати від 50% до 85% часу всього процесу знаходження нового знання. На цьому етапі необхідно визначити джерела отримання даних. Це можуть бути дані, накопичені самою організацією або зовнішні дані від загальнодоступних джерел (відомості про погоду чи перепис населення) або приватних джерел (різні архівні дані, бази нотаріальних контор і ін.).

а. оцінка даних. При побудові моделі необхідно пам'ятати одне правило, що стосується коректності вхідних даних: "Якщо на вхід задачі надходить "сміття", то і результатом теж буде "сміття". Вхідні дані можуть знаходитися в одній базі або в декількох. Перед "завантаженням" ' даних у сховище необхідно врахувати, що різні джерела даних можуть бути спроектовані під визначені задачі і, відповідно, виникають проблеми, пов'язані з об'єднанням даних: різні формати представлення числових даних (наприклад, цілі або дійсні); різне кодування даних (наприклад, різний формат дати); різні способи збереження даних; різні одиниці виміру (дюйми й сантиметри); а також частота збору даних і дата останнього оновлення.

Навіть, якщо дані знаходяться в одній базі, то все одне треба звертати пильну увагу на пропущені значення і значення, нереальної величини, так звані "викиди".

Аналітик повинен завжди знати, як, де і при яких умовах збираються дані, і бути впевненим, що всі дані, які використовуються для проведення аналізу виміряні однаковим способом.

б. об'єднання й очищення даних. На цьому етапі відбувається побудова сховища даних, що буде піддаватися подальшій обробці, тобто, відбувається наповнення сховища чи долучення до нього тих даних, що були відібрані на попередніх етапах. У цей же час відбувається очищення, тобто виправлення всіх виявлених помилок. Існують різні аспекти очищення даних. Усі вони спрямовані на знаходження і виправлення помилок, що були допущені ще на етапі збору інформації. Помилкою в даних можуть вважатися:

  • пропущене значення;
  • неможлива подія (невірно набране значення - "викид").

Корекція відбувається на основі здорового глузду, використання правил і/або із залученням експерта, що добре знає предметну область. Тобто запис у базі даних, в якому є помилка, може бути виправлений чи, у спірних випадках, виключений з подальшого розгляду.

Після перевірки даних, вони перетворюються і форматуються відповідно до результатів оцінки. Це робиться для більшої зручності спостереження за даними. Дані дискретних подій перетворюються в спеціально розроблену чи стандартну форму, в якій відбиваються час і опис подій. Коли користувачі будуть легко розбиратися в цій формі, вони зможуть швидко вивчити події, що були в основі побудови цієї форми. Може здатися, що цей крок дублює етап збору даних, але насправді це два зовсім різні етапи. На першому з них відбувається відбір даних для прискорення машинної обробки інформації без втрати якості, на другому дані приводяться до виду, зручного для візуального контролю користувача.

Тепер людина, що проводить аналіз може найбільш повно уявити собі вхідні дані. Це буває необхідно для різного роду звітів, коли необхідно коротко охарактеризувати вхідні дані, що застосовуються для аналізу.

в. відбір даних. Коли сформовано сховище і визначено типи моделей, які будуть побудовані для рішення задачі, відбувається відбір даних необхідних саме для цих моделей. Мається на увазі не тільки зменшення кількості записів у базі по визначеній умові, але також і зміна кількості полів, злиття різних таблиць в одну чи навпаки створення на основі однієї таблиці декількох. Тобто перетворення відбувається у "трьох вимірах": по кількості записів, по кількості полів і за структурою.

г. перетворення даних має за мету збагачення отриманої бази, тобто додавання різних відношень на основі існуючих полів (не просто "ціна" і "кількість", а їхній добуток - "загальна сума", не борг і дохід, а відношення боргу до доходу), додавання інтервалів (по номеру місяця можна поставити номер кварталу, а відсоток виконання плану можна доповнити характеристиками "добре", "задовільно"), додавання критичних значень (максимум, середнє, мінімум).

3. Побудова моделі. Найважливіше, про що завжди потрібно пам'ятати - це те, що побудова будь-якої моделі представляє собою ітераційний процес. Тобто необхідно побудувати ряд моделей для знаходження однієї, найбільш задовольняючої поставленим цілям.

Моделі можна розділити на дві групи: контрольовані (моделі класифікації, регресії, прогнозування часових послідовностей) і неконтрольовані (кластеризація, асоціація і послідовність). Після того, як визначено тип моделі, необхідно вибрати алгоритм побудови моделі, чи технологію знаходження знання.

Сутність процесу побудови контрольованої моделі зводиться до знаходження залежностей на одній частині даних ("навчання моделі") і перевірки цих залежностей на іншій частині даних (оцінка точності). Модель вважається побудованою, коли завершується цикл "навчання" і перевірок. Якщо точність моделі при чергових ітераціях не поліпшується, то це говорить про завершення побудови моделі.

Оскільки "навчальні" і тестові дані знаходяться в одній базі даних, то часто виникає необхідність у третьому наборі даних - контрольному, який вибирається з таких даних, що не перетинаються з "навчальними" та тестовими. Він потрібен для незалежного оцінювання точності моделі. Як правило всі три набори даних належать тій самій множині даних, необхідної для реалізації визначеного проекту.

Найбільш відомий тестовий метод - називається простою оцінкою. У цьому випадку розподіл даних на два набори відбувається випадковим чином. Відношення кількості тестових даних до кількості даних, на яких відбувається побудова моделі повинен бути в межах від 5% до 33%. Після побудови моделі, її використовують для передбачення значень на тестовому наборі. Мірою точності моделі вважають відношення кількості вдалих результатів до загальної кількості прикладів у тестовому наборі (можна використовувати таку змінну, як міра неточності, що дорівнює 1 - "міра точності").

Якщо для побудови моделі використовується не дуже велика база даних, то застосовується так звана перехресна оцінка точності. У цьому випадку дані випадковим образом поділяються на дві приблизно рівні частини. Після цього модель будуватиметься на одній з них, а інша використовується для визначення міри точності. Потім частини бази міняються ролями. Отримані дві незалежні оцінки точності поєднуються (як середнє арифметичне чи іншим способом) для найкращої оцінки міри точності моделі, побудованої на всій базі.

Для ще менших баз, у кілька тисяч записів, використовується n-перехресна оцінка точності. У цьому випадку база поділяється на n приблизно рівних груп, що не перетинаються. Далі перша з цих груп стає тестовим набором, а інші групи поєднуються, і на їхній основі відбувається побудова моделі. Отримана модель використовується для передбачення значень для тестового набору і таким чином виходить перша міра точності. Аналогічним образом розраховуються всі n незалежні міри точності. Середнє з них є мірою точності всієї моделі.

Ще один спосіб використовується для знаходження міри точності в малих базах даних. У цьому випадку модель будуватиметься на основі даних усієї бази. Після цього випадковим чином із записів бази створюється множина тестових наборів (мінімум 200, а іноді навіть більше 1000). Один запис може бути присутнім у різних тестових наборах. Для кожного з них визначається міра точності. Знову ж середнє з них є мірою точності всієї моделі.

Після того як побудова моделі завершена, можна побудувати модель, використовуючи інші параметри, чи навіть змінити алгоритм побудови моделі, тому що ніколи не можна сказати, який алгоритм, яка технологія знаходження знання дасть найкращі результати. Не можна бути впевненим, що визначена технологія буде працювати найкраще. Найчастіше доводиться будувати велику кількість моделей і для кожної проводити процедуру оцінки для знаходження найкращої. Крім цього, для різних моделей необхідна різна підготовка даних, отже, неминуче повторення кроків. Все це збільшує час знаходження кращої моделі, тому необхідно застосовувати технології паралельних обчислень.

а. оцінка й інтерпретація. Після побудови моделі необхідно оцінити результати і пояснити (інтерпретувати) їхню значимість. При оцінці моделі обчислюється міра точності, але треба пам'ятати, що це значення вірне лише до тих даних, на яких модель побудована і бути готовим, що нові дані, до яких надалі буде застосовуватися модель, можуть відрізнятися від вихідних невідомим чином.

б. зовнішня перевірка. Висока міра точності моделі не є гарантією того, що модель правильно відбиває реальне середовище. Однією з причин для цього є існування так званих неявних припущень у моделі. Тобто сам по собі коефіцієнт інфляції не може бути частиною моделі, що пояснює схильність покупців до покупки того чи іншого товару, але різка зміна цього коефіцієнта з 3% до 20% уже, напевно, може пояснити таку поведінку.

Інша причина - це існування неминучих проблем з даними, що можуть привести до некоректності моделі, тому дуже важливо перевірити модель у реальному середовищі. Наприклад, якщо модель використовується для відбору кандидатів для цільової реклами, то можна зробити тестове розсилання для перевірки моделі на невеликому обсязі даних. Якщо модель використовується для передбачення ризику неповернення кредиту, то варто буде випробувати цю модель на невеликій кількості претендентів на позичку. Чим більше ризик, зв'язаний з некоректністю моделі, тим більш важливо провести попередні експерименти для перевірки моделі перед початком її повної експлуатації.

4. Використання моделі. Після побудови й оцінки моделі вона може бути використана різними способами. Наприклад, аналітик може подивитися групи, що визначила модель кластеризації, графіки ефективності моделі чи отримані правила. Іноді аналітик може використовувати модель для вибору деяких записів з бази даних, щоб провести додатковий аналіз.

Ґрунтуючись на результатах такого використання моделі, аналітик може рекомендувати дії, які можна почати в діловій сфері. Однак, часто технології інтелектуальних обчислень - це частина автоматизованої системи (наприклад, знаходження кредитних ризиків, визначення можливості втрати клієнтів і ін.), тобто модель вбудовується в систему, яку аналітик або менеджер може застосовувати для прийняття рішення. З іншої сторони модель можна включати в систему, що генерує деяку дію (наказ), якщо прогнозована величина починає виходити за межі якихось значень.

В єдиному застосуванні, методи інтелектуальних обчислень, це невелика, хоча і важлива частина кінцевого програмного продукту. Процедура знаходження знання за допомогою таких методів може об'єднуватися зі знаннями експертів і застосовуватися до даних у базі.

5. Спостереження за моделлю. Коли модель починає працювати в реальному середовищі, то необхідно виміряти міру точності моделі на реальних даних. Однак, навіть якщо модель працює добре, і можна вважати, що робота на цьому закінчується, те все ж таки необхідно продовжувати спостереження за моделлю. Всі системи мають властивість розвиватися, і отримані дані (їхня структура, точність, періодичність) теж міняються. Зовнішні змінні, такі як коефіцієнт інфляції, своєю зміною теж можуть впливати на поведінку людей і на фактори, що впливають на цю зміну. Таким чином, час від часу модель необхідно піддавати процедурі повторного тестування, і навіть перебудовування.

Найпростішим способом спостереження за результатами діяльності моделі є графіки розходжень між передбаченими величинами і реальними значеннями. Вони прості для побудови і розуміння і можуть вбудовуватися в програмні продукти, отже, така автоматизована система може стежити сама за собою й оповіщати користувача, якщо величина цих розходжень починає виходити за визначений граничний рівень.



Поделиться:


Последнее изменение этой страницы: 2017-02-05; просмотров: 312; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.144.172.115 (0.013 с.)