Типи задач відображення і підходи до їх вирішення 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Типи задач відображення і підходи до їх вирішення



Відображення розглядають як функцію f, визначену на множині Х, яка приймає свої значення серед елементів множини Y і кожному елементу з Х має відповідати один і лише один елемент з Y. Пару векторів X и Y називають прикладом або реалізацією.

В задачах відображення нейромережі здійснюють оцінювання та передбачення поведінки об'єктів, в тому числі систем та процесів, що підлягають певним законам і можуть бути задані сукупністю своїх реалізацій.

Кожна реалізація повинна містити набір ознак, які визначають основний зміст об'єкта. Якщо однією з ознак об'єкта дослідження є час, тоді реалізації можуть бути представлені у вигляді часових рядів.

В більшості реальних об'єктів дослідження можливо виділити їх основні складові:

  • детермінована складова, яка в принципі підлягає точному передбаченню;
  • ймовірнісна складова, яку можна передбачити з заданим ступенем ймовірності;
  • чисто випадкова складова, яку неможливо ні врахувати, ні передбачити.

В залежності від ступеня впливу тієї чи іншої складової, можна говорити про певний тип множин даних, що використовується для навчання нейромереж:

  • множина даних детермінована, з усіма врахованими основними параметрами, викликаними дією відомих причин, яка характеризується малим рівнем шумів;
  • множина даних з наявністю ймовірнісної складової, що випливає з експериментальної постановки задачі, з різним ступенем врахування діючих факторів та з впливом похибок оцінювання;
  • множина даних з наявністю чисто випадкової складової внаслідок не врахування ряду визначальних ознак явища.

Такий поділ слід вважати приблизним, але при оцінюванні об'єкта дослідження потрібно обирати такі ознаки, для яких можливе зменшення чисто випадкової складової, оцінювання ймовірнісної складової і максимальне збільшення детермінованої частини.

Задачі відображення можна розбити на два основних класи:

  • класифікація
  • регресія

У задачах класифікації потрібно визначити, до якого з декількох заданих класів належить даний вхідний набір. Прикладами можуть служити надання кредиту, діагностика захворювань, розпізнавання образів.

У задачах регресії потрібно передбачати значення змінної, що приймає неперервні числові значення: ціна акцій, витрата палива в автомобілі, прибуток кампанії і т.п.

Передбачення явищ можна поділити на:

  • передбачення відгуків для множини дискретних вхідних даних, не пов'язаних із часом (економічні, соціологічні оцінки та ін.); дані представлені таблично;
  • прогнозування явищ, які безперервно змінюються у часі (фізичні процеси, природні явища, тощо); дані представлені у вигляді часових рядів.

Для вирішення задачі за допомогою нейронної мережі, необхідно зібрати дані для навчання. Навчальна множина даних являє собою набір прикладів, для яких відомо значення вхідних і вихідних параметрів.

Перше, що потрібно вирішити, - які параметри використовувати і скільки прикладів вибрати.

Початково, вибір параметрів здійснюється інтуїтивно. Досвід роботи в обраній предметній області допоможе визначити, які змінні є важливими. Для початку має сенс включити всі змінні, які, на Вашу думку, можуть впливати на результат - на наступних етапах цю множину можна скоротити.

Для забезпечення обґрунтованого вибору, вилучення несуттєвих ознак, що вносять додаткові спотворення при навчанні, можливе застосування відомих методів математичної статистики.

Факторний аналіз

Внесок кожної вхідної ознаки можна оцінити також за її впливом на середнє значення вихідної величини. Нехай зовнішній вихід моделі НМ залежить від декількох факторів

y = f (a 1 x 1, a 2 x 2,..., aixi...)

Оберемо деякий фактор аіхі. Для всіх реалізацій навчальної множини визначимо значення вихідної величини при наявності та відсутності цього фактору. Обчислимо дисперсію, викликану відсутністю фактора аіхі.

де Y*, Y - відповідно значення середньої величини при відсутності та наявності фактора аіхі.

Визначаємо інтервал D a I=± 2 Sai, в який не повинна попадати оцінка коефіцієнтів аі. При малих коефіцієнтах даний фактор вилучається.

Кореляційний аналіз

Деякі з параметрів, що приймаються до уваги, справляють незначний вплив на формування виходів і можуть бути відкинуті. В якості показника взаємозалежності між системою вхідних величин X =(X 1, X 2,..., X n) і вихідних величин Y, можна вибрати коефіцієнт парної кореляції (наприклад вхідної змінної X 1, та вихідного значення Y)

,

де ; ; N - число реалізацій.

Значення k < 0,6 вважають за порогове. Наприклад, при знаходженні коефіцієнтів кореляції між виходом та входами можна визначити ступінь впливу кожного вхідного параметру на вихід, і використати даний показник для ранжування входів.

Ранжування входів

При проведенні прогнозування, суттєвим для якості прогнозу є врахування реального впливу кожного параметра входу x (х 1,..., хn) на вихідний вектор y. За допомогою кореляційного аналізу обчислюються заздалегідь коефіцієнти парної кореляції між виходом y та кожним з параметрів входу х 1,..., хj,..., хn, що дозволяє сформувати вхідну матрицю згідно ступеня впливу кожного параметра і дозволяє застосувати принцип ранжування входів, який узгоджується з будовою біологічного нейрона. В нейромережу вводиться єдиний параметр для всіх входів мережі - коефіцієнт зважування Kf, який може приймати значення в діапазоні від 0 до 1.

Рис. 1. Вплив коефіцієнта зважування входів.

Для 1 входу всі значення параметра х 1 не змінюються, для 2 входу зменшуються в Kf 1 разів, а для останнього n -го входу вага параметра xn зменшується в Kfn -1 разів (рис. 1). При Kf =1 всі входи рівнозначні, при Kf =0 враховується лише перший вхід, решта входів ігнорується, при 0< Kf <1 зменшується вплив несуттєвих параметрів на вихідну величину y.

Такий підхід вимагає проведення попереднього аналізу інформації, але значне покращення точності прогнозу підтверджує його ефективність.

Вибір даних для обробки

Всяка нейронна мережа приймає на вході числові значення і видає на виході також числові значення. Передатна функція для кожного елемента мережі звичайно вибирається таким чином, щоб її вхідний аргумент міг приймати довільні значення, а вихідні значення лежали б у строго обмеженому діапазоні. При цьому, хоча вхідні значення можуть бути будь-якими, виникає ефект насичення, коли елемент виявляється чуттєвим лише до вхідних значень, що лежать у деякій обмеженій області (наприклад, сигмоїдні або S - функції). У цьому випадку вихідне значення завжди буде лежати в інтервалі (0,1), а область чутливості для входів ледь ширше інтервалу (-1,+1). Дана функція є гладкою, а її похідна легко обчислюється - ця обставина дуже істотна для роботи алгоритму навчання мережі (у цьому також криється причина того, що порогова функція для цієї мети практично не використовується).

При використанні нейронних мереж можуть виникати деякі проблеми, зокрема:

  • дані мають нестандартний масштаб,
  • дані є нечисловими,
  • в даних є пропущені або недостовірні значення.

Числові дані масштабуються в придатний для мережі діапазон. Звичайно дані масштабуються по лінійній шкалі. У пакетах програмних нейромереж реалізовані алгоритми, що автоматично знаходять масштабуючі параметри для перетворення числових значень у потрібний діапазон.

Більш важкою задачею є робота з даними нечислового характеру. Нехай, потрібно навчити нейромережу оцінювати вартість об'єктів нерухомості. Ціна будинку залежить від того, у якому районі міста він розташований. Місто може бути поділено на кілька десятків районів, що мають власні назви, і здається природним увести для позначення району змінну з номінальними значеннями. На жаль, у цьому випадку навчити нейронну мережу буде дуже важко, і замість цього краще привласнити кожному району визначений ранг (ґрунтуючись на експертних оцінках).

Найчастіше нечислові дані бувають представлені у виді номінальних змінних. Номінальні змінні можуть бути двозначними (наприклад, Стать ={ Чоловік, Жінка }) або багатозначними (тобто приймати більше двох значень станів). Двозначну номінальну змінну легко перетворити в числову (наприклад, Чоловік = 0, Жінка = 1). З багатозначними номінальними змінними справа обстоїть складніше. Їх теж можна представити одним числовим значенням (наприклад, Собака = 0, Миша = 1, Кішка = 2), однак при цьому виникне (можливо) помилкове впорядкування значень номінальної змінної: у розглянутому прикладі Миша виявиться чимось середнім між Собакою і Кішкою. Існує більш точний спосіб, відомий як кодування 1-из-N, в якому одна номінальна змінна представляється декількома числовими змінними. Кількість числових змінних дорівнює числу можливих значень номінальної змінної; при цьому всякий раз рівно одна з N змінних приймає ненульове значення (наприклад, Собака = {1,0,0}, Миша = {0,1,0}, Кішка = {0,0,1}). На жаль, номінальна змінна з великим числом можливих станів потребує при кодуванні методом 1-из-N дуже великої кількості числових змінних, а це приводить до росту розмірів мережі і створює труднощі при її навчанні. В таких ситуаціях краще спробувати знайти інший спосіб представлення даних.

Нечислові дані інших типів можна або перетворити в числову форму, або оголосити незначними. Значення дат і часу, якщо вони потрібні, можна перетворити в числові, віднімаючи з них початкову дату (час). Позначення грошових сум перетворити зовсім нескладно. З довільними текстовими полями (наприклад, прізвищами людей) працювати не можна і їх потрібно зробити незначними.

У багатьох реальних задачах приходиться мати справу з не зовсім достовірними даними. Значення деяких змінних можуть бути спотворені шумом чи частково бути відсутніми. Існують спеціальні засоби роботи з пропущеними значеннями (вони можуть бути замінені на середнє значення цієї змінної чи на інші її статистики), так що якщо даних не багато, можна включити в розгляд випадки з пропущеними значеннями. Нейронні мережі у цілому стійкі до шумів. Однак у цієї стійкості є межа. Наприклад, викиди, тобто значення, що лежать дуже далеко від області нормальних значень деякої змінної, можуть спотворити результат навчання. У таких випадках найкраще постаратися знайти і виявити ці викиди (вилучити відповідні приклади або перетворити викиди в пропущені значення). Якщо викиди виявити важко, то можна скористатися можливостями зробити процес навчання стійким до викидів, однак таке стійке до викидів навчання, як правило, менш ефективно, ніж стандартне.

Згладжування даних

Позитивний ефект надається при використанні додаткової нейромережі, що функціонує в режимі згладжування вхідних даних навчальної множини. В режимі навчання додаткової мережі кожна реалізація навчальної множини набуває вигляду: вектор вхідних значень® вектор вхідних значень (рис. 3).

Рис. 3. Приклад застосування нейромережі для згладжування даних

В режимі функціонування на входи подаються вхідні значення навчальної множини, на виході отримуємо згладжені значення, без наявних викидів, які в подальшому можна використовувати для опрацювання. Можна дати наступне пояснення ефекту згладжування даних. Залежність вихідних значень нейромережі від вхідних може бути представлена сумарним степеневим поліномом, так як передатні функції нейронів прихованого шару - поліноміальні. При незначному числі нейронів прихованого шару і невисоких степенях поліномів сумарний поліном буде невисокого степеня, що не дає можливості відтворювати викиди, тобто приводить до згладжуваного відтворення.

Питання про те, скільки прикладів потрібно мати для навчання мережі, часто виявляється непростим. Відомо ряд правил, що погоджують число необхідних прикладів з розмірами мережі (найпростіше з них говорить, що число прикладів повинне бути в десять разів більше числа зв'язків у мережі). Насправді це число залежить також від складності того відображення, що нейронна мережа прагне відтворити. З ростом кількості параметрів кількість необхідних прикладів росте нелінійно, так що вже при досить невеликому числі параметрів може знадобитися величезне число прикладів.

Для більшості реальних задач буває досить декількох сотень чи тисяч прикладів. Для особливо складних задач може знадобитися ще більша кількість, однак дуже рідко може зустрітися задача, де вистачило б менш сотні прикладів. Якщо даних менше, то інформації для навчання мережі недостатньо.

Задачі прогнозування

Особливе значення мають задачі передбачення та прогнозування часових рядів, серед яких виділяються завдання з набором певних специфічних ознак, тому варто провести їх класифікацію. Задачі дослідження явищ, розвиток яких пов'язаний із часом, можна поділити на декілька класів:

За характером основних ознак об'єкту:

  • прогнозування явищ, реалізації яких представлені у вигляді детермінованих часових рядів. Такі задачі, зокрема, можна вирішити шляхом застосування методів математичного аналізу;
  • прогнозування явищ, реалізації яких представлені у вигляді індетермінованих часових рядів. Вирішення цих задач традиційно здійснюється шляхом застосування методів теорії ймовірностей та математичної статистики. Зокрема, реалізації таких явищ, можуть мати вигляд:

а) стаціонарного часового ряду, який характеризується однорідністю в часі, без суттєвих змін характеру коливань та їх середньої амплітуди; вибір проміжку для формування навчальної множини довільний; як приклад такого ряду на рис. 4 наведений графік сумарного річного стоку Дніпра за період з 1810 до 1964 року;

Рис. 4. Розподіл річного стоку Дніпра в часі

б) нестаціонарного часового ряду, який характеризується певною тенденцією розвитку в часі (рис. 2); при дослідженні нестаціонарних процесів можна виділити ділянки, на яких процес можна вважати стаціонарним; вибір проміжку для формування навчальної множини в такому випадку обирається згідно задачі прогнозування;

На рис. 5 наведені щоденні нормовані дані мікросейсмічних коливань Землі за певний період часу.

Рис. 5. Розподіл мікросейсмічних коливань Землі в часі

За числом ознак об'єкту досліджень:

  • одновимірна задача; явище представлене лише однією ознакою, зміни якої відбуваються в часі; на рис. 3 зображені дані спостережень відносних чисел Вольфа, усереднені за місяць, за період з 1900 по 1924 рік;

Рис. 6. Розподіл чисел Вольфа в часі

  • багатовимірна задача; об'єкт або явище представлені кількома ознаками (рис. 7); задача прогнозування може бути розширена завдяки представленню даних в просторі (рис. 8).

Рис. 7. Основні передвісники сейсмічної активності

На рис. 7 представлені щоденні дані деяких з основних ознак, що визначають землетрус. Показані дані, зокрема: F 1 - акоїстика, F 2 - деформації земної поверхні, F 3 - мікросейсмічні коливання Землі, F 4 - сумарна енергія землетрусу, F 5 - температура Землі, що складають ознаки, були виміряні в однакові відліки часу за певний період і надалі використовувались для експериментів.

Як приклад багатовимірної задачі покажемо оцінювання числа груп сонячних плям, усереднених за рік, що визначаються двовимірним розподілом в області двох аргументів - широта-час (рис. 8).

Рис. 8. Просторове відображення кількості сонячних плям в координатах геліоширота-час.

Враховуючи специфічний характер прогнозування часових рядів та певний різнобій в термінології, дотримуватимемося ряду визначень.

Передісторією ряду назвемо набір елементів часового ряду, який враховується для одного кроку прогнозування наступних елементів часового ряду. Однокрокове прогнозування зводиться до задач відображення у випадку, коли значення елементів передісторії можуть визначати лише один дискретний відлік вихідних величин. Багатокрокове прогнозування характеризується збільшенням дискретних відліків вихідної величини і, відповідно, збільшенням часу, на який здійснюється прогноз (час випередження Твип). При багатокроковому прогнозуванні Твип = а * R, де R - кількість кроків обчислення прогнозування; а - крок дискретизації вихідного параметра (наприклад, рік, місяць, день, тощо).

За часом випередження розрізняють види прогнозів:

  • згладжування, R = 0;
  • короткотерміновий прогноз, R = 1 ¸ 2;
  • середньотерміновий прогноз, R = 3 ¸ 7;
  • довготерміновий прогноз, R = 10 ¸ 15.

Очевидно, що вид прогнозу суттєво впливає на вибір засобів і методику його реалізації.



Поделиться:


Последнее изменение этой страницы: 2017-02-05; просмотров: 334; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.117.81.240 (0.037 с.)