Поняття «епохи» та «перенавчання» 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Поняття «епохи» та «перенавчання»



Боротьба з перенавчанням

Найкращий засіб боротьби з перенавчанням – задати нульовий рівень мінімального покращення. Однак оскільки при навчанні присутній шум, зазвичай не рекомендується припиняти навчання тільки тому, що на черговій епосі помилка погіршилась. Тому в діалогові „Stopping Conditions” – „Умови зупинки” є спеціальне „Вікно” – „Window”, в якому задається число епох, протягом яких повинно спостерігатися покращення, і тільки після цього навчання буде зупинено. Зазвичай в цьому вікні встановлюють значення 5.

 

Збереження найкращої мережі

Ви можете відновити найкращу конфігурацію мережі з всіх, отриманих в процесі навчання, за допомогою опції „Найкраща мережа ” – „Best Network” (меню „Навчання –додаткові” – „Train-Auxiliary”).

Якщо опція „Зберегти найкращу ” – „Retain Best” ввімкнена, програма Neural Networks автоматично зберігає найкращу з мереж, отриману в ході навчання.

Якщо ввімкнена опція „Враховувати всі прогони навчання ” – „Span training runs”, то це робиться і для прогонів навчання різних мереж.

Таким чином, програма Neural Networks автоматично зберігає найкращий результат всіх експериментів.

Можна також встановити «Штраф за елемент ” – „Unit Penalty” з тим, щоб при порівнянні штрафувати мережі з більшою кількістю елементів (найкраща мережа зазвичай представляє собою компроміс між якістю роботи та розміром).

Найкраща мережа

Для того щоб викликати найкращу мережу, натисніть кнопку „Відновити” – „Restore”. Така можливість, як правило, дуже допомагає, але зрозуміло, що вона негативно впливає на ефективність (програма Neural Networks повинна копіювати і зберігати мережу кожен раз, коли досягається покращення), тому в деяких випадках доцільно відключати цю опцію..

Помилки мережі (під час та по результатам навчання) можна спостерігати також у вікні „Помилки спостережень ” – „Case Errors” (доступ – через меню „Статистики” – „Statistic”). Тут виводиться діаграма помилок для окремих спостережень. Встановивши опцію „Перераховувати по ходу” – „Real-time Update”, можна слідкувати за зміною помилок від епохи до епохи.

 

Зворотне розповсюдження

Перед застосуванням алгоритму зворотного розповсюдження необхідно задати значення ряду керуючих параметрів.

Найбільш важливими параметрами є швидкість навчання, інерція і змішування спостережень в процесі навчання.

„Швидкість навчання ” – „Learning rate” задає величину кроку при зміні ваг: у випадку недостатньої швидкості алгоритм повільно сходиться, а при занадто великій - алгоритм нестійкий. Нажаль, величина найкращої швидкості залежить від конкретної задачі; для швидкого і грубого навчання підійдуть значення від от 0,1 до 0,6; для досягнення точного сходження потрібні набагато менші значення (наприклад, 0,01 або навіть 0,001 якщо епох багато тисяч).

Інколи корисно зменшувати швидкість навчання. В програмі Neural Networks можна задавати початкове і кінцеве значення швидкості, і по мірі навчання проводиться інтерполяція між ними. Початкова швидкість задається в лівому полі, кінцева – в правому.

„Інерція” – „Momentum” допомагає алгоритму, коли він застрягає в низинах і локальних мінімумах. Цей коефіцієнт може мати значення в інтервалі від нуля до одиниці.

В реальних умовах «вірне» значення можна знайти тільки дослідним шляхом, і для цього в STATISTICA є всі можливості.

Перемішування спостережень

Перемішувати порядок спостереження зазвичай рекомендується, коли для вирішення задачі використовується метод зворотного розповсюдження, оскільки цей спосіб зменшує ймовірність того, що алгоритм застрягне в локальному мінімумі, а також зменшує ефект перенавчання. Щоб скористатися такою можливістю, встановіть опцію „Перемішувати спостереження ” – „Shuffle Cases”.

При роботі з нейрон мережами слід пам’ятати про важливий момент – процесування або перетворення даних.

 

Пре / пост- процесування

Передаточна функція для кожного елемента мережі зазвичай вибирається так, щоб її аргумент міг приймати довільні значення, а вихідні значення лежали б в строго обмеженому діапазоні. При цьому можливий ефект насичення, коли елемент мережі виявляється чутливим лише до вхідних значень, що лежать в деякій обмеженій області.

Логістична функція є гладкою, її похідна легко обчислюється, що суттєво для алгоритмів мінімізації на етапові навчання мережі (в цьому також ховається причина того, що ступінчаста функція для цієї мети практично не використовується). Якщо застосовується логістична функція для обчислення вихідного сигналу, то вхідне значення завжди лежить в інтервалі (0;1), а область чутливості для входів трохи ширша ніж інтервал (-2;+2).

Щоб узгодити вхід-вихід при вирішенні задач методами нейронних мереж, необхідні етапи попередньої обробки. Ці перетворення включають, зокрема, шкалювання та перетворення категоріальних змінних в числову форму.

 

Шкалювання

Числові значення повинні бути приведені до масштабу який підходить для мережі. В пакеті Нейронні мережі реалізовані алгоритми мінімаксу і середнього/стандартного відхилення, які автоматично знаходять параметри масштабування для перетворення числових значень в потрібний діапазон.

В деяких випадках нелінійне шкалювання може виявитися більш відповідним (наприклад, якщо наперед відомо, що змінна має експоненціальний розподіл, доцільно взяти її логарифм). Можна шкалювати змінну за допомогою засобів перетворення даних в STATISTICA, а потім працювати з нею в модулі Нейронні мережі.

 

Номінальні змінні

Номінальні або категоріальні, змінні перетворюються в числову форму (наприклад, Чол = 0, Жін = 1). Для кодування багатомірних номінальних змінних використовується так званий метод 1-з-N, так як при простому способові кодування може виникнути хибне впорядкування, наприклад Собака = 0, Вівця = 1, Кішка = 2, може виникнути хибне впорядкування значень категоріальної змінної: Вівця виявиться чимось середнім між Собакою і Кішкою.

В методі 1-з-N одна номінальна змінна представляється декількома числовими змінними. Кількість числових змінних рівне числу можливих значень номінальної змінної; при цьому кожного разу рівно одна з N змінних приймає ненульове значення (наприклад, Собака = {1,0,0}, Вівця = {0,1,0}, Кішка = {0,0,1}). Відмітимо, що цей метод кодування вимагає великої кількості числових змінних, якщо номінальна змінна приймає багато значень.

 

Оцінка якості роботи мережі

Після того як мережа навчена, варто перевірити наскільки добре вона працює. Для цього доступні декілька показників.

Середньоквадратична помилка, яка видається у вікні „Графік помилки навчання ” – „Training Error Graph”, представляє лише грубу міру продуктивності. Більш корисні характеристики виводяться у вікнах „Статистики класифікації» – „Classification Statistics” і „Статистики регресії” – „Regression Statistics” (доступ до обох відбувається через меню „Статистики” – „Statistics”).

Вікно „Статистики класифікації” – „Classification Statistics” застосовується для номінальних вихідних змінних. Тут видаються відомості про те, скільки спостережень кожного класу (класи відповідають номінальним значенням) з файлу даних було класифіковано правильно, скільки неправильно і скільки не класифіковано, а також приводяться деталі про помилки класифікації. Навчив мережу, потрібно просто відкрити це вікно і натиснути в ньому кнопку „Запуск” – „Run”. Статистику видаються окремо для навчального, перевірочного і тестового множин (увага: щоб побачити тестові статистики потрібно прокрутити таблицю вправо). В верхній частині таблиці приводяться сумарні статистики (загальна кількість спостережень в кожному класі, скільки з них класифіковано правильно, неправильно і не класифіковано), а в нижній частині – крос-результати класифікації (скільки спостережень з даного стовпця було віднесено до даного рядка).

Вікно „Статистики регресії” – „Regression Statistics” діє у випадку числових вихідних змінних. В ньому точність регресійних оцінок.

Найбільш важливою статистикою є „S. D. Ratio” – відношення стандартного відхилення помилки прогнозу до стандартного відхилення вихідних даних.

Якби у нас взагалі не було вихідних даних, то найкраще, що ми могли б взяти в якості прогнозу для вихідної змінної, – це її вибіркове середнє, а помилка такого прогнозу була б рівна стандартному відхиленню вибірки.

Якщо нейронна мережа працює результативно, ми маємо право очікувати, що її середня помилка на наявних спостереженнях буде наближена до нуля, а стандартне відхилення цієї помилки буде меншим стандартного відхилення вибіркових значень (інакше мережа давала б результат не кращий ніж просте вгадування).

Таким чином, якщо „S. D. Ratio” значно менше одиниці, то мережа ефективна.

Величина, рівна одиниці мінус „S. D. Ratio”, є долею поясненої дисперсії моделі.



Поделиться:


Последнее изменение этой страницы: 2017-02-06; просмотров: 227; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.190.217.134 (0.006 с.)