Основні поняття відмовостійкості 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Основні поняття відмовостійкості



КОМП ’ ЮТЕРНИХ СИСТЕМ

 

Відмовостійкість - це здатність|здібність| обчислювальної системи продовжувати дії, задані програмою, після|потім| виникнення несправностей. Введення|вступ| відмовостійкості вимагає надмірного|надлишкового| апаратного і програмного забезпечення. Напрями|направлення|, пов'язані із запобіганням несправностям і з|із| відмовостійкістю, - основні для забезпечення надійності. Концепції паралельності і відмовостійкості обчислювальних систем природним чином зв'язані між собою, оскільки в обох випадках потрібні додаткові функціональні компоненти. Тому на паралельних обчислювальних системах досягається як найбільш висока продуктивність, так і, у багатьох випадках, дуже висока надійність. Наявні ресурси надмірності в паралельних системах можуть гнучко використовуватися як для підвищення продуктивності, так і для підвищення надійності. Структура багатопроцесорних і багатомашинних систем пристосована до автоматичної реконфігурації| і забезпечує можливість|спроможність| продовження роботи системи після|потім| виникнення несправностей.

Відновлення після помилок в відмовостійких системах можна характеризувати як прогін (roll-forward) або відкат (roll-back). Коли система визначила, що сталася помилка, відновлення прогоном випраляє поточний стан системи до можливості продовження роботи. Відкочування повертає стан системи до деякої попередньої, вірної версії, наприклад, із використанням контрольних точок, і продовжує виконання звідти. Відкочування вимагає, щоб операції між контрольними точками і станом із виявленою помилкою могли бути зроблені ідемпотентними. Деякі системи використовують обидва підходи для різних помилок або для ріних частин однієї помилки.

В межах окремої системи, відмовостійкість може бути досягнута очікуванням виняткових умов і побудовою системи, що могла б упоратись із ними, і, загалом, метою для самостабілізації є система, що сходиться в напрямку до стану без помилок. Однак, якщо наслідки збоїв системи є катастрофічними, або ціна побудови достатньо надійної системи занадто висока, кращим рішенням може бути деяка форма дублювання. В будь-якому випадку, якщо наслідки збою катастрофічні, система має бути спроможною використати реверсію, щоб повернутися до безпечного стану. Це подібно до відкочування, але може бути зроблене людиною, якщо вона присутня в процесі.

Особливостями відмовостійких комп’ютерних систем (КС) є: їх висока безвідмовність, безперебійність роботи системи при наявності відмов та більш тривалий життєвий цикл експлуатації.

Відмовостійкі системи мають і ряд специфічних характеристик: складність дизайну, висока вартість розробки, підвищення енергоспоживання, ускладення системи.

Типи систем за рівнем надійності представлено в таблиці 21.1.

 

Таблиця 21. 1 - Типи відмовостійких систем за рівнем надійності

Рівень надійності, % Максимальний час простою, на рік Тип системи
99 3,5 доби Звичайна
99,9           8,5 годин Високої надійності
99,99         1 година   Відмовостійка
99,999 5 хвилин на рік Безвідмовна

 

При виборі та експлуатації відмовостійких систем визначальний вплив мають наступні характеристики:

- доступність – ймовірність того, що система у певний момент часу буде знаходитись в працездатному стані;

- безвідмовність – властивість системи протягом певного проміжку часу працювати без відмов;

- висока ремонтоздатність – готовність до роботи після виникнення несправності, яка визначає ступінь складності виправлення дефекту/несправності/помилки у системі.

Розробка відмовостійкої системи, а також її відмовостійка експлуатація, повинні базуватись на розумінні природи таких типів відмов, ймовірність виникнення яких є максимальною за даних умов експлуатації системи.

За часом впливу на об’єкт відмови поділяються на:

- постійні (permanent fault) – одноразовий вплив без можливості наступного використання системи;

- з перервами (intermittent fault) – багаторазове повторення ситуації без можливості визначення її закономірності;

- перехідні (transient fault) – одноразова тимчасова відмова без можливості її повторення при рестарті системи.

Відмови можуть виникати раптово (без попереднього погіршення вихідних характеристик) або наперед прогнозуватись за постійними змінами вихідних характеристик.

Ціна відмови комп’ютерної системи складається з декількох компонентів:

- втрати прибутку;

- непродуктивної роботи персоналу;

- зростаючої недовіри клієнтів;

- втрачених ділових можливостей.

За оцінками різних дослідників, простій комп’ютерних систем обходиться бізнесу США в мільярди доларів – порядку сотні тисяч доларів за годину простою. На сьогодні не існує системи, яка гарантує 100% відмовостійкість, тобто 100% ймовірність безвідмовної роботи протягом заданого проміжку часу.

Технічне діагностування КС передбачає такі основні функції, як контроль їх технічного стану, пошук місця і визначення причин несправності та прогнозування технічного стану.

Процес діагностування відмовостійких КС на етапі експлуатації має ряд особливостей:

- можливість виникнення відмови довільних елементів, кількість яких перевищує максимально допустиме число для характерних несправностей;

- наявність проміжних відмов, які призводять до різних несправностей;

- вплив невиявлених відмов на результати діагностування;

- взаємний вплив прихованих несправностей;

- виникнення додаткових проблем забезпечення надійності при використанні зовнішніх засобів діагностування;

- вплив типу архітектури таких систем, особливостей зв’язків між елементами (наявність несиметричної нерегулярної структури зв’язків) та кількості цих зв’язків на результат діагностування.

Крім особливостей процесу діагностування КС на етапі експлуатації, самі відмовостійкі комп’ютерні системи, як об’єкти діагностування, мають такі особливості:

- неможливість або обмеженість доступу до окремих вузлів в реальному часі на етапі експлуатації, особливо в таких галузях, як авіаційна, космічна, атомна енергетика та транспорт;

- відсутність або висока вартість спеціалізованих апаратних та програмних засобів діагностування КС;

- наявність надлишковості апаратури для всіх функційних блоків, включаючи процесори, джерела живлення, підсистеми введення/виведення та підсистеми дискової пам’яті, що, в свою чергу, зумовлює особливості цих складових як об’єктів діагностування;

- ускладнення складових елементної бази апаратних компонентів, що мають високий ступінь інтеграції з різними фізичними та обчислювальними характеристиками.

Слід враховувати також, що на даний час суттєво скорочуються строки проектування та виробництва КС, внаслідок чого етап експлуатації відмовостійких КС недостатньо забезпечений документацією.

Головними характеристиками відмовостійких КС, у порівнянні із стандартними системами, є мінімальна частота відмов та збоїв і швидкий перехід до нормального режиму функціювання після виникнення несправності шляхом швидкого відновлення додатків та мережевих сесій до того стану, в якому вони знаходились у момент відмови системи.

Таким чином, відмовостійкістю називають властивість системи, що дозволяє продовжити виконання заданих програмою дій після виникнення одного або декількох збоїв або відмов компонентів КС.

Відмовою називається подія, що полягає в порушенні працездатності компоненту системи. Наслідки відмови можуть бути різними. Відмова системи може бути викликана відмовою (невірним спрацьовуванням) певних її компонентів (процесор, пам’ять, пристрої введення/виведення, лінії зв’язку, або програмне забезпечення). Відмова компонента може бути викликана помилками при конструюванні, при виробництві або програмуванні. Відмова може бути також викликана фізичним ушкодженням, зношенням обладнання, некоректними вхідними даними, і багатьма іншими причинами.

Відмови можуть бути випадковими, періодичними або постійними. Випадкові відмови (збої) при повторенні операції зникають. Причиною такого збою може бути, наприклад, електромагнітна завада. Інший приклад – рідкісна ситуація в послідовності звернень до операційної системи від різних завдань. Періодичні відмови повторюються часто протягом певного часу, а потім можуть довго не відбуватиметься. Приклади - поганий контакт, некоректна робота ОС після обробки аварійного завершення завдання.

Постійні (стійкі) відмови не припиняються до усунення їх причини – руйнування диска, виходу з ладу мікросхеми або помилки в програмі.

 



Поделиться:


Последнее изменение этой страницы: 2021-12-15; просмотров: 124; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.137.192.3 (0.009 с.)