ЗНАЕТЕ ЛИ ВЫ?

Об'єктно-реляційні бази даних



 

Об'єктно-реляційна БД −база даних,в якій підтримуєтьсяяк реляційне, так і об'єктне представлення. В основі цих баз лежить розширення реляційної моделі. До характеристик цієї моделі можна віднести:

· визначення користувачем абстрактних типів даних;

· підтримку наслідування;

· можливість створювати більш складні у порівнянні з реляційною БД моделі;

· застосування унікальних ідентифікаторів, що генеруються системою.

Об'єктно-реляційні БД мають такі особливості:

· підтримують структурні типи атрибутів (множини. мультимножини і т.ін.), тобто компонент кортежу одного відношення здатний, в свою чергу, зберігати інше відношення;

· дозволяють визначати спеціальні операції, які виконуються над даним деякого типу, який оголошений користувачем;

· кортежі виконують функції об'єктів, тому у багатьох випадках вони мають унікальні ідентифікатори, які дозволяють відрізняти один кортеж від іншого при рівних значеннях у всіх компонентах;

· дозволяється використовувати посилання на кортежі відношення.

Тема 12. Сховище даних

 

1. Організація сховищ даних

2. Багатомірна модель сховища

3. Проектування сховищ даних

 

Організація сховищ даних

 

Сховище даних (Data Warehouse, DW)система,щопідтримує несуперечливу інтегровану предметно-орієнтовану сукупність історичних даних організації з метою підтримки прийняття стратегічних рішень. Сховище даних представляє також різнобічні інструментальні засоби для аналізу даних.

Концепція сховищ даних − це концепція підготовки даних для подальшого аналізу. Інформаційні сховища призначені для систем підтримки прийняття рішень. Сховища даних розробляються з урахуванням специфіки предметної області, а не застосувань, які обробляють дані. Дані у сховищі повинні бути інтегровані, зведені до єдиного синтаксичного і семантичного вигляду, перевірені на цілісність і несуперечливість.

В основі концепції сховищ даних лежить ідея розподілу на дві групи даних, що використовуються: для оперативної обробки (OLTP) і для рішення задач аналізу (OLAP).

OLTP (On-Line Transaction Processing)системиоперативной обробки транзакцій, які призначені для підтримки поточної діяльності різного роду організацій.

OLAP (On-Line Transaction Processing)системиоперативної аналітичної обробки, які призначені для підтримки прийняття рішень і орієнтовані головним чином на нерегламентовані запити. Термін OLAP дозволяє описувати технологію обробки даних, в якій застосовується багатомірне представлення агрегованих даних для забезпечення швидкого доступу до даних для поглибленого аналізу.

Порівняльний аналіз OLTP і OLAP систем наведено в табл. 12.1.

Архітектура сучасних сховищ даних базується або на використанні багатомірної моделі БД (Multidimension OLAP, MOLAP),або на реляційній моделі БД(Relational OLAP,

ROLAP).

Таблиця 12.1

Порівняльний аналіз OLTP і OLAP систем

Характеристика OLTP-система OLAP-система  
Ступінь   Зберігання тільки Зберігання як  
деталізації даних, деталізованих деталізованих, так  
що зберігаються даних і узагальнених  
      даних  
Управління   Управління Періодичне  
даними   даними в будь- додавання даних  
    який час    
Допущення   Забезпечується Допускається  
збитковості даних максимальна контрольована  
    нормалізація денормалізація  
    даних даних  
Характер запитів Доступ до даних Запити до даних  
до даних   по заздалегідь можуть бути  
    складеним довільні і  
    запитам заздалегідь не  
      оформлені  
Частота оновлення Висока частота, Мала частота,  
    маленькими великими  
    порціями порціями  
Вік даних   Поточні (до Історичні (за  
    одного року) декілька років) і  
      прогнозні  
             

Складність створення сховищ даних викликала необхідність розробки і організації підмножин даних сховища, які називаються кіосками даних.

Кіоск даних (вітрина даних)спрощений варіантсховища даних, який містить тільки тематично об'єднані дані. Кіоск даних максимально наближений до кінцевого користувача і містить дані орієнтовані на нього.

Одна з найважливіших частин сучасних аналітичних систем − це засоби інтелектуального аналізу даних. Виконання більшості аналітичних запитів користувачів потребує складної статистичної обробки, застосування штучного інтелекту.

Data Mining − дослідження і знаходження комп'ютером (засобами штучного інтелекту) в даних прихованих закономірностей, які не були раніше відомі, нетривіальні, практично корисні, доступні для інтерпретації людиною.

На рис. 12.1 показана логічна схема аналітичної системи зі сховищем даних.

 

 

Постачальники

інформації

OLTP-системи Електронні архіви

 

Завантаження даних, зведення даних до єдиного формату, агрегування даних

 

ІНФОРМАЦІЙНЕ СХОВИЩЕ

 

    . . .  
Кіоск даних Кіоск даних . . . Кіоск даних
Підсистема аналізу Підсистема аналізу   Підсистема аналізу
(OLAP і Data Mining) (OLAP і Data Mining) (OLAP і Data Mining)

 

 

Застосування користувачів

 

 

Рис. 12.1. Схема аналітичної системи зі сховищем даних

 

 

Багатомірна модель сховища

 

Багатомірна модель передбачає, що дані зберігаються не у вигляді плоских таблиць, як в реляційній БД, а у вигляді гіперкубів −впорядкованих багатомірних масивів.Багатомірне представлення даних тут реалізується фізично. Багатомірні СУБД забезпечують більш швидкий у порівнянні з реляційними системами пошук і читання даних. В цьому випадку немає потреби у багаторазовому з'єднанні таблиць. Такий підхід вимагає більше пам'яті для зберігання даних, при його використанні важко модифікувати структуру даних.

У багатомірній моделі розглядаються такі операції маніпулювання даними:

· переріз,який передбачає формування підмножинигіперкуба, в якому значення одного або більшої кількості вимірів є фіксованим;

· обертання,при якому змінюється порядокпредставлення вимірів;

· згорнення,передбачає заміну одного з вимірів іншимбільш високого рівня ієрархії;

· деталізація −це операція зворотна до згорнення ізабезпечує перехід від узагальнених даних до деталізованих.

Багатомірна СУБД краще за інші системи виконує складні нерегламентовані запити.

 

Проектування сховищ даних

 

При створенні сховища даних однією з основних задач є визначення оптимальної структури зберігання даних з точки зору забезпечення прийнятного часу відповіді на аналітичні запити і потрібного об'єму пам'яті.

Всі дані в сховищі даних поділяються на категорії:

· детальні дані;

· агреговані дані;

· метадані.

Детальні дані −дані,які переносяться безпосередньо відоперативних джерел інформації (OLTP). Вони відповідають елементарним подіям, що фіксуються в звичайних БД. Всі дані поділяються на виміри і факти. Вимірами називаються набори даних, які необхідні для опису подій (студенти, факультети і т.ін.). Вимір є аналогом домену в реляційній моделі. Виміри грають роль індексів для ідентифікації конкретних значень в комірках гіперкуба. Фактами називаються дані, які відображають сутність події (результати екзамену, кількість студентів і т.ін.). Непотрібні детальні дані можуть зберігатися в архівах у стислому вигляді.

Агреговані дані −дані,які отримують агрегуваннямдетальних даних по певних вимірах. Частина агрегованих даних безпосередньо зберігається в сховищі даних, а не обчислюється при виконанні запитів.

Метадані −це високорівневі засоби відображенняінформаційної моделі. Метадані містять таку інформацію: опис структури даних сховища, структури даних, які імпортуються з різних джерел, відомості про періодичність імпортування, методах завантаження і узагальнення даних, засобах доступу і правилах представлення інформації, оцінки витрат часу на отримання відповіді на запит. Метадані знаходяться в репозиторії метаданих.

Послідовність проектування сховища даних показана на рис. 12.2.

Розмірності встановлюють контекст для пошуку відповідей на питання, що стосуються фактів в таблиці фактів. Вдало підібрані розмірності дозволяють зробити магазин даних зрозумілим і легким у використанні. Одна і та ж розмірність в різних магазинах даних повинна бути однаковою, або бути підмножиною іншої розмірності. Всі факти повинні бути визначені на відповідному рівні деталізації.

Існують інші підходи до створення сховища даних. Один з найбільш поширених передбачає декомпозицію проекту сховищ даних на магазини даних з подальшою інтеграцією інформації.

 

Визначення ступеня деталізації таблиці фактів

 

Визначення і узгодження розмірностей

 

Визначення фактів

 

Визначення тривалості зберігання даних

 

 

Визначення режимів запитів

 

Рис. 12.2. Послідовність проектування сховища даних

 

При моделюванні сховищ даних використовуються концепції ER-моделювання з деякими обмеженнями. Кожна модель складається з таблиці зі складовим ключем, яка називається таблицею фактів, і набору невеликих таблиць, які називаються таблицями розмірностей. У таблиці фактів розміщуються дані, які найбільш інтенсивно використовуються для аналізу. Запис фактологічної таблиці відповідає комірці гіперкуба. У довідковій таблиці перелічені можливі значення одного з вимірів гіперкуба. Кожен вимір описується своєю власною таблицею.

Кожна таблиця розмірності має простий первинний ключ, який точно відповідає одному з компонентів складового ключа в таблиці фактів. Тобто первинний ключ таблиці фактів складається з декількох зовнішніх ключів. Така централізована структура називається схемою "зірка".

Приклад.Розглянемо організацію сховища даних длявищих навчальних закладів України. За вимірювання візьмемо такі величини:

· параметри, що характеризують діяльність ВНЗ (кількість студентів, конкурс і т.ін.);

· опис ВНЗ (назва, факультети, спеціальності і т.ін.);

· момент часу (рік, квартал, місяць і т.ін.).

Кількість можливих параметрів, ВНЗ, а також моментів часу, що розглядаються, кінцева, тому всі значення можливо представити у вигляді гіперкуба. У цьому гіперкубі кожне значення знаходиться в окремій комірці. На рис. 12.3 наведена спрощена схема структури сховища даних.

 

Рис. 12.3. Приклад бази даних з радіально зв'язаними таблицями

 

Приклади запитів до сховища даних: "Визначити середню успішність студентів в технічних університетах", "Як змінився конкурс студентів на економічні спеціальності за останні п'ять років?"

Якщо БД включає велику кількість вимірів, то можна використовувати схему "сніжинка". В цій схемі атрибути таблиць розмірності можуть бути деталізовані у додаткових довідкових таблицях.





Последнее изменение этой страницы: 2016-07-16; Нарушение авторского права страницы

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 35.153.39.7 (0.007 с.)