Организация хранилищ данных. Многомерная модель данных. Факты и измерения. Информационные потоки хранилищ данных. ETL-процесс. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Организация хранилищ данных. Многомерная модель данных. Факты и измерения. Информационные потоки хранилищ данных. ETL-процесс.



Принято разделять все данные на измерения и факты.

Измерениями называются наборы данных, необходимые для описания событий (например, города, товары, люди и т. п.).

Фактами называются данные, отражающие сущность события (например, количество проданного товара, результаты экспериментов и т. п.).

Фактические данные могут быть представлены в виде числовых или категориальных значений.

Все данные в ХД делятся на три основные категории:

§ детальные данные;

§ агрегированные данные;

§ метаданные.

Детальными являются данные, переносимые непосредственно из ОИД. Они соответствуют элементарным событиям, фиксируемым OLTP-системами (например, продажи, эксперименты и др.).

На основании детальных данных могут быть получены агрегированные (обобщенные) данные. Агрегирование происходит путем суммирования числовых фактических данных по определенным измерениям.

В зависимости от возможности агрегировать данные они подразделяются на следующие типы:

· аддитивные – числовые фактические данные, которые могут быть просуммированы по всем измерениям;

· полуаддитивные – числовые фактические данные, которые могут быть просуммированы только по определенным измерениям;

· неаддитивные – фактические данные, которые не могут быть просуммированы ни по одному измерению.

Большинство пользователей СППР работают не с детальными, а с агрегированными данными. Архитектура ХД должна предоставлять быстрый и удобный способ получать интересующую пользователя информацию.

Для этого необходимо часть агрегированных данных хранить в ХД, а не вычислять их при выполнении аналитических запросов. Очевидно, что это ведет к избыточности информации и увеличению размеров ХД.

При проектировании таких систем важно добиться оптимального соотношения между вычисляемыми и хранящимися агрегированными данными. Те данные, к которым редко обращаются пользователи, могут вычисляться в процессе выполнения аналитических запросов. Данные, которые требуются более часто, должны храниться в ХД.

Для удобства работы с ХД необходима информация о содержащихся в нем данных. Такая информация называется метаданными (данные о данных).

Метаданные описывают:

· объекты предметной области, информация о которых хранится в ХД;

· категории пользователей, использующих данные;

· местоположение серверов, рабочих станций, ОИД, размещенные на них программные средства и распределение между ними данных;

· действия, выполняемые над данными;

· время выполнения разных операций над данными;

· причины, повлекшие выполнение над данными тех или иных операций.

Так как метаданные играют важную роль в процессе работы с ХД, то к ним должен быть обеспечен удобный доступ. Для этого они сохраняются в репозитории метаданных с удобным для пользователя интерфейсом.

ОИД – Оперативный источник данных, СППР - система поддержки принятия решений.

Данные, поступающие из ОИД в ХД, перемещаемые внутри ХД и поступающие из ХД к аналитикам, образуют следующие информационные потоки:

§ входной поток – образуется данными, копируемыми из ОИД в ХД;

§ поток обобщения – образуется агрегированием детальных данных и их сохранением в ХД;

§ архивный поток – образуется перемещением детальных данных, количество обращений к которым снизилось;

§ поток метаданных – образуется переносом информации о данных в репозиторий данных;

§ выходной поток – образуется данными, извлекаемыми пользователями;

§ обратный поток – образуется очищенными данными, записываемыми обратно в ОИД.

Самый мощный из информационных потоков – входной – связан с переносом данных из ОИД.

Процесс переноса включает в себя следующие этапы:

§ извлечения;

§ преобразования;

§ загрузки.

Процесс переноса называют ETL-процессом (Е – extraction, Т – transformation, L – loading: извлечение, преобразование и загрузка, соответственно).

Традиционно ETL-системы использовались для переноса информации из устаревших версий информационных систем в новые. В настоящее время ETL-процесс находит все большее применение для переноса данных из ОИД в ХД и ВД.

ОИД – Оперативный источник данных, СППР - система поддержки принятия решений, ХД – хранилище данных.

Чтобы начать ETL-процесс, необходимо извлечь данные из одного или нескольких источников и подготовить их к этапу преобразования. Можно выделить два способа извлечения данных:

1. Извлечение данных вспомогательными программными средствами непосредственно из структур хранения информации (файлов, электронных таблиц, БД и т. п). Достоинствами такого способа извлечения данных являются:

· отсутствие необходимости расширять OLTP-систему (это особенно важно, если ее структура закрыта);

· данные могут извлекаться с учетом потребностей процесса переноса.

2. Выгрузка данных средствами OLTP-систем в промежуточные структуры. Достоинствами такого подхода являются:

· возможность использовать средства OLTP-систем, адаптированные к структурам данных;

· средства выгрузки изменяются вместе с изменениями OLTP-систем и ОИД;

· возможность выполнения первого шага преобразования данных за счет определенного формата промежуточной структуры хранения данных.

После того как сбор данных завершен, необходимо преобразовать их для размещения на новом месте. На этом этапе выполняются следующие процедуры:

обобщение данных (aggregation) – перед загрузкой данные обобщаются. Процедура обобщения заменяет многочисленные детальные данные относительно небольшим числом агрегированных данных.

перевод значений (value translation) – в ОИД данные часто хранятся в закодированном виде для того, чтобы сократить избыточность данных и память для их хранения.

создание полей (field derivation) – при создании полей для конечных пользователей создается и новая информация.

очистка данных (cleaning) – направлена на выявление и удаление ошибок и несоответствий в данных с целью улучшения их качества.

После того как данные преобразованы для размещения в ХД, осуществляется этап их загрузки. При загрузке выполняется запись преобразованных детальных и агрегированных данных. Кроме того, при записи новых детальных данных часть старых данных может переноситься в архив.

Измерение (dimension) – это способ ранжирования данных, используемый для разделения агрегированных мер на составляющие их части.

Множественность измерений предполагает представление данных в виде многомерной модели.

По Кодду, многомерное концептуальное представление (multi-dimensional conceptual view) – это множественная перспектива, состоящая из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных.

Каждое измерение может быть представлено в виде иерархической структуры.

На пересечениях осей измерений располагаются данные, количественно характеризующие анализируемые факты, – меры (measures).

Мера – это численное значение, выражающие определенный аспект эффективности деятельности организации. Информация, представляемая этим значением, используется для принятия решения или оценки эффективности работы организации. Меры также называют фактическими значениями, или просто фактами.

Таким образом, многомерную модель данных можно представить как гиперкуб. Ребрами такого гиперкуба являются измерения, а ячейками – меры.



Поделиться:


Последнее изменение этой страницы: 2017-02-22; просмотров: 684; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.146.34.191 (0.009 с.)