Технологии информационных хранилищ 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Технологии информационных хранилищ



Использование баз данных не дает желаемого результата автоматизации деятель­ности предприятия. Причина проста: реализованные функции хранения, обработки дан­ных по запросу значительно отличаются от функций ведения бизнеса, так как данные, со­бранные в базах, не адекватны информации, которая нужна лицам, принимающим решения. Решением данной проблемы стала реализация технологии информационных хранилищ (складов данных).

Технологии информационного хранилища обеспечивают сбор данных из сущест­вующих внутренних баз предприятия и внешних источников, формирование, хранение и эксплуатацию информации как единой, хранение аналитических данных (знаний) в форме, удобной для анализа и принятия управленческих решений. К внутренним базам данных предприятия относятся локальные базы подсистем ЭИС (бухгалтерский учет, финансовый анализ, кадры, расчеты с поставщиками и покупателями и т.д.). К внешним базам - любые данные, доступные по интернету и размещенные на web cepвеpax предприятий-конкурентов, правительственных и законодательных органов, других учреждений.

Отличие реляционных баз данных, используемых в ЭИС, от информационного хранилища заключается в следующем:

• Реляционные базы данных содержат только оперативные данные организации. Информационное хранилище обеспечивает доступ как к внутренним данным организации, так и к внешним источникам данных, доступным по интернету.

• База данных ориентирована на одну модель данных функциональной подсисте­мы ЭИС. Базы обеспечивают запросы оперативных данных организации. Информацион­ные хранилища поддерживают большое число моделей данных, включая многомерные, что обеспечивает ретроспективные запросы (запросы за прошлые годы и десятилетия), запросы как к оперативным данным организации, так и к данным внешних источников.

• Данные информационных хранилищ могут размещаться не только на сервере, но и на вторичных устройствах хранения.

 

Технология информационных хранилищ стала возможной после появления мейнфреймов и вторичных устройств - оптических устройств хранения данных с высокой ем­костью. Среди них можно выделить CD-ROM (оптические диски только для чтения), WORM (диски с однократной записью), МО (магнитооптические диски, стираемые и пере­записываемые), оптические библиотеки со сменой дисков вручную, библиотеки-автоматы с автоматической сменой дисков (так называемая технология Jukebox).

Для размещения и доступа к данным на таких устройствах разработан ряд файло­вых систем. Наиболее используемые технологии реализуют системы HSM (Hierarchical Storage Management) и DM (Data Migration). HSM реализует технологии иерархического хранилища , Data Migration - миграции данных. HSM - система создает как бы «продол­жение» дискового пространства файлового сервера на вторичных устройствах (библиоте­ках-автоматах), доступного приложениям

При конфигурации HSM указывается размер пространства на сервере, отводимого под буфер для обмена с оптическими библиотеками. Как только это пространство стано­вится занятым, и требуются данные из оптической библиотеки-автомата, реализуется ал­горитм миграции данных: наименее используемые файлы с сервера переносятся в биб­лиотеку-автомат, освободившееся пространство передается буферу. Из библиотеки в буфер перекачиваются требуемые файлы. Если приложение обратится к файлу, перене­сенному в библиотеку - автомат, HSM повторяет алгоритм миграции.

Все перемещения выполняются автоматически и приложения «не подозревают» о наличии вторичных устройств хранения. Смена оптических дисков в библиотеках-автоматах позволяет неограниченно увеличивать базу данных.

Для хранения данных в информационных хранилищах обычно используются выде­ленные серверы, кластеры серверов (группа накопителей, видеоустройств е общим кон­троллером), мейнфреймы.

Для доступа к информационным хранилищам требуются технологии, удовлетво­ряющие следующим условиям:

малая задержка. Хранилища данных порождают два типа трафика. Первый содержит запросы пользователей, второй - ответы. Для формирования ответа требуется время. Но так как число пользователей велико, время ответа становится неопределенным. Для обычных данных такая задержка не существенна, а для мультимедийных - существенна;

высокая пропускная способность. Так как данные для ответа могут находиться в разных базах на значительных расстояниях друг от друга, требуется время на формирова­ние ответа. Поэтому для обеспечения сбалансированной нагрузки требуется скорость пе­редачи не менее 100 Мега бит/сек;

надежность. При работе с кластерами серверов интенсивный обмен данными
требует, чтобы вероятность потери пакета была очень мала;

возможность работы на больших расстояниях, так как серверы кластера могут
быть удалены друг от друга.

Всем этим требованиям.удовлетворяет АТМ-технология, технологии Fast Ethernet, Fibre Channel и др.

Особенность технологий информационного хранилища состоит в том, что они предлагают среду накопления данных, которая не только надежна, но по сравнению с се­тевыми СУБД оптимальна с точки зрения доступа к данным и манипулирования ими. Ин­формационное хранилище обеспечивает средства для преобразования больших объемов детализированных данных локальных баз посредством статистических методов в форму, которая удобна для стратегического планирования» реорганизации бизнеса, принятия обоснованных управленческих решений. Оно обеспечивает «слияние» сведений из внут­ренних и внешних источников в требуемую предметно ориентированную форму.

В процессе погружения данные:

• Очищаются для устранения ненужной для анализа информации (адреса, почто­вые индексы, идентификаторы записей и т.д.).

• Агрегируются (вычисляются суммарные, средние, минимальные, максимальные и другие статистические показатели).

• Преобразуются в единую структуру хранения из разных типов данных предметных приложений.

• При объединении данных из внутренних и внешних источников производится их преобразование в единый формат.

• Согласуются во времени, то есть приводятся в соответствие к одному моменту
времени (например, к единому курсу рубля на текущий момент) для использования в сравнениях, трендах, прогнозах.

При слиянии данных из разных источников и размещении их в информационном хранилище обеспечивается:

Предметная ориентация. Данные организованы в соответствии со способом их представления в предметных приложениях. В отличие от локальных баз информационное хранилище содержит агрегированные данные и не содержит ненужную с точки зрения анализа информацию, что значительно сокращает объемы хранимой информации.

Целостность и внутренняя взаимосвязь. Хотя данные погружаются из разных внутренних и внешних источников, они объединены едиными законами наименования, способами измерения размерностей и т.д. В разных источниках одинаковые по наименованию данные могут иметь разные формы представления (например, даты) или названия (например, «вероятность доведения информации» в одном источнике и «вероятность по­ лучения информации» - в другом). Подобные несоответствия удаляются автоматически.

Отсутствие временной привязки. Оперативные базы организации содержат дан­ные за небольшой интервал времени (неделя, месяц), что достигается за счет периодиче­ского архивирования данных. Информационное хранилище содержит ретроспективные данные, накопленные за большой интервал времени (года, десятилетия).

Согласование во времени; данные согласуются во времени (например, приводят­ся к единому курсу рубля на текущий момент) для использования в сравнениях, трендах и прогнозах.

Неизменяемость. Данные не обновляются и не изменяются, а только перезагру­жаются и считываются из источников на сервер, поддерживая концепцию «одного прав­дивого источника». Данные доступны только для чтения, так как их модификация может привести к нарушению целостности данных хранилища.

Приложениям клиентов информационное хранилище обеспечивает выбор требуемой им информации по запросам. Запросы клиентов объединяются в распределенные транзакции.

Использование информационных хранилищ дает существенный выигрыш по про­изводительности в системах поддержки принятия решений, в системах обработки большо­го числа транзакций с большим объемом обновления данных. Сами системы на базе ин­формационных хранилищ называют транзакционными системами OLTP ( On-Line Transaction Processing).

Для описания и управления данными в информационном хранилище используется метабаза. Мета - приставка, указывающая на то, что объект относится к более высокому уровню абстракции . Метабаза содержит метаданные, которые описывают, как устроены данные информационного хранилища, частоту изменений данных в источниках, источники данных (возможны ссылки на распределенные базы, размещенные на серверах с дру­гими платформами), кто и как может пользоваться данными, права доступа и др.

Рассмотрим три типа архитектуры информационных хранилищ: витрины данных, двух и трехуровневые архитектуры.

Витрины данных - небольшие хранилища с упрощенной архитектурой, предна­значенные для хранения части данных информационного хранилища с целью снятия на­грузки с основного информационного хранилища. В основном витрины содержат ответы на конкретный ряд вопросов, например, данные АРМ сотрудников организации. Инфор­мация в разных витринах может дублироваться.

Двухуровневая архитектура информационного хранилища (рис. 3.2) обеспечивает ретроспективные запросы (запросы данных за прошлые годы), анализ тенденций, под­держку принятия стратегических решений. Они ориентированы на оперативные базы ор­ганизации и внешние источники, доступные по интернету.


Трехуровневая архитектура информационного хранилища обеспечивает наличие

информационного хранилища и витрин данных (рис. 3.3) За счет использования витрин

данных ускоряется обслуживание и увеличивается число пользователей по

сравнению с двухуровневой архитектурой.

 

Примерами информационных хранилищ могут служить Oracle VLM, разработанная фирмами Oracle и Digital, Red Brick Warehouse 5.0 корпорации Red Brick Systems, Business Information Warehouse и др.

 



Поделиться:


Последнее изменение этой страницы: 2017-02-07; просмотров: 454; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 107.20.123.227 (0.014 с.)