Архитектура и технология функционирования 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Архитектура и технология функционирования



В настоящее время существуют фактические стандарты построения корпоративных информационно-аналитических систем, основанных на концепции хранилища. Эти стандарты опираются на современные исследования и общемировую практику создания хранилищ данных и аналитических систем. В общем виде архитектура корпоративной информационно-аналитической системы описывается схемой с тремя выделенными слоями (рис.1):

– Извлечение, преобразование и загрузка данных

– Хранение данных

– Анализ данных (рабочие места пользователей)

Технология функционирования системы состоит

в следующем. Данные поступают из различных внутренних транзакционных систем, от подчиненных структур, от внешних организаций в соответствии с установленным регламентом, формами и макетами отчетности. Вся эта информация проверяется, согласуется, преобразуется и помещается в хранилище и витрины данных. После этого пользователи с помощью специализированных инструментальных средств получают необходимую им информацию для построения различных табличных и графических представлений, прогнозирования, моделирования и выполнения других аналитических задач.

Рассмотрим подробнее каждый из слоев.

Извлечение, преобразование и загрузка данных

В качестве источников информации для хранилища могут использоваться базы данных внутренних транзакционных систем, информационные системы подчиненных организаций, данные, поступающие из внешних организаций. С организационной точки зрения, данный слой включает подразделения и структуры организации всех уровней, поддерживающие базы данных оперативного доступа. Он представляет собой низовой уровень генерации информации, уровень внутренних и внешних информационных источников, вырабатывающих “сырую” информацию. Эта информация является рабочей для повседневной деятельности различных подразделений, которые ее вырабатывают и используют. С системно-технической точки зрения данный слой представлен ЛВС всех подразделений всех уровней, к которым подключены специализированные технические комплексы, хранящие информацию. В качестве таких технических комплексов могут выступать, во-первых, серверы реляционных (SQL-ориентированных) баз данных на базе компьютеров под управлением Windows NT, Unix и др. Во-вторых, это могут быть файловые серверы, на которых установлена какая-либо система обработки данных (например, Btrieve) или сетевая версия СУБД класса персональных (например, Paradox, FoxPRO и т.д.). В-третьих, это могут быть персональные компьютеры с локальными персональными базами данных или файлами.

Из источников данных информация перемещается на основе некоторого регламента в централизованное хранилище. Как правило, необходимые для хранилища данные не хранятся в окончательном виде ни в одной из транзакционных систем. Эти данные обычно можно получить из исходных баз данных путем специальных преобразований, вычислений и агрегирования. Кроме того, несмотря на различную функциональную направленность исходные транзакционные системы часто «пересекаются» по данным, т.е. их локальные базы данных содержат однотипную по смыслу информацию. Это прежде всего касается нормативно-справочной информации, которая используется в том или ином виде в любой оперативной системе. При этом существенно, что одинаковые по смыслу данные обычно имеют в разных системах различный формат, вид представления, идентификацию, единицы измерения и т.п. Перед загрузкой в хранилище вся эта информация должна быть согласована, чтобы обеспечить целостность и непротиворечивость аналитических данных.

Согласование данных необходимо и при загрузке данных из одного источника. Дело в том, что в хранилище хранятся исторические данные, т.е. данные за достаточно большой промежуток времени. В оперативной системе данные хранятся в целостном виде за ограниченный промежуток, после чего они отправляются в архив.

При изменениях в структуре или собственно данных архивы не подвергаются никакой дополнительной обработке, а хранятся в исходном виде. Следовательно, при необходимости иметь данные за достаточно большой период времени необходимо согласовывать архивную информацию с текущей.

Таким образом, загрузка данных из источников в хранилище осуществляется специальными процедурами, позволяющими – извлекать данные из различных баз данных, текстовых файлов;

– выполнять различные типы согласования и очистки данных;

– преобразовывать данные при перемещении их от источников к хранилищу;

– загружать согласованные и «очищенные» данные в структуры хранилища

Для разработки, поддержки и выполнения таких процедур рекомендуется использовать специализированный инструментарий, предназначенный для автоматизации процессов извлечения данных их источников, их преобразования и загрузки в целевое хранилище. Такой инструментарий должен обеспечивать автоматическое формирование процедур загрузки на основе декларативной информации об источниках, правилах согласования и преобразования. Вся эта информация вводится администратором перемещения данных и хранится в виде метаданных в репозитории системы.

Извлечение, преобразование и загрузка данных должна осуществляться как непосредственно вызовом соответствующих процедур, так и в автоматическом режиме, на основе скриптов и расписаний, составленных на этапе разработки системы.

Хранение данных

Второй слой предназначен непосредственно для хранения значимой, проверенной, согласованной, непротиворечивой и хронологически целостной информации, которую с достаточно высокой степенью уверенности

можно считать достоверной.

Собственно хранилище данных не ориентировано на решение какой-либо определенной функциональной

аналитической задачи. Цель хранилища – обеспечить целостность и поддерживать хронологию всевозможных корпоративных данных, и с этой точки зрения оно нейтрально по отношению к приложениям. В связи с этим в большинстве случаев для выполнения определенного комплекса функционально замкнутых аналитических задач рационально создавать витрины данных, в основе которых может быть как многомерная, так и реляционная модель данных. По существу витрина представляет собой относительно небольшое, но что самое важное, функционально-ориентированное хранилище, в котором информация хранится специальным образом, оптимизированным с точки зрения решения конкретных аналитических задач некоторого подразделения или группы аналитиков. Обычно информация попадает в витрины из хранилища и в этом случае витрины называются зависимыми. Возможна также ситуация, когда источником информации для пополнения витрин служат непосредственно оперативные и внешние транзакционные системы. Такие витрины, получившие название независимых, как правило, рассматриваются как временное решение, позволяющее достаточно быстро и с небольшими затратами решить наиболее важные задачи, оценить преимущества нового подхода, сформулировать некоторые рекомендации для более масштабного проекта разработки общего хранилища.

Хранилище реализуется в виде реляционной базы данных, работающей под управлением достаточно мощной реляционной СУБД. Такая СУБД должна поддерживать эффективную работу с терабайтными объемами информации, иметь развитые средства ограничения доступа, обеспечивать повышенный уровень надежности и секретности, соответствовать необходимым требованиям по восстановлению и архивации и т.п..

Витрины данных могут строиться на основе как реляционной, так и многомерной технологии баз данных.

Обычно для достаточно большой части аналитических приложений оказывается удобной и эффективной технология интерактивного многомерного анализа и в этом случае витрина представляет собой многомерную базу данных, реализованную в архитектуре OLAP, ROLAP или HOLAP.

Анализ данных

Для организации доступа аналитиков к данным хранилища и витрин используются специализированные рабочие места, поддерживающие необходимые технологии как оперативного, так и долговременного анализа. Результаты работы аналитиков оформляются в виде отчетов, графиков, рекомендаций и сохраняются как на локальном компьютере, так и в общедоступном узле локальной сети.

Аналитическая деятельность в рамках корпорации достаточно разнообразна и определяется характером решаемых задач, организационными особенностями компании, уровнем и степенью подготовленности аналитиков. В связи с этим современный подход к инструментальным средствам анализа не ограничивается использованием какой-то одной технологи. В настоящее время принято различать четыре основных вида аналитической деятельности (рис. 1): стандартная отчетность, нерегламентированные запросы, многомерный анализ (OLAP) и извлечение знаний (data mining). Каждая из этих технологий имеет свои особенности, определенный набор типовых задач и должна поддерживаться специализированной инструментальной средой.

 

 



Поделиться:


Последнее изменение этой страницы: 2017-01-25; просмотров: 96; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.129.23.30 (0.007 с.)