Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Архитектура систем аналитической обработки данныхСодержание книги
Похожие статьи вашей тематики
Поиск на нашем сайте
Рис. 1 Архитектура системы многомерного интеллектуального анализа данных
Термин OLAP был введен в 1993 году коллективом в составе: E.F. Codd, S.B. Codd и C.T. Salley в статье “Providing OLAP (On-Line Analytical Processing) to user-analysts: An IT man-date.” в которой впервые было дано формальное определение OLAP-технологии и описаны основные правила OLAP. В последствии эти правила получили название двенадцати правил Кодда. Таблица 2 Двенадцать правил Кодда
Сегодня универсальным критерием определения OLAP как инструмента является тест FASMI (Fast Analysis of Shared Multidimensional Information — быстрый анализ разделяемой многомерной информации). Каждая из составляющих этой аббревиатуры имеет важный смысл, определяя характеристики современной OLAP-системы/19/: - Fast (быстрая) — обеспечивает ответ на запрос пользователя в среднем за пять секунд; при этом большинство запросов обрабатываются в пределах одной секунды, а самые долгие — в пределах 20 секунд. Как показывает практика, пользователь начинает сомневаться в успешности запроса, если он занимает более 30 секунд; - Analysis (аналитическая) — выполняет необходимый логический и статистический анализ и обеспечивать сохранение результатов в виде, доступном для конечного пользователя; - Shared (разделяемая) — предоставляет широкие возможности разграничения доступа к данным и одновременную работу многих пользователей; - Multidimensional (многомерная) — обеспечивает концептуально многомерное представление данных, включая полную поддержку множественных иерархий; - Information (информация) — мощность различных OLAP-систем характеризуется количеством обрабатываемых входных данных: передовые OLAP-решения могут оперировать, по крайней мере, в тысячу раз большим количеством данных по сравнению с самыми маломощными. При выборе OLAP-инструмента также следует учитывать целый ряд факторов, включая дублирование данных, требуемую оперативную память, использование дискового пространства, эксплуатационные показатели, интеграцию с информационными хранилищами и т.п. OLAP системы обладают средствами предоставления пользователю агрегатных данных для различных выборок из исходного набора в удобном для восприятия и анализа виде. Как правило, такие агрегатные функции образуют многомерный набор данных (называемый гиперкубом или метакубом), оси которого содержат параметры, а ячейки — зависящие от них агрегатные данные. Вдоль каждой оси данные могут быть организованы в виде иерархии, представляющей различные уровни их детализации. Благодаря такой модели данных пользователи могут формулировать сложные запросы, генерировать отчеты, получать подмножества данных. Предположим, имеется некоторый массив данных характеризующий деятельность банка. Таблица 3 Массив показателей деятельности банка
В представленной таблице "Филиал", "Вид услуги", "Отчетный период" являются атрибутами, а "Полученный доход" - числовым значением, анализ которого необходимо провести. Посмотрев на таблицу, можно заметить, что ее легко перевести в три измерения: по одной из осей отложим филиалы, по другой – виды услуг, по третьей – отчетные периоды. А значениями в этом трехмерном массиве будет соответствующий полученный доход. Рис. 2 Трехмерный массив данных Такой трехмерный массив в терминах OLAP и называется кубом. На самом деле такой массив далеко не всегда является кубом: у настоящего куба количество элементов во всех измерениях должно быть одинаковым, а у кубов OLAP такого ограничения нет. Тем не менее, термин "куб" является общепринятым. Куб OLAP совсем не обязательно должен быть трехмерным. Он может быть и двух-, и многомерным - в зависимости от решаемой задачи. Профессиональные OLAP-продукты позволяют проводить анализ до 20 измерений. Более простые настольные приложения поддерживают порядка 5-6 измерений. Измерения OLAP-кубов состоят из так называемых меток или членов (members). Например, измерение "Филиал" состоит из меток "Филиал 1", "Филиал 2", "Филиал 3" и так далее. Условие заполнения всех ячеек куба не является обязательным: если нет информации об объемах доходов полученных в январе филиалом 4 от операций с ценными бумагами, значение в соответствующей ячейке просто не будет определено. Куб данных сам по себе для анализа не пригоден. В процессе анализа из многомерного куба извлекают обычные двумерные таблицы. Эта операция называется "разрезанием" куба по требуемым для анализа меткам. В результате получаются обычные двумерные массивы. Полученные в результате «срезов» данные могут быть подвергнуты анализу с использованием различных методик. В настоящее время выделяют статистические и интеллектуальные методы. Аналитические задачи, решаемые статистическими методами, можно разделить на следующие классы: - Горизонтальный (временной) анализ -анализ некоторого показателя в рассматриваемый период в сравнении с предыдущим периодом. - Вертикальный (структурный) анализ -анализ влияния каждой позиции показателей на итоговый показатель. - Трендовый анализ и прогноз - анализ поведения некоторого показателя во времени и выявление основных тенденций изменения этого показателя, не зависящих от случайных факторов. На основе выявленных тенденций производится прогнозирование, т. е. формируются возможные значения исследуемого показателя в будущем. - Анализ относительных показателей - выявление наличия и характера взаимосвязи нескольких показателей, каждый из которых характеризует исследуемый объект, а также оценки и интерпретации таких взаимосвязей. - Сравнительный (пространственный) анализ -выявление закономерностей в некоторых показателях, полученных для различных подразделений, а также сравнение показателей конкретной исследуемой организации с аналогичными показателями других организаций, со средними данными, например по отрасли. - Факторный анализ - анализ влияния отдельных факторов (или причин) на результирующий показатель. Различают прямой факторный анализ, когда некоторый результирующий показатель дробят на составные части, и обратный (синтетический) анализ, когда отдельные элементы (исходные показатели) соединяют в общий результативный (синтетический) показатель. Интеллектуальный анализ данных (ИАД или data mining) представляет собой новое направление в области информационных систем, ориентированное на решение задач поддержки принятия решений на основе количественных и качественных исследований сверхбольших массивов разнородных ретроспективных данных. В настоящее время ИАД использует достижения многих разделов современной математики. Выделяют четыре группы методов анализа данных. Первая группа средств ИАД охватывает методы статистической обработки данных, которые можно разделить на четыре взаимосвязанных раздела: - Предварительный анализ природы статистических данных (проверка гипотез стационарности, нормальности, независимости, однородности, оценка вида функции распределения и ее параметров). - Выявление связей и закономерностей (линейный и нелинейный регрессионный анализ, корреляционный анализ). - Многомерный статистический анализ (линейный и нелинейный дискриминантный анализ, кластер-анализ, компонентный анализ, факторный анализ).
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Последнее изменение этой страницы: 2017-02-05; просмотров: 418; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.119.106.66 (0.01 с.) |