Тема 8. Понятие измерения: типы шкал, факты и параметры, иерархия измерений. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Тема 8. Понятие измерения: типы шкал, факты и параметры, иерархия измерений.



 

1. упорядоченность данных (один пункт шкалы, соответствующий измеряемому свойству, <, > или = другому пункту);

2. интервальность пунктов шкалы ( интервал между любой парой чисел, соответствующих измеряемым свойствам, <, > или = интервалу между другой парой чисел;

3. нулевая точка (или точка отсчета) означает, что набор чисел, соответствующих измеряемым свойствам, имеет точку отсчета, обозначаемую за ноль, что соответствует полному отсутствию измеряемого свойства.

Кроме того, выделяют следующие группы:

- неметрические или качественные шкалы, в которых отсутствуют единицы измерений (номинальная и порядковая шкалы);

- количественные или метрические (шкала интервалов, шкала отношений и абсолютная шкала).

В зависимости от требуемой точности входных данных, используются различные типы измерительных шкал. В практике научных исследований получили распространение такие типы шкал: абсолютная шкала, шкала отношений, шкала интервалов, шкала порядка и шкала наименований.

Представление данных на шкалах первых трех типов является наиболее информативным. Эти шкалы содержат количественные данные. Абсолютная шкала удобна для записи количества элементов в определенном конечном множестве. Шкалы отношений и шкалы интервалов используются для измерения веса, длины, температуры. Они удобны в тех случаях, когда не известны единицы измерения данных, но необходимо сохранять масштаб расположения значений данных на шкале. Эти три типа шкал называют сильными, количественными или арифметическими.

Шкалы порядка и наименований менее информативны и используются, как правило, для представления качественных данных. Их называют слабыми или качественными шкалами. Шкала порядка сохраняет лишь порядок следования значений измеряемых величин, т.е. отображает информацию только в отношениях <,> и = между значениями данных. Частичными случаями шкалы порядка является шкала рангов и шкала баллов.

Шкала наименований еще менее информативна, чем шкала порядке. Она сохраняет информацию только об отношении = и ≠. Эта шкала используется для представления таких данных, как имена, всевозможные названия и т.д. Информация, которую можно получить в такой шкале - наличие или отсутствие определенного свойства у объекта.

Очевидно, что информации, хранящейся в количественных шкалах, достаточно, чтобы сделать ее однозначное отображение на качественные шкалы. Обратное отображение является неоднозначным и требует использования неформализованных методов преобразования.

При этом будем различать абстрактные шкалы и конкретные измерения, предназначенные для отображения определенных понятий. Абстрактные шкалы могут быть бесконечными, хотя это не является рациональным с точки зрения построения на их базе конструктивных моделей и практически не может быть реализован. Измерением будем называть конечный фрагмент шкалы для отображения конкретного понятия в рамках конкретной задачи. Можно сказать, что измерение - это одномерная математическая модель некоторого понятия и на практике должна рассматриваться только с определенными ограничениями.

1. В основе любого наблюдения и анализа лежат измерения, которые представляют собой алгоритмические операции: данному наблюдаемому состоянию объекта ставится в соответствие определенное обозначение: число, номер или символ. Множество таких обозначений, используемых для регистрации состояний наблюдаемого объекта, называется измерительной шкалой.

2. В зависимости от допустимых операций на измерительных шкалах их различают по их силе.

3. Самой слабой шкалой является номинальная шкала, представляющая собой конечный набор обозначений для никак не связанных между собой состояний (свойств) объекта.

4. Следующей по силе считается порядковая шкала, дающая возможность в каком-то отноше-нии сравнивать разные классы наблюдаемых состояний объекта, выстраивая их в определенном порядке. Различают шкалы простого, слабого и частичного порядка. Численные значения порядковых шкал не должны вводить в заблуждение относительно допустимости математических операций над ними.

5. Еще более сильная шкала — шкала интервалов, в которой кроме упорядочивания обозначений, можно оценить интервал между ними и выполнять математические действия над этими интервалами. Разновидностью шкалы интервалов является шкала разностей или циклическая.

6. Следующей по силе идет шкала отношений. Измерения в такой шкале являются «полноправными» числами, с ними можно выполнять любые арифметические действия (правда, при условии однотипности единиц измерения).

7. И, наконец, самая сильная шкала — абсолютная, с которой можно выполнять любые математические действия без каких-либо ограничений.

8. Отображение какого-либо свойства объекта или явления в числовом множестве называется шкалированием. Чем сильнее шкала, в которой производятся измерения, тем больше сведений об изучаемом объекте, явлении, процессе дают измерения. Однако применять более сильную шкалу опасно: полученные данные на самом деле не будут иметь той силы, на которую ориентируется их обработка. Лучше всего производить измерения в той шкале, которая максимально согласована с объективными отношениями, которым подчинена наблюдаемая величина. Можно измерять и в шкале, более слабой, чем согласованная, но это приведет к потере части полезной информации.

Определения. Факты - это объект или событие, которые необходимо проанализировать. В большинстве многомерных моделей факты однозначно определяются комбинацией значений измерений; факт существует только тогда, когда ячейка для конкретной комбинации значений не пуста.

Хранилища данных, как правило, содержат следующие три типа фактов.

События (event), моделируют события реального мира, при этом каждый факт представляет определенный экземпляр исследуемого явления.

Мгновенные снимки (snapshot) моделируют состояние объекта в конкретный момент времени. Тот же экземпляр явления реального мира, например, конкретная банка бобов, может возникать в нескольких фактах.

Совокупные мгновенные снимки (cumulative snapshot) содержат информацию о деятельности организации за определенный отрезок времени.

Хранилище данных часто содержит все три типа фактов. Те же исходные данные, например, движение товаров на складе, могут содержаться в трех разных типах кубов: поток товаров на складе, список товаров и поток за год до текущей даты.

Параметры состоят из двух компонентов:

• численная характеристика факта, например, цена или доход от продаж;

• формула, конечно простая агрегативная функция, которая может объединять несколько значений параметров в одно.

В многомерной базе параметры, как правило, представляют свойства факта, что пользователь хочет изучить.

При вычислениях три разных класса параметров ведут себя совершенно по-разному.

Аддитивные параметры могут комбинироваться в любом измерении. Например, имеет смысл суммировать общий объем продаж для продукта, местоположения и времени, поскольку это не вызывает наложение среди явлений реального мира, которые генерируют каждое из этих значений.

Полуаддитивные параметры, которые не могут комбинироваться в одном или нескольких измерениях. Например, суммирование запасов по различным товарам и складам имеет смысл, но суммирование запасов товаров в разное время бессмысленно, поскольку то же физическое явление может учитываться несколько раз.

Неаддитивные параметры не комбинируются в любом измерении, конечно том, что выбранная формула не позволяет объединить средние значения низкого уровня в среднем значении более высокого уровня.

Аддитивные и неаддитивные параметры могут описывать факты любого рода, в то время как полуаддитивные параметры, как правило, используются с мгновенными снимками или совокупными мгновенными снимками.

 

Определение OLAP-систем

В основе концепции OLAP лежит принцип многомерного представления данных. В 1993 году E. F. Codd рассмотрел недостатки реляционной модели, в первую очередь указав на невозможность "объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом", и определил общие требования к системам OLAP, расширяющих функциональность реляционных СУБД и включает многомерный анализ как одну из своих характеристик.

Кодд определил 12 правил, которым должен удовлетворять программный продукт класса OLAP

Таблица 1 Правила оценки программных продуктов класса OLAP

1. Многомерное концептуальное представление данных (Multi-Dimensional Conceptual View) Концептуальное представление модели данных в продукте OLAP должно быть многомерным по своей природе, то есть позволять аналитикам выполнять интуитивные операции "анализа вдоль и поперек" ("slice and dice"), вращения (rotate) и размещения (pivot) направлений консолидации.
2. Прозрачность (Transparency) Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда берутся.
3. Доступность (Accessibility) Аналитик должен иметь возможность выполнять анализ в рамках общей концептуальной схемы, но при этом данные могут оставаться под управлением оставшихся от старого наследства СУБД, будучи при этом привязанными к общей аналитической модели. То есть инструментарий OLAP должен накладывать свою логическую схему на физические массивы данных, выполняя все преобразования, требующиеся для обеспечения единого, согласованного и целостного взгляда пользователя на информацию.
4. Устойчивая производительность (Consistent Reporting Performance) С увеличением числа измерений и размеров базы данных аналитики не должны столкнуться с каким бы то ни было уменьшением производительности. Устойчивая производительность необходима для поддержания простоты использования и свободы от усложнений, которые требуются для доведения OLAP до конечного пользователя.
5. Клиент - серверная архитектура (Client-Server Architecture) Большая часть данных, требующих оперативной аналитической обработки, хранится в мэйнфреймовых системах, а извлекается с персональных компьютеров. Поэтому одним из требований является способность продуктов OLAP работать в среде клиент-сервер. Главной идеей здесь является то, что серверный компонент инструмента OLAP должен быть достаточно интеллектуальным и обладать способностью строить общую концептуальную схему на основе обобщения и консолидации различных логических и физических схем корпоративных баз данных для обеспечения эффекта прозрачности.
6. Равноправие измерений (Generic Dimensionality) Все измерения данных должны быть равноправны. Дополнительные характеристики могут быть предоставлены отдельным измерениям, но поскольку все они симметричны, данная дополнительная функциональность может быть предоставлена любому измерению. Базовая структура данных, формулы и форматы отчетов не должны опираться на какое-то одно измерение.
7. Динамическая обработка разреженных матриц (Dynamic Sparse Matrix Handling) Инструмент OLAP должен обеспечивать оптимальную обработку разреженных матриц. Скорость доступа должна сохраняться вне зависимости от расположения ячеек данных и быть постоянной величиной для моделей, имеющих разное число измерений и различную разреженность данных.
8. Поддержка многопользовательского режима (Multi-User Support) Зачастую несколько аналитиков имеют необходимость работать одновременно с одной аналитической моделью или создавать различные модели на основе одних корпоративных данных. Инструмент OLAP должен предоставлять им конкурентный доступ, обеспечивать целостность и защиту данных.
9. Неограниченная поддержка кроссмерных операций (Unrestricted Cross-dimensional Operations) Вычисления и манипуляция данными по любому числу измерений не должны запрещать или ограничивать любые отношения между ячейками данных. Преобразования, требующие произвольного определения, должны задаваться на функционально полном формульном языке.
10. Интуитивное манипулирование данными (Intuitive Data Manipulation) Переориентация направлений консолидации, детализация данных в колонках и строках, агрегация и другие манипуляции, свойственные структуре иерархии направлений консолидации, должны выполняться в максимально удобном, естественном и комфортном пользовательском интерфейсе.
11. Гибкий механизм генерации отчетов (Flexible Reporting) Должны поддерживаться различные способы визуализации данных, то есть отчеты должны представляться в любой возможной ориентации.
12. Неограниченное количество измерений и уровней агрегации (Unlimited Dimensions and Aggregation Levels) Настоятельно рекомендуется допущение в каждом серьезном OLAP инструменте как минимум пятнадцати, а лучше двадцати, измерений в аналитической модели. Более того, каждое из этих измерений должно допускать практически неограниченное количество определенных пользователем уровней агрегации по любому направлению консолидации.

Набор этих требований, послуживших фактическим определением OLAP, следует рассматривать как рекомендательный, а конкретные продукты оценивать по степени приближения к идеально полному соответствию всем требованиям.

Основные OLAP-операции

1. Операции выбора и группировки (slice-and-dice) осуществляют выбор подмножества данных из многомерного куба по заданным условиям, что сокращает куб.

2. Операции иерархично агрегирования и детализации (drill-down и roll-up) – взаимообратные операции, которые выполняют свертку и детализацию данных по соответствующим измерениям. Обобщение до высоких значений иерархии отвечает удалению размерности.

3. Операции простого агрегирования - расчет общей суммы, количества определенных фактов, расчет средних значений и т.п..

4. Операции преобразования информационного пространства кубов:

комбинация (drill-across) - комбинируют кубы, которые имеют одно или несколько общих измерений. С точки зрения реляционной алгебры такая операция выполняет объединение (join),

поворот (rotating) куба дает пользователям возможность увидеть данные, сгруппированные по другим измерениям.

Операции упорядочивания (ranking) возвращает только те ячейки, которые появляются в верхней или нижней части упорядоченного определенным образом списка.

 



Поделиться:


Последнее изменение этой страницы: 2021-12-15; просмотров: 110; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.221.245.196 (0.02 с.)