Основные задачи консолидации данных 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Основные задачи консолидации данных



Введение

Ценность и достоверность знаний, полученных в результате интеллектуального анализа бизнес-данных, зависит не только от эффективности используемых аналитических методов и алгоритмов, но и от того, насколько правильно подобраны и подготовлены исходные данные для анализа.

Обычно руководителям проектов по бизнес-аналитике с нуля приходится сталкиваться со следующей ситуацией. Во-первых, данные на предприятии расположены в различных источниках самых разнообразных форматов и типов — в отдельных файлах офисных документов (Excel, Word, обычных текстовых файлах), в учетных системах («1С:Предприятие», «Парус» и др.), в базах данных (Oracle, Access, dBase и др.). Во-вторых, данные могут быть избыточными или, наоборот, недостаточными. А в-третьих, данные являются «грязными», то есть содержат факторы, мешающие их правильной обработке и анализу (пропуски, аномальные значения, дубликаты и противоречия).

Поэтому, прежде чем приступать к анализу данных, необходимо выполнить ряд процедур, цель которых — доведение данных до, как минимум, приемлемого уровня качества и информативности, а также организовать их интегрированное хранение в структурах, обеспечивающих их целостность, непротиворечивость, высокую скорость и гибкость выполнения аналитических запросов.

Определение

Консолидация — комплекс методов и процедур, направленных на извлечение данных из различных источников, обеспечение необходимого уровня их информативности и качества, преобразование в единый формат, в котором они могут быть загружены в хранилище данных или аналитическую систему.

Консолидация данных является начальным этапом реализации любой аналитической задачи или проекта. В основе консолидации лежит процесс сбора и организации хранения данных в виде, оптимальном с точки зрения их обработки на конкретной аналитической платформе или решения конкретной аналитической задачи. Сопутствующими задачами консолидации являются оценка качества данных и их обогащение.

Критерии оптимальности с точки зрения консолидации данных:

· обеспечение высокой скорости доступа к данным;

· компактность хранения;

· автоматическая поддержка целостности структуры данных;

· контроль непротиворечивости данных.

Источники данных

Ключевым понятием консолидации является источник данных — объект, содержащий структурированные данные, которые могут оказаться полезными для решения аналитической задачи. Необходимо, чтобы используемая аналитическая платформа могла осуществлять доступ к данным из этого объекта непосредственно либо после их преобразования в другой формат. В противном случае очевидно, что объект не может считаться источником данных.

Аналитические приложения, как правило, не содержат развитых средств ввода и редактирования данных, а работают с уже сформированными выборками. Таким образом, формирование массивов данных для анализа в большинстве случаев ложится на плечи заказчиков аналитических решений.

Работа в Exel

Источники данных представляют собой диапазоны ячеек. Число диапазонов может достигать 255. Источники данных не обязаны быть открыты во время консолидации. Исходные области обрабатываемых данных задаются либо трехмерными формулами непосредственно в ячейках диапазона назначения, либо в поле Ссылка диалогового окна Консолидация. Источники данных могут находиться на том же листе, что и таблица консолидации, на других листах той же книги, в других книгах или в файлах Lotus 1-2-3.

Для указания источников данных могут быть использованы два способа:

- выделение исходного диапазона с помощью мыши;

- ввод ссылки на диапазон с клавиатуры.

Выделение исходного диапазона с помощью мыши осуществляется стандартными приемами.

Ввод ссылок на диапазон с клавиатуры. Существует два вида ссылок: внутренние и внешние.

Внутренняя ссылка - это ссылка на диапазоны ячеек рабочей книги. Она является частным случаем внешней ссылки.

Синтаксис внутренней ссылки:

='Имя_листа'!Адрес_диапазона

Способ консолидации ячеек.

Возможны четыре варианта: согласно расположению в диапазоне, согласно заголовкам строк и столбцов, с использованием ссылок и вручную. Первые два выбираются с помощью выделения опций в группе Использовать в качестве имен окна Консолидация.

Наличие связи между объектами. При наличии связи результаты будут обновляться при изменении данных, а в области назначения будет создана структура. Т.е. в диапазон консолидации между итоговых строк будет вставлена детальная информация, связанная внешними ссылками с исходными диапазонами. Причем, диапазон назначения будет структурирован. Верхним уровнем структуры будут итоговые данные, нижним – исходные.

Связывание объектов

Связи позволяют использовать на одном рабочем листе данные из других листов рабочей и даже других книг.

Рабочая книга, содержащая исходные данные, называется исходной книгой или книгой-источником, книга, получающая данные называется книгой-получателем или целевой рабочей книгой.

Независимо от того, открыта ли исходная рабочая книга или закрыта, целевая рабочая книга получит необходимые данные через связь. Если во время открытия целевой рабочей книги исходная рабочая книга открыта, то связи обновляются автоматически. Если исходная рабочая книга закрыта, то при открытии целевой пользователю будет задан вопрос, хочет ли он работать с данными, оставшимися после последнего сохранения или их следует обновить из исходной рабочей книги.

Можно установить связь исходных данных

1) с ячейками и диапазонами ячеек

2) с изображениями ячеек рабочего листа.

Связь с данными позволяет избежать проблем, присущих работе с чересчур большими, громоздкими рабочими книгами. Благодаря возможности связывать данные друг с другом, можно создавать небольшие рабочие книги с небольшими рабочими листами, соответствующие определенным задачам пользователя. Затем эти книги можно связывать друг с другом, строя из них большие информационные системы. В приведенном ниже списке перечислены основные преимущества построения систем, составленных из небольших рабочих книг, данные которых связаны друг с другом:

- С помощью связей можно передавать от одной рабочей книги к другой любые данные, числа и текст, которые затем могут быть использованы в формулах

- Связанные данные могут быть отформатированы так же, как и любые другие данные в других ячейках рабочего листа. При работе требуется меньшее количество памяти, т. к. не все рабочие книги, входящие в информационную систему, должны обязательно быть открыты

- Информационные системы, составленные из нескольких рабочих книг, очень гибкие, к тому же в них легко вносить изменения. Вы можете перестраивать, тестировать и настраивать один компонент системы, не перестраивая всю систему в целом

- Небольшие рабочие книги пересчитываются намного быстрее

- Можно создавать отдельные компоненты, для работы с ними на разных компьютерах. Компоненты могут быть связаны друг с другом с помощью обобщающей электронной таблицы, тогда при обновлении этой таблицы результаты работы многих пользователей будут собраны в одном месте. Такие информационные системы обладают рядом преимуществ: много пользователей может работать одновременно на разных компьютерах, общая работа может быть выполнена быстрее, и, наконец, значительно меньше вероятность того, что неопытный оператор повредит всю информационную систему

- Систему, состоящую из отдельных компонентов, проще обслуживать и отлаживать

- Рабочие книги, входящие в состав системы, могут быть переделаны для использования в другой системе

Большое количество связей может замедлить процесс открытия целевой рабочей книги. Кроме того, размеры рабочей книги с большим количеством внешних связей могут быть очень большими, так как Excel хранит в рабочей книге последнюю копию использованных в работе внешних данных, чтобы иметь возможность работать с рабочей книгой не обновляя ее связей. Если исходная рабочая книга всегда открывается вместе с целевой, или если вы всегда обновляете связи при открытии, или же если вы просто хотите сэкономить дисковое пространство, отключите сохранение копии внешних данных вместе с рабочей книгой. Для этого выберите команду Сервис, Параметры, в появившемся диалоговом окне раскройте вкладку Вычисления, снимите флажок «Сохранять значения внешних связей» и нажмите кнопку ОК.

Открытие связанных рабочих книг

При открытии рабочей книги с внешними ссылками, связи могут обновляться по-разному. Если исходная рабочая книга в этот момент открыта, то связи обновляются автоматически. Если исходная рабочая книга закрыта, на экране появляется диалоговое окно с вопросом об обновляемых связях.

Если в этом диалоговом окне нажать кнопку Да, то Excel прочитает все необходимые данные с диска и обновит содержимое рабочей книги. Если нажать кнопку Нет, то Excel оставит в рабочей книге без изменения те значения, которые в ней находились во время последнего сохранения.

Если вы уже открыли целевую рабочую книгу и теперь хотите открыть исходные рабочие книги, выполните следующие действия:

1. Активизируйте рабочую страницу, содержащую внешние связи.

2. Выберите команду Правка, Связи. На экране появится диалоговое окно Связи.

3. Выделите файлы, которые вы хотите открыть. Для закрытых в данный момент файлов указан полный путь.

4. Нажмите кнопку. Открыть.

Список литературы

1. Библия пользователя Exsel 97 / Уокербах Джон; пер. с англ. К.- Диалектика, 1997.

2. Понятный самоучитель Excel 2013. — СПб.: Питер, 2014. — 128 с

3. Excel 2010 в примерах / Е. М. Карчевский, И. Е. Филиппов, И.А. Филиппова — Казань.: Казанский университет, 2012. – 52 с.

4. Консолидация данных — ключевые понятия [Электронный ресурс]. — Режим доступа: https://www.cfin.ru/itm/olap/cons.shtml, свободный (дата обращения 16.05.19)


 

Задание № 3

 

Задание № 4

ФГБОУ ВО «КНИТУ»   Ключникова Марина Олеговна Студент группы 3183-112     Казань 89503121869

 

Задание № 5

Объём n-мерного шара радиуса R в n -мерном евклидовом пространстве:

 

где Γ — это эйлеровская гамма-функция (которая является расширением факториала на поле нецелых действительных и комплексных чисел).

 

Задание № 6


Задания по теме «Алгоритмизация и программирование»

Задание № 1

 


Вычислить:

 

Если значения A, B, C, x вводятся с клавиатуры

Блок схема:

 

Начало
A, B, C, x
 
z
Конец

 


Private Sub CommandButton1_Click()

A = Val(InputBox("? a"))

B = Val(InputBox("? b"))

C = Val(InputBox("? c"))

x = Val(InputBox("? x"))

x1 = Log(B) * Cos(x ^ 5)

x2 = Sqr((A * C) / (x ^ 4))

Z = x1 * x2

MsgBox "z=" & Z

End Sub

Введение

Ценность и достоверность знаний, полученных в результате интеллектуального анализа бизнес-данных, зависит не только от эффективности используемых аналитических методов и алгоритмов, но и от того, насколько правильно подобраны и подготовлены исходные данные для анализа.

Обычно руководителям проектов по бизнес-аналитике с нуля приходится сталкиваться со следующей ситуацией. Во-первых, данные на предприятии расположены в различных источниках самых разнообразных форматов и типов — в отдельных файлах офисных документов (Excel, Word, обычных текстовых файлах), в учетных системах («1С:Предприятие», «Парус» и др.), в базах данных (Oracle, Access, dBase и др.). Во-вторых, данные могут быть избыточными или, наоборот, недостаточными. А в-третьих, данные являются «грязными», то есть содержат факторы, мешающие их правильной обработке и анализу (пропуски, аномальные значения, дубликаты и противоречия).

Поэтому, прежде чем приступать к анализу данных, необходимо выполнить ряд процедур, цель которых — доведение данных до, как минимум, приемлемого уровня качества и информативности, а также организовать их интегрированное хранение в структурах, обеспечивающих их целостность, непротиворечивость, высокую скорость и гибкость выполнения аналитических запросов.

Определение

Консолидация — комплекс методов и процедур, направленных на извлечение данных из различных источников, обеспечение необходимого уровня их информативности и качества, преобразование в единый формат, в котором они могут быть загружены в хранилище данных или аналитическую систему.

Консолидация данных является начальным этапом реализации любой аналитической задачи или проекта. В основе консолидации лежит процесс сбора и организации хранения данных в виде, оптимальном с точки зрения их обработки на конкретной аналитической платформе или решения конкретной аналитической задачи. Сопутствующими задачами консолидации являются оценка качества данных и их обогащение.

Критерии оптимальности с точки зрения консолидации данных:

· обеспечение высокой скорости доступа к данным;

· компактность хранения;

· автоматическая поддержка целостности структуры данных;

· контроль непротиворечивости данных.

Источники данных

Ключевым понятием консолидации является источник данных — объект, содержащий структурированные данные, которые могут оказаться полезными для решения аналитической задачи. Необходимо, чтобы используемая аналитическая платформа могла осуществлять доступ к данным из этого объекта непосредственно либо после их преобразования в другой формат. В противном случае очевидно, что объект не может считаться источником данных.

Аналитические приложения, как правило, не содержат развитых средств ввода и редактирования данных, а работают с уже сформированными выборками. Таким образом, формирование массивов данных для анализа в большинстве случаев ложится на плечи заказчиков аналитических решений.

Основные задачи консолидации данных

В процессе консолидации данных решаются следующие задачи:

1. выбор источников данных;

2. разработка стратегии консолидации;

3. оценка качества данных;

4. обогащение;

5. очистка;

6. перенос в хранилище данных.

Сначала осуществляется выбор источников, содержащих данные, которые могут иметь отношение к решаемой задаче, затем определяются тип источников и методика организации доступа к ним. В связи с этим можно выделить три основных подхода к организации хранения данных.

Данные, хранящиеся в отдельных (локальных) файлах, например в текстовых файлах с разделителями, документах Word, Excel и т.д. Такого рода источником может быть любой файл, данные в котором организованы в виде столбцов и записей. Столбцы должны быть типизированы, то есть содержать данные одного типа, например, только текстовые или только числовые. Преимущество таких источников в том, что они могут создаваться и редактироваться с помощью простых и популярных офисных приложений, работа с которыми не требует от персонала специальной подготовки. К недостаткам следует отнести то, что они далеко не всегда оптимальны с точки зрения скорости доступа к ним, компактности представления данных и поддержки их структурной целостности. Например, ничто не мешает пользователю табличного процессора разместить в одном столбце данные различных типов (числовые и текстовые), что впоследствии обязательно приведет к проблемам при их обработке в аналитическом приложении.

Базы данных (БД) различных систем управления базами данных (СУБД), таких как Oracle, SQL Server, Firebird, dBase, FoxPro, Access и т.д. Файлы БД лучше поддерживают целостность структуры данных, поскольку тип и свойства их полей жестко задаются при построении таблиц. Однако для создания и администрирования БД требуются специалисты с более высоким уровнем подготовки, чем для работы с популярными офисными приложениями.

Специализированные хранилища данных (ХД) являются наиболее предпочтительным решением, поскольку их структура и функционирование специально оптимизируются для работы с аналитической платформой. Большинство ХД обеспечивают высокую скорость обмена данными с аналитическими приложениями, автоматически поддерживают целостность и непротиворечивость данных. Главное преимущество ХД перед остальными типами источников данных — наличие семантического слоя, который дает пользователю возможность оперировать терминами предметной области для формирования аналитических запросов к хранилищу.

При разработке стратегии консолидации данных необходимо учитывать характер расположения источников данных — локальный, когда они размещены на том же ПК, что и аналитическое приложение, либо удаленный, если источники доступны только через локальную или Глобальную компьютерные сети. Характер расположения источников данных может существенно повлиять на качество собранных данных (потеря фрагментов, несогласованность во времени их обновления, противоречивость и т.д.).

Другой важной задачей, которую требуется решить в рамках консолидации, является оценка качества данных с точки зрения их пригодности для обработки с помощью различных аналитических алгоритмов и методов. В большинстве случаев исходные данные являются «грязными», то есть содержат факторы, не позволяющие их корректно анализировать, обнаруживать скрытые структуры и закономерности, устанавливать связи между элементами данных и выполнять другие действия, которые могут потребоваться для получения аналитического решения. К таким факторам относятся ошибки ввода, пропуски, аномальные значения, шумы, противоречия и т.д. Поэтому перед тем, как приступить к анализу данных, необходимо оценить их качество и соответствие требованиям, предъявляемым аналитической платформой. Если в процессе оценки качества будут выявлены факторы, которые не позволяют корректно применить к данным те или иные аналитические методы, необходимо выполнить соответствующую очистку данных.

Очистка данных — комплекс методов и процедур, направленных на устранение причин, мешающих корректной обработке: аномалий, пропусков, дубликатов, противоречий, шумов и т.д.

Еще одной операцией, которая может понадобиться при консолидации данных, является их обогащение.

Обогащение — процесс дополнения данных некоторой информацией, позволяющей повысить эффективность решения аналитических задач.

Обогащение позволяет более эффективно использовать консолидированные данные. Его необходимо применять в тех случаях, когда данные содержат недостаточно информации для удовлетворительного решения определенной задачи анализа. Обогащение данных позволяет повысить их информационную насыщенность и, как следствие, значимость для решения аналитической задачи.



Поделиться:


Последнее изменение этой страницы: 2021-07-18; просмотров: 193; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.135.183.1 (0.04 с.)