Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Организация и обработка внутримашинной информационной базы
В соответствии с ГОСТ 24.205—80 внутримашинной информационной базой (ИБ) называют совокупность всех данных на машинных носителях, сгруппированных по определенному признаку. В составе внутримашинной ИБ могут выделяться: база данных; база документальной информации; база знаний. База данных (БД) — это часть внутримашинной информационной базы, представляющая совокупность массивов (файлов, сегментов и т.д.) и выделенная для реализации определенных; функций АСУ. Однако такими свойствами обладает и база документальной информации, в том числе ИПС, и база знаний. Поэтому приведенное определение БД можно считать недостаточным. Помимо указанных общих свойств все перечисленные базы отличаются: 1) содержанием информации; 2) способом ее организации и результатами обработки; 3) используемыми средствами организации и обработки. Базы данных содержат информацию, исходным, основным элементом которой является элементарное данное или показатель. Элементами логических структур, т.е. обрабатываемых программной логикой, могут служить агрегаты, векторы, массивы элементарных данных, а также логические записи. Основным объектом обработки в документальной базе данных являются документо-строка и ее части, фрагменты документов, например, в виде текста в одном разделе, на одном экране, заголовок, информационная часть и др. База знаний содержит простые и элементарные высказывания, суждения, рекомендации, из которых в результате обработки формируются сложные высказывания. Результатом обработки базы данных являются новые данные, необходимые для выполнения функций человеком или автоматом. В итоге обработки, редактирования документов формируются новые документы. БД организуется как совокупность данных, необходимых для управления в некоторой предметной области объектами, процессами. Документальная база представляется совокупностью документов на машинном носителе, часто также объединенных по единству предметной области, функций управления, хотя это и не является обязательным. База знаний — это связанная в семантическую сеть совокупность высказываний. Обработка сети позволяет получить сложное высказывание, например, содержащее рекомендации рациональных действий в конкретных условиях, задаваемых совокупностью данных из базы данных документальной базы и отражающих текущее состояние предметной области.
Базы данных могут организовываться как файловые системы. Тогда основным средством их организации являются определенные системы, а основным средством обработки — программы, написанные на алгоритмических языках типа КОБОЛ, ПЛ/1, ПАСКАЛЬ, СИ и др. Для более широких приложений используют связную совокупность файлов, для создания и ведения которых дополнительно к операционным системам разрабатывают специальные программные средства, называемые системами управления базами данных (СУБД). В этом случае обработку БД ведут либо средствами СУБД, например, используя язык запросов, либо программами, написанными на указанных алгоритмических языках с применением средств СУБД в виде языка манипулирования данными[3]. Базы документальной информации создают средствами операционных систем чаще всего в виде последовательных, библиотечных файлов, а обрабатывают с помощью специальных программ — текстовых редакторов, обычно входящих в структуру операционных систем в виде отдельных компонентов. Для создания и ведения базы знаний разрабатывают и используют специальные программные системы, например, экспертные. Обработку баз знаний выполняют либо средствами этих систем, либо программами, написанными на специальных языках, например ПРОЛОГ, на основе «правил логического вывода», составляемых пользователем. Банк данных (БнД) - автоматизированная информационная система централизованного хранения и коллективного использования данных. В состав банка данных входят одна или несколько баз данных, справочник баз данных, СУБД, а также библиотеки запросов и прикладных программ. БД и БнД занимают ведущее положение в АСУ по объему информации, составу решаемых задач, сложности проблемы создания и поддержания в актуальном, достоверном состоянии всей совокупности данных. БД можно разделить на три группы: децентрализованные, централизованные и распределенные. На практике возможно применение БД комбинированного типа из указанных трех основных.
Децентрализованная БД строится как совокупность файлов, файловых систем, обеспечивающих решение определенной группы задач, наиболее тесно увязанных информационно и организационно, т.е. обеспечивающих автоматизацию выполнения функций определенных подразделений: отдела кадров, бухгалтерии и т.д. При таком построении БД реализуется наиболее просто, поскольку объемы данных невелики, а их организация несложна. В таких БД часто данным документов одного наименования соответствует один файл, например, файл номенклатуро-ценника, спецификации изделий и т.д. Однако такие децентрализованные БД имеют существенные недостатки, важнейшими из которых являются сложность осуществления комбинированных запросов к БД и поддержания БД в актуальном, непротиворечивом состоянии. Комбинированные запросы предполагают необходимость обращения к файлам, обслуживающим решение задач различных подразделений. Например, необходимы такие сведения по работающим, как суммы заработка за последние два месяца и профессия по образованию. В этом случае придется извлекать данные из файлов, создаваемых и используемых в бухгалтерии и в отделе кадров. Извлеченные данные образуют новые файлы, которые затем должны, быть совместно обработаны специальной программой для получения требуемой справки. Все это ведет к большим потерям времени и дополнительным затратам. Кроме того, в отдельных файлах могут повторяться, дублироваться данные, что создает дополнительные сложности для их корректировки, актуализации. Действительно, поскольку файлы разобщены по подразделениям, то возможна такая ситуация, когда в одном файле аналогичные данные будут откорректированы, а в другом нет. Например, изменение должности какого-то работника в файле бухгалтерии будет отражено, а в файле отдела кадров — нет. В результате данные по этому работнику в файле отдела кадров становятся неактуальными, не соответствующими действительности. Появляется противоречие в данных бухгалтерии и отдела кадров, что в итоге может привести к выходу БД в целом из строя. В том случае, когда отмеченные недостатки децентрализованной БД становятся существенными, переходят к централизованной БД, которую также называют интегрированной. Принцип построения интегрированной БД (ИБД) состоит в том, что вместо разделенного, «подокументного» представления данных создается единая взаимосвязанная их совокупность, соответствующая некоторой предметной области управления. Тема №3. Модели данных
3.1. Понятие модели данных. 3.2. Иерархическая модель. 3.3. Сетевая модель. 3.4. Реляционная модель. 3.5. Постреляционная модель. 3.6. Многомерная модель. 3.7.Объектно-ориентированная модель. Понятие модели данных Создавая базу данных пользователь стремится упорядочить информацию по различным признакам и быстро производить выборку с произвольным сочетанием признаков. Большое значение при этом приобретает структурирование данных, то есть введение соглашений о способах представления данных. База данных – это поименованная совокупность данных, отражающая состояние объектов и их отношений в рассматриваемой предметной области. Ядром любой базы данных является модель данных. Модель данных представляет собой множество структур данных, ограничений целостности и операций манипулирования данными.
Хранимые в базе данные имеют определенную логическую структуру — иными словами, описываются некоторой моделью представления данных (моделью данных), поддерживаемой СУБД. К числу классических относятся следующие модели данных: - иерархическая, - сетевая, - реляционная. Кроме того, в последние годы появились и стали более активно внедряться на практике следующие модели данных: - постреляционная, - многомерная, - объектно-ориентированная. Разрабатываются также всевозможные системы, основанные на других моделях данных, расширяющих известные модели. В их числе можно назвать объектно-реляционные, дедуктивно-объектно-ориентированные, семантические, концептуальные и ориентированные модели. Некоторые из этих моделей служат для интеграции баз данных, баз знаний и языков программирования.
Иерархическая модель В иерархической модели связи между данными можно описать с помощью упорядоченного графа (или дерева). Упрощенно представление связей между данными в иерархической модели показано на рисунке 3.1. Для описания структуры (схемы) иерархической БД на некотором языке программирования используется тип данных «дерево». Тип «дерево» является составным. Он включает в себя подтипы («поддеревья»), каждый из которых, в свою очередь, является типом «дерево». Каждый из типов «дерево» состоит из одного «корневого» типа и упорядоченного набора подчиненных типов. Каждый из элементарных типов, включенных в тип «дерево», является простым или составным типом «запись». Простая «запись» состоит из одного типа, например, числового, а составная «запись» объединяет некоторую совокупность типов, например, целое, строку символов и указатель (ссылку). Пример типа «дерево» как совокупности типов показан на рисунке 3.2
Рис. 3.1. Представление связей в иерархической модели Рис 3.2. Пример типа «дерево» Корневым называется тип, который имеет подчиненные типы, и сам не является подтипом. Подчиненный тип (подтип) является потомком по отношению к типу, который выступает для него в роли предка (родителя). Потомки одного и того же типа являются близнецами по отношению друг к другу. В целом тип «дерево» представляет собой иерархически организованный набор типов «запись». Иерархическая БД представляет собой упорядоченную совокупность экземпляров данных типа «дерево» (деревьев), содержащих экземпляры типа «запись» (записи). Часто отношения родства между типами переносят на отношения между самими записями. Поля записей хранят собственно числовые или символьные значения, составляющие основное содержание БД. Обход всех элементов иерархической БД обычно производится сверху вниз и слева направо.
Данные в базе с приведенной схемой (рисунок 3.2) могут выглядеть, например, как показано на рисунке 3.3. Рис. 3.3. Данные в иерархической базе
Для организации физического размещения иерархических данных в памяти ЭВМ могут использоваться следующие группы методов: - представление линейным списком с последовательным распределением памяти (адресная арифметика, левосписковые структуры); - представление связными линейными списками (методы, использующие указатели и справочники). К основным операциям манипулирования иерархически организованными данными относятся следующие: - поиск указанного экземпляра БД (например, дерева со значением 10 в поле Отд_номер); - переход от одного дерева к другому; - переход от одной записи к другой внутри дерева (например, к следующей записи типа Сотрудники); - вставка новой записи в указанную позицию; - удаление текущей записи и т. д. В соответствии с определением типа «дерево», можно заключить, что между предками и потомками автоматически поддерживается контроль целостности связей. Основное правило контроля целостности формулируется следующим образом: потомок не может существовать без родителя, а у некоторых родителей может не быть потомков. Механизмы поддержания целостности связей между записями различных деревьев отсутствуют. К достоинствам иерархической модели данных относятся эффективное использование памяти ЭВМ и неплохие показатели времени выполнения основных операций над данными. Иерархическая модель данных удобна для работы с иерархически упорядоченной информацией. Недостатком иерархической модели является ее громоздкость для: обработки информации с достаточно сложными логическими связями, а также сложность понимания для обычного пользователя.
Сетевая модель Сетевая модель данных позволяет отображать разнообразные взаимосвязи элементов данных в виде произвольного графа, обобщая тем самым иерархическую модель данных (рисунок 3.4). Рис. 3.4. Представление связей в сетевой модели
Для описания схемы сетевой БД используется две группы типов: «запись» и «связь». Тип «связь» определяется для двух типов «запись»: предка и потомка. Переменные типа «связь» являются экземплярами связей. Сетевая БД состоит из набора записей и набора соответствующих связей. На формирование связи особых ограничений не накладывается. Если в иерархических структурах запись-потомок могла иметь только одну запись-предка, то в сетевой модели данных запись-потомок может иметь произвольное число записей-предков (сводных родителей).
Пример схемы простейшей сетевой БД показан на рисунке 3.5. Типы связей здесь обозначены надписями на соединяющих типы записей линиях. В различных СУБД сетевого типа для обозначения одинаковых по сути понятий зачастую используются различные термины. Например, такие, как элементы и агрегаты данных, записи, наборы, области и т. д. Физическое размещение данных в базах сетевого типа может быть организовано практически теми же методами, что и в иерархических базах данных. Рис. 3.5. Пример схемы сетевой БД
К числу важнейших операций манипулирования данными баз сетевого типа можно отнести следующие: - переход от предка к первому потомку; - переход от потомка к предку; - создание новой записи; - удаление текущей записи; - обновление текущей записи; - включение записи в связь; - изменение связей и т. д. Достоинством сетевой модели данных является возможность эффективной реализации по показателям затрат памяти и оперативности. В сравнении с иерархической моделью сетевая модель предоставляет большие возможности в смысле допустимости образования произвольных связей. Недостатком сетевой модели данных является высокая сложность и жесткость схемы БД, построенной на ее основе, а также сложность для понимания и выполнения обработки информации в БД обычным пользователем. Кроме того, в сетевой модели данных ослаблен контроль целостности связей вследствие допустимости установления произвольных связей между записями.
Реляционная модель Реляционная модель данных предложена сотрудником фирмы IBM Эдгаром Коддом и основывается на понятии отношение (relation). Отношение представляет собой множество элементов, называемых кортежами. Подробно теоретическая основа реляционной модели данных рассматривается в следующем разделе. Наглядной формой представления отношения является привычная для человеческого восприятия двумерная таблица. Таблица имеет строки (записи) и столбцы (колонки). Каждая строка таблицы имеет одинаковую структуру и состоит из полей. Строкам таблицы соответствуют кортежи, а столбцам — атрибуты отношения. С помощью одной таблицы удобно описывать простейший вид связей между данными, а именно: деление одного объекта (явления, сущности; системы и проч.), информация о котором хранится в таблице, на множество подобъектов, каждому из которых соответствует строка или запись таблицы. При этом каждый из подобъектов имеет одинаковую структуру или свойства, описываемые соответствующими значениями полей записей. Например, таблица может содержать сведения о группе обучаемых, о каждом из которых известны следующие характеристики: фамилия, имя и отчество, пол, возраст и образование. Поскольку в рамках одной таблицы не удается описать более сложные логические структуры данных из предметной области, применяют связывание таблиц. Физическое размещение данных в реляционных базах на внешних носителях легко осуществляется с помощью обычных файлов. Достоинство реляционной модели данных заключается в простоте, понятности и удобстве физической реализации на ЭВМ. Именно простота и понятность для пользователя явились основной причиной их широкого использования. Проблемы же эффективности обработки данных этого типа оказались технически вполне разрешимыми. Основными недостатками реляционной модели являются следующие: отсутствие стандартных средств идентификации отдельных записей и сложность описания иерархических и сетевых связей.
Постреляционная модель Классическая реляционная модель предполагает неделимость данных, хранящихся в полях записей таблиц. Это означает, что информация в таблице представляется в первой нормальной форме (см. тему 6). Постреляционная модель данных представляет собой расширенную реляционную модель, снимающую ограничение неделимости данных, хранящихся в записях таблиц. Постреляционная модель данных допускает многозначные поля — поля, значения которых состоят из подзначений. Набор значений многозначных полей считается самостоятельной таблицей, встроенной в основную таблицу Поскольку постреляционная модель допускает хранение в таблицах ненормализованных данных, возникает проблема обеспечения целостности и непротиворечивости данных. Эта проблема решается включением в СУБД механизмов, подобных хранимым процедурам в клиент-серверных системах. Для описания функций контроля значений в полях имеется возможность создавать процедуры (коды конверсии и коды корреляции), автоматически вызываемые до или после обращения к данным. Коды корреляции выполняются сразу после чтения данных, перед их обработкой. Коды конверсии, наоборот, выполняются после обработки данных. Достоинством постреляционной модели является возможность представления совокупности связанных реляционных таблиц одной постреляционной таблицей. Это обеспечивает высокую наглядность представления информации и повышение эффективности ее обработки. Недостатком постреляционной модели является сложность решения проблемы обеспечения целостности и непротиворечивости хранимых данных.
Многомерная модель Многомерный подход к представлению данных в базе появился практически одновременно с. реляционным, но реально работающих многомерных СУБД (МСУБД) до настоящего времени было очень мало. С середины 90-х годов интерес к ним стал приобретать массовый характер. Толчком послужила в 1993 году программная статья одного из основоположников реляционного подхода Э. Кодда. В ней сформулированы 12 основных требований к системам класса OLAP (Online Analytical Processing — оперативная аналитическая обработка), важнейшие из которых связаны с возможностями концептуального представления и обработки многомерных данных. Многомерные системы позволяют оперативно обрабатывать информацию для проведения анализа и принятия решения. В развитии концепций ИС можно выделить следующие два направления: ¾ системы оперативной (транзакционной) обработки; ¾ системы аналитической обработки (системы поддержки принятия решений). Реляционные СУБД предназначались для информационных систем оперативной обработки информации и в этой области были весьма эффективны. В системах аналитической обработки они показали себя несколько неповоротливыми и недостаточно гибкими. Более эффективными здесь оказываются многомерные СУБД (МСУБД), Многомерные СУБД являются узкоспециализированными СУБД, предназначенными для интерактивной аналитической обработки информации. Раскроем основные понятия, используемые в этих СУБД: агрегируемость, историчность и прогнозируемость данных. Агрегируемостъ данных означает рассмотрение информации на различных уровнях ее обобщения. В информационных системах степень детальности представления информации для пользователя зависит от его уровня: аналитик, пользователь-оператор, управляющий, руководитель. Историчность данных предполагает обеспечение высокого уровня статичности (неизменности) собственно данных и их взаимосвязей, а также обязательность привязки данных ко времени. Статичность данных позволяет использовать при их обработке специализированные методы загрузки, хранения, индексации и выборки. Временная привязка данных необходима для частого выполнения запросов, имеющих значения времени и даты в составе выборки. Необходимость упорядочения данных по времени в процессе обработки и представления данных пользователю накладывает требования на механизмы хранения и доступа к информации. Так, для уменьшения времени обработки запросов желательно, чтобы данные всегда были отсортированы в том порядке, в котором они наиболее часто запрашиваются, Прогнозируемость данных подразумевает задание функций прогнозирования и применение их к различным временным интервалам. Многомерность модели данных означает не многомерность визуализации цифровых данных, а многомерное логическое представление структуры информации при описании и в операциях манипулирования данными. По сравнению с реляционной моделью многомерная организация данных обладает более высокой наглядностью и информативностью. Для иллюстрации на рисунке 3.6 приведены реляционное (а) и многомерное (б) представления одних и тех же данных об объемах продаж автомобилей. Если речь идет о многомерной модели с мерностью больше двух, то не обязательно визуально информация представляется в виде многомерных объектов (трех-, четырех- и более мерных гиперкубов). Пользователю и в этих случаях более удобно иметь дело с двухмерными таблицами или графиками. Данные при этом представляют собой «вырезки» (точнее, «срезы») из многомерного хранилища данных, выполненные с разной степенью детализации. а)
б)
Рис. 3.6. Реляционное и многомерное представление данных
Рассмотрим основные понятия многомерных моделей данных, к числу которых относятся измерение и ячейка. Измерение (Dimension) — это множество однотипных данных, образующих одну из граней гиперкуба. Примерами наиболее часто используемых временных измерений являются Дни, Месяцы, Кварталы и Годы. В качестве географических измерений широко употребляются Города, Районы, Регионы и Страны. В многомерной модели данных измерения играют роль индексов, служащих для идентификации конкретных значений в ячейках гиперкуба. Ячейка (Cell) или показатель — это поле, значение которого однозначно определяется фиксированным набором измерений. Тип поля чаще всего определен как цифровой. В существующих МСУБД используются два основных варианта (схемы) организации данных: гиперкубическая и поликубическая. В поликубической схеме предполагается, что в БД может быть определено несколько гиперкубов с различной размерностью и с различными измерениями в качестве граней. В случае гиперкубической схемы предполагается, что все показатели определяются одним и тем же набором измерений. Это означает, что при наличии нескольких гиперкубов БД все они имеют одинаковую размерность и совпадающие измерения. Очевидно, в некоторых случаях информация в БД может быть избыточной (если требовать обязательное заполнение ячеек). В случае многомерной модели данных применяется ряд специальных операций, к которым относятся: формирование «среза», «вращение», агрегация и детализация. «Срез» (Slice) представляет собой подмножество гиперкуба, полученное в результате фиксации одного или нескольких измерений. Формирование «срезов»- выполняется для ограничения используемых пользователем значений, так как все значения гиперкуба практически никогда одновременно не используются. Например, если ограничить значения измерения Модель автомобиля в гиперкубе (рисунке 3.7) маркой «Жигули», то получится двухмерная таблица продаж этой марки автомобиля различными менеджерами по годам.
Рис. 3.7. Пример трехмерной модели
Операция «вращение» (Rotate) применяется при двухмерном представлении данных. Суть ее заключается в изменении порядка измерений при визуальном представлении данных. Так, «вращение» двумерной таблицы, показанной на рисунке 3.6, приведет к изменению ее вида таким образом, что по оси Х будет марка автомобиля, а по оси Y — время. Для иллюстрации смысла операции «агрегация» предположим, что у нас имеется гиперкуб, в котором помимо измерений гиперкуба, приведенного на рисунке 3.7, имеются еще измерения: Подразделение, Регион, Фирма, Страна. Заметим, что в этом случае в гиперкубе существует иерархия (снизу вверх) отношений между измерениями: Менеджер, Подразделение, Регион, Фирма, Страна. Пусть в описанном гиперкубе определено, насколько успешно в 1995 году менеджер Петров продавал автомобили «Жигули» и «Волга». Тогда, поднимаясь на уровень выше по иерархии, с помощью операции «агрегация» можно выяснить, как выглядит соотношение продаж этих же моделей на уровне подразделения, где работает Петров. Основным достоинством многомерной модели данных является удобство и эффективность аналитической обработки больших объемов данных, связанных со временем. При организации обработки аналогичных данных на основе реляционной модели происходит нелинейный рост трудоемкости операций в зависимости от размерности БД и существенное увеличение затрат оперативной памяти на индексацию. Недостатком многомерной модели данных является ее громоздкость для простейших задач обычной оперативной обработки информации.
|
||||||||||||||||||||||||||||||||||||||||||||||
Последнее изменение этой страницы: 2021-03-09; просмотров: 189; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.223.172.252 (0.092 с.) |