Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Графические методы РАД (визуализация данных)Содержание книги
Поиск на нашем сайте
Широкий набор мощных методов разведочного анализа данных представлен также средствами графической визуализации данных. С их помощью можно находить зависимости, тренды и смещения, скрытые в неструктурированных наборах данных. Графические средства дают особые преимущества и позволяют выявить закономерности, которые трудно поддаются количественному описанию и которые весьма сложно обнаружить с помощью вычислительных процедур (например, сложные взаимосвязи, исключения или аномалии). В этих случаях графические методы предоставляют уникальные возможности многомерного аналитического исследования или "добычи" данных. - Закрашивание. Возможно, самым распространенным и исторически первым из методов, которые с полным основанием можно отнести к графическому разведочному анализу данных, стало закрашивание -интерактивный метод, позволяющий пользователю выбирать на экране компьютера отдельные точки-наблюдения или группы таких точек, находить их характеристики (в том числе общие) и изучать влияние отдельных наблюдений на соотношения между различными переменными. Эти соотношения между переменными также могут быть визуализированы с помощью подгоночных функций (например, прямыми в двумерном или поверхностями в трехмерном случае) вместе с соответствующими доверительными интервалами, и, таким образом, пользователь может в интерактивном режиме исследовать изменения параметров этих функций, временно удаляя или добавляя фрагменты набора данных [15]. С помощью закрашивания, например, можно выбрать (выделить) на одной из матричных диаграмм рассеяния все точки данных, принадлежащие определенной категории. Таким образом можно определить, как эти наблюдения влияют на взаимосвязи между другими переменными этого набора данных. - Категоризованные графики. Одним из наиболее мощных аналитических методов исследования является разделение ("разбиение") данных на группы для сравнения структуры получившихся подмножеств. Эти методы широко применяются как в разведочном анализе данных, так и при проверке гипотез и известны под разными названиями (классификация, группировка, категоризация, разбиение, расслоение и пр.). Эти графики представляют собой наборы двумерных, трехмерных, тернарных или n-мерных графиков (таких как гистограммы, диаграммы рассеяния, линейные графики, поверхности, тернарные диаграммы рассеяния и пр.), по одному графику для каждой выбранной категории (подмножества) наблюдений. Эти графики располагаются последовательно в одном графическом окне, позволяя сравнивать структуру данных для каждой из указанных подгрупп. Для выбора подгрупп можно использовать множество методов, самый простой из них - это введение категориальной переменной [15-17]. Некоторые программы (например, система STATISTICA) поддерживают двухвходовую или многомерную категоризацию, где для задания подгрупп используется не один, а два или более критериев. Двухвходовые категоризованные графики можно рассматривать как таблицы графиков, где каждый входящий график находится на пересечении определенных значений первой и второй группирующих переменных. Для категоризованных графиков требуется такой же выбор переменных, как и для некатегоризованных графиков соответствующего типа (например, две переменных для диаграммы рассеяния). В то же время для категоризованных графиков необходимо указать по крайней мере одну группирующую переменную (или способ разбиения наблюдений на категории), где содержалась бы информация о принадлежности каждого наблюдения к определенной подгруппе. Группирующая переменная не будет непосредственно изображена на графике (т.е. не будет построена), однако она будет служить критерием для разделения всех анализируемых наблюдений на отдельные подгруппы. Для каждой группы (категории), определяемой группирующей переменной, будет построен один график. Сглаживание двумерных распределений. Для наглядного представления таблицы значений двух переменных используются трехмерные гистограммы. Их можно рассматривать как объединение двух простых гистограмм для совместного анализа частот значений двух переменных. Чаще всего на этом графике для каждой ячейки таблицы нарисован один трехмерный столбец, а его высота соответствует частоте значений в этой ячейке. Когда предусмотрены процедуры сглаживания данных, то трехмерное представление частот значений можно аппроксимировать поверхностью. Такое сглаживание можно осуществить для любой трехмерной гистограммы. Для достаточно простой структуры данных такое сглаживание не имеет особого смысла. - Послойное сжатие. На графиках этого типа за счет сокращения - Проекции трехмерных наборов данных. Полезным методом - Пиктографики. На пиктографиках каждое наблюдение представлено в Как правило, при построении пиктографиков значения переменных должны быть стандартизованы, чтобы их можно было сравнивать в пределах одной пиктограммы. Исключения составляют те случаи, когда на пиктограммах необходимо отобразить глобальные различия диапазонов выбранных переменных. Поскольку масштаб пиктограммы определяется наибольшим значением, то на пиктограмме могут отсутствовать те переменные, которые имеют значения другого порядка малости, например, на пиктограмме звезды некоторые лучи могут оказаться настолько короткими, что совсем не будут видны. Пиктографики обычно используются: для обнаружения структур или кластеров наблюдений и для исследования сложных взаимосвязей между несколькими переменными. Первый вариант соответствует кластерному анализу; т.е. процедуре классификации наблюдений. - Вращение (в трехмерном пространстве). Изменение угла зрения при отображении трехмерной диаграммы рассеяния (простой, спектральной или пространственной) может оказаться эффективным средством для выявления некоторой структуры, которая видна только при определенном повороте "облака" точек. Некоторые программы предоставляют полезный инструмент для интерактивного изменения перспективы и вращения изображения. Эти средства контроля изображения позволяют подобрать подходящий угол зрения и перспективу, чтобы найти наиболее удачное расположение "точки зрения" на график, а также дают возможность управлять его вращением в горизонтальной и вертикальной плоскости. Эти инструменты могут оказаться весьма полезными не только при начальном разведочном анализе данных, но и при исследовании факторного пространства или пространства размерностей. - Проверка результатов РАД Предварительное исследование данных может служить лишь первым этапом в процессе их анализа, и пока результаты не подтверждены (методами кросс-проверки) на других фрагментах базы данных или на независимом множестве данных, их можно воспринимать самое большее как гипотезу. Если результаты разведочного анализа говорят в пользу некоторой модели, то ее правильность можно затем проверить, применив ее к новым данных и определив степень ее согласованности с данными (проверка "способности к прогнозированию"). Для быстрого выделения различных подмножеств данных (например, для очистки, проверки и пр.) и оценки надежности результатов удобно пользоваться условиями выбора наблюдений.
|
||||
Последнее изменение этой страницы: 2017-02-10; просмотров: 179; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.43.92 (0.007 с.) |