Урок 5. Возможности современных пакетов для анализа данных 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Урок 5. Возможности современных пакетов для анализа данных



Урок 5. Возможности современных пакетов для анализа данных

Человеческий разум сам по себе не может извлечь полной информации из данных. Он не приспособлен к непосредственному и глубокому восприятию массивов чисел. Поэтому в современном мире умение пользоваться компьютерными системами обработки и анализа данных стало необходимым для успешной деятельности в любой области. Запас сведений о таких системах является обязательным элементом эрудиции инженера по знаниям.

Не следует думать, что системы анализа данных представляют собой нечто подвластное только узким специалистам. В результате прогресса вычислительной техники средства анализа данных стали теперь доступны практически каждому. Материал этого раздела полезен не только инженерам по знаниям, но и многим другим людям (особенно руководителям, бизнесменам, экономистам и т. п.), которым при принятии решений приходится иметь дело с данными различной природы.

Классификация статистических пакетов

Типы Отечественные Зарубежные
Профессиональные Нет SAS, BMDP
Универсальные STADIA, Olymp STATGRAPHICS, SPSS STATISTICA, S‑PLUS
Специализированные Mesosaur, DataScope, Класс‑Мастер, Эвриста, САНИ Большое многообразие

 

Зарубежные статистические пакеты

Название Разработчик Дилер в России Телефон дилера
S‑PLUS Math. Soft Inc. Нет Нет
SYSTAT SPSS Inc. Стат. системы и сервис 095‑125‑0069
SPSS SPSS Inc. Стат. системы и сервис НКЦ «Тренд» 095‑125‑0069 812‑428‑4282
STATISTICA Stat. Soft Softline 095‑126‑9065 095‑232‑0023
STATGRAPHICS Manugistic Inc. ИнфоСтрой 812‑312‑2673 812‑315‑3334
SAS SAS Inst. ИНТУ 095‑255‑2012
Visual Numerics Visual Numerics Стат. Диалог 095‑125‑2131

Гибкий импорт/экспорт данных

Система обеспечивает связь со всеми Windows‑приложениями посредством OLE и DDE. Кроме того, файлы Windows‑ и DOS‑версий полностью совместимы между собой и система без проблем обменивается данными с другими программными продуктами, использующими Lotus, dBASE, DIF, DBF и ASCII файлы.

Широкие возможности манипулирования данными

Управление данными организовано удобным и целесообразным способом. Легко доступные из редактора данных или из окна ввода данных опции преобразования предоставляют широкий набор возможностей сортировки данных и трансформации переменных, для чего предназначено более 100 операторов. При этом производимые манипуляции не изменяют содержимого исходных файлов.

STATGRAPHICS Plus for Windows Version 2

Коротко о продукте: Программный пакет для статистического анализа данных

Требования к оборудованию: ПК с процессором 386 и выше; 8 Мбайт ОЗУ; ОС Windows 3.x/95/NT, дисковое пространство — 14,5 Мбайт; SVGA графический адаптер; рекомендуется математический сопроцессор.

Цена:

Базовая система — $749

Модули (Контроль Качества, Планирование Эксперимента, Анализ Временных Рядов, Многомерный Анализ) — $449 каждый

Вся система с полным набором модулей — $1699

Гибкая политика скидок для научных и учебных организаций.

Manugistics, Inc., тел. дилера в С.‑Петербурге: (812) 315‑3334.

Рис. 5. 2. STATGRAPHICS Plus for Windows располагает широкими возможностями сортировки и преобразования данных

Интегрированная графика

Каждая статистическая процедура в STATGRAPHICS Plus for Windows сопровождается интегрированной в систему отличной графикой. Щелкнув мышью на специальной пиктограмме, мы получаем меню, в котором предоставляется выбор графических отображений, соответствующих используемой процедуре. Все элементы графических отображений (масштабы, метки, цвета, надписи и пр.) могут быть подвергнуты коррекции и преобразованию. Для этого нужно выбрать требуемый элемент, щелкнув на нем левой кнопкой мыши, и затем щелкнуть правой кнопкой. Тогда на экране появится окно диалога, в которое вносятся необходимые изменения.

Рис. 5. 3. Все элементы графических отображений результатов анализа могут быть преобразованы

Интерактивная графика

Интерактивная графика всегда была одной из самых сильных сторон STATGRAPHICS. Windows‑интерфейс еще более повышает ее эффективность. Один щелчок мышью — и вы можете моментально идентифицировать точку на графическом отображении и выяснить ее местонахождение в файле данных. STATGRAPHICS Plus for Windows позволяет пользователю взаимодействовать с данными посредством графики любым мыслимым способом. Графика в системе становится аналитическим инструментом, а не только средством презентации. Например, можно вращать и рассматривать с разных сторон трехмерные изображения или осуществлять разгонку (jittering) точек на диаграммах рассеивания. Ценную возможность лучше «прочувствовать» структуру данных предоставляет функция окраски (brushing) точек на диаграммах рассеивания в соответствии со значениями какой‑либо переменной. Быстрое и легкое исследование экспериментальных данных с помощью средств интерактивной графики делает процесс анализа увлекательным, стимулирующим интуицию и воображение.

Рис. 5. 4. Ценную возможность лучше прочувствовать структуру данных предоставляет функция окраски (brushing) точек на диаграммах рассеивания в соответствии со значениями какой‑либо переменной

Основные характеристики

В Базовой Системе STATGRAPHICS Plus for Windows функционируют следующие процедуры:

· Меню Describe содержит статистические методы анализа по одной и множеству переменных, процедуры подбора распределений, средства табуляции и кросстабуляции данных;

· Меню Compare включает методы сравнения двух и более выборок данных, процедуры одно‑ и многофакторного дисперсионного анализа;

· Меню Relate содержит процедуры простого, полиномиального и множественного регрессионного анализа.

Ниже приводится подробный список доступных статистических и графических процедур.

Диаграммы рассеивания

· Одномерные X‑Y. К ним относятся: линии, диаграммы рассеивания, оцифрованная диаграмма, связанные диаграммы рассеивания, графики с наборами стандартных ошибок X‑Y‑Z, диаграмма рассеивания X‑Y‑Z, чертежный график, переплетенные графики.

· Множественные X‑Y: точки или линии.

· Множественные X‑Y‑Z.

Разведочные графики

Здесь есть следующие категории:

· График «ящик с усами»: горизонтальный и вертикальный, усеченный, с внешними обозначениями, с маркерами средних.

· Графики вероятностей

· Частотные гистограммы: относительные и кумулятивные, гистограмма или полигон

Деловые карты

К ним относятся:

· Графики: горизонтальные и вертикальные, множественные, кластерные, процентные.

· Круговые диаграммы: с вырезанными частями, с надписями.

Описание данных (Describe)

Анализ одной переменной

· Суммарные статистики: среднее, медиана, мода, среднее геометрическое, дисперсия, стандартное отклонение, стандартная ошибка, минимум, максимум, размах, нижний квартиль, верхний квартиль, межквартильный размах, коэффициент асимметрии, нормированный коэффициент асимметрии, коэффициент эксцесса, нормированный коэффициент эксцесса.

· Процентили.

· Табуляция частот: отношения или кумуляты, график «дерево с листьями», доверительные интервалы.

· Проверка гипотез: о среднем и медиане, T‑тест, знаковый тест, знаковый ранговый тест.

· Диаграмма рассеивания.

· График «ящик с усами».

· Гистограмма.

· Квантильный график.

· График нормального распределения.

· График плотности.

· Симметричный график.

Анализ множества переменных

· Суммарные статистики.

· Доверительные интервалы.

· Корреляции.

· Ранговые Спирмена.

· Частные корреляции.

· Ковариации.

· Диаграммы рассеивания.

· График «звезда».

· График «солнечные лучи».

Подбор распределения

· Встроенные распределения: экспоненциальное, экстремальных значений, логнормальное, нормальное, Вейбулла.

· Проверка на нормальность: скорректированный хи‑квадрат, тест Шапиро‑Уилкса, тесты для малых выборок.

· Тесты согласия: Хи‑квадрат, Колмогорова‑Смирнова.

· Площади остатков.

· Критические значения.

· Плотности.

· Симметричные графики.

· График нормального распределения.

· График распределения Вейбулла.

· Частотная гистограмма.

· Функции распределения: плотность, распределение кумуляты, функция выживаемости, логарифм функции выживаемости, функция риска.

Табулирование

· Таблица частот: отношения и кумуляты.

· Прямоугольные диаграммы.

· Круговые диаграммы.

Кросстабуляция

· Таблица частот.

· Критерий хи‑квадрат.

· Измерения связи: лямбда, коэффициенты неопределенности, R Пирсона, D Сомера, Эта, коэффициент контингенции, V Крамера, условный Гамма, Тау Кендалла.

· Прямоугольные диаграммы.

· Мозаичные отображения: горизонтальные и вертикальные.

· Трехмерная диаграмма: частот или процентов.

Сравнение данных (Compare)

Сравнение двух выборок

· Суммарные статистики.

· Сравнение средних: T‑тест, доверительные интервалы.

· Сравнение стандартных отклонений: отношение дисперсий, F‑тест, Доверительные интервалы.

· Сравнение медиан: тест Манна‑Уитнея (Вилкоксона).

· Тест Колмогорова‑Смирнова.

· Гистограммы частот

· Плотности распределений

· Сравнительные графики «ящик с усами»

· Графики квантилей

· Графики Квантиль‑Квантиль

Сравнение множества выборок

· Суммарные статистики.

· Таблица дисперсионного анализа: сумма квадратов, средний квадрат, F‑отношение.

· Таблица и график средних: стандартные ошибки, доверительные интервалы, наименьшие значимые различия (LSD), Тьюки HSD, Шеффе, Бонферони.

· Множественные ранговые тесты: LSD, Тьюки HSD, Шеффе, Бонферони, Ньюмена‑Кеулса, Дункана.

· Соответствие дисперсий: Тест Кокрена, Тест Бартлетта, Тест Хартлея.

· Тест Краскала‑Уоллиса.

· Диаграммы рассеивания.

· Сравнительные графики «ящик с усами».

· Остатки для выборок.

· Остатки для прогнозов.

· Остатки для наблюдений.

Отношения данных (Relate)

Простая регрессия

· Модели: линейная, экспоненциальная, обратная Y, обратная X, дважды обратная, логарифм X, мультипликативная, квадратный корень X, квадратный корень Y, S‑кривая, логистическая, логарифм вероятности.

· T‑статистики.

· Анализ дисперсии: коэффициент корреляции, R‑квадрат, стандартная ошибка оценки.

· Прогнозы.

· Сравнение альтернативных моделей.

· Необычные остатки.

· Точки влияния.

· График подобранной модели: описание и доверительные интервалы.

· Наблюдения и описания.

· Остатки и X: остатки, стьюдентизированные остатки.

· Остатки и описание.

· Остатки и номер строки.

Множественная регрессия

· Коэффициенты модели.

· T‑статистики.

· Анализ дисперсии: R‑квадрат, скорректированный R‑квадрат, стандартная ошибка, средняя абсолютная ошибка, статистика Дурбина‑Ватсона, условная сумма квадратов, сумма квадратов, средний квадрат, F‑отношение.

· Доверительные интервалы.

· Корреляционная матрица.

· Отчеты: наблюдаемый Y, подогнанный Y, остатки, стьюдентизированные остатки, стандартные ошибки и прогнозы, доверительные границы.

· Необычные остатки.

· Точки влияния.

· Компонентные эффекты.

· Наблюдения и описания.

· Остатки и X.

· Остатки и описания.

· Остатки и номер строки.

· Интервальные графики: описываемые величины, средние, прогнозы, прогнозы средних.

Ввод данных

Инициализируем новую электронную таблицу, задействовав соответствующую пиктограмму (Untitled) в левом нижнем углу рабочего поля (Рис. 5. 7).

Рис. 5. 7. Электронная таблица STATGRAPHICS Plus

Эта таблица организована таким образом, что ее строкам должны соответствовать объекты (наблюдения), а столбцам — признаки. В остальном работа с ней напоминает обращение с другими известными электронными таблицами для Windows типа Lotus, Excel и т. д. Вместе с тем, имеются определенные особенности, связанные со спецификой статистического анализа.

Для именования переменных (признаков) и задания их типа нужно маркировать требуемую колонку и щелкнуть правой кнопкой мыши. Появится контекстное меню, в котором следует выбрать команду Modify Column. Появится одноименное окно диалога (Рис. 5. 8).

Преобразование переменных и генерация новых признаков осуществляется аналогичным образом: маркируется необходимая колонка и щелчком правой кнопки мыши вызывается контекстное меню, из которого выбирается Generate Data (Рис. 5. 8). В появившемся окне диалога можно производить арифметические, логические и другие манипуляции с переменными посредством более 100 предоставляемых операторов.

Рис. 5. 8. Панель модификации колонки

Для импорта/экспорта данных из других электронных таблиц под Windows используется системный буфер обмена. При этом имеется одна существенная особенность: маркировка нужной области электронных таблиц должна осуществляться только путем буксировки мыши по диагонали выделяемой части таблицы.

После заполнения таблицы для задания имени и сохранения файла данных требуется выбрать команду File | Save Data File As, ввести имя файла и нажать OK. После этой операции в заголовке таблицы появится указанное имя. Оно же будет использоваться в дальнейшем и на пиктограмме файла данных.

Будем считать, что данные подготовлены к статистическому анализу. Теперь любые манипуляции с ними будут отражаться в результатах обработки, но никоим образом не отразятся на содержимом сохраненных файлов данных.

Рис. 5. 9. Панель для генерации новых данных

Литература

Векслер Л. С. Статистический анализ на персональном компьютере//Мир ПК, № 2, 1992.

Дюк В. А., Мирошников А. И. Эволюция STATGRAPHICS//Мир ПК, № 12, 1995.

Дюк В. А. Обработка данных на ПК в примерах. — СПб: Питер, 1997.

Информатика в статистике: Словарь‑справочник. — М.: Финансы и статистика, 1994.

Кулаичев А. П. Пакеты для анализа данных//Мир ПК, №1, 1995.

Кулаичев А. П. Средства и программные системы анализа данных//Мир ПК, № 10, 1994.

Макаров А. А. STADIA против STATGRAPHICS, или кто ваш лоцман в море статистических данных//Мир ПК, № 3, 1992.

Международная конференция «Статистическое образование в современном мире: идеи, ориентации, технологии», 3—5 июля 1996. Тезисы докладов. — СПб: Изд‑во СПбУЭФ, 1996.

Тюрин Ю. Н., Макаров А. А. Анализ данных на компьютере. — М.: ИНФРА‑М, Финансы и статистика, 1995.

Тюрин Ю. Н., Макаров А. А. Анализ данных на компьютере. — М.: ИНФРА‑М, Финансы и статистика, 1997.

Урок 5. Возможности современных пакетов для анализа данных

Человеческий разум сам по себе не может извлечь полной информации из данных. Он не приспособлен к непосредственному и глубокому восприятию массивов чисел. Поэтому в современном мире умение пользоваться компьютерными системами обработки и анализа данных стало необходимым для успешной деятельности в любой области. Запас сведений о таких системах является обязательным элементом эрудиции инженера по знаниям.

Не следует думать, что системы анализа данных представляют собой нечто подвластное только узким специалистам. В результате прогресса вычислительной техники средства анализа данных стали теперь доступны практически каждому. Материал этого раздела полезен не только инженерам по знаниям, но и многим другим людям (особенно руководителям, бизнесменам, экономистам и т. п.), которым при принятии решений приходится иметь дело с данными различной природы.



Поделиться:


Последнее изменение этой страницы: 2021-03-10; просмотров: 123; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.227.111.58 (0.054 с.)