Дискриминантный анализ, дискриминантные группы 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Дискриминантный анализ, дискриминантные группы



 

Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Например, некий исследователь в области образования может захотеть исследовать, какие переменные относят выпускника средней школы к одной из трех категорий: (1) поступающий в колледж, (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы. После выпуска большинство учащихся естественно должно попасть в одну из названных категорий. Затем можно использовать Дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути.

Пошаговый дискриминантный анализ:

Вероятно, наиболее общим применением дискриминантного анализа является включение в исследование многих переменных с целью определения тех из них, которые наилучшим образом разделяют совокупности между собой.

Модель. Другими словами, вы хотите построить "модель", позволяющую лучше всего предсказать, к какой совокупности будет принадлежать тот или иной образец. В следующем рассуждении термин "в модели" будет использоваться для того, чтобы обозначать переменные, используемые в предсказании принадлежности к совокупности; о неиспользуемых для этого переменных будем говорить, что они "вне модели".

Пошаговый анализ с включением. В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам. Точнее, на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.

Пошаговый анализ с исключением. Можно также двигаться в обратном направлении, в этом случае все переменные будут сначала включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в предсказания. Тогда в качестве результата успешного анализа можно сохранить только "важные" переменные в модели, то есть те переменные, чей вклад в дискриминацию больше остальных.

F для включения, F для исключения. Эта пошаговая процедура "руководствуется" соответствующим значением F для включения и соответствующим значением F для исключения. Значение F статистики для переменной указывает на ее статистическую значимость при дискриминации между совокупностями, то есть, она является мерой вклада переменной в предсказание членства в совокупности. Если вы знакомы с пошаговой процедурой множественной регрессии, то вы можете интерпретировать значение F для включения/исключения в том же самом смысле, что и в пошаговой регрессии.

Расчет на случай. Пошаговый дискриминантный анализ основан на использовании статистического уровня значимости. Поэтому по своей природе пошаговые процедуры рассчитывают на случай, так как они "тщательно перебирают" переменные, которые должны быть включены в модель для получения максимальной дискриминации. При использовании пошагового метода исследователь должен осознавать, что используемый при этом уровень значимости не отражает истинного значения альфа, то есть, вероятности ошибочного отклонения гипотезы H0 (нулевой гипотезы, заключающейся в том, что между совокупностями нет различия).

Интерпретация функции дискриминации для двух групп:

Для двух групп дискриминантный анализ может рассматриваться также как процедура множественной регрессии (и аналогичная ей) - (см. раздел Множественная регрессия; дискриминантный анализ для двух групп также называется Линейным дискриминантным анализом Фишера после работы Фишера (Fisher, 1936). (С вычислительной точки зрения все эти подходы аналогичны). Если вы кодируете две группы как 1 и 2, и затем используете эти переменные в качестве зависимых переменных в множественной регрессии, то получите результаты, аналогичные тем, которые получили бы с помощью Дискриминантного анализ а. В общем, в случае двух совокупностей вы подгоняете линейное уравнение следующего типа:

Группа = a + b1*x1 + b2*x2 +... + bm*xm

где a является константой, и b1... bm являются коэффициентами регрессии. Интерпретация результатов задачи с двумя совокупностями тесно следует логике применения множественной регрессии: переменные с наибольшими регрессионными коэффициентами вносят наибольший вклад в дискриминацию.

Дискриминантные функции для нескольких групп:

Если имеется более двух групп, то можно оценить более, чем одну дискриминантную функцию подобно тому, как это было сделано ранее. Например, когда имеются три совокупности, вы можете оценить: (1) - функцию для дискриминации между совокупностью 1 и совокупностями 2 и 3, взятыми вместе, и (2) - другую функцию для дискриминации между совокупностью 2 и совокупности 3. Например, вы можете иметь одну функцию, дискриминирующую между теми выпускниками средней школы, которые идут в колледж, против тех, кто этого не делает (но хочет получить работу или пойти в училище), и вторую функцию для дискриминации между теми выпускниками, которые хотят получить работу против тех, кто хочет пойти в училище. Коэффициенты b в этих дискриминирующих функциях могут быть проинтерпретированы тем же способом, что и ранее.

 

Занятие 10 Многомерный статистический анализ. Кластерный анализ; факторный анализ

Методы кластерного анализа

В модуле Кластерный анализ реализован полный набор методов кластерного анализа данных, включая методы k-средних, иерархической кластеризации и двухвходового объединения. Данные могут поступать как в исходном виде, так и в виде матрицы расстояний между объектами. Наблюдения, переменные или и наблюдения, и переменные можно кластеризовать, используя различные меры расстояния (евклидово, квадрат евклидова, городских кварталов (манхэттеновское), Чебышева, степенное, процент несогласия и 1- коэффициент корреляции Пирсона) и различные правила объединения (связывания) кластеров (одиночная, полная связь, невзвешенное и взвешенное попарное среднее по группам, невзвешенное, взвешенное расстояние между центрами, метод Варда и другие). Матрицы расстояний можно сохранять для дальнейшего анализа в других модулях системы STATISTICA. При проведении кластерного анализа методом k-средних пользователь имеет полный контроль над начальным расположением центров кластеров. Могут быть выполнены чрезвычайно большие планы анализа: так например, при иерархическом (древовидном) связывании можно работать с матрицей из 90 тыс. расстояний. Помимо стандартных результатов кластерного анализа, в модуле доступен также разнообразный набор описательных статистик и расширенных диагностических методов (полная схема объединения с пороговыми уровнями при иерархической кластеризации, таблица дисперсионного анализа при кластеризации методом k-средних). Информация о принадлежности объектов к кластерам может быть добавлена к файлу данных и использоваться в дальнейшем анализе. Графические возможности модуля Кластерный анализ включают настраиваемые дендрограммы, двухвходовые диаграммы объединений, графическое представление схемы объединения, диаграмму средних при кластеризации по методу k-средних и многое другое.

 



Поделиться:


Последнее изменение этой страницы: 2017-02-07; просмотров: 189; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.134.78.106 (0.006 с.)