Лекция 10. Дискриминантный анализ 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Лекция 10. Дискриминантный анализ



Основные сведения о дискриминантном анализе

 

Дискриминантный анализ это раздел многомерного статистического анализа, содержанием которого является разработка методов решения задач различия (дискриминации) объектов наблюдения по определенным признакам.

Если перед вами стоит задача как по результатам измерений отнести объект к одному из нескольких классов, то применяется дискриминантный анализ.

Методы дискриминантного анализа позволяют построить на основе ряда предположений классификационное правило отнесения объекта к одному из нескольких классов, минимизируя некоторый разумный критерий, например, вероятность ложной классификации или заданную пользователем функцию потерь. Выбор критерия определяется пользователем из соображений ущерба, который он понесет из-за ошибок классификации.

Методы дискриминантного анализа находят применение в различных областях: социологии, психологии, медицине, экономике и т.д. Например они применяются для разбиения совокупности предприятий на несколько однородных групп, по значениям каких–то показателей производственно–хозяйственной деятельности. Для оценки финансового состояния своих клиентов при выдаче им кредита банк классифицирует их на надежных и не надежных по ряду признаков.

Пусть результатом наблюдения над объектом является реализация k – мерного случайного вектора . Задача дискриминации состоит в разбивке всего множества реализаций рассматриваемой величины на некоторое число групп  и последующем отнесении нового наблюдения в одно из них, используя некоторое решающее правило. При этом информация об истинной принадлежности объекта считается недоступной.

Правило дискриминации выбирается в соответствии с определенным принципом оптимальности на основе априорной информации о совокупностяхизвлеченного объекта.

Наиболее изучен случай, когда известно, что распределение векторов признаков каждой совокупности нормально, но нет информации о параметрах этого распределения. Здесь естественно заменить неизвестные параметры распределения дискриминантной функции их лучшими оценками. Правило дискриминации можно основывать на отношении правдоподобия.

Аппарат дискриминантного анализа разрабатывался, начиная с конца 50 – х годов XX века. Дискриминантным анализом занимались П. Ч Махалонобис, Р. Фишер, Г. Хоттелинг и др.

Исторически первой в дискриминантном анализе была модель Фишера, в которой предполагается, что наблюдаемые векторы имеют многомерное нормальное распределение с невырожденной ковариационной матрицей и вектором средних, разным для разных классов.

 

Проведение дискриминантнрого анализа

В пакете «Stadia»

 

В пакете Stadia для дискриминантного анализа исходные данные представляют в виде матрицы размеров  в которой, первые столбцов содержат значения переменных для объектов, а  - я переменная в качестве своих значений содержат для каждого объекта номер его класса (натуральные числа от 1 до , где - число классов). Объекты (строки) матрицы могут располагаться произвольно относительно номеров классов. Если кроме вычисления дискриминантной функции нужно с ее помощью классифицировать ряд новых объектов, то такие объекты также исходно включают матрицу данных с номером класса 0.

В Блоке «Статистические методы» в разделе «многомерные методы» при выборе «p – Дискриминантный» в ходе вычислений ищется набор дискриминирующих функций , обеспечивающих классификацию объектов на заданное число классов:

,                      

Выдача результатов включает

– суммарное межкластерное расстояние Махалонобиса =  между классами с уровнем значимости = . Для нулевой гипотезы  (о невозможности разбиения совокупностей объектов на заданное число классов) по хи – квадрат критерию с степенями свободы;

– коэффициенты дискриминирующей функции, обеспечивающей отнесение объектов к данному классу, отдельно для каждого класса;

– таблицу, где для каждого объекта (первый столбец) указывается номер его класса  (второй столбец), расстояние Махаланобиса  (от объекта до центра класса), уровень значимости нулевой гипотези «» (объект может быть отнесен к данному классу) по критерию хи – квадрат с  - степенями свободы и апостеорная вероятность отнесения объекта к этому классу.

Если соответствующая нулевая гипотеза может быть принята.

Пример 1. Даны данные о 10 объектах (см. таблицу), каждый из которых представлен измерениями по двум переменным. Третья переменная представляет номера предполагаемых классов отнесения этих объектов. Причем объект №7 не отнесен ни к какому классу (имеет №0). Требуется определить, к какому классу он принадлежит?

 

№ объекта Признак 1 Признак 2 Класс
1 1.4 2.1 1
2 2.8 2.2 1
3 10.3 3.7 2
4 13.2 4.2 2
5 3.5 3.1 1
6 12.8 8.899 2
7 11.9 3.3 0
8 3.8 11.7 3
9 6.1 13.1 3
10 1.3 9.399 3

 

Для выполнения задания проделайте следующие пункты

1. Откройте чистый рабочий лист в пакете Stadia.

2. Заполните таблицу на этом листе без 1 столбца.

3. Выполните команды: Статист=F9, среди многомерных методов выбрать P – дискриминантный (P означает нажать букву P для быстрого выполнения команды).

В итоге получаем результаты:

ДИСКРИМИНАНТНЫЙ АНАЛИЗ. Файл: dikrim.std

 

Расстояние Махаланобиса=42,59, значимость=5,157E-6

Класс <--- Коэффициенты дискриминантной функции:a[0],a[1],... --->

   1 -1,116 0,6394 0,2395

   2 -26,44 5,137 -1,668

   3 -19,03 -1,794 3,938

 

Объект Класс D^2 Значим Вероят.отнесения

   1   1 0,5596 0,7559   1

   2   1 0,1083 0,9473   1

   3   2 1,152 0,562   1

   4   2 2,623 0,2694   1

   5   1 0,2813 0,8688   1

   6   2 3,526 0,1715   1

   7   2 2,077 0,354   1

   8   3 0,03831 0,981   1

   9   3 1,794 0,4078   1

  10   3 1,917 0,3835   1

Выводы: как показывают результаты дискриминантного анализа, предполагаемая классификация оказалась эффективной (уровень значимости близок к нулю для гипотезы о нулевом межкластерном расстоянии ). Объект №7 с вероятностью 1 отнесен ко второму классу.

 



Поделиться:


Последнее изменение этой страницы: 2021-12-15; просмотров: 63; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.221.13.173 (0.009 с.)