Регрессионного и дискриминантного анализа 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Регрессионного и дискриминантного анализа



Общее: задачи каждой из перечисленных дисциплин опираются на анализ матрицы данных – матрицы наблюдений.

Ее часто обозначают Х

Это матрица значений (по столбцам) - регрессоров или признаков х1 х2 …xm.

Но в этой матрице, наравне с столбцами х - признаки, участвуют строки d - объекты, - пэтому мы должны бы считать ее не только матрицей признаков х характеризующих объекты d но и матрицей объектов d содержащих в себе определенные значения признаков х.

То есть в “ матрице признаков ” Х

признаки х характеризуют объекты d

признак х1 на объект d1 принимает значение х11,

признак х1 на объект d2 принимает значение х12

…………………………………………………..

признак хm на объект dn принимает значение хnm

 

И рассматривая ее же как “ матрицу объектов ” D

- здесь объекты d характеризуют признаки х

- объект d1 на признаке х1 принимает значение d11,

- объект d1 на признаке х2 принимает значение d12

………………………………………………..

объект dn на признаке хm принимает значение dnm.

 

Поэтому надо бы ее обозначать нейтральной буквой, не Х, не D а например Z.

 

Ну пусть будет Х – мы так привыкли, но имеем в виду, что эта матрица Х состоит равноправно из

столбцов - признаков х и строк – объектов d и анализировать Х возможно, исходя из пространства столбцов х – признаков и

исходя из пространства строк d – объектов.

Напомню, что мы уже применяли такой подход в регрессионном анализе получая интерпретации решений и в пространстве переменных и в пространстве точек.

Если это все что нам дано - то есть мы не имеем значения вектора У, который мы в РА трактовали как выход, то

* анализ тесноты связей в Х естественно может сводится к

анализу тесноты связей в 1. строках - объектах

2. столбцах – признаках.

вопросы о структуре (направлении) связей, – более сложные вопросы - решаем в рамках статистичемкого причинно-следственного анализа И так (различия)

1. первый анализ -степени близости строк (объектов d) проводится в пространстве признаков и это будут группы объектов D i – и вы сразу узнали тему кластерного анализа которым только что занимались.

 

Именно этот аппарат позволяет выделять естественные группировки объектов которые могут реально соответствовать каким-то интерпретируемым классам.

2. второй тип анализа - степени близости признаков – проводится в пространстве объектов и результатом будут группировки (по тесноте связи) признаков. Тесноту связи определяют высокие значения парной корреляции

 

В пространстве объектов такие близкие связанные признаки будут образовывать пучки с не сильно отличающимися направляющими

косинусами между ними.

Обычно у каждой такой группы признаков существует общая причина влияющая на их вариации причем, латентная, то есть не присутстующая в нашем наборе признаков.

Ее, эту причину, и называют фактором.

Предметом ФА является поиск и попытки восстановления этих общих, для найденных групп признаков, и до сих пор нам неизвестных, переменных - факторов.

Интересно что в факторном анализе существуют несколько техники – одна из них R-техника,основанная на анализе и выявлении общности признаков и нахождении факторов, другая Q-техника - аналогичные подходы и алгоритмы только относительно объектов.

 

Получается, что Q-техника, по сути, – это методы факторного анализа, примененные в целях кластеризации. Вот такая трактовка для методов ФА как инструмента Кл. анализа. Верно и обратное – специальные методы КлАнализа могут быть рассмотрены для анализа переменных и с этой точки зрения оценены для механизмов ФА.

-------

 

Если в добавок к нашей матрице Х задан выходной вектор У

в виде значенийотносительной, абсолютной, интервальной переменных - то это предмет регрессионного (индуктивного) анализа и моделирования. Об этом мы уже говорили в 1 семестре.

 

А вот если е сли выходной вектор – назовем его здесь d, задан в виде значений категориальной ( порядковая или номинальная или дискретная фиктивная) переменной, группирующих объекты матрицы Х в классы -то на лицо постановка задачи классификации с учителем.

То есть, задача классификации с учителем возникает, когда нам заданы группы или классы перечнем объектов подряд по классам:

- ,

,….,.

)

 

 

Вот тогда вознакает классическая задача обучени с учителем которой занимается дисциплина

Классификация с “Учителем ” или “Распознавание образов”

Дисциплина занимается построением классификаторов У по заданной обучающей выборке Х для использования, затем, при определении класса новых объектов.

------------------

К слову – на практике мы проведем исследовательскую последовательную работу с выданным вам по вариантам матрицам наблюдений пациентов. Матрица данных по 75 признакам и характеризует состояние пациентов которым делали оперции протезирования клапанов сердца и операции аортокоронарного шунтирования. и фиксирует осложнения (норма, развитие серд недостаточности, наруш мозгового кровообращения, комби)

Вы должны убедится насколько естественные группировки (по рез. кластерного анализа) соответствуют выделенным нами классам осложнений, и должны найти подклассы если они есть.

Далее протащим нашу матрицу через дискриминантный анализ и факторный анализ.

 

Но начинаем работу с того чтобы выяснить не группируются ли в нашей матрице данные еще как нибудь, кроме как по выделенным нами классам. Именно в существовании подклассов часто возникают проблемы РО.

Пример

Основная гипотеза методов РО исходит того что пространство признаков подобрано целесообразно и поэтому концентрпрует в себе различия классов – а значит и отличия их средних. Поэтому основная гипотеза РО – гипотеза компактности классов в Х.

Но что же происходит при наличии подклассов – см самый неприятный вариант.

Здесь средние классов совпадают и применяемый алгоритм должен строить сложную нелинейную границу. Если же выделить подклассы то задачу можно решить линейными границами.

 

Поэтому ваш кластерный анализ проводится сначала в полной матрице (важно – совпадут группировки по кластерам с нашими известными классами – если нет, то какие будут отличия и насколько значимы будут они) а затем проанализировать тоже самое но в каждом классе отдельно – не наблюдаются ли у нас явные подклассы

 

Затем прогоним данные через ЛР и получите бинарные классификаторы

Затем тоже дискриминантным анализом,

И завершим все поверкой как группируются наши признаки в этой задаче – то есть проведем факторный анализ. (логичнее было бы это сделатьв начале - до ЛГ и ДА но …..не играет особой роли)

Особо любопытные попробуют провести клиссификацию уже не в исходном пространстве а в пространстве факторов (и канонических ДФ построенных на факторах)

Это наша программа максимум на практических занятиях – и в сумме эта работа будет Вашей иллюстрацией к вопросам на экзамене.

Начнем теперь с Этапа постановки задачи.



Поделиться:


Последнее изменение этой страницы: 2017-01-20; просмотров: 264; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.141.29.145 (0.011 с.)