Факторизация модели главных координат 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Факторизация модели главных координат



 

В модели главных координат нет никакой потери информации и точности в измерениях, просто осуществлён переход к новой системе упорядоченных факторных переменных. Проведём факторизацию модели путём выбора общих и специфических факторных переменных, для чего выразим через них измеренные величины: ,    

.

Примем первые факторных переменных с наибольшими факторными дисперсиями за общие факторы, которые определяют общефакторную часть  измерений, а остальные отнесём к специфической части  измеримых величин. При этом для общих и специфических факторов в силу их ортогональности выполняются все условия Гаусса – Маркова.

 Поскольку теперь , то доля факторизации определяется как . Задаваясь долей факторизации , можно определить количество необходимых общих факторов  из условия .

    Большой проблемой проведённой факторизации является смысловая интерпретация полученных общих факторов [10], поскольку они являются линейной комбинацией абсолютно всех измеряемых величин. Для разрежения матрицы факторных нагрузок (получения нулевых или незначимых элементов) иногда проводится дополнительное вращение или даже переход от ортогональных координат к косоугольным координатам. В итоге каждый общий фактор связывается только с частью измеримых величин, что упрощает его интерпретацию. Обычной интерпретацией общего фактора является некий обобщённый уровень значения, например, уровень развития, уровень потребления, уровень качества, уровень образования и т.д.

 

Числовой пример (часть 7)

        

    Проведём для рассматриваемых в примере измерений выделение и интерпретацию главных факторов, объясняющих не менее 75% изменчивости наблюдаемых величин. Согласно методу главных координат провёдем преобразование измеренных величин путём ортогонального поворота. Матрица поворота определяется через собственные вектора корреляционной матрицы . Однако, к сожалению в Excel нет функции определения собственных чисел и векторов матрицы, поэтому можно воспользоваться другими приложениями, например, в системе MatLab оператор [T,Q]=equ(R) формирует матрицу поворота и преобразованную к главным координатам корреляционную матрицу . Преобразованная матрица   будет диагональной, на диагонали которой находятся убывающие по величине положительные собственные числа матрицы  и являющиеся дисперсиями главных координат.


 

 

 

 

 

 

 

 

 

 

 

 

-0.385

0.814

-0.431

0.058

 

 

-0.385

0.551

-0.588

0.450

0.551

-0.007

-0.585

-0.596

 

 

0.814

-0.006

-0.102

0.572

-0.588

-0.102

0.231

-0.769

 

 

-0.431

-0.585

0.231

0.648

0.450

0.572

0.648

-0.226

 

 

0.058

-0.596

-0.769

-0.226

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1.000

-0.339

0.367

-0.178

 

 

2.252

0.000

0.000

0.000

-0.339

1.000

-0.671

0.365

 

 

0.000

0.832

0.000

0.000

0.367

-0.671

1.000

-0.500

 

 

0.000

0.000

0.611

0.000

-0.178

0.365

-0.500

1.000

 

 

0.000

0.000

0.000

0.305

 

 

 

 

4.000

 

 

 

 

4.000

 

 

 

 

 

 

 

 

 

25.0%

25.0%

25.0%

25.0%

 

 

56.3%

20.8%

15.3%

7.6%

25.0%

50.0%

75.0%

100.0%

 

 

56.3%

77.1%

92.4%

100.0%

           

Суммарная дисперсия (изменчивость) всех наблюдаемых величин в стандартном масштабе равна количеству переменных и сохраняется при повороте (инвариантность следа матрицы). Распределение изменчивости по координатам сильно изменилось, видим, что первый главный фактор  объясняет уже 56.3% изменчивости, а для объяснения 75% достаточно первых двух факторов . Поясним смысл главных факторов, т.к. , то:

,

.

Факторные нагрузки разнонаправлены по знаку и значительны по величине.

    Рассмотрим для сравнения объяснение величины через главные факторные переменные и измеренные переменные. Пересчитаем матрицу измерения  в главные координаты и построим на них линейную регрессию переменной .

 

 

 

 

 

 

 

 

 

 

 

 

f1

f2

f3

f4

 

 

 

 

 

 

-1.057

-0.241

-0.219

0.003

 

 

 

 

 

0.266

0.804

1.115

-0.094

 

24.775

0.001

0.001

0.001

-1.528

-1.317

0.896

-0.466

 

0.001

9.152

0.000

0.000

1.434

-0.636

-1.467

0.388

 

0.001

0.000

6.717

0.000

1.267

1.485

-0.158

-0.025

 

0.001

0.000

0.000

3.355

-1.957

0.938

-0.476

0.459

 

 

 

0.747

0.463

1.207

0.264

 

 

 

0.231

-1.564

0.026

-0.081

 

0.040

0.000

0.000

0.000

-1.767

0.632

-0.871

-1.072

 

0.000

0.109

0.000

0.000

-0.718

-0.330

0.018

1.133

 

0.000

0.000

0.149

0.000

3.084

-0.234

-0.071

-0.509

 

0.000

0.000

0.000

0.298

 

 

 

 

 

 

 

 

 

0.000

0.000

0.000

0.000

 

 

14.855

 

0.600

2.252

0.832

0.611

0.305

 

 

 

2.892

 

 

0.316

1.501

0.912

0.781

0.552

 

 

-0.648

 

-0.096

1.574

0.957

0.820

0.579

 

 

-0.861

 

-0.257

В построенной регрессии можно отбрасывать последние факторы (столбцы в F) в любом количестве, вплоть до оставления одного единственного главного фактора.

Из приводимых ниже расчетов можно видеть, что при 4-х факторной регрессии её качественные параметры, такие как коэффициент детерминации  и стандартная ошибка  регрессии совпадают с параметрами регрессии, рассмотренной в части 3 нашего примера. При уменьшении количества используемых факторов параметры регрессии ухудшаются, но незначительно. Так регрессия только по единственному главному фактору  имеет коэффициент детерминации , что всего на 10% ниже исходного и остаётся значимым по заданному уровню значимости . При этом снижается размерность задачи анализа данных, сжимается объём данных путём отбрасывания второстепенных данных и, наконец, имеется возможность визуализации корреляционных полей и линейной регрессии в них.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

-0.673

 

-0.690

0.016

-0.689

0.016

-0.710

0.037

-0.634

-0.039

0.126

 

0.330

-0.204

0.306

-0.180

0.413

-0.287

0.160

-0.033

-0.773

 

-1.299

0.526

-1.419

0.646

-1.333

0.559

-0.916

0.143

0.626

 

0.701

-0.075

0.800

-0.174

0.659

-0.033

0.860

-0.234

1.625

 

1.250

0.375

1.244

0.381

1.229

0.397

0.759

0.866

-0.823

 

-0.949

0.126

-0.831

0.008

-0.877

0.054

-1.174

0.350

0.026

 

0.410

-0.384

0.478

-0.451

0.594

-0.568

0.448

-0.421

-0.703

 

-0.337

-0.366

-0.358

-0.345

-0.356

-0.347

0.138

-0.842

-0.793

 

-0.501

-0.293

-0.776

-0.017

-0.860

0.067

-1.059

0.266

-0.763

 

-0.828

0.064

-0.537

-0.226

-0.535

-0.228

-0.431

-0.333

2.125

 

1.913

0.212

1.782

0.343

1.775

0.350

1.849

0.276

 

 

 

 

 

 

 

 

 

 

0.000

 

0.000

0.000

0.000

0.000

0.000

0.000

0.000

0.000

1.000

 

0.919

0.081

0.898

0.102

0.893

0.107

0.810

0.190

1.000

 

0.958

0.285

0.948

0.319

0.945

0.328

0.900

0.436

1.049

 

1.005

0.299

0.994

0.334

0.991

0.344

0.944

0.458

 

 

 

 

 

 

 

 

 

 

 

R2=

0.919

 

0.898

 

0.893

 

0.810

 

 

S=

0.387

 

0.432

 

0.443

 

0.591

 

 

Gf=

3.729

 

2.927

 

2.754

 

1.408

 

 

На рис. 6.1 изображена проекция корреляционного поля на плоскость , на которой,  как мы знаем, можно увидеть 77% изменчивости измеренных наблюдений. Это позволит классифицировать наблюдаемые объекты на классы, группируя объекты по величине их взаимного расстояния или расположению в квадрантах плоскости.

        

 

Рис. 6.2. Изображение корреляционного поля наблюдаемых объектов на плоскости первых двух главных факторов.

 

Задачу классификации объектов можно решать и на прямой единственного главного фактора . На рис. 6.3 представлено не только корреляционное поле объектов, но линия тренда для объясняемой величины у.

 

Рис. 6.3. Изображение корреляционного поля наблюдаемых объектов на прямой главного фактора и тренда объясняемой переменной у.

 


Задания для выполнения расчётно-графических работ.

 

1. Выбрать входные данные факторов Х и У из предложенных ниже по номеру варианта Nвар, соответствующему номеру по списку преподавателя и номера Вашей группы Nгр и записать их в виде матрацы измерений.

 

Объём многофакторной выборки Х,У вычисляется как n=10+ номер вариан та, а величина N=ОСТАТ[Номер группы/10 ] и равна последней цифре в номере Вашей группы.

Рекомендуется и поощряется использование в качестве входных данных статистические данные, полученные или используемые Вами в определенной предметной деятельности.

 

2. Перейти к стандартной форме статистических данных Х,Y, вычислив средние значения факторов , дисперсию ,  СКО=  и стандартные отклонения .

                                                           

3. Построить матрицу парных корреляций  измеряемых величин  и установить наличие значимых по заданному уровню корреляции  согласно критерию Стьюдента

       .

Имеются ли среди корреляций У и Х незначимые переменные ?

 

4. Построить коэффициенты линейной регрессии b, ошибки регрессии е, тренд  и построить точечные графики на плоскостях .

 

Пересчитать тренд из стандартной формы в реальные масштабы.

 

5. Вычислить коэффициент детерминации  и установить его значимость, соответствующую заданному уровню значимости альфа. Вычислить стандартные ошибки коэффициентов регрессии , построить доверительные интервалы для истинных значений коэффициентов регрессии, соответствующие заданной надёжности гамма.

 

6. Проверить значимость коэффициентов регрессии по уровню альфа, построить вектор значимости и вектор значимых коэффициентов регрессии . Построить тренд и ошибки по значимым коэффициентам регрессии (если нет значимых – то использовать все незначимые). Как при этом изменится коэффициент детерминации ?

7. Установить отсутствие гетероскедастичности по уровню значимости  и отсутствие автокорреляции по уровню значимости 0,05.

8. Построить графики  и подобрать хотя бы одну нелинейную инструментальную переменную z= φ (xj), повышающую коэффициент детерминации.

9. Построить линейную факторную модель по методу главных координат. Построить ,  по факторным переменным.

10.  Выбрать главные факторы, объясняющие не менее 75% изменчивости наблюдаемых переменных. Построить ,  по главным факторным переменным. По факторным нагрузкам понять смысл первого главного фактора.

11.  Выбрать 2 первых главных фактора и построить по ним , . На факторной плоскости построить наблюдаемые объекты и разбить их на 2-3 класса по методу расстояний.

 

Входные данные

Измеренные факторы для статистической обработки в РГР

 

У факторы

 

Х факторы

1

2

3

 

1

2

3

4

5

6

7

8

9

10

9,26

204,2

13,26

 

0,89

0,34

1,73

0,31

166,2

167,29

10,08

17,22

9889

0,28

9,44

209,6

10,16

 

0,93

0,33

0,99

0,15

186,1

92,88

14,76

18,39

2212

0,25

12,11

223,54

13,72

 

1,33

0,17

1,73

0,14

220,5

159,01

6,45

26,46

1078

0,47

10,81

236,7

12,83

 

0,68

0,32

0,47

0,18

169,3

93,96

21,83

22,37

1072

1,53

9,33

62

10,63

 

0,89

0,36

1,73

0,31

39,93

173,88

11,94

28,13

5526

0,21

9,87

53,1

9,12

 

1,53

0,33

1,33

0,17

40,41

162,3

12,6

17,55

4532

0,13

8,17

172,1

25,95

 

1,12

0,15

0,97

0,26

103

88,56

11,52

21,79

1265

0,38

9,12

56,5

23,39

 

0,99

0,32

1,82

0,29

37,02

101,16

8,28

19,52

5756

0,38

5,88

52,6

14,68

 

1,65

0,31

0,68

0,26

45,94

167,29

11,52

23,85

1182

0,2

6,3

46,6

10,05

 

0,56

0,15

1,8

0,28

40,07

140,76

32,4

21,88

6436

0,35

6,19

53,2

13,89

 

0,58

0,17

1,19

0,25

45,44

128,52

11,52

25,68

6964

0,2

5,46

30,1

9,68

 

1,53

0,15

0,97

0,49

41,08

177,84

17,28

18,13

4984

0,17

6,5

146,4

10,03

 

0,7

0,16

1,15

0,26

136,1

114,48

16,2

25,74

2249

0,25

6,61

18,1

9,13

 

1,77

0,15

0,02

0,28

42,39

93,24

13,36

21,21

6920

0,16

4,32

13,6

5,37

 

0,74

0,17

0,06

0,17

37,39

126,72

17,28

22,86

5736

0,21

7,37

89,8

9,86

 

1,08

0,34

1,39

0,17

101,8

91,27

9,72

16,38

4726

0,19

7,02

62,5

12,62

 

1,15

0,34

0,08

0,31

47,91

69,12

16,2

13,21

7208

1,24

8,25

46,3

5,02

 

0,97

0,34

0,77

0,18

32,61

66,24

24,88

14,41

8370

0,43

8,15

103,47

21,18

 

1,12

0,19

0,77

0,31

103,7

67,16

14,76

13,44

1076

0,14

8,72

73,3

25,17

 

0,99

0,19

1,08

0,18

38,95

50,4

7,56

13,69

6592

0,29

6,64

76,6

19,4

 

0,58

0,34

0,93

0,31

81,32

70,89

8,64

16,66

9981

0,43

8,1

73,01

21

 

1,03

0,34

0,1

0,15

67,75

72

8,64

15,06

7568

0,17

5,52

32,3

6,57

 

1,24

0,15

0,11

0,28

59,66

97,2

9

20,,09

4419

0,21

9,37

198,54

14,19

 

0,89

0,19

1,44

0,18

107,8

80,28

14,76

15,91

2089

0,42

13,17

598,12

15,81

 

0,68

0,34

0,48

0,14

512,6

51,48

10,08

18,27

2894

1,19

6,67

71,69

5,2

 

1,03

0,19

1,24

0,18

53,53

105,12

14,76

14,44

7468

1,87

5,68

90,63

7,96

 

0,73

0,32

0,77

0,29

80,83

128,52

10,38

22,88

8631

0,15

5,19

82,1

17,5

 

0,73

0,19

0,93

0,3

59,42

94,68

14,76

15,5

3131

0,03

10,02

76,2

17,16

 

0,85

0,33

0,13

0,27

36,96

85,32

20,52

19,35

6475

0,24

8,16

119,47

14,54

 

1,03

0,34

1,73

0,14

91,88

76,32

14,46

16,95

8206

0,93

3,78

21,83

6,21

 

0,47

0,36

0,77

0,29

17,16

153

24,88

30,53

4467

0,13

6,45

48,4

12,08

 

0,56

0,33

0,16

0,44

27,29

107,34

11,16

17,78

6518

0,27

10,38

173,5

9,39

 

0,89

0,32

0,74

0,14

184,3

90,72

6,45

22,09

2269

0,17

7,65

74,1

9,28

 

0,99

0,15

1,95

0,29

58,42

82,44

9,72

18,29

6810

0,24

8,77

68,6

11,44

 

1,95

0,16

0,58

0,18

59,31

79,12

3,24

26,05

6561

0,19

7

60,8

10,31

 

1,03

0,16

1,77

0,44

49,87

120,96

6,45

26,2

1273

0,29

11,06

355,6

8,65

 

0,01

0,2

0,7

0,31

391,3

84,6

5,4

17,26

7919

0,25

9,02

264,81

10,88

 

0,02

0,15

0,74

0,18

258,6

85,32

6,12

18,95

1431

0,36

13,28

526,62

9,87

 

0,6

0,33

1,15

0,14

75,14

101,52

8,64

19,66

9277

0,17

9,27

118,6

6,14

 

0,97

0,33

1,19

0,31

123,2

107,34

11,94

16,97

1220

0,23

 

 

Варианты заданий РГР

 

Nвар

Y

n

m

X1

X2

X3

X4

X5

X6

X7

X8

 

Альфа

Гамма

1

1

11

8

N

N+2

N+3

N+4

N+6

N+7

N+8

N+9

 

0,01

0,9

2

2

12

8

N

N+1

N+3

N+4

N+5

N+7

N+8

N+9

 

0,025

0,925

3

3

13

8

N

N+1

N+2

N+4

N+5

N+6

N+8

N+9

 

0,05

0,95

4

2

14

8

N

N+1

N+2

N+3

N+5

N+6

N+7

N+9

 

0,075

0,975

5

1

15

8

N

N+1

N+2

N+3

N+4

N+6

N+7

N+8

 

0,1

0,99

6

2

16

8

N

N+2

N+3

N+4

N+5

N+7

N+8

N+9

 

0,01

0,9

7

3

17

8

N

N+1

N+3

N+4

N+5

N+6

N+8

N+9

 

0,025



Поделиться:


Последнее изменение этой страницы: 2020-10-24; просмотров: 97; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.144.86.121 (1.1 с.)