Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Описание языка узкого исчисление предикатов

Поиск

Опишем соответствующий алфавит для рассматриваемого случая. Прежде всего – о нелогических символах формализованного языка.

Предметные (индивидные) константы: конкретные номера респондентов, для обозначения которых могут использоваться буквы a, b, c,.... Предметные (индивидные) переменные – обозначения произвольных номеров респондентов: x, y, z,....

n – местные предикатные константы: одноместные – “для респондента x рассматриваемый признак принимает такое-то значение”. Примеры: “возраст человека x лежит в интервале от 35 до 40 лет”; “возраст человека x лежит в интервале от 15 до 20 лет”; “профессия респондента x – врач”; “профессия респондента x – учитель” и т.д.; двуместные – “профессия респондента x не совпадает с профессией респондента y”, “респондент x читает те же газеты, что и респондент y”.

Понятие формулы определяется рекурсивно:

1) любая предикатная константа P(x), P(x,y), P (x,y,z),... является формулой;

2) если А – формула, то Ø А – тоже формула;

3) если А и В – формулы, то А&В, А Ú В, А É В – тоже формулы;

4) если А – формула и х – предметная переменная, то "хА и $хА – формулы;

5) ничто иное, кроме перечисленного в п.п. (1-4), формулой не является.

Будем считать, что читателю известно, как определяется истинность логических формул с кванторами всеобщности и существования (" и $) в обычной классической двузначной логике.

 

Интересующие социолога закономерности как формулы узкого исчисления предикатов

Итак, представим себе типичную для социолога ситуацию: он осуществил опрос и перед ним лежит тысяча (может быть, не одна) анкет с ответами респондентов. Каждый ответивший характеризуется набором чисел – ответов, или, как обычно говорят, значений рассматриваемых признаков (признак соответствует вопросу).

Продолжая приведенные выше рассуждения, позволившие выразить интересующие социолога статистические закономерности (или, что для нас то же самое – результаты, получаемые с помощью известных методов анализа номинальных данных) в терминах исчисления высказываний, нетрудно придти к выводу, что более общие закономерности, в неменьшей мере важные для социолога, часто бывает возможно выразить в языке узкого исчисления предикатов. Эти закономерности означают истинность определённых формул в этом исчислении.

Приведем примеры упомянутых формул. Пусть, например, предикат (предикатная константа) P(x) означает “респондент x отметил 5-е значение 8-го признака”, предикат Q (y) - “респондент y отметил 3-е значение 14-го признака”, а предикат R(z) - “респондент z отметил 1-е значение 2-го признака. Тогда приведённое выше утверждение “ 5-е значение 8-го признака, как правило, встречается либо с 3-м значением 14-го, либо с 1-м значением 2-го” будет означать, что почти для всех x будет истинной формула (P(x) & (Q(x)Ú R(x))).

Теперь предположим, что P(x) означает “респонденту x отвечает 2-е значение 3-го признака”, Q(x) – “ респонденту отвечает 5-е значение 4-го признака, R(x) – предикат “значение 6-го признака для респондента x равно или 2, или 3”. Тогда выражение “из того, что 3-й признак принимает 2-е значение одновременно с тем, что 4-й принимает 5-е значение, как правило, следует, что 6-й признак принимает либо 2-е, либо 3-е”,” и т.д. означает, что почти для всех x будет истинно выражение ((P(x) & Q(x))É R(x)).

Пусть S(x) – “значение 23-го признака для респондента x равно 2”, T(x) – “значение 7-го признака для респондента x равно 4”. Тогда утверждение “из того, что 23-й признак принимает какое-либо значение, кроме 2-го, следует, что 7-й признак принимает 4-е значение” будет эквивалентно утверждению истинности формулы (Ø(S(x)) É T(x)).

Нетрудно видеть, что таким образом в виде формул узкого исчисления предикатов действительно можно выразить очень многие интересующие социолога “закономерности”, “скрывающиеся” в эмпирических данных. А если учесть, что большинство методов анализа номинальных данных, как было показано в предыдущих параграфах, позволяет выявлять “закономерности” именно такого вида, то можно сказать, что практически все интересующие социолога закономерности выражаются на языке формул исчисления предикатов первого порядка.

Итак, наиболее типичной задачей, решающейся на основе анализа такого рода данных можно считать следующую: найти логическую функцию от значений признаков (выступающих в качестве предикатов), истинную для изучаемой совокупности респондентов. Получаемые выводы (найденные закономерности) могут иметь, например, такой вид (используем обычную логическую символику, логические связки соединяют записанные в неформальном виде значения рассматриваемых предикатов-признаков): "(((Проживающий в крупном городе) & (мужчина-предприниматель) & (старше 40 лет)) Ú ((пенсионер) & (имеющий высшее экономическое образование))) É (собирается голосовать на ближайших выборах за кандидата N)".

Очевидно сходство такой постановки задачи с тем, что было обсуждено выше в п.п. 2.4.2, 2.5.3 и 2.5.4.

Теория измерений позволяет существенно повысить эффективность решения задачи поиска закономерностей описанного вида. Суть соответствующего подхода заключается в том, что упомянутые логические функции считаются аксиомами, задающими изучаемую ЭС (ей отвечает МС – фрагмент многомерного пространства). Разработаны способы внесения в определение и ЭС, и МС вероятностных характеристик. Предложены алгоритмы поиска таких аксиом. Рассмотрим соответствующий процесс более подробно.

 

Вид искомых аксиом

Возможность экспериментального выявления аксиом, описывающих нашу ЭС, обеспечивается тем, что необозримая совокупность всех возможных формул, подлежащих проверке, сводится к множеству, вполне поддающемуся обзору множеству (формулы этого множества служат гипотезами для проверки на ЭС). А именно, на основе положений математической логики доказываются следующие утверждения.

Совокупность формул интересующего нас характера может быть сведена к совокупности формул вида

С= (А1& А2& … & Ак É А0), (7)

где Аi – или наши предикатные константы с произвольными предметными переменными, или их отрицания. Назовем формулы вида (7) правилами.

Введем также понятие подправила правила (7) как такой формулы, которая является импликацией, содержащей в качестве посылки – часть посылки формулы вида (1) (получающуюся за счет отбрасывания некоторых Аi ), а в качестве заключения – либо то же заключение, что и в (7) (т.е. А0), либо отрицание одной из тех Аi, (i = 1, …, k), которые не вошли в посылку. Ясно, что каждое подправило правила (7) является в то же время неким правилом того же вида (7).

Из логики и методологии науки известно, что законами можно считать те из гипотез, которые при одинаковой их подтвержденности на экспериментальных данных наиболее фальсифицируемы, просты и/или содержат наименьшее число параметров (ср. наше обсуждение понятия закономерности в п. 2.5.3).

Ясно, что подправило – логически более сильное утверждение, чем само правило. Другими словами, из истинности подправила следует истинность правила. К примеру, рассмотрим правило “из конъюнкции "быть мужчиной и жить на селе" следует "быть курящим"” и два его подправила: (а) “из свойства "быть мужчиной" следует "быть курящим"“ и (б) “из свойства "быть мужчиной" следует "не жить на селе"“. То, что первое подправило логически более сильно, чем правило, представляется очевидным: если из свойства "быть мужчиной" следует свойство "быть курящим", то последнее следует также и из конъюнкции свойств "быть мужчиной и жить на селе". Относительно же второго подправила можно заметить, что если оно истинно, то, очевидно, конъюнкция "быть мужчиной и жить на селе" ложна. Значит, наше правило истинно в силу ложности его посылки (напомним, что, в соответствии с правилами формальной логики, из лжи следует что угодно).

Кроме того, любое подправило является и более фальсифицируемым, чем правило, так как содержит более слабую посылку и, следовательно, применимо к большему объему данных и тем самым в большей степени подвержено фальсификации; и более простым, так как содержит меньшее число атомарных высказываний, чем правило; и включает меньшее число "параметров", так как лишние атомарные высказывания также можно считать параметрами "подстройки" высказывания под данные.

Обычно используемое в рамках теории измерений обоснование нефальсифицируемости какого-либо положения не предполагает поиска более простого, логически более сильного и также нефальсифицируемого утверждения. Поэтому нефальсифицируемое на имеющихся данных утверждение принимается в качестве аксиомы даже в том случае, если оно содержит некоторые дополнительные условия, которые без ущерба для нефальсифицируемости можно было бы удалить из него (скажем, мы считаем аксиомой положение "мужчины – селяне курят", если оно истинно на всех объектах изучаемой выборки, и делаем это даже тогда, когда истинным является также логически более сильное положение "мужчины курят", т.е. когда свойство "быть жителем села" – явно лишнее в аксиоме). Авторы цитируемой работы предлагают осуществлять такое удаление.

Сформулированные выше положения дают основания считать, что задача обнаружения законов в данных (законов, характеризующих изучаемую ЭСО) требует нахождения среди всех правил вида (7) логически наиболее сильных. Будем называть законом ЭС любое истинное на этой системе правило вида (7), для которого каждое его подправило уже не истинно на той же системе. Наша главная задача состоит в поиске таких законов, т.е. в поиске наиболее сильной теории, вытекающей из соотношений вида (7) и описывающей эти данные.

Задача вполне решаема, что подтверждается тем, что описанный подход реализован на ЭВМ [Витяев, 1992; Витяев, Москвитин, 1985, 1993]. На этом мы закончим в основном изложение базирующихся на идеях РТИ принципов поиска логических закономерностей, характеризующих изучаемую ЭС. Сделаем лишь несколько небольших замечаний о том, чего мы пока не коснулись.

Заметим, что поиск законов может также способствовать проверке истинности на ЭС любой заранее данной системы аксиом: аксиома будет выполнена на ЭС, если найдется такое ее подправило, которое является законом. Последнее утверждение опирается на то, что, как доказано в цитируемой работе, истинность правила вида (7) возможна только в силу истинности некоторого его подправила либо первого, либо второго определенного нами вида (см. определение подправила). При этом истинность подправила второго вида имеет место в том случае, когда посылка формулы (7) ложна (напомним, что ложность посылки импликации означает истинность последней).

В рассматриваемой работе предлагается также определение вероятностного закона на изучаемой ЭС. Понятие истинности закономерности при этом заменяется на некоторую оценку ее предсказания, вероятности (что представляется целесообразным в свете описанной в первой части настоящей работы статистичности интересующих социолога законов). Рассматривается также проблема т.н. шумов – искажениями искомых законов, вызванных разными случайными причинами.

2.6. Анализ связей типа "признак - группа признаков": номинальный регрессионный анализ (НРА)

Общая постановка задачи

 

Вспомним некоторые рассуждения, использованные нами выше (п.2.2) в процессе осмысления предложенной классификации методов изучения связей между номинальными переменными. Мы подчеркивали, что в большинстве реальных задач исследователь не должен следовать ставшему традиционным ограничению круга используемых математических методов только известными коэффициентами парной связи. При этом описывалось две совокупности факторов, обусловливающих необходимость перехода к другим методам (см. рис. 20).

Во-первых, имеет смысл "рассыпать" все рассматриваемые признаки на отдельные альтернативы и затем, "склеивая" их разными способами, искать такие сочетания значений исходных признаков, которые определяют те или иные связи, то или иное "поведение" респондентов (анализ фрагментов таблиц сопряженности, алгоритмы последовательных разбиений типа и т.д.).

Во-вторых, имеет смысл объединять отдельные признаки друг с другом, искать такие их сочетания, которые в каком-то смысле детерминируют другие признаки и их сочетания (как мы увидим ниже, в регрессионном анализе речь пойдет о детерминации среднего уровня этих “других” признаков). К соответствующим рассмотрениям мы и перейдем в настоящем параграфе. Проанализируем ту группу методов (или задач, мы говорили о том, что задачи для нас в определенном смысле отождествляются с методами), которая при классификации задач была символически обозначена нами как методы типа "признак-(группа признаков)". Сюда относится регрессионный анализ, к рассмотрению которого мы и переходим.

 

 

 
 

 

 


Рис. 20. Схематичное выражение причин, обусловливающих необходимость перехода от традиционных коэффициентов парной связи к другим методам анализа связей

 

Сначала для простоты изложения рассмотрим случай, когда у нас имеется только два признака – X и Y - и нас интересует зависимость между ними. Другими словами, сначала предположим, что наша "группа признаков" состоит из одного признака – X (потом перейдем к случаю, когда вместо одного X фигурируют несколько признаков). Мы знаем, что о связи между признаками говорит соответствующий коэффициент корреляции: чем ближе значение модуля этого коэффициента к 1, тем более сильна эта связь, т.е. тем с большей уверенностью мы можем полагать, что с ростом значений одного признака растут (если коэффициент корреляции положителен) или убывают (если коэффициент корреляции отрицателен) значения другого (напомним, что коэффициент корреляции измеряет линейную связь между переменными; отметим, однако, что приводимые рассуждения справедливы и для других коэффициентов связи, например, для корреляционного отношения, дающего возможность оценить криволинейную связь). Но при этом мы совершенно не можем сказать о том, в какой степени возрастет значение Y, если значение X увеличится, скажем, на 1. А ситуации здесь могут быть весьма разными.

Приведем пример, рассмотрев зависимость между производственным стажем человека и его зарплатой. Предположим, что мы имеем дело с двумя крайними ситуациями, отраженными на рисунках 21а и 21б. В обоих случаях соответствующие коэффициенты корреляции близки к 1 (обе совокупности

Рис. 21. Примеры сильных линейных связей, определяющих разный прогноз

 

точек-объектов лежат на прямых линиях, отвечающих нашей зависимости). На первом из них прямая идет резко вверх. Поэтому даже при небольшом увеличении X признак Y резко возрастет. В случае же наличия связи, изображенной на втором рисунке, прямая близка к горизонтали. Поэтому даже при значительном росте X значение Y почти не изменится. Другими словами, на основании наших двух картинок мы получим прогнозы совершенно различного характера. И совершенно ясно, что этого никак нельзя узнать лишь на основе вычисления соответствующих коэффициентов корреляции.

Итак, для того, чтобы делать прогноз о том, как изменится значение Y при том или ином изменении значения X, нам желательно знать, как говорят, форму связи между этими переменными, т.е. желательно найти функцию вида Y = f (X). Подчеркнем, что отношение между X и Y несимметрично: речь идет именно о зависимости второй переменной от первой, именно о возможности прогноза значения Y от X, а не наоборот.

В данном случае для обозначения X и Y используются те же термины, о которых шла речь в начале п. 2.5.3.1. Однако для той ситуации, когда речь идет о нахождении формы зависимости Y от X, употребляется еще несколько пар терминов: независимые переменные называют входными, экзогенными, внешними, а зависимая – выходной, эндогенной, внутренней. Представляется важным правильное понимание причин использования такой терминологии.

Поиск функции f предполагает разработку определенной модели связи между переменными, опирающуюся на априорные знания исследователя (так, ниже мы будем говорить в основном о линейной модели, о линейном регрессионном анализе). Найденная с помощью регрессионной техники зависимость – это тоже некоторая модель реальности - модель, в соответствии с которой и находятся значения Y на основе информации о значениях признака X.

Независимые признаки (X) потому и можно назвать независимыми, что они не зависят от этой модели. Эти признаки как бы поступают на ее “вход”, являются внешними по отношению к ней, берутся “со стороны”. Они определяют конкретный вид искомой зависимости, но не определяются ею. Прогнозируемые же значения зависимой переменной (Y) полностью определяются моделью (то, насколько они близки к реальности, зависит от качества модели), служат ее “выходом”, являются ее порождением. Они внутренне по отношению к ней.

Особенно осторожно надо использовать словосочетания "признак-причина" и "признак-следствие", о чем мы уже говорили в п. 2.1.3.

2.6.2. Повторение основных идей классического регрессионного анализа, рассчитанного на т. н. "количественные" признаки

 

Сначала для простоты и возможности геометрического изображения основных положений регрессионного анализа предположим, что у нас всего две переменные: Х и Y (соответственно, независимая и зависимая). С помощью рассматриваемого подхода осуществляется поиск зависимости вида Y = f(X). Однако это выражение для результата регрессионного анализа носит условный характер: искомая зависимость не функциональна, а статистична, является закономерностью “в среднем”, она “неточна”. Поясним, в чем именно состоят такие усредненность и “неточность”.

Рис. 22. Принципиальная схема линии регрессии.

В качестве независимой переменной фигурируют условные средние значения Y (каждое такое среднее вычисляется для конкретного значения независимой переменной Х; соответствующая точка на графике обозначена крестиком)

 

Прежде всего обратим внимание читателя на то, что для социологических данных типична ситуация, когда одному значению Х соответствует множество значений Y. Эта ситуация схематично изображена на рис. 22 (пока обращаем внимание только на черные кружки).

Встает вопрос: какую именно зависимость мы хотим вычислить? Как искомая кривая (а мы хотим, чтобы каждому значению независимой переменной отвечало одно значение зависимой, т.е. чтобы искомой связи отвечала какая-то одномерная линия) должна “пробиваться” через изображенное на рисунке облако точек?

Ответ представляется естественным: подсчитаем для каждого значения Х среднее арифметическое значение всех отвечающих ему значений Y и будем изучать зависимость от Х именно таких средних. Соответствующие точки на нашем рисунке обозначены крестиками. Для них вид искомой зависимости четко “просматривается”. Другими словами, интересующая нас статистическая зависимость будет иметь вид:

(8)

Вспомним, что на рис. 22 отражена выборочная ситуация, в то время как в действительности нас интересует то, что делается в генеральной. Рассмотрение последней предполагает, что переменные непрерывны, имеют бесконечное число значений. Соотношение (8) для генеральной совокупности превращается в следующее:

, (9)

(где m – знак математического ожидания – меры средней тенденции для генеральной совокупности; напомним, что среднее арифметическое, является лишь "хорошей" выборочной оценкой математического ожидания). Такая функция называется функцией регрессии Y по Х (иногда говорят об уравнении регрессии, либо о регрессионной зависимости). Ее график называется линией регрессии. Подчеркнем, что соотношение (9) предполагает, что при каждом фиксированном значении Х значения Y суть значения некоторой случайной величины. Это означает следующее.

Фиксируя какое-либо значение Х, равное, например, Хi (т.е. рассматривая совокупность объектов, обладающих этим значением), мы имеем дело с некоторым условным распределением Y (которое образуют значения зависимой переменной Y, вычисленные для объектов, обладающих значением Хi признака Х). Это распределение имеет свое математическое ожидание и дисперсию. Именно это математическое ожидание фигурирует в левой части равенства (9). Это математическое ожидание лежит на линии регрессии (рис. 23).

Рис. 23. Статистические предположения, лежащие в основе регрессионного анализа. Условные распределения зависимой переменной Y нормальны. Их математические ожидания m1, m2, m3 лежат на линии регрессии; дисперсии , , равны.

 

m1, m2, m3 – математические ожидания тех условных распределений переменной Y, которые получаются при фиксации, соответственно, значений Х1, Х2, Х3 переменной Х. Ясно, что с помощью линии регрессии хорошо можно осуществлять тот прогноз, который является основной целью поиска зависимости Y от X: эта линия говорит о том, насколько изменится среднее значение Y при том или ином изменении значения Х. Будем говорить в таком случае об изменении Y в среднем.

Точность, с которой линия регрессии Y по Х передает изменение Y в среднем при изменении Х, измеряется дисперсией величины Y, вычисленной для каждого значения Х:

D (Y/X) = s2 (X)

Пусть , , – значения дисперсий, вычисленных для условных распределений переменной Y, получающихся при фиксации, соответственно, значений Х1, Х2, Х3 переменной Х.

Обычно предполагается, что описанные условные распределения зависимой переменной Y нормальны, а дисперсии этих распределений равны: = = = . Именно такая ситуация отражена на рис. 23. При равенстве дисперсий говорят, что условные распределения удовлетворяют свойству гомоскедастичности. Попытаемся коротко пояснить смысл этого свойства.

Ясно, что чем меньше условные дисперсии Y, т.е. чем меньше разброс зависимого признака в условных распределениях, тем больше можно верить прогнозу значений этого признака, осуществляемому с помощью уравнения регрессии. Напротив, большой разброс может полностью лишить нас возможности делать прогноз: утверждение о том, что для такого-то Хi переменная Y в среднем равна соответствующему условному среднему, не будет иметь никакой практической ценности из-за того, что бессмысленным станет сам расчет средней величины (в п. 1.2 мы говорили о том, что для осмысленности средней требуется однородность изучаемой совокупности объектов, отсутствие большого разброса по рассматриваемому признаку). Можно говорить о качестве найденной регрессионной зависимости, связывая его именно с описанной возможностью прогноза. Тогда при условных дисперсиях, равных одной и той же величине s, это качество может быть строго определено: при большой s оно будет плохим, при малой – хорошим. А если разбросы при разных Х разные? Тогда для одних значений Х уравнение регрессии будет хорошим, при других – плохим. Представляется, что при практическом использовании такого уравнения могут возникнуть неприятности. Отсюда – требование гомоскедастичности.

Теперь обсудим вопрос о том, как найти конкретный вид функции регрессии f. На помощь приходит то, что линия регрессии обладает замечательным свойством: среди всех действительных функций f минимум математического ожидания m(Y–f(X))2 достигается для функции f (X) = m(Y/X). Поясним смысл этого утверждения, обратившись к выборочной ситуации, представленной на рис. 24.

Рис. 24. Отклонения ординат рассматриваемых точек от произвольной функции

 

Рассмотрим заданную совокупность точек – моделей изучаемых объектов и произвольную функцию f (X). Вертикальные отрезки – отклонения ординат рассматриваемых точек от этой графика этой функции. Средняя величина квадратов длин этих отрезков – это и есть выборочная оценка математического ожидания m(Y–f(X))2.

Для того, чтобы лучше понять способ вычисления величин рассмотренных отрезков, покажем, в чем он состоит, на примере одной точки, имеющей произвольные координаты (Х, Y) в нашем признаковом пространстве. Обратимся к рис. 25.

Рис.25. Способ определения отклонения точки (Х, Y) от произвольной функции Y = f (X)

 

Х координата рассматриваемого объекта (на рисунке он обозначен точкой) по оси Х; Y – его же координата по оси Y;Y - ордината точки, принадлежащей графику функции Y = f(X) и имеющей по оси Х ту же координату, что и наш объект.

Сумма (суммирование осуществляется по всем рассматриваемым объектам) и есть та величина, которую надо минимизировать для того, чтобы получить выборочное представление линии регрессии. Символически процесс такой минимизации можно выразить следующим образом:

(10)

– это как бы теоретическое, модельное значение зависимой переменной. Это то значение, которое мы имели бы, если бы после всех расчетов пользовались найденной функцией Y = f (X) как основой для прогноза.

В соответствии со сформулированным выше свойством линии регрессии, можно сказать, что минимальной эта сумма будет в том случае, если рассматриваемая функция Y = f(X) является выборочным представлением искомой линии регрессии. Другими словами, указанному выборочному представлению отвечает та функция f(X), для которой указанная выше сумма минимальна.

Итак, чтобы найти выборочную линию регрессии, необходимо как бы “перебрать” все возможные функции Y = f(X), для каждой вычислить указанную сумму квадратов и остановиться на той функции, для которой эта сумма минимальна.

Рассматриваемый способ поиска f(X), носит название метода наименьших квадратов (отметим, что этот метод очень часто используется при расчете самых разных статистических закономерностей. Так, он задействован в одном из известных методов шкалирования - методе парных сравнений [Толстова, 1998]).

Чтобы смысл метода наименьших квадратов стал яснее, заметим, что чем меньше величина указанной выше суммы квадратов, тем с большим основанием рассматриваемую функцию можно считать близкой одновременно ко всем рассматриваемым точкам. Эта функция в каком-то смысле служит моделью всего "облака" точек. Это можно проиллюстрировать с помощью рисунка 26.

Рис. 26. Иллюстрация проблемы выбора прямой линии, наилучшим образом отвечающей линии регрессии

 

Ясно, что прямая "аа" заведомо не может минимизировать рассматриваемую сумму: она совсем не отражает наше облако точек. А вот относительно прямых "bb” и "сс" вряд ли “на глаз” можно определить, какая из них лучше. Чтобы ответить на этот вопрос, необходимо использовать метод наименьших квадратов.

Очевидно, перебрать все мыслимые функции невозможно. Встает вопрос, как определить f(Х).

Математика предоставляет нам возможность найти функцию, отражающую искомую линию регрессии с любой степенью приближения. Это можно сделать, например, используя многочлены произвольной степени m:

(b0, b1, b2, …, bm – некоторые параметры; выборочные оценки которых надо получить). Однако найденная функция, вообще говоря, будет очень сложной и вряд ли с ее помощью мы сможем практически осуществлять прогноз, т.е. достигнем основной цели построения регрессионных моделей. Причины такой непригодности сложных формул частично сходны с теми, что были обсуждены нами в п. 2.5.3.2 при рассмотрении третьей причины останова алгоритма THAID: слишком сложные формулы мы в силу своей психологической специфики не можем воспринимать как закономерность (п.1.4 части I).

Чтобы избежать чрезмерной сложности искомой закономерности, обычно выбирают какое-либо семейство кривых, выражающихся сравнительно простыми формулами, и именно среди них с помощью метода наименьших квадратов ищут ту, которая как можно более близко подходит ко всем данным точкам. Чаще всего в качестве такого семейства используют совокупность прямых линий. Как известно, все такие линии выражаются формулами вида

где b1 a говорит о величине угла наклона прямой к оси Х, а b0 - о сдвиге этой прямой вдоль оси Y. Соответствующий вариант регрессионного анализа называется линейным. Он чаще всего используется практически. Отвечающая ему техника хорошо известна. Выборочные оценки коэффициентов линейного уравнения регрессии находятся с помощью описанного выше метода наименьших квадратов.

В данном случае (10) превращается в соотношение

Далее мы, условно говоря, как бы “перебираем” все возможные прямые (точнее, все возможные пары чисел b0 и b1) и находим ту прямую, для которой наша сумма будет самой маленькой. Конечно, в действительности перебрать все прямые также невозможно (как известно, совокупность всех действительных чисел нельзя даже “пересчитать” с помощью бесконечного ряда натуральных чисел), параметры искомой прямой ищутся с помощью производных: находим производную от нашей суммы по b0 и b1 и ищем те их значения, которые обращают производную в нуль. Получаем известные аналитические выражения для этих коэффициентов (напомним, что латинскими буквами обозначаются выборочные оценки одноименных генеральных параметров):

где r – коэффициент корреляции между Х и Y; SY и SX – выборочные оценки средних квадратических отклонений соответствующих признаков; суммирование, как и выше, осуществляется по всем объектам.

В идеале точка с координатами (Х, b0 + b1X) должна лежать на линии регрессии. В соответствии с упомянутыми выше традиционными предположениями, это означает справедливость картины, отраженной на рис. 27.

Рис. 27. Статистические предположения, лежащие в основе линейного регрессионного анализа.

Условные распределения Y нормальны. Их математические ожидания лежат на прямой линии, дисперсии равны.

 

Другими словами, мы предполагаем, что каждому значению независимой переменной Х отвечают нормальные гомоскедастичные условные распределения Y, математические ожидания которых принадлежат рассматриваемой прямой. Это предположение эквивалентно следующему соотношению:

Yi = b0 + b1Xi + еi,

означающему, что каждое наблюдаемое значение Yi есть сумма некой фиксированной величины b0 + b1X, обусловленной линией регрессии, и случайной величины еi, обусловленной естественной вариацией значений Y вокруг линии регрессии. При каждом значении независимой переменной Х вариация Y имеет тот же характер, что и вариация еi. Отсюда ясно, что все еi имеют нормальные распределения с нулевыми математическими ожиданиями и равными дисперсиями s2. Важность случайных величин еi заключается в том, что она представляет собой главный источник ошибок при попытке предсказать Y по значению Х. В рамках регрессионного анализа разработаны способы оценки величин еi.

На практике чаще всего пользуются именно линейными регрессионными моделями. Однако при их использовании необходимо учитывать, что идеальная картина, изображенная на рис. 27 – это лишь наше пожелание. Наилучшая прямая среди всех возможных прямых может быть весьма плохим приближением к реальности. Скажем, если наши крестики расположены так, как это отражено на рис. 28, то любая прямая (например, "аа") здесь даст очень плохое приближение.

Рис. 28. Пример криволинейной линии регрессии между двумя переменными. Несоответствие ей прямой "аа"

 

В данном случае надо бы вместо прямых линий использовать для поиска подходящих кривых семейство квадратных трехчленов вида

Y = b0 + b1X + b2X2.

Используя же технику линейного регрессионного анализа, и тем самым направляя свою энергию на поиск лучшей прямой, приближающей нашу совокупность точек, мы рискуем никогда не узнать, что в действительности имели дело с линией регрессии, являющейся параболой. Правда, тут необходимо отметить два момента.

Во-первых, для двумерного случая, который мы пока рассматриваем, такое вряд ли случится, поскольку перед нами – наглядная плоскостная картина, глядя на которую всегда можно определить, прямая ли линия соответствует изучаемому множеству точек, или парабола. В случае же многомерного регрессионного анализа, который мы коротко рассмотрим ниже, такой просчет вполне возможен.

Во-вторых, в регрессионном анализе существуют достаточно разработанные подходы к построению регрессионных кривых нелинейного вида. Имеются критерии линейности и рекомендации по выбору степени аппроксимирующего многочлена.

О нелинейных моделях коротко мы еще вспомним ниже (см. п. 2.6.5). Пока же коротко рассмотрим многомерный случай, т.е. такую ситуацию, когда имеется много независимых переменных Х1, Х2,..., Хn (n > 1). Все сказанное выше справедливо и для рассматриваемой ситуации. Отличие состоит только в том, что здесь линейная регрессионная модель имеет вид не прямой линии, а так называемой гиперплоскости:

 

Y = а0 + а1´Х1+ а2´Х2 +... + аn´Хn

 

Здесь необходимо два слова сказать об интерпретации только что выписанного уравнения (в соответствии с общепринятой терминологией, слева пишется просто Y, а не условное среднее и найденное с помощью техники регрессионного анализа соотношение называется уравнением, хотя этот термин и употребляется не в том смысле, в каком его используют в школе; а0 называется свободным членом уравнения). Однако прежде сделаем некоторые замечания о единицах измерения рассматриваемых признаков. Интуитивно ясно, что уравнение регрессии будет более ясным с точки зрения его содержательной интерпретации, если все эти единицы будут одинаковыми. Для этого обычно осуществляют так называемую стандартизацию всех значений каждого признака: вычитают из каждого такого значения среднее арифметическое признака (точнее, здесь речь должна идти о математическом ожидании, за неимением которого мы используем его выборочную оценку – среднее арифметическое) и делят полученную разность на его же дисперсию (и снова вместо генеральной дисперсии мы вынуждены пользоваться ее выборочной оценкой). Рассмотрим для примера признак Х2.. Если – некоторое (i-е) его значение,



Поделиться:


Последнее изменение этой страницы: 2016-09-05; просмотров: 299; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.118.164.100 (0.012 с.)