Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Два разложения для зависимой переменной

Поиск

На предшествующих страницах были рассмотрены два способа разложе­ния величины зависимой переменной в регрессионной модели. Они будут ис­пользоваться далее во всей книге, и поэтому важно их правильное понимание и концептуальное разграничение.

Первое из разложений связано с процессом, в соответствии с которым ге­нерируются величины Y:

Yi = β1 + β2Xi+ui (1.40)

В наблюдении / величина Yi генерируется как сумма двух компонентов: нестохастического компонента β1 + β2Xi. и случайного члена иi. Это разложение — чисто теоретическое. Мы будем использовать его при анализе свойств оценок регрессии. Оно проиллюстрировано на рис. 1.7а, где QT— нестохасти­ческая составляющая Y и PQ — случайный член.

Другое разложение относится к линии регрессии:

(1.41)

Как только мы выбрали значения b 1 и b 2, каждая величина Y разлагается на расчетное (теоретическое) значение Ŷi и остаток еi Это разложение практиче­ски выполнимо, но оно в определенной степени произвольно, поскольку зависит

от нашего критерия для определения Ьх и Ь2, и на него неизбежно будут влиять конкретные значения случайного члена в наблюдениях выборки. Это показано на рис. 1.76, где RT— расчетное значение и PR — остаток.

 

 

 

Рисунок 1.7Ь. Разложение У на расчетное значение и остаток

Интерпретация уравнения регрессии

Существуют два этапа интерпретации уравнения регрессии. Первый этап состоит в словесном истолковании уравнения так, чтобы это было понятно человеку, не являющемуся специалистом в области эконометрики. На втором этапе необходимо решить, следует ли ограничиться этим или следует провести более детальное исследование зависимости. Оба этапа важны. Второй этап мы рассмотрим несколько позже, а пока обратим основное внимание на первый этап. Это будет проиллюстрировано на примере функции заработка, часового заработка в 2002 г. (EARNINGS), измеренного в долларах США, для которой строится регрессионная зависимость от продолжительности обучения S, опре­деляемой как число завершенных лет обучения для 540 респондентов из На­ционального опроса молодежи в США (NLSY) в 1979 г. Эта база данных ис­пользуется во многих других примерах и упражнениях книги. В Приложении В содержится ее описание. Приведенная ниже регрессия использует набор дан­ных 21 из базы данных EAEF. В табл. 1.3 приведена распечатка результатов оценивания данной регрессии с помощью программы Stata. Соответствующая диаграмма рассеяния и линия регрессии показаны на рис. 1.8.

На данном этапе игнорируйте все, кроме столбца с заголовком «coef.» в нижней половине таблицы. В нем показаны оценки коэффициента при пере­менной S и свободного члена, и, таким образом, имеем следующее оцененное уравнение:

 

EARNINGS = -13,93 + 2,46 S (1.42)

Интерпретируя оцененное уравнение буквально, можно сказать, что коэф­фициент наклона показывает, что при увеличении S на одну единицу (измере­ния S) EARNINGS возрастает на 2,46 единиц (измерения EARNINGS). Поскольку S измеряется в годах, a EARNINGS измеряется в долларах в час, коэф­фициент при S показывает, что часовые заработки возрастают на 2,46 долл. на каждый дополнительный год учебы.

 

 

Что можно сказать о постоянном члене в уравнении? Формально говоря, он показывает прогнозируемый уровень EARNINGS при значении HGC, рав­ном нулю. Иногда постоянный член имеет ясный смысл, иногда — нет. Если значения объясняющих переменных в выборке находятся достаточно далеко от нуля, то экстраполирование линии регрессии назад до нуля может поро­дить проблемы. Даже если линия регрессии дает хорошее соответствие для наблюдаемой выборки, нет гарантии, что так же будет при экстраполяции влево или вправо.

В данном случае буквальная интерпретация постоянного члена привела бы к бессмысленному выводу о том, что индивид с нулевым образованием имел бы часовой заработок в размере 13,93 долл. В нашем наборе данных никто из респондентов не имеет менее семи лет образования, поэтому неудивительно, что экстраполяция до нуля привела к проблемам.

 

 

 

Рисунок 1.8. Простейшая функция заработка

 

 

Вставка 1.1 дает общее руководство по интерпретации уравнения регрес­сии, когда переменные измерены в естественных единицах.

 

 

Вставка 1.1. Интерпретация линейного уравнения регрессии

Представим простой способ интерпретации коэффициентов линейного урав­нения регрессии:

 

 

если Y и X— переменные с простыми, естественными единицами измерения.

Во-первых, мы можем сказать, что увеличение X на одну единицу (в единицах измерения переменной X) приведет к увеличению значения Y на b2 единиц (в еди­ницах измерения переменной Y). Вторым шагом является проверка, каковы дей­ствительно единицы измерения X и Y, и замена слова «единица» фактической единицей измерения. Третьим шагом является проверка возможности более удобного представления результата без потери его сущности.

Постоянная b} дает прогнозируемое значение У (в единицах У), если X ра­вен нулю. Это может иметь или не иметь ясного смысла в зависимости от кон­текста.

При интерпретации уравнения регрессии важно помнить о трех вещах. Во-первых, поскольку Ь1 есть всего лишь оценка а Ь2 — оценка , интерпрета­ция уравнения — также всего лишь оценка. Во-вторых, уравнение регрессии описывает лишь общую тенденцию в выборке. Каждый частный случай нахо­дится под влиянием случайных факторов. В-третьих, интерпретация основана на предположении, что уравнение правильно специфицировано. В действи­тельности такая интерпретация функции заработка довольно наивна. Мы не­сколько раз вновь рассмотрим ее в последующих главах. Вам потребуется про­вести аналогичные эксперименты с использованием одного из других наборов данных EAEF, описанных в Приложении В.

Оценив регрессию, естественно задать вопрос о том, насколько аккурат­ными оказались наши оценки. Этот важный вопрос будет обсужден в следующей главе.

 

1.7. Качество оценивания: коэффициент R2

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной Y. В любой данной выборке значение Y оказывается сравнитель­но низким в одних наблюдениях и сравнительно высоким — в других. Мы хо­тим знать, почему это так. Разброс значений Y в любой выборке можно сум­марно описать с помощью∑ , суммы квадратов отклонений от выбо­рочного среднего. Мы должны уметь рассчитывать величину и структуру этой статистики.

Выше было показано, что мы можем разбить значение Y в каждом наблю­дении на две составляющие - и :

(1.43)

Это соотношение можно использовать для разложения ∑ :

 

(1.44)

 

На втором шаге мы использовали тот факт, что = 0 и = Y, продемон­стрированный во Вставке 1.2. Следовательно,

 

 

 

 

Как показано во Вставке 1.2,∑ Yiei = 0 и ∑et = = 0. Следовательно,

 

= +

Таким образом, имеем следующее разложение:

TSS=ESS+RSS

где TSS, общая сумма квадратов, дана в левой части уравнения, a ESS, «объяс­ненная» сумма квадратов, и RSS, остаточная («необъясненная») сумма квадра­тов, представляют два слагаемых в его правой части. (Замечание: слова «объяс­ненная» и «необъясненная» заключены в кавычки, поскольку объяснение может оказаться мнимым. Величина Сможет в действительности зависеть от некоторой другой переменной Z, а переменная X может служить в качестве замещающей переменной для Z (позже это будет пояснено более подробно). Было бы более правильно использовать выражение «видимое объяснение» вместо «объяснение».)

Согласно (1.46), это часть общей суммы квадра­тов, объясненной уравнением регрессии. Это отношение известно как коэф­фициент детерминации, и его обычно обозначают как :

 

 

 

Вставка1.2, Четыре полезных результата относительно регрессий, оцениваемых по обычному МНК:

(1) =0, (2) ,(3) , (4)

Доказательство (1)

=

Откуда

Разделив на n, получаем

Доказательство (2)

Однако =0, откуда =

Доказательство (3)

= - - =0

Финальный шаг использует уравнение (1.29.)

Доказательство (4)

 

=0, так как и ∑ =0 из 3.

 

 

Распечатка регрессионного анализа всегда включает R2 и может также со­держать лежащий в его основе анализ дисперсии. Таблица 1.4 воспроизводит распечатку программы Stata для оценивания функции заработка, приведен­ной в табл. 1.3. Колонка с заголовком «SS», содержит суммы квадратов. Вели­чина ESS, описываемая здесь как «моделируемая» (Model) сумма квадратов, равна 19322. Величина TSS (Total) равна 112010. Разделив ESS на TSS, полу­чим, что R2 = 19322/112010 = 0,1725, что совпадает со значением R2, приведен­ным в правом верхнем углу таблицы. Низкое значение R2 частично объясняет­ся тем фактом, что важные переменные, такие как опыт работы, не были учте­ны в модели. Оно также частично объясняется тем, что ненаблюдаемые характеристики оказывают большое влияние на заработок: R2 редко бывает выше 0,5, даже когда модель имеет хорошую спецификацию.

Максимально возможное значение R2 равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что Yf — Yi для всех наблюдений и все остатки равны нулю. Тогда

, ∑ =0 и управление является идеальным. Если в выборке отсутствует видимая связь между Y и X, то будет близок к нулю.

 

 

 

 

 

 

. reg EARNINGS S          
Source SS df MS   Number of obs = F(1,538) Prob > F R-squared Adj R-squared = Root MSE 112.15 0.0000 0.1725 0.1710 13.126
Model Residual 19321.5589 92688.6722   19321.5589 172.283777  
Total 112010.231   207.811189  
EARNINGS Coef. Std. Err. t P>|t| [95% Conf. Interval]
S 2.455321 .2318512 10.59 0.000 1.999876 2.910765
_cons -13.93347 3.219851 -4.33 0.000 -20.25849 -7.608444

 

Таблица 1.4

При прочих равных условиях желательно, чтобы R2 был как можно больше. В частности, мы заинтересованы в таком выборе коэффициентов Ь1 и Ь2, что­бы максимизировать R2. Не противоречит ли это нашему критерию, в соответ­ствии с которым Ь1 и Ь2 должны быть выбраны таким образом, чтобы миними­зировать сумму квадратов остатков? Нет, легко показать, что эти критерии эквивалентны. На основе (1.46) мы можем записать R2 как

 

и, таким образом, те значения Ь1 и b2 которые минимизируют ∑ , автоматически максимизируют R2.

Заметим, что четыре полезных результата во Вставке 1.2 зависят от того, включается ли в модель постоянный член (см. упражнение 1.17). Если его нет, то разложение (1.46) неверно и два определения R2 в уравнениях (1.48) и (1.49) не эквивалентны. Любое определение R2 в этом случае может быть об­манчивым, и к нему следует относиться с особой осторожностью.

 

Пример вычисления R2

Вычисление R2 выполняется на компьютере в рамках программы оценива­ния регрессии, поэтому данный пример приведен лишь в целях иллюстрации. Будем использовать простейший пример с тремя наблюдениями, описанный в разделе 1.3, где уравнение регрессии

построено по наблюдениям X и У, приведенным в табл. 1.5. В таблице также даны и ei для каждого наблюдения. =4,6667, =4,5000 и ∑ =0,1667. На основании этих значений мы можем вычислить R2, ис­пользуя (1.48) или (1.49):

 

Таблица 1.5. Анализ дисперсии в примере с тремя наблюдениями

 

наблюдение X Y e e2
      3,1667 -0,1667 -1,6667 -1,5 2,7778 2,25 0,0278
      4,6667 0,3333 0,3333 0,0 0,1111 0,00 0,1111
      6,1667 -0,1667 1,3333 1,5 1,7778 2,25 0,0278
Всего             4,6667 4,5 0,1667
Средее   4,6667 4,6667            

 

 

Альтернативное представление R2

Интуитивно очевидно, что чем больше соответствие, обеспечиваемое урав­нением регрессии, тем больше должен быть коэффициент корреляции для фактических и прогнозных значений Y, и наоборот. Покажем, что R2 факти­чески равен квадрату этого коэффициента корреляции, который мы который мы обозначим :

(1.53)

 

Далее,

(1.54)

Во второй строке мы используем тот факт, что = 0, а в четвертой мы ис­пользовали соотношение ∑ =0, полученное во Вставке 1.2. В четвертой строке мы также использовали то, что ∑ =п = 0. Следовательно,

 


 

2. СВОЙСТВА КОЭФФИЦИЕНТОВ РЕГРЕССИИ И ПРОВЕРКА ГИПОТЕЗ

 

С помощью регрессионного анализа мы можем получить оценки параметров зави­симости. Однако они являются лишь оценками. Поэтому возникают вопросы о тоы насколько они надежны и каковы их свойства. Мы рассмотрим их в данной главе Способ рассмотрения этих вопросов и ответы на них зависят от предпосылок, кото­рые делаются относительно регрессионной модели, а эти предпосылки, в свое очередь, зависят от природы используемых данных.

 

 

2.1. Типы данных и регрессионная модель

Мы будем применять методы регрессионного анализа к данным трех ви­дов: перекрестным выборкам, временным радам и панельным данным. Дан­ные перекрестной выборки относятся к наблюдаемым объектам в одну и ту же единицу времени. Наблюдаемыми объектами могут быть индивиды, домохо­зяйства, предприятия, страны и множество других элементов, достаточно од­нородных по своей природе, чтобы использовать их для изучения предполага­емых зависимостей. Данные временного рада состоят из повторяющихся на­блюдений одного и того же объекта, обычно с постоянным интервалом межл> наблюдениями. Примеры из области макроэкономики — квартальные дан­ные по валовому внутреннему продукту, потреблению, денежной массе, про­центным ставкам. Панельные данные, которые могут быть представлены как комбинация данных перекрестной выборки и временных рядов, состоят из повторяющихся наблюдений одних и тех же объектов во времени. Пример — данные Всеамериканского опроса молодежи {USNational Longitudinal Survey of Youth — NLSY), использованные для интерпретации регрессионной модели в разделе 1.6. Эти данные включают наблюдения над одними и теми же индиви­дами с 1979 г. до настоящего времени, которые до 1994 г. собирались ежегодно, а затем — раз в два года.

Следуя подходу Р. Давидсона (Davidson, 2000), мы будем рассматривать три вида регрессионной модели.

Модель А (для регрессий по данным перекрестных выборок): регрессоры (объясняющие переменные) являются нестохастическими, т.е. их значения в наблюдениях выборки не содержат стохастических (случайных) составля­ющих. Они будут рассмотрены далее во Вставке 2.1.

 

2.1. Нестохастические регрессоры

В первой части пособия, мы полагаем, что регрессоры объясняющие переменные) в модели не содержат стохастических составля­ющих. Это делается для упрощения анализа. В действительности трудно себе представить реальные нестохастические переменные, кроме переменной вре­мени, и поэтому нижеследующий пример выглядит несколько искусственным. Предположим, что мы связываем размер заработка с продолжительностью обу­чения S, определяемой как число полных лет обучения. Предположим, что из данных национальной переписи нам известно, что 1% населения имеет S= 8; 3% имеют S =9; 5% имеют S= 10; 7% имеют S= 11; 43% имеют S= 12 (что соответствует окончанию средней школы) и т.д. Предположим, что мы решили склать выборку размером в 1000 наблюдений, желательно — как можно более полно соответствующую генеральной совокупности. В этом случае мы можем сделать так называемую стратифицированную случайную выборку, включаю­щую 10 индивидов с S = 8; 30 индивидов — с S = 9 и т.д. Значения S в такой выборке были бы предопределенными и, следовательно, нестохастическими. В больших выборках, полученных таким образом, чтобы они представляли на­селение в целом, как, например, NLSY, вероятно, продолжительность обучения * другие демографические переменные достаточно полно соответствуют этому требованию. В гл. 8 мы признаем ограничивающий характер данной предпо­сылки и заменим ее на предпосылку о том, что значения регрессоров получены ж* заданных распределений.

Модель В (также для регрессий по данным перекрестных выборок): значе­ния регрессоров получены случайным образом и независимо друг от друга из заданных генеральных совокупностей.

Модель С (для регрессий по данным временных рядов): значения регрессо­ров могут демонстрировать инерционность во времени. Смысл понятия -инерционный во времени» мы поясним в гл. 11—13 при рассмотрении рег­рессий по данным временных рядов.

Регрессии с панельными данными могут рассматриваться как расширение модели В.

Большая часть этой книги посвящена регрессиям по данным перекрест­ных выборок, т.е. моделям А и В. Причина этого заключается в том, что ре­грессии по данным временных рядов потенциально включают сложные тех­нические аспекты, которых вначале лучше избежать.

Начнем с модели А, исключительно для удобства анализа. Это позволит нам провести обсуждение регрессионного анализа в рамках довольно простой схемы, известной как классическая модель линейной регрессии. Мы заменим эту схему в гл. 8 более слабым и более реалистичным допущением, подходя­щим для регрессий по данным перекрестных выборок, о том, что переменные формируются как случайные выборки из заданных генеральных совокупнос­тей.

2.2. Предпосылки регрессионной модели с нестохастическими регрессорами

Для изучения свойств регрессионной модели необходимо ввести несколь­ко предпосылок. В частности, для модели A будут введены следующие шесть предпосылок.

 

 

А. 1. Модель линейна по параметрам и правильно специфицирована

 

(2.1)

«Линейна по параметрам» означает, что каждый член правой части вклю­чает Р как простой множитель, и здесь нет встроенных зависимостей между βs. Примером модели, не являющейся линейной по параметрам, может служить модель

 

(2.2)

Мы отложим обсуждение аспектов, связанных с линейностью и нелиней­ностью, до гл. 4.

 

 

А.2. Объясняющая переменная в выборке имеет некоторую вариацию

Очевидно, если величина X в выборке постоянна, то она не может объяс­нить какую-либо вариацию переменной Y. Если бы мы попытались оценить регрессию У на X при постоянной Xi мы бы обнаружили невозможность рас­считать коэффициенты регрессии. Величина Хi равнялась бы для всех i, сле­довательно, и числитель, и знаменатель выражения

 

(2.3)

 

были бы равны нулю. Если мы неспособны рассчитать b2 мы не сможем полу­чить и b1

 

 

А.З. Математическое ожидание случайного члена равно нулю

 

E{ui) = 0 для всех i. (2.4)

Мы предполагаем, что ожидаемое значение случайного члена должно рав­няться нулю в каждом наблюдении. Случайный член может оказаться и поло­жительным, и отрицательным, но он не должен включать систематического смещения ни в одном из направлении.

Действительно, если в регрессионное уравнение включен постоянный член, то обычно разумно считать, что это условие выполняется автоматиче­ски, поскольку функцией постоянного члена является отражение любой сис­тематической постоянной части Y, не связанной с объясняющими перемен­ными, включенными в уравнение регрессии. Чтобы сформулировать это ма­тематически, предположим, что наша регрессионная модель имеет вид

 

(2.5)

и

E(ui)=µu (2.6)

Определим

 

Vi=uiu (2.7)

 

Далее, используя (2.7) для замещения ui (2.5), имеем

Yi1+ β2Xi+viu= (2.8)

Где Случайный член преобразованной модели уже удовлетворяет рассматриваемому требованию, поскольку

E(vi)=E(ui- )=E(ui)-E()= 0 (2.9)

Уплаченная цена заключается в изменении интерпретации постоянного члена. Он включил ненулевую составляющую случайного члена в дополнение ко всему тому, что отвечало за его формирование ранее. Обычно это не имеет значения, поскольку постоянный член в регрессионной модели редко пред­ставляет какой-либо интерес.

Случайный член гомоскедастичен

Мы предполагаем, что случайный член гомоскедастичен, т.е. что его значе­ние в каждом наблюдении получено из распределения с постоянной теорети­ческой дисперсией. На языке раздела, посвященного выборкам и оцениванию в главе «Обзор», это своего рода «предшествующее» понятие, когда мы заду­мываемся о потенциальном распределении случайного члена до того, как по­строена выборка. Когда выборка уже построена, случайный член окажется большим в одних наблюдениях и меньшим в других, но не должно быть при­чин, делающих его больше подверженным ошибке в одних наблюдениях по сравнению с другими. Если обозначить потенциальную дисперсию случайно­го члена в наблюдении как , то данная предпосылка записывается как

для всех i,

Поскольку Е(ui) = 0, теоретическая дисперсия ui равна E(), и наше усло­вие может быть также записано в форме

Величина конечно, неизвестна. Одной из задач регрессионного анализ* является оценивание стандартного отклонения случайного члена.

Если данная предпосылка не выполнена, оцененные по МНК коэффици­енты оказываются неэффективными, и есть возможность получить более на­дежные оценки с помощью модифицированного метода оценивания. Это будет обсуждено в гл. 7.

А 5. Значения случайного члена имеют взаимно независимые распределения

ui распределен независимо от ui для всех j≠I (2.12)

Мы предполагаем, что случайный член не подвержен автокорреляции, т.е отсутствует систематическая связь между его значениями в любых двух на­блюдениях. Например, то, что случайный член в одном наблюдении велик и положителен, не должно быть фактором его большого положительного значе­ния в следующем наблюдении (или большого отрицательного, малого поло­жительного, или же малого и отрицательного). Значения случайного член* должны быть абсолютно независимыми между собой.

Данная предпосылка означает, что — теоретическая ковариация между и . — равна нулю, поскольку

(2.13)

(Отметим, что обе теоретические средние и равны нулю в соответствие с предпосылкой (А.З) и что может быть разложено как Е()Е() если и сгенерированы независимо — см. главу «Обзор».)

Если данная предпосылка не выполняется, то МНК вновь дает неэффек­тивные оценки. В гл. 12 обсуждаются возникающие при этом проблемы и пути их решения. Нарушения данной предпосылки для данных перекрестных вы­борок в любом случае редкие.

С помощью этих предпосылок мы покажем в данной главе, что оценка МНК являются наилучшими линейными (относительно наблюдений У) не­смещенными оценками (BLUE: best linear unbiased estimators) и что сумма квад­ратов отклонений, деленная на число степеней свободы, является несмещен­ной оценкой

 

 

А.6. Случайный член имеет нормальное распределение

Обычно предполагают, что случайный член имеет нормальное распределе­ние. Это распределение известно из курса статистики. Если величина и нор­мально распределена, то нормально распределены и коэффициенты регрес­сии. Это окажется для нас полезным далее в этой главе, когда мы приступим выполнению статистических t- и F-тестов для гипотез и к построению довери­тельных интервалов для β1 и β2 на основе результатов оценивания регрессий.

Обоснование данной предпосылки связано с центральной предельной тео­ремой, описанной в главе «Обзор». Она говорит о том, что если случайная пе­ременная представляет собой результат взаимодействия большого числа дру­гих случайных переменных, то она имеет приблизительно нормальное рас­пределение, даже если ее составляющие такого распределения не имеют, при условии, что ни одна из них не доминирует. Случайный член и составлен из ряда факторов, не присутствующих явно в уравнении регрессии, и, таким об­разом, даже если мы ничего не знаем о распределении этих факторов (и даже о них самих), обычно есть основания предполагать нормальное распределе­ние случайного члена.

 

Случайные составляющие коэффициентов регрессии

Коэффициент регрессии, вычисленный методом наименьших квадра­тов, — особая форма случайной величины, свойства которой зависят от свойств случайного члена в уравнении. Мы продемонстрируем это сначала те­оретически, а затем посредством контролируемого эксперимента.

На протяжении всего рассмотрения мы будем иметь дело с моделью пар­ной регрессии, в которой Y связан с нестохастической переменной X следу­ющей зависимостью:

(2.14)

На основе п выборочных наблюдений будем оценивать уравнение регрес­сии

Во-первых, заметим, что Yi включает две составляющие. Она содержит не­случайную составляющую р^.), которая не имеет отношения к законам вероятности ф} и р2 могут быть неизвестными, но, тем не менее, это постоян­ные величины), и случайную составляющую иг Отсюда следует, что когда мы вычисляем Ь2 по обычной формуле

 

(2.16)

где b2 также содержит случайную составляющую. зависит от значений У, а значения Y— от значений и.

Если случайная составляющая принимает разные значения в п наблюдени­ях, то мы получаем разные значения Y и, следовательно, разные значения и b2.

Теоретически мы можем разложить Ь2 на неслучайную и случайную состав­ляющие. В соответствии с (2.14).

(2.17)

Следовательно,

b2=

Итак, мы показали, что коэффициент регрессии Ь2, полученный по любой выборке, состоит из двух слагаемых: 1) постоянной величины, равной истин­ному значению коэффициента , и 2) случайной составляющей, зависящей от случайного члена в выборке. Случайная составляющая определяет вариа­цию Ь2 вокруг постоянной составляющей . При необходимости можно запи­сать это разложение более детально:

(2.20)

Таким образом, мы показали, что b2 равно истинному значению коэффи­циента плюс линейная комбинация значений случайного члена во всех на­блюдениях выборки. В определении ai присутствует некоторая неуклюжесть, и ее нужно устранить для обеспечения математической строгости. Числитель здесь меняется с изменением i, и он будет различным в разных наблюдениях. В то же время знаменатель представляет собой сумму квадратов отклонений для всей выборки и не зависит от i. Таким образом, в определении мы исполь­зуем i в двух смыслах. Чтобы избежать двусмысленности, мы будем использо­вать для суммирования в знаменателе другой индекс и запишем знаменатель как .Он по-прежнему означает то же самое. Мы могли бы избе-

жать проблемы, записав знаменатель как , но это было бы неудобным.

Отметим для проведения будущих выкладок три свойства коэффициен­тов аi:

 

, и (2.22)

Доказательства этих свойств приведены во Вставке 2.2.

Подобным же образом можно показать, что Ь] включает постоянную со­ставляющую, равную истинному значению плюс случайную составляю­щую, являющуюся линейной комбинацией значений случайного члена. Мы предлагаем провести эти доказательства самостоятельно в качестве упражне­ния.

Отметим, что практически выполнить эти разложения невозможно, по­скольку истинные значения и а также действительные величины и в вы­борке неизвестны. Они интересуют нас потому, что при определенных пред­посылках позволяют делать выводы о теоретических свойствах Ь] и Ь2.

 

Упражнение 2.1*

Покажите, что b1= , где сi=(1/n)-ai , а определения выражаем (2.21)

Вставка 2.2 Доказательства трех свойств коэффициентов ai

 

Докажем, что ∑ai=0

 

Поскольку

 

Используя

 

Докажем, что

 

 

Докажем, что

 

Вначале заметим, что

-

 

Поскольку =0 (см. выше). Далее, используя предыдущие рассуждения в обратном порядке, запишем

 

Эксперимент Монте-Карло

По-видимому, никто точно не знает, почему эксперимент согласно методу Монте-Карло называется именно так. Возможно, это название имеет какое-то отношение к известному казино, как символу действия законов случайности.

Объясним основное понятие посредством аналогии. Предположим, что собака обучена находить трюфели. Это дикорастущие земляные грибы, кото­рые встречаются во Франции и Италии и считаются деликатесом. Они дороги, так как их трудно найти, и хорошая собака, обученная поиску трюфелей, сто­ит дорого. Проблема состоит в том, чтобы узнать, насколько хорошо собака ищет трюфели. Она может находить их время от времени, но, возможно так­же, что большое количество трюфелей она пропускает. В случае действитель­ной заинтересованности вы могли бы выбрать участок земли, закопать трю­фели в нескольких местах, отпустить собаку и посмотреть, сколько грибов она обнаружит. Посредством такого контролируемого эксперимента можно было бы непосредственно оценить уровень успешности поиска.

Какое отношение это имеет к регрессионному анализу? Проблема в том, что мы никогда не знаем истинных значений и (иначе, зачем бы мы ис­пользовали регрессионный анализ для их оценки?). Поэтому мы не можем сказать, хорошие или плохие оценки дает нам наш метод. Эксперимент Мон­те-Карло — это искусственный контролируемый эксперимент,



Поделиться:


Последнее изменение этой страницы: 2016-08-01; просмотров: 377; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.226.93.104 (0.017 с.)