Тема 9 модели бинарного выбора 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Тема 9 модели бинарного выбора



Тема 9 МОДЕЛИ БИНАРНОГО ВЫБОРА

 

Прочтите сначала главу 10 учебника (издание 3).

 

В прошлый раз были фиктивные переменные – объясняющие переменные, которые принимают два значения 0 и 1

 

Теперь зависимая переменная принимает два значения 0 и 1

(выбор может быть также из многих альтернатив – тогда используются модели упорядоченного выбора - ordered)

У нас только двоичный выбор

 

Мой друг из США, увлекающийся статистикой и эконометрикой, прислал мне удивительно интересные данные о почти всех пассажирах и членах команды лайнера «Титаник». Некоторые из них выжили, некоторым это было не суждено, так что зависимая переменная здесь бинарная. В качестве независимых переменных используется обычная количественная переменная (класс каюты) и две фиктивных переменных. На примере этих мы изучим все основные принципы анализа бинарных переменных.

 

Логика анализа полностью соответствует той, что используется в учебнике на других примерах.

 

 

Файл TITANIC.WF1

 

 

SURV (Survived) – зависимая бинарная переменная

(это как фиктивная переменная, но зависимая – тогда она не называется фиктивной а называется бинарной)

CLASS 1, 2, 3 0 – команда (наиболее информированные люди)

AGE 1 – взрослые

SEX 1 – men, 0 – women

Сначала делаем ЛИНЕЙНУЮ ВЕРОЯТНОСТНУЮ МОДЕЛЬ

LS SURV C CLASS AGE SEX

Здесь SURV – по сути вероятность выжить

         
         
Variable Coefficient Std. Error t-Statistic Prob.
         
         
C 0.984658 0.046973 20.96211 0.0000
CLASS -0.051497 0.007161 -7.190942 0.0000
AGE -0.164999 0.041573 -3.968919 0.0001
SEX -0.552221 0.022175 -24.90308 0.0000
         
         
R-squared 0.227983 Mean dependent var 0.323035


R-squared небольшой, так что многие другие факторы должны влиять на выживание

Все переменные значимы

Интерпретация:

Перемещение из 1го во 2й класс и из 2го в 3й класс снижает вероятность выживания примерно на 5 процентных пунктов

Для детей вероятность выживания выше примерно на 16 процентных пунктов

Оказаться женщиной в тот момент, согласно уравнению регрессии, было ключевым моментом для выживания – вероятность выжить для женщин на 55 процентных пунктов больше, чем для мужчин

 

НЕДОСТАТКИ ЛИНЕЙНОЙ ВЕРОЯТНОСТНОЙ МОДЕЛИ

1) Значения прогноза выживания могут выйти за пределы [0; 1]

 

Если убрать команду и оставить только пассажиров

SMPL 1 1316

LS SURV C CLASS AGE SEX

Variable Coefficient Std. Error t-Statistic Prob.
C 1.208220 0.052562 22.98679 0.0000
CLASS -0.151493 0.013396 -11.30922 0.0000
AGE -0.181377 0.040233 -4.508208 0.0000
SEX -0.478305 0.023462 -20.38658 0.0000

 

Вероятность вышла за пределы единицы

 

2) Значения остатков максимальны для значений 0 и 1, а в середине они не превышают 0.5

меньше (остатки имеют разную дисперсию - гетероскедастичность – нарушение условия Гаусса-Маркова)

3) Нет нормального распределения (либо выжил либо нет – как на экзамене – сдал-не сдал)

4) Линейная модель – постоянные предельные эффекты, а на деле они переменные

На этом примере это плохо видно

Возьмем пример сдачи экзамена в зависимости от продолжительности подготовки

(например в случае сдачи экзамена дополнительный час занятий бесполезен для отличников и двоечников, но максимально полезен для нормальных студентов – предельный эффект часа занятий разный – кривая обучения)

На рисунке растущая кривая – кривая обучения, колоколообразная кривая – кривая предельного эффекта – она наибольший в середине

 

 

Поэтому линейная вероятностная модель на практике не используется

 

РЕАЛЬНО ИСПОЛЬЗУЮТ МОДЕЛИ ТИПА ЛОГИТ ИЛИ ПРОБИТ

ИДЕЯ ЭТИХ МОДЕЛЕЙ – ЗАМЕНИТЬ ПРЯМУЮ ЛИНИЮ КРИВОЙ ОБУЧЕНИЯ (ЛОГИСТИЧЕСКАЯ – ЛОГИТ ИЛИ НОРМАЛЬНАЯ (ПРОБИТ) КРИВАЯ). – КРИВАЯ ОБУЧЕНИЯ – сигмовидная кривая – похожа на букву «S» РАСПОЛАГАЕТСЯ ЦЕЛИКОМ МЕЖДУ НУЛЕМ И ЕДИНИЦЕЙ

Считается обычная регрессия, но ее результат (значения зависимой переменной) потом подставляются в кривую обучения, чтобы вписаться в нужный интервал) В результате вероятность с гарантией оказывается между 0 и 1, кроме предельные эффекты становятся переменными

Таких кривых (наиболее популярных) – две: логит и пробит

Самая популярная

Logit model

Выбрать мышкой вместо LS метод BINARY и поставить точку против logit и указать обычное уравнение без LS

SURV C CLASS AGE SEX

Программа выполняет преобразование по типу сложной функции

 

SURV SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*CLASS - 1.00627214048*AGE - 2.61419915962*SEX))

Обычная линейная регрессия, оцененная МЕТОДОМ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ вставляется в

логистическую функцию

SURV= ,

Z=(2.60984551216 - 0.329037734676*CLASS - 1.00627214048*AGE - 2.61419915962*SEX

 

SURV= , Z=2.61 - 0.33*CLASS - 1.01*AGE - 2.61*SEX

 

 

ВАЖНО

Этот метод не имеет никакого отношения к Методу наименьших квадратов

И хорошо, что не имеет, так как мы видели, что условия Г-М были нарушены

 

Его идея состоит в том, что максимизируется функция правдоподобия – вероятность того, что то, что есть в выборке будет случайно получено.

 

Практически это означает, что мы больше не обращаем внимания на суммы квадратов остатков, нам теперь интересна функция правдоподобия

 

Dependent Variable: SURV
Method: ML - Binary Logit
Date: 11/13/12 Time: 14:36
Sample: 1 1316
Included observations: 1316
Convergence achieved after 4 iterations
Covariance matrix computed using second derivatives
Variable Coefficient Std. Error z-Statistic Prob.
C 3.895347 0.346861 11.23030 0.0000
CLASS -0.874834 0.084731 -10.32486 0.0000
AGE -1.056173 0.243096 -4.344670 0.0000
SEX -2.367345 0.145240 -16.29951 0.0000
Mean dependent var 0.379179 S.D. dependent var 0.485367
S.E. of regression 0.394611 Akaike info criterion 0.976294
Sum squared resid 204.3022 Schwarz criterion 0.992045
Log likelihood -638.4012 Hannan-Quinn criter. 0.982200
Restr. log likelihood -873.3778 Avg. log likelihood -0.485107
LR statistic (3 df) 469.9532 McFadden R-squared 0.269043
Probability(LR stat) 0.000000      
Obs with Dep=0   Total obs  
Obs with Dep=1        

 

 

Здесь совсем другие тесты (нет тестов F, t вообще никаких, которые построены на сумме квадратов)

 

 

ИНТЕРПРЕТАЦИЯ

Чтобы правильно интерпретировать коэффициент при переменной

Его значение нужно умножить на производную кривой обучения

 

Обоснование

Через производную сложной функции

SURV= , Z=2.61 - 0.33*CLASS - 1.01*AGE - 2.61*SEX

 

Вторая функция линейна и производная по факторам просто равна коэффициентам регрессии

Здесь - производная логистической функции

На графике показана логистическая кумулятивная кривая (возрастающая кривая) и ее производная (колоколообразная кривая – она симметрична относительно нуля (четная функция)

 

Покажем порядок расчета на примере

Представим себе, что богатый (едущий в первом классе) джентльмен случайно нацепил платье жены

Let Class=1, Let AGE=1 LET SEX=1

Подставим эти значения в уравнение регрессии

=2.61 - 0.33*1 - 1.01*1 - 2.61*1

Z=-1.34

Оценим предельный эффект «смены» пола

Производную логистической кривой в точке Z=-1.34 нужно умножить по формуле сложной функции на коэффициент при поле

 

=(exp(1.34)/(1+exp(1.34))^2)* (- 2.61)

=-0.43

Таким образом эффект «смены пола» оценивается в 43 пункта

Это меньше, чем в линейной вероятностной модели (55 пунктов) но все же достаточно велико

 

 

Это можно проверить прямым расчетом

Подставим сначала в преобразованную по логит формулу регрессии

SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*CLASS - 1.00627214048*AGE - 2.61419915962*SEX))

 

параметры джентльмена (class=1, age=1, sex=1)

 

SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*1 - 1.00627214048*1 - 2.61419915962*1))

 

=0.2

Теперь пусть он «стал женщиной»

Теперь его параметры (class=1, age=1, sex=0)

 

SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*1 - 1.00627214048*1 - 2.61419915962*0))

=0.78

 

Рост почти на 60 пунктов

 

Результат отличен от предельного эффекта, рассчитанного по производным

Здесь – прямой расчет

Важно что качественно они совпадают

 

 

Предельные эффекты здесь переменные, так как модель нелинейна

Максимальный эффект будет там, где производная логистической функции максимальна

Так как эта функция четная, то ее точка максимума будет в нуле

Вычислим максимальный эффект пола в Z=0

=-0.65=(exp(0)/(1+exp(0))^2)* (- 2.61)

 

65 пунктов – это максимально достижимый эффект

 

В случае пассажиров Титаника максимальный эффект недостижим – нельзя жить между палубами и иметь средний пол – точка может не соответствовать никакому пассажиру

В других задачах максимальный эффект может быть осмыслен

 

Аналогично при подготовке к экзамену можно вычислить предельный эффект доп.часа занятий

Он максимальный для студента со средней подготовкой

 

 

ТЕСТЫ

Нет эр-квадрата

Вместо него стоит квази-эр-квадрат

McFadden R-squared 0.178575

Где –значение логарифмической функции правдоподобия для регрессии, - значение той же функции для вырожденной регрессии с одной константой без переменных

Он тоже расположен между 0 и 1, но никак не связан с дисперсией и у него нет привычной интерпретации как доли объясненной дисперсии зависимой переменный

 

Нет F – статистики

Вместо нее используется статистика LR

2log(отношения функций правдоподобия)

Результат логит и пробит обычно сходны, так что на практике применяют что-то одно. Некоторые тонкие различия между ними связаны с тем, что пробит-кривая быстрее стремится к нулю, чем логистическая кривая, так что можно предвидеть, что для больших отклонений от средних значений пробит-анализ будет давать меньшие вероятности.

Тема 9 МОДЕЛИ БИНАРНОГО ВЫБОРА

 

Прочтите сначала главу 10 учебника (издание 3).

 

В прошлый раз были фиктивные переменные – объясняющие переменные, которые принимают два значения 0 и 1

 

Теперь зависимая переменная принимает два значения 0 и 1

(выбор может быть также из многих альтернатив – тогда используются модели упорядоченного выбора - ordered)

У нас только двоичный выбор

 

Мой друг из США, увлекающийся статистикой и эконометрикой, прислал мне удивительно интересные данные о почти всех пассажирах и членах команды лайнера «Титаник». Некоторые из них выжили, некоторым это было не суждено, так что зависимая переменная здесь бинарная. В качестве независимых переменных используется обычная количественная переменная (класс каюты) и две фиктивных переменных. На примере этих мы изучим все основные принципы анализа бинарных переменных.

 

Логика анализа полностью соответствует той, что используется в учебнике на других примерах.

 

 

Файл TITANIC.WF1

 

 

SURV (Survived) – зависимая бинарная переменная

(это как фиктивная переменная, но зависимая – тогда она не называется фиктивной а называется бинарной)



Поделиться:


Последнее изменение этой страницы: 2016-12-30; просмотров: 697; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 34.230.68.214 (0.045 с.)