Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Тема 9 модели бинарного выбораСтр 1 из 2Следующая ⇒
Тема 9 МОДЕЛИ БИНАРНОГО ВЫБОРА
Прочтите сначала главу 10 учебника (издание 3).
В прошлый раз были фиктивные переменные – объясняющие переменные, которые принимают два значения 0 и 1
Теперь зависимая переменная принимает два значения 0 и 1 (выбор может быть также из многих альтернатив – тогда используются модели упорядоченного выбора - ordered) У нас только двоичный выбор
Мой друг из США, увлекающийся статистикой и эконометрикой, прислал мне удивительно интересные данные о почти всех пассажирах и членах команды лайнера «Титаник». Некоторые из них выжили, некоторым это было не суждено, так что зависимая переменная здесь бинарная. В качестве независимых переменных используется обычная количественная переменная (класс каюты) и две фиктивных переменных. На примере этих мы изучим все основные принципы анализа бинарных переменных.
Логика анализа полностью соответствует той, что используется в учебнике на других примерах.
Файл TITANIC.WF1
SURV (Survived) – зависимая бинарная переменная (это как фиктивная переменная, но зависимая – тогда она не называется фиктивной а называется бинарной) CLASS 1, 2, 3 0 – команда (наиболее информированные люди) AGE 1 – взрослые SEX 1 – men, 0 – women Сначала делаем ЛИНЕЙНУЮ ВЕРОЯТНОСТНУЮ МОДЕЛЬ LS SURV C CLASS AGE SEX Здесь SURV – по сути вероятность выжить
Все переменные значимы Интерпретация: Перемещение из 1го во 2й класс и из 2го в 3й класс снижает вероятность выживания примерно на 5 процентных пунктов Для детей вероятность выживания выше примерно на 16 процентных пунктов Оказаться женщиной в тот момент, согласно уравнению регрессии, было ключевым моментом для выживания – вероятность выжить для женщин на 55 процентных пунктов больше, чем для мужчин
НЕДОСТАТКИ ЛИНЕЙНОЙ ВЕРОЯТНОСТНОЙ МОДЕЛИ
1) Значения прогноза выживания могут выйти за пределы [0; 1]
Если убрать команду и оставить только пассажиров SMPL 1 1316 LS SURV C CLASS AGE SEX
Вероятность вышла за пределы единицы
2) Значения остатков максимальны для значений 0 и 1, а в середине они не превышают 0.5 меньше (остатки имеют разную дисперсию - гетероскедастичность – нарушение условия Гаусса-Маркова) 3) Нет нормального распределения (либо выжил либо нет – как на экзамене – сдал-не сдал) 4) Линейная модель – постоянные предельные эффекты, а на деле они переменные На этом примере это плохо видно Возьмем пример сдачи экзамена в зависимости от продолжительности подготовки (например в случае сдачи экзамена дополнительный час занятий бесполезен для отличников и двоечников, но максимально полезен для нормальных студентов – предельный эффект часа занятий разный – кривая обучения) На рисунке растущая кривая – кривая обучения, колоколообразная кривая – кривая предельного эффекта – она наибольший в середине
Поэтому линейная вероятностная модель на практике не используется
РЕАЛЬНО ИСПОЛЬЗУЮТ МОДЕЛИ ТИПА ЛОГИТ ИЛИ ПРОБИТ ИДЕЯ ЭТИХ МОДЕЛЕЙ – ЗАМЕНИТЬ ПРЯМУЮ ЛИНИЮ КРИВОЙ ОБУЧЕНИЯ (ЛОГИСТИЧЕСКАЯ – ЛОГИТ ИЛИ НОРМАЛЬНАЯ (ПРОБИТ) КРИВАЯ). – КРИВАЯ ОБУЧЕНИЯ – сигмовидная кривая – похожа на букву «S» РАСПОЛАГАЕТСЯ ЦЕЛИКОМ МЕЖДУ НУЛЕМ И ЕДИНИЦЕЙ Считается обычная регрессия, но ее результат (значения зависимой переменной) потом подставляются в кривую обучения, чтобы вписаться в нужный интервал) В результате вероятность с гарантией оказывается между 0 и 1, кроме предельные эффекты становятся переменными Таких кривых (наиболее популярных) – две: логит и пробит Самая популярная Logit model Выбрать мышкой вместо LS метод BINARY и поставить точку против logit и указать обычное уравнение без LS SURV C CLASS AGE SEX Программа выполняет преобразование по типу сложной функции
SURV SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*CLASS - 1.00627214048*AGE - 2.61419915962*SEX))
Обычная линейная регрессия, оцененная МЕТОДОМ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ вставляется в логистическую функцию SURV= , Z=(2.60984551216 - 0.329037734676*CLASS - 1.00627214048*AGE - 2.61419915962*SEX
SURV= , Z=2.61 - 0.33*CLASS - 1.01*AGE - 2.61*SEX
ВАЖНО Этот метод не имеет никакого отношения к Методу наименьших квадратов И хорошо, что не имеет, так как мы видели, что условия Г-М были нарушены
Его идея состоит в том, что максимизируется функция правдоподобия – вероятность того, что то, что есть в выборке будет случайно получено.
Практически это означает, что мы больше не обращаем внимания на суммы квадратов остатков, нам теперь интересна функция правдоподобия
Здесь совсем другие тесты (нет тестов F, t вообще никаких, которые построены на сумме квадратов)
ИНТЕРПРЕТАЦИЯ Чтобы правильно интерпретировать коэффициент при переменной Его значение нужно умножить на производную кривой обучения
Обоснование Через производную сложной функции SURV= , Z=2.61 - 0.33*CLASS - 1.01*AGE - 2.61*SEX
Вторая функция линейна и производная по факторам просто равна коэффициентам регрессии Здесь - производная логистической функции На графике показана логистическая кумулятивная кривая (возрастающая кривая) и ее производная (колоколообразная кривая – она симметрична относительно нуля (четная функция)
Покажем порядок расчета на примере Представим себе, что богатый (едущий в первом классе) джентльмен случайно нацепил платье жены Let Class=1, Let AGE=1 LET SEX=1 Подставим эти значения в уравнение регрессии =2.61 - 0.33*1 - 1.01*1 - 2.61*1 Z=-1.34 Оценим предельный эффект «смены» пола Производную логистической кривой в точке Z=-1.34 нужно умножить по формуле сложной функции на коэффициент при поле
=(exp(1.34)/(1+exp(1.34))^2)* (- 2.61) =-0.43 Таким образом эффект «смены пола» оценивается в 43 пункта Это меньше, чем в линейной вероятностной модели (55 пунктов) но все же достаточно велико
Это можно проверить прямым расчетом Подставим сначала в преобразованную по логит формулу регрессии SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*CLASS - 1.00627214048*AGE - 2.61419915962*SEX))
параметры джентльмена (class=1, age=1, sex=1)
SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*1 - 1.00627214048*1 - 2.61419915962*1))
=0.2 Теперь пусть он «стал женщиной» Теперь его параметры (class=1, age=1, sex=0)
SURV = 1-@CLOGISTIC(-(2.60984551216 - 0.329037734676*1 - 1.00627214048*1 - 2.61419915962*0)) =0.78
Рост почти на 60 пунктов
Результат отличен от предельного эффекта, рассчитанного по производным Здесь – прямой расчет Важно что качественно они совпадают
Предельные эффекты здесь переменные, так как модель нелинейна Максимальный эффект будет там, где производная логистической функции максимальна
Так как эта функция четная, то ее точка максимума будет в нуле Вычислим максимальный эффект пола в Z=0 =-0.65=(exp(0)/(1+exp(0))^2)* (- 2.61)
65 пунктов – это максимально достижимый эффект
В случае пассажиров Титаника максимальный эффект недостижим – нельзя жить между палубами и иметь средний пол – точка может не соответствовать никакому пассажиру В других задачах максимальный эффект может быть осмыслен
Аналогично при подготовке к экзамену можно вычислить предельный эффект доп.часа занятий Он максимальный для студента со средней подготовкой
ТЕСТЫ Нет эр-квадрата Вместо него стоит квази-эр-квадрат
Где –значение логарифмической функции правдоподобия для регрессии, - значение той же функции для вырожденной регрессии с одной константой без переменных Он тоже расположен между 0 и 1, но никак не связан с дисперсией и у него нет привычной интерпретации как доли объясненной дисперсии зависимой переменный
Нет F – статистики Вместо нее используется статистика LR 2log(отношения функций правдоподобия) Результат логит и пробит обычно сходны, так что на практике применяют что-то одно. Некоторые тонкие различия между ними связаны с тем, что пробит-кривая быстрее стремится к нулю, чем логистическая кривая, так что можно предвидеть, что для больших отклонений от средних значений пробит-анализ будет давать меньшие вероятности. Тема 9 МОДЕЛИ БИНАРНОГО ВЫБОРА
Прочтите сначала главу 10 учебника (издание 3).
В прошлый раз были фиктивные переменные – объясняющие переменные, которые принимают два значения 0 и 1
Теперь зависимая переменная принимает два значения 0 и 1 (выбор может быть также из многих альтернатив – тогда используются модели упорядоченного выбора - ordered) У нас только двоичный выбор
Мой друг из США, увлекающийся статистикой и эконометрикой, прислал мне удивительно интересные данные о почти всех пассажирах и членах команды лайнера «Титаник». Некоторые из них выжили, некоторым это было не суждено, так что зависимая переменная здесь бинарная. В качестве независимых переменных используется обычная количественная переменная (класс каюты) и две фиктивных переменных. На примере этих мы изучим все основные принципы анализа бинарных переменных.
Логика анализа полностью соответствует той, что используется в учебнике на других примерах.
Файл TITANIC.WF1
SURV (Survived) – зависимая бинарная переменная (это как фиктивная переменная, но зависимая – тогда она не называется фиктивной а называется бинарной)
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Последнее изменение этой страницы: 2016-12-30; просмотров: 705; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.191.181.231 (0.055 с.) |