Фиксированный уровень значимости и p-value – минимальный уровень значимости – дискуссия 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Фиксированный уровень значимости и p-value – минимальный уровень значимости – дискуссия



Ключевые вопросы: классификация 2 подходов, классическая проверка гипотез через фиксированный уровень значимости, метод использования p-value, достоинства и недостатки разных подходов, их конвергенция.

В математической статистике и эконометрике существуют 2 подхода к проверке гипотез, 2 логики, в которых он осуществляется. Первая – классическая, связанная с именами таких титанов, как, к примеру, Фишер. Вторая – разработка последних десятков лет. В чём же их различие?

Первый из подходов базируется на уровнях значимости (т.е. ошибках I рода), заданных как фиксированные значения. Последовательно логику действий при данном подходе можно расписать так: выдвигается нулевая гипотеза (об отсутствии связи, изменений и так далее), вслед за ней выдвигается гипотеза альтернативная. Далее исследователь задаёт необходимый ему уровень значимости – чаще это, конечно, такие «популярные» значения, как 10%, 5%, 1% – и чем он меньше, тем, соответственно, меньшее число нехарактерных значений исследуемого нами показателя мы можем объявить свидетельствующим о необходимости отвержения нулевой гипотезы (иными словами, чем меньше наш фиксированный уровень значимости, тем в большей степени мы будем «доверять» нулевой гипотезе и реже отвергать её). Заметим, что, задав уровень значимости, мы одновременно задали и вероятность ошибки I рода – эта величины равны, и особенность классического метода в том и заключается, что они задаются исследователем самостоятельно. Затем, используя наши данные, мы вычисляем значение статистического критерия и проверяем по таблицам их распределений, превышает ли полученное нами значение критическую величину при заданных нами данных, то есть, в более общем случае (не всегда речь идёт о статистических критериях и таблицах для них) является ли вероятность именно такого или меньшего/большего (зависит от типа альтернативы) значения показателя выше или ниже заданного нами уровня значимости. В первом случае мы не отвергаем нулевую гипотезу, во втором – отвергаем. Логика этого подхода, таким образом, дихотомична: либо отвержение, либо неотвержение выдвинутой нулевой гипотезы.

Второй подход, более современный, базируется на понятии минимального уровня значимости, или p-значения (p-value). Логика действий в этом случае следующая: выдвижение нулевой и альтернативной гипотезы, рассмотрение данных и вычисление той вероятности, с которой мы можем получить именно такие и меньшие/большие (в зависимости от альтернативы) значения. Именно в последнем шаге и заключается суть и отличие метода p-value – мы только что вычислили ту минимально возможную вероятность ошибки I рода, минимальную значимость, при которых мы можем говорить об отвержении нулевой гипотезы Вместо фиксированного значения значимости, заданного наперёд и лишь достигаемого или не достигаемого, мы получили число, которое (и все значения выше которого) можем считать уровнем значимости, при котором ситуация позволяет нам отвергнуть нулевую гипотезу. Формулируя чуть иначе, в терминах теории вероятностей, можно говорить о том, что p-value – это условная вероятность того, что при H0 мы получим имеющиеся у нас данные (или ещё более «критичные» для распределения данные). Т.е. p-value = P (D|H0), где D – вероятность получения эмпирических (или менее вероятных, чем они) значений. Заметим, что p-значение, в отличие от фиксированного уровня значимости, не является ошибкой I рода, потому что характеризует лишь минимальный уровень значимости и, строго говоря, лишь минимальный порог этой ошибки при условии того, что мы хотим отвергнуть нулевую гипотезу.

Какой из подходов лучше? Однозначного ответа на этот вопрос нет, и каждый учёный выстраивает исследовательский дизайн своих работ по-своему. Вместе с тем, есть достаточно серьёзные аргументы в пользу использования именно p-value как показателя. Во-первых, при дискретных распределениях вероятностей использование классического метода затруднено (трудно подобрать критическую область, в которую вошли бы именно и ровно определённое число – 1, 5, 10% – значений), и поэтому там использование p-значений более желательно. Во-вторых, американский психолог Коэн в своей статье 1994 критикует дихотомический характер классического способа проверки гипотез: он базируется лишь на двух возможных результатах – отвержении или неотвержении нулевой гипотезы, в то время как истинной целью науки является не установление однозначных отношений, а установление степени, в которой мы могли бы доверять гипотезам о наличии данных отношений. И p-value как раз позволяет эту степень установить – через установление минимального уровня значимости, при котором мы могли бы отвергнуть нулевую гипотезу. В-третьих, этот же исследователь (Коэн) говорит о проблеме соотношения результатов, получающихся в классическом подходе при использовании разных фиксированных уровней значимости. На одном из них гипотеза будет отвергнута, на другом – нет, и это создаёт проблемы в интерпретации. С этой позиции также наиболее удобным является подход с применением p-значений, которые позволяют выделить диапазон тех уровней значимости, на которых мы можем отвергнуть нулевую гипотезу, и, тем самым, оценить, в какой степени можно ей доверять. Наконец, в-четвёртых, наиболее фундаментальный аргумент Коэна заключается в том, что нулевая гипотеза при классическом подходе всегда будет являться ложной по двум причинам. Во-первых, в этом (в установлении зависимости) заключается суть исследования, и учёный имплицитно будет подбирать такое значение фиксированного уровня значимости, при котором его нулевые гипотезы будут отвергаться. Во-вторых, практически нет таких ситуаций, в которых мы на наблюдали бы никакой зависимости между исследуемыми показателями, она будет присутствовать всегда (или в содержательном, или только в математическом смысле), и весь вопрос не в её наличии, а в её силе. P-value, в отличие от классического подхода, позволяет оценить эту силу, а точнее, то, на каких уровнях значимости (и с каким уровнем доверия, соответственно) мы можем не отвергнуть гипотезу о наличии исследуемой нами зависимости. Таким образом, именно факт перехода от дихотомии «reject-not reject» классического подхода к выявлению варьирующихся степеней доверия и диапазонов является главным преимуществом p-value как метода.

Вместе с тем, в современном подходе к проверке статистических гипотез преобладает комбинация двух вышеупомянутых конкурирующих парадигм. Чаще всего в статистических выкладках указываются p-значения, и именно по ним сравнивается, к примеру, «сила», значимость предикторов в регрессионных моделях. Однако в дополнение к вычислению p-значений исследователь также выдвигает гипотезу, связанную с заранее определённым уровнем значимости, с которым и сравнивает полученные p-value. Если они оказываются меньше заданного уровня значимости, нулевые гипотезы отвергаются. Таким образом, можно считать, что дискуссия о двух подходах к статистической проверке гипотез в современных условиях в известной степени пришла к консенсусу.


Мощность критерия

План ответа:

1. Понятие. Связь с ошибкой второго рода.

2. Что значит мощность критерия? Как ее увеличить?

Мощность критерия (1-β) – способность текста обнаруживать альтернативную гипотезу или способность отвергнуть нулевую гипотезу, при условии, что верна альтернатива.

Иными словами, мощность критерия – вероятность отвергнуть неверную нулевую гипотезу.

Мощность критерия непосредственно связана с ошибкой второго рода – вероятностью не отвергнуть неверную нулевую гипотезу.

Мощность = 1- β (отвернуть и не отвергнуть гипотезу – противоположные события, поэтому мощность в сумме с ошибкой второго рода дает 1). Таким образом, для расчета мощности необходимо знать распределение статистики по альтернативной гипотезе.

1-β

Мощность критерия показывает, насколько сильна статистика, насколько тест может обнаруживать ошибки. Чем больше мощность, тем меньше вероятность не отвергнуть неверную гипотезу.

Увеличить мощность критерия можно 2 основными способами:

1) Увеличить размер выборки (размер определяет ошибку выборки: с увеличением числа наблюдений уменьшается стандартная ошибка → увеличивается мощность).

Проблема: не всегда возможно увеличить выборку (ограниченность ресурсов)

2) Увеличить rejection region – область отвержения гипотезы:
С увеличением области отвержения увеличивается вероятность отвергнуть верную гипотезу – ошибка первого рода (при этом увеличивается вероятность получить статистически значимый результат) → когда увеличивается ошибка первого рода, ошибка второго рода (β) уменьшается → мощность увеличивается (между β и мощностью обратная зависимость).

Проблема: при таком способе увеличении мощности мы увеличиваем вероятность ошибки первого рода (нельзя одновременно уменьшить обе ошибки).

+ еще можно уменьшить дисперсию совокупности (примерно тот же эффект, что и от увеличения выборки). Этого можно добиться, например, увеличивая точность измерений.



Поделиться:


Последнее изменение этой страницы: 2016-04-21; просмотров: 1310; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.116.239.195 (0.008 с.)