ТОП 10:

Глава 6. ЗНАЧИМЫЕ РЕЗУЛЬТАТЫ



 

Давайте рассмотрим две группы результатов, полученных Флинером и Кернсом (1970) в эксперименте, описанном в предыдущей главе, где сравнивались сила и продолжительность плача детей при уходе матери и ассистентки экспериментатора. Плач каждого ребенка оценивался в течение 24 периодов по 5 с как после ухода матери, так и после ухода ассистентки. 15 детей в возрасте от 12 до 14 мес плакали в среднем во времени 11,67 из этих 5-секундных периодов, когда уходила мать; когда же уходила ассистентка, эти дети плакали во время 8,27 таких периодов. На основе средней разницы в 3,40 Флинер и Кернc заключили, что дети указанной возрастной группы плачут больше, когда уходит мать.

 

В младшей группе, состоящей из 13 детей в возрасте от 9 до 11 меc, аналогичные средние данные оказались: 9,08, когда уходила мать, и 8,15, когда уходила ассистентка. Флинер и Кернc (1970) сделали вывод, что это небольшое различие — всего лишь 0,93 — незначимо. Их вывод, несомненно, представляется правильным, ибо разница действительно очень мала. Но достаточно ли велика была разница между 11,67 и 8,27 для более старшей группы, чтобы подтвердить вывод о значимом различии? Откуда экспериментаторы знают, какова должна быть разница между двумя условиями, чтобы ее можно было принять как значимую?

 

Логика их рассуждений была несложной. Они понимали, что разница для старшей группы может оказаться случайной. Как мы уже отмечали, есть много причин, по которым с течением времени может изменяться поведение как одного индивида, так в среднем и целой группы. В любом частном эксперименте более сильный плач при уходе матери мог быть случайным. Да, случайное различие было возможно, но — мало вероятно. Исследователи имели возможность вывести, что такое или большее различие возможно не более чем в одном эксперименте из 20. Их устраивала эта оценка, и они отвергли предположение о том, что их эксперимент был как раз тот самый 1 из 20.

 

С другой стороны, для более младшей группы разница между 9,08 и 8,15 могла оказаться случайной более чем в 1 опыте из 20. И экспериментаторы, таким образом, приняли ее за случайную.

 

Мы увидим в этой главе, что Флинер и Кернc (1970) проверяли нуль-гипотезу, состоящую в том, что экспериментальные условия не различаются. Термин «нуль» в данном случае означает нулевое различие. В случае со старшими детьми они отвергли нуль-гипотезу, в случае с более младшими — нет.

 

Такое действие называется проверкой на значимость или на статистическую значимость. Когда нуль-гипотеза отвергается, то говорят, что различие статистически значимо; когда нуль-гипотеза не отвергается, то говорят, что различие (статистически) незначимо.

 

Мы увидим, что статистическое решение, принять иди отвергнуть нуль-гипотезу, всегда таит в себе двоякий риск. Мы рассмотрим, как подобные статистические решения приводят к выводам относительно экспериментальной гипотезы. При этом мы снова обратимся к понятию внутренней валидности, и далее — к более специальному понятию — надежности.

 

Наконец, мы попытаемся показать более широкий смысл проверки на значимость. Конечно, она является средством получения валидных выводов об экспериментальной гипотезе, но это еще далеко не все. Главная тема настоящей главы — значимые результаты — выходит далеко за пределы технического вопроса о статистической значимости.

 

Мы собираемся изложить в этой главе вопросы о статистических выводах несколько нетрадиционным способом — без уравнений или вычислений. Последние можно найти, как и в предыдущих главах, в статистическом приложении. Таким образом, вы не сможете сами проводить проверку статистической значимости до тех пор, пока не познакомитесь с этим приложением. Однако те идеи, которые важны для экспериментаторов, рассматриваются достаточно детально. Если вы разберетесь в них, это поможет вам при чтении экспериментальных статей, поскольку вы сможете увидеть, как авторами были сделаны заключения. Вы узнаете, какие статистические решения можно сделать относительно нуль-гипотезы и как они относятся к экспериментальным выводам. Возможно даже, что вы не согласитесь с каким-нибудь исследователем либо в связи с использованным правилом статистического решения, либо в связи с выводом, сделанным на основе применения этого правила.

 

Основные темы, по которым вам будут заданы вопросы в конце главы, следующие:

 

1. Как проверяется нуль-гипотеза?

2. Виды риска при принятии статистического решения.

3. Как проверка нуль-гипотезы связана с внутренней валидностью?

4. Как этот вид валидности входит в более общую картину экспериментальной валидности?

 

НУЛЬ-ГИПОТЕЗА

 

Кажется весьма странным проверять нуль-гипотезу о том, что интенсивность плача не различается в случаях, когда комнату покидает мать и когда уходит ассистентка. Ведь это противоречит тому, что предполагает экспериментатор. Экспериментальная гипотеза состоит как раз в том, что плач сильнее, когда уходит мать.

 

Существуют два основания для такого «хода от противного». Первое состоит в том, что любой реальный эксперимент (который не является ни идеальным, ни бесконечным) не может быть абсолютно доказательным. Мы никогда не сможем сказать, что безусловно и навсегда доказали, что наши условия различные. Мы не в состоянии «доказать» экспериментальную гипотезу. Самое большее, что мы можем сделать, — это показать, что альтернативные объяснения неправильны, что приводит нас ко второму основанию обращения к нуль-гипотезе. Это специфическая гипотеза, и ее отвержение имеет большой смысл. Так как она специфическая (разница между условиями равна нулю) в отличие от экспериментальной гипотезы (для одного условия показатель больше), она доступна стандартной статистической проверке. Это и составляет ее смысл. Ведь если неверно, что данные условия не различаются, значит, мы точно знаем, что они в чем-то различны.

 

Третье возможное заключение

 

Очевидно, вам было не очень приятно узнать из 2-й главы, что в любом эксперименте приходится делать одно из двух конкурирующих заключений: 1) подтверждена экспериментальная гипотеза о том, что зависимая переменная имеет более высокое значение для условия А, чем для условия Б; 2) подтверждена противоположная гипотеза о большем значении зависимой переменной для условия Б, чем для условия А. (Наверное, все это больше огорчает вашего преподавателя.) Что же тогда можно сказать о выводе, что ни одна из конкурирующих гипотез не подтвердилась? Вообще говоря, мы не должны заботиться об этом третьем возможном заключении при использовании результатов таких простых экспериментов, которые описаны в начале книги. Ткачиха может либо носить наушники, либо нет. Она не выберет компромиссного решения носить только один из них, если разница в пользу наушников окажется очень незначительной. Если нет проблемы стоимости или удобства, почему бы не принять к сведению любую полученную разницу, как бы мала она ни была? Всегда есть некоторая вероятность того, что условие, обнаруживающее преимущество в эксперименте, сохранит его и в будущем. Другими словами, в случае таких простых практических решений правило состоит в том, чтобы учитывать любые позитивные данные. Тогда в процессе решения для третьего заключения не остается места.

 

Однако в экспериментах, подобных описанному в предыдущей главе, где ложное заключение нанесет ущерб научному знанию, необходимо рассматривать третье возможное заключение, состоящее в том, что независимая переменная оказалась просто неэффективной. Итак, на основании результатов эксперимента Флинера и Кернса можно было сделать три заключения, каждое из которых относится к тому, что могло бы быть получено в бесконечном или идеальном эксперименте:

 

1. Подтвердилась гипотеза, что дети данной возрастной группы плачут больше, если уходит мать.

2. Подтвердилась гипотеза, что дети плачут больше, если уходит ассистентка.

3. Ни одна из приведенных гипотез не подтвердилась.

 

Указанные исследователи понимали, что в любом реальном ограниченном эксперименте как положительные результаты (плач сильнее, когда уходит мать), так и отрицательные результаты (плач сильнее, когда уходит ассистентка) могут быть чисто случайными. Поэтому только достаточно большое различие в интенсивности плача при уходе матери по сравнению с уходом ассистентки могло бы рассматриваться как подтверждение экспериментальной гипотезы о том, что то же самое обнаружится в идеальном или бесконечном эксперименте. Меньшее различие имело бы весьма высокую вероятность оказаться случайным.

 

Мы можем представить связь между полученным различием и заключением, сделанные на его основе при помощи следующей диаграммы:

 

Заключение — результаты подтверждают:

Противоположную гипотезу: плач сильнее, если уходит ассистентка Ни одну из гипотез Экспериментальную гипотезу: плач сильнее, если уходит мать
-5 -4 -3 -2 -1 +1 +2 +3 +4 +5
                     

Интенсивность плача при уходе матери минус интенсивность плача при уходе ассистентки

Тонкая вертикальная черточка над значением +3,40 справа показывает, что это различие (для старшей группы) было достаточно для подтверждения экспериментальной гипотезы, что плач сильнее, если уходит мать. С другой стороны, вертикальная отметка над значением +0,93 (различие для более младшей группы) показывает, что это различие недостаточно для подтверждения экспериментальной гипотезы. Для того чтобы подтверждалась либо экспериментальная гипотеза, либо противоположная гипотеза, требуется различие порядка ±3 единицы.

Отвержение или неотвержение нуль-гипотезы

 

Правило статистического решения.Три рассмотренных выше возможных заключения из результатов эксперимента делаются на основе правила статистического решения. Здесь оно состояло в том, что нуль-гипотеза может быть отвергнута только в случае, если вероятность получения различия, удовлетворяющего нуль-гипотезе, меньше, чем 0,05 (т. е. меньше 1 из 20).

 

Основа статистического вывода. Если бы Флинер и Кернс многократно повторяли свой эксперимент на новых группах детей той же возрастной категории, они бы не получали в каждом эксперименте разницу между средними для ухода матери и для ухода ассистентки, в точности равную 3,40. Из-за случайных вариаций эта разница была бы то больше, то меньше. Если бы для бесконечного числа повторений общая средняя разница равнялась в точности 0, это означало бы справедливость нуль-гипотезы. Однако для каждого отдельного эксперимента можно было бы ожидать значение, отличное от нуля.

 

Итак, разность «мать — ассистент» будет варьировать от эксперимента к эксперименту. Величина разброса этих разностей зависит от надежности каждого эксперимента. Как мы видели в главе 2, надежность выше и, следовательно, разброс от эксперимента к эксперименту меньше, чем больше число наблюдений и чем меньше случайных вариаций. Поэтому разброс разностей «мать — ассистент» был бы меньше, если бы каждый эксперимент проводился на большом числе испытуемых и имел небольшое стандартное отклонение.

 

Заключение — результаты подтверждают:

 

Противоположную гипотезу: плач сильнее, если уходит ассистентка Ни одну из гипотез Экспериментальную гипотезу: плач сильнее, если уходит мать
-5 -4 -3 -2 -1 +1 +2 +3 +4 +5
                     

Статистическое решение:

Отвергнуть нуль-гипотезу (р = 0,025) Не отвергать нуль-гипотезу (p = 0,95) Отвергнуть нуль-гипотезу (р = 0,025)
-5 -4 -3 -2 -1 +1 +2 +3 +4 +5
                     

Интенсивность плача при уходе матери минус интенсивность плача при уходе ассистентки

Факторы, влияющие на величину требуемого различия

Предыдущая диаграмма продемонстрировала величину различия между средними, необходимую для отвержения нуль-гипотезы в условиях частного конкретного набора данных. При более надежных данных для отвержения нуль-гипотезы оказывается достаточным меньшее различие. Однако если для отвержения нуль-гипотезы используется более строгий критерий, то необходимо большее различие между средними. Эти два фактора иллюстрируются на рис. 6.1.

 

Влияние надежности. Если бы увеличили число обследованных детей или стандартное отклонение внутри каждой группы оказалось меньше, то надежность увеличилась бы. Это означает, что в наборе бесконечно повторяемых экспериментов средние значения варьировали бы меньше. А в таком случае варьировали бы меньше и различия между средними. Вокруг каждой общей средней было бы более плотное распределение. В результате при справедливости нуль-гипотезы две линии, показывающие на диаграмме, куда попадает (с плюсом или с минусом) 0,025 части всех реальных средних, должны оказаться ближе к нулю.

 

На рис. 6.1 верхняя диаграмма (а) уже была представлена; на ней показаны результаты обследования 15 детей. На средней диаграмме (б) линиями показаны области отвержения нуль-гипотезы при условии, что число детей было увеличено до 60 или что стандартное отклонение для каждой пробы было уменьшено наполовину. И в том и в другом случае требуемое различие уменьшается вдвое, примерно до ±1,5. Видно, что различие 0,93, обнаруженное в младшей группе, тем не менее остается вне области отвержения нулевой гипотезы, что опять не дает возможность подтвердить гипотезу о том, что ребенок больше плачет при уходе матери. Тем не менее если бы выборка была увеличена еще больше или стандартное отклонение оказалось меньше, различие 0,93 (если бы оно, конечно, было получено) оказалось бы значимым. Сложность в том, что при более надежных данных было бы менее вероятно получить различие такого уровня, если нулевая гипотеза была верна.

 

 

Рис. 6.1. Исходное статистическое решение (а), результат повышения надежности (б) и величина различия, необходимая для отвержения нуль-гипотезы (в). На числовых осях: интенсивность плача после ухода матери минус интенсивность плача после ухода ассистентки

 

Влияние правила решения. До сих пор фигурировало только одно правило решения: нуль-гипотеза отвергается, если вероятность получения различия, при котором нуль-гипотеза верна, меньше 0,05. Вероятность, используемая для отвержения нуль-гипотезы, называется альфа-уровнем. Если применяется более строгий критерий, это означает, что нуль-гипотеза отвергается, если подтверждающая ее разница встречается в меньшей доле случаев. Наиболее часто это 0,01 (1 эксперимент из 100) вместо 0,05 (1 из 20).

 

Результат использования в правиле решения альфа-уровня 0,01 вместо прежнего 0,05 виден на нижней диаграмме (в) рис. 6.1. (Первоначальная выборка из 15 детей и первоначальные стандартные отклонения здесь сохранены.) При альфа-уровне 0,01 для отвержения нуль-гипотезы требуется различие, большее ±4. При этом более строгом критерии уже нельзя сделать заключение в пользу гипотезы о более сильном плаче с уходом матери.

 

Способ, каким в большинстве статей сообщается о статистически значимом различии, выглядит так: «p̄<0,05» или «р<0,01». Это означает, что вероятность случаев, когда нуль-гипотеза верна, меньше 0,05 или меньше 0,01. Незначимое различие представляется как «р>0,05» или «р>0,01».

 

ОТ РЕШЕНИЙ К ВЫВОДАМ

 

Люди, которые не любят статистику, считают, что все эти модные проверки статистической значимости не имеют особого смысла. Они не правы. С другой стороны, люди, поклоняющиеся статистике, считают, что за каждым статистическим решением автоматически следует экспериментальный вывод. Они тоже не правы. Мы попытаемся показать, что истина находится между этими крайностями. Наш девиз: используйте статистику, но сделайте так, чтобы она стала вашей служанкой, а не вашей госпожой.

 

Игнорирование проверки на значимость

 

Предположим, что Флинер и Кернс не стали бы рассматривать нуль-гипотезу. Они решили бы расценивать любое различие в пользу ухода матери как подтверждающее их экспериментальную гипотезу. В таком случае они приняли бы различие 0,93 для младшей группы тоже как значимое. Это было бы довольно рискованно. При дальнейшем знакомстве с их статьей можно увидеть, что для самой младшей исследовавшейся группы детей (в возрасте от трех до пяти месяцев) различие оказалось равным 1,78 с противоположным знаком, т. е. плач был больше при уходе ассистентки. Таким образом, выбирая тактику постоянного игнорирования нуль-гипотезы, экспериментаторы вынуждены были бы прийти к подтверждению противоположной гипотезы, которая в данном случае выглядит довольно бессмысленно.

 

Мы можем сразу увидеть, к каким последствиям приведет противоположная тактика, при которой нуль-гипотеза никогда не отвергается. Польза от проверки нуль-гипотезы всегда видна сразу. Если куль-гипотеза окажется верной, экспериментальные выводы, не учитывающие ее, всегда будут ложными: будет считаться, что получила подтверждение либо экспериментальная гипотеза, либо противоположная ей гипотеза. Более того, когда нуль-гипотеза неверна и существует некоторое действительное различие в пользу того или иного условия, выводы тоже зачастую могут оказаться ложными. Предположим, что для младших детей бесконечный эксперимент показал небольшое преобладание плача при уходе матери. В любом конкретном эксперименте это различие вполне могло оказаться с противоположным знаком. Эта последняя ошибка будет делаться тем чаще, чем меньше надежность данных. Вообще говоря, в младшую группу входило только девять детей, так что надежность полученных по ним данных довольно сомнительна.

 

Итак, в научных экспериментах мы не можем обойтись без проверки на значимость.

 

Разновидности риска и типы ошибок

 

Поскольку нам известно, что реальные эксперименты не бывают ни идеальными, ни бесконечными, мы знаем, что некоторые из наших решений окажутся ошибочными независимо от применявшегося правила решения. Может быть, Флинер и Кернс не следовало отвергать нуль-гипотезу для старшей группы. Может быть, нуль-гипотеза была верна. Если бы они использовали 0,01 альфа-уровень, они не смогли бы отвергнуть нуль-гипотезу. И было бы прекрасно, если бы нуль-гипотеза и в самом деле была правильной. Ну а что, если нет? При обоих альфа-уровнях они рисковали бы — но противоположным образом.

 

Ошибки I типа. Первый риск состоит в возможности ошибки I типа: отвержение нуль-гипотезы, когда она верна. Если исследователь использует в правиле решения уровень 0,05, это означает, что он готов сделать такую ошибку не более чем в пяти процентах его экспериментов. Когда он затем принимает отвержение нуль-гипотезы в качестве подтверждения экспериментальной гипотезы (например плач более сильный при уходе матери), это показывает его чрезмерный оптимизм. Ведь существует 1 шанс из 20, что такое доказательство ошибочно.

 

В любом эксперименте, направленном на проверку совершенно новой гипотезы, противоречащей общепринятому представлению, можно посоветовать быть более осторожным. Ломать научные традиции — вещь очень серьезная, и для этого нужно быть абсолютно уверенным в своих фактах. В таких случаях рекомендуется использовать более строгое правило решения, с 0,01 альфа-уровнем. Наука еще может выдержать 1 процент результатов, которые ошибочно приняты за подтверждающие экспериментальную гипотезу, но 5 процентов — это уж слишком!

 

Ошибки II типа. Если мы настаиваем на 0,01 альфа-уровне (или даже более строгом уровне, таком, как 0,001), появляется новый риск: наше желание быть абсолютно уверенными может привести нас к ошибочному неотвержению нуль-гипотезы, когда она на самом деле неверна. Вполне естественно, что это называют ошибкой II типа. Если нуль-гипотеза ошибочна, верна должна быть какая-то другая гипотеза. Риск не отвергнуть нуль-гипотезу, когда верна другая гипотеза (например определенное различие в плаче при уходе матери и ассистента), может быть также выражен через вероятность, называемую бета-уровнем.

 

Для данной совокупности экспериментальных результатов уменьшение альфа-уровня означает увеличение бета-вероятности для любой ненулевой гипотезы. Использование очень строгого правила решения означает, что экспериментатор готов пойти на значительный риск, заключающийся в неотвержении нулевой гипотезы, когда верна какая-то другая гипотеза. Таким образом, при низком альфа-уровне экспериментатор будет часто ошибочно заключать, что результаты не подтверждают экспериментальную гипотезу. В отличие от альфа-уровня, для бета-уровня невозможно задать некоторое общее значение вероятности; она различается для каждой конкретной ненулевой гипотезы о различии между условиями. Так, если окажется верной гипотеза о большом различии между условиями (скажем, разница в интенсивности плача +5 ед.), вероятность не отвергнуть нуль-гипотезу (бета) будет низкой даже при использовании строгого альфа-уровня 0,01. С другой стороны, если действительная разность окажется небольшой (скажем, + 1,0), вероятность ошибочного решения не отвергнуть нуль-гипотезу будет намного больше. Однако, логика отношений сохраняется: при одних и тех же данных уменьшение альфа-уровня увеличивает бета-вероятность для всех статистических гипотез, отличных от нуль-гипотезы.

 

О статистической проверке экспериментальных результатов говорят как об имеющей силу в той степени, в какой бета-величина остается низкой для ненулевых гипотез. При хорошей силе выявляются реальные различия. Конечно, сила автоматически повышается с использованием нестрогого правила решения (например 0,10 альфа-уровня), но это увеличивает риск ошибки I типа. Существует два более удачных способа увеличения силы. Один состоит в увеличении надежности данных. Как мы видели на рис. 6.1 (в), даже при небольшом различии между условиями оказывается возможным отвергнуть нуль-гипотезу либо путем увеличения числа испытуемых, либо путем уменьшения случайных вариаций. Другой способ состоит в использовании наиболее эффективных экспериментальных схем и проверок. Те и другие описаны в специальной литературе (см., например, Коэн, 1977).

 

В предыдущем параграфе уже говорилось, что ошибки I типа следует избегать в том случае, когда отвержение нуль-гипотезы связано с отрицанием существующих идей или результатов предыдущих экспериментов. С другой стороны, если экспериментатор не обнаруживает значимых различий между условиями, которые обычно признаются эффективными, это его заключение должно основываться на использовании высокого (или нестрогого) альфа-уровня, чтобы уменьшить риск ошибки II типа. Почти любой полученный ранее правильный результат может быть «опровергнут» путем ошибочного неотвержения нуль-гипотезы: либо через использование ненадежных данных, либо через применение слишком строгого правила решения, либо (самый худший вариант) через то и другое вместе.

 

Теперь давайте рассмотрим, какие выводы должен сделать экспериментатор при отвержении нуль-гипотезы.

 

Заключения при неотвержении нуль-гипотезы. Пожалуйста, заметьте: в отношении нуль-гипотезы принимается только два статистических решения — отвергнуть ее или не отвергнуть. Никогда не бывает решения принять нуль-гипотезу. Все же для экспериментатора иногда полезно заключить, что независимая переменная не оказывает никакого влияния. Как видно из диаграммы на с. 241, неотвержение нуль-гипотезы привело бы к заключению, что не подтверждается ни экспериментальная гипотеза, ни противоположная ей гипотеза. Например, для младшей группы детей небольшое различие в интенсивности плача не благоприятствует ни гипотезе о более сильном плаче при уходе матери, ни противоположной гипотезе о более сильном плаче при уходе ассистентки. Однако из подобных неподтверждений можно вывести различные заключения.

 

Во-первых, экспериментатор может сделать вывод, что он не знает, оказывает ли независимая переменная вообще какое-либо влияние на поведение. Этот вывод особенно подходит к случаю, когда надежность низка из-за небольшого количества испытуемых или из-за большей, чем ожидалось, вариабельности поведения. Так, Флинер и Кернс могли бы решить продолжить эксперимент на новых детях, относящихся к той же младшей группе, и попытаться уменьшить случайные вариации, насколько это возможно.

 

Во-вторых, экспериментатор может заключить, что надежность была вполне удовлетворительной и что неотвержение нуль-гипотезы означает, что исследовавшиеся условия действительно не различаются. Это заключение может оказаться наиболее справедливым, особенно если более ранние эксперименты показали неэффективность независимой переменной.

 

Итак, статистическое решение снова состоит в неотвержении нуль-гипотезы. Однако обстоятельства эксперимента заставляют сделать вывод, что независимая переменная оказалась недейственной.

 

Валидность выводов

 

Вернемся к определению внутренней валидности, данному в главе 2: это степень уверенности, что заключение об экспериментальной гипотезе совпадает с выводом, который был бы получен в идеальном или бесконечном эксперименте. В предыдущих главах мы видели, как увеличивается внутренняя валидность е помощью процедур, повышающих надежность данных и уменьшающих смешение. Понятно, что заключения из экспериментальных данных не могут быть лучше самих данных. В настоящей главе мы видели, как разумное использование правил статистического решения ведет к обоснованным заключениям об экспериментальной гипотезе. Это — тоже способ увеличения внутренней валидности, поскольку заключение составляет наиболее важную часть эксперимента. Остановимся на этом более подробно.

 

Бесконечный эксперимент одновременно и определяет полную внутреннюю валидность, и обеспечивает основу для проверки нуль-гипотезы. Конечно, для этой последней цели существует особый вид бесконечного эксперимента. Он разбивается на отдельные конкретные эксперименты. Каждый из них такой же, как и реально проводимый эксперимент, но только в каждом эксперименте берутся другие испытуемые, выбранные из той же популяции (или другие пробы, если мы обращаемся к интраиндивидуальной схеме эксперимента).

 

При проверке нуль-гипотезы мы должны предположить, что из бесконечного эксперимента, безусловно, следует заключение, что экспериментальные условия не различаются. Естественно, общая средняя разность между условиями по всем этим экспериментам должна равняться нулю. Однако для каждого отдельного эксперимента это будет не так. Разности между средними будут лишь распределяться вокруг нуля, но при этом некоторые эксперименты будут благоприятствовать одному условию, другие — другому. А теперь нам нужно соотнести различие, полученное в нашем собственном эксперименте, со всем набором различий, которые могли бы быть получены в этом типе бесконечного эксперимента.

 

Достоверные заключения, когда нуль-гипотеза верна. Если оказалось, что нуль-гипотеза верна, т. е. если общая средняя разность между условиями в бесконечном эксперименте равна нулю, мы хотели бы иметь возможность прийти к такому же заключению и в нашем эксперименте. Ведь мы не хотим заключить в пользу гипотезы о различии между условиями, если много шансов за то, что на основе бесконечного эксперимента мы пришли бы к выводу об отсутствии различия. Таким образом, из надежных данных мы сделаем вывод, что экспериментальная гипотеза о различии условий неверна, если разность такой величины, как в нашем эксперименте, при верности нуль-гипотезы может появиться с вероятностью 0,05 или 0,01. Мы хотели бы быть уверенными в таком заключении при проверке новой экспериментальной гипотезы, особенно если она идет вразрез с общепринятым убеждением. Вот почему в таком случае альфа-уровень должен быть 0,01 или ниже. При уровне 0,05—5 процентов заключений будут неверны. В бесконечном числе экспериментов 5 процентов дали бы результаты, которые привели бы к отвержению нуль-гипотезы в единичном эксперименте.

 

Достоверные выводы, когда нуль-гипотеза неверна. Если нуль-гипотеза оказывается ложной, т. е. если общая средняя разность между условиями такова, как предсказывает экспериментальная гипотеза, хотелось бы прийти к такому же выводу и в нашем эксперименте. Это не так важно при проверке какой-то новой идеи. Если она верна, то ее время все равно придет. Однако если различие между условиями ожидается на основе уже имеющихся знаний, мы хотим быть совершенно уверенными в своем выводе в пользу экспериментальной гипотезы.

 

Как мы уже видели, для этого требуются надежные данные. Кроме того, необходимо использовать менее строгое правило решения, например альфа-уровень 0,05. Если нуль-гипотеза окажется верной, мы, конечно, хотели бы сделать именно такое заключение. Однако мы готовы увеличить риск ошибочного отвержения нуль-гипотезы для того, чтобы уменьшить риск ошибочного вывода об отсутствии различия между условиями, т. е. в ситуации, когда бесконечный эксперимент такие различия бы показал.

 







Последнее изменение этой страницы: 2016-06-06; Нарушение авторского права страницы

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.206.187.81 (0.017 с.)