Мощность статистических критериев
Мощность статистических критериев
power of tests) Проверка гипотезы предполагает сопоставление двух конкурирующих гипотез. Нулевая гипотеза указывает на невозможность редких, необычных событий. Альтернативная гипотеза, напротив, утверждает, что такие события возможны. Напр., нулевая гипотеза могла бы гласить, что две группы имеют одинаковое среднее или что корреляция между двумя переменными равна нулю. Альтернативная гипотеза может быть направленной или ненаправленной. Направленная гипотеза указывает направление эффекта: в группе 1 среднее выше, чем в группе 2, или корреляция между двумя переменными больше нуля. Ненаправленная гипотеза указывает только на существование эффекта, не определяя его направления: две группы имеют разные средние или корреляция между двумя переменными отлична от нуля. Статистики начинают с предположения, что нулевая гипотеза верна, и отвергают ее только в том случае, если наблюдаемые результаты весьма маловероятны при этом предположении. Основываясь на некоторых допущениях в отношении проводимого исслед., напр., предполагая случайный характер выборки и нормально распределенную зависимую переменную, исследовать может вычислить вероятность отвергнуть нулевую гипотезу в тех случаях, когда она верна (?) и когда верна альтернативная гипотеза (мощность критерия). Поскольку исследователь хочет прийти к правильному выводу, надежные исследования планируются таким образом, чтобы обеспечить низкий уровень а и большую мощность. При низком уровне а крайне мало шансов отвергнуть правильную нулевую гипотезу, а при большой мощности критерия больше шансов принять правильную альтернативную гипотезу. Обычно исследователи выбирают уровень ? = 0,05. В этом случае они отвергают нулевую гипотезу только если выборочные результаты попадают в 5%-ную краевую область распределения возможных исходов, построенного при условии справедливости нулевой гипотезы. Когда нулевая гипотеза отвергается, исследователь делает вывод о значимости полученных результатов и указывает вероятность их значимости, т. е. уровень а, связанный с данным исходом. Напр., он может сделать вывод, что полученная корреляция значима на уровне р < 0,05, подразумевая, что нулевая гипотеза об отсутствии корреляции могла быть отвергнута с вероятностью ошибки (?) меньше 0,05. Расположенный ближе к краям распределения результат имеет еще меньшую вероятность значимости: р < 0,01 или р < 0,001. Так как традиционный подход предусматривает выбор низкого уровня а, исследователи должны проявлять осторожность, чтобы поддерживать разумно высокую мощность используемых критериев. Оценки мощности критериев можно получить еще до сбора данных, и исслед. с недостаточной мощностью можно перепланировать, чтобы ее увеличить. Есть четыре основных стратегии повышения мощности: выбор более высокого уровня а, формулирование направленных гипотез, увеличение объема выборки и усиление эффекта. С повышением уровня а возрастает мощность. Чем выше а, тем больше вероятность отвергнуть нулевую гипотезу и, следовательно, прийти к заключению о том, что верна правильная альтернативная гипотеза. Однако вместе с повышением уровня а возрастает риск отвергнуть верную нулевую гипотезу - ошибка, к-рой следует избегать. Уровни а выше 0,05 традиционно считаются неприемлемыми, но они все же могут использоваться в ситуациях, когда мощность критерия крайне важна, а ошибочное отклонение нулевой гипотезы обходится не слишком дорого. Второй способ повысить мощность - формулирование направленных гипотез. Это дает исследователю возможность сосредоточиться на ?-риске только тех исходов, которые согласуются с направленной гипотезой. Напр., критерий для оценки коэффициента корреляции при использовании ненаправленной гипотезы и ? = 0,05 мог отвергнуть нулевую гипотезу для полученных корреляций, лежащих ниже -0,60 или выше +0,60. Следовательно, ожидается, что исходы (т. е. наблюдаемые корреляции), попадающие в интервал от -0,60 до +0,60, наступают в 95% случаев проведения такого исслед., тогда как исходы, лежащие за пределами этого интервала, наступают только в 5% случаев, - при условии истинности нулевой гипотезы. Однако если исследователь уточнит гипотезу, преобразуя ее в направленную и предполагая положительную корреляцию, используемый критерий мог бы теперь отвергнуть нулевую гипотезу для всех корреляций, лежащих выше +0,55, так как в этом случае 5% ожидаемых корреляций при данной нулевой гипотезе превышают эту величину. Если наблюдаемая корреляция оказалась равной 0,58, исследователь не мог бы отвергнуть нулевую гипотезу в пользу ненаправленной альтернативной гипотезы, но смог бы сделать это в пользу направленной гипотезы. Концентрируя ?-риск на одном конце множества возможных исходов, исследователь получает более мощный критерий. К сожалению, если направленная гипотеза задает ложное направление эффекта, исследователь не получит значимых результатов и впадет в заблуждение. Так, получив корреляцию -0,63, исследователь из предыдущего примера мог бы отвергнуть нулевую гипотезу в случае применения ненаправленного критерия, но не смог бы этого сделать при направленной проверке, нацеленной исключительно на оценку положительной связи. Поэтому исследователи формулируют направленные гипотезы только тогда, когда противоположный результат невозможно помыслить, опираясь на предшествующие исслед., теорию или логику. Напр., если все проведенные до этого исслед. обнаружили положительную связь между двумя переменными, исследователь будет чувствовать себя уверенно, проводя направленную проверку гипотезы. Третий способ повысить мощность - увеличить объем выборки. Статистики, основанные на выборках большего объема, более устойчивы и, следовательно, обеспечивают более точную оценку характеристик генеральной совокупности. Эта прибавка в точности повышает вероятность того, что будет подтверждена правильная альтернативная гипотеза. Фактически, проводимые на очень больших выборках исслед. могут обладать излишней мощностью в плане проверки гипотез, потому что такие исслед. позволяют отвергнуть нулевую гипотезу при получении незначительных, хотя и статистически значимых результатов. Например, полученная на большой выборке корреляция 0,20 может значимо отличаться от нуля, но такая связь, по-видимому, слишком слаба, чтобы представлять практ. интерес. Величина эффекта - это сила изучаемой связи. Исслед., для к-рого выбраны переменные с большей величиной эффекта, обладает большей мощностью. Напр., для доказательства того, что разные виды птиц несут яйца разного размера, следовало бы сравнить страусов и колибри, а не кур и уток, поскольку в первом случае величина эффекта будет гораздо больше, чем во втором. Исслед., в к-рых изучаются переменные с большой величиной эффекта, дают больше шансов отвергнуть нулевую гипотезу, чем исслед., рассчитанные на обнаружение более тонких эффектов. Исследователи могут отобрать переменные с сильными связями и выбрать способы измерения или контроля переменных, максимизирующие величину эффекта, с тем чтобы повысить мощность критериев проверки гипотез. Исследователи стремятся работать с низкими уровнями а и мощными статистическими критериями, чтобы повысить шансы получения верных выводов. Они обычно поддерживают а на уровне не выше 0,05 и используют разные стратегии увеличения мощности. Хорошо спланированное исслед. может отличаться относительно небольшой величиной а, направленной гипотезой, большим объемом выборки или значительной величиной эффекта. Исследователь учитывает все эти варианты выбора при планировании исслед., к-рое, по всей вероятности, пополнит достоверной информ. базу психол. знаний. См. также Ошибки I и II рода, Проверка нулевой гипотезы, Тесты для отбора кандидатов М. Эллин
Источник: Корсини Р., Ауэрбах А. Психологическая энциклопедия. 2006