Лекция 4.
Общие принципы проверки статистических гипотез
Подчеркнем еще раз, что полученные в результате эксперимента на какой-либо выборке данные служат основанием для суждения о генеральной совокупности. Однако в силу действия случайных вероятностных причин оценка параметров генеральной совокупности, сделанная на основании экспериментальных (выборочных) данных, всегда будет сопровождаться погрешностью, и поэтому подобного рода оценки должны рассматриваться как предположительные, а не как окончательные утверждения. Подобные предположения о свойствах и параметрах генеральной совокупности получили название статистических гипотез.
Сущность проверки статистической гипотезы заключается в том, чтобы установить, согласуются ли экспериментальные данные и выдвинутая гипотеза, допустимо ли отнести расхождение между гипотезой и результатом статистического анализа экспериментальных данных за счет случайных причин? Таким образом, статистическая гипотеза это научная гипотеза, допускающая статистическую проверку, а математическая статистика это научная дисциплина задачей которой является научно обоснованная проверка статистических гипотез.
Статистические гипотезы
При проверке статистических гипотез используются два понятия: так называемая нулевая (обозначение Н0) и альтернативная гипотеза (обозначение Н1).
Нулевая гипотеза – это гипотеза об отсутствии различий. Она обозначается как и называется нулевой потому, что содержит число 0: , где — сопоставляемые значения признаков.
Нулевая гипотеза – это то, что мы хотим опровергнуть, если перед нами стоит задача доказать значимость различий.
Альтернативная гипотеза – это гипотеза о значимости различий. Она обозначается как . Альтернативная гипотеза – это то, что мы хотим доказать, поэтому иногда ее называют экспериментальной гипотезой.
Бывают задачи, когда требуется доказать как раз незначимость различий, т.е. подтвердить нулевую гипотезу. Однако чаще все-таки требуется доказать значимость различий, так как они более информативны в поиске нового.
Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными.
Направленные гипотезы
: не превышает
: превышает
Ненаправленные гипотезы
: не отличается
: отличается
Выявление различий в уровне исследуемого признака Н-критерий Крускала-Уоллиса
... что, собственно, он обнаружил. Статистические гипотезы подразделяются на нулевые и альтернативные, направленные и ненаправленные. Нулевая гипотеза - это гипотеза об отсутствии различий. Она обозначается как H0 и называется нулевой потому, что содержит число ...
Если в ходе эксперимента было замечено, что водной группе индивидуальные значения испытуемых по какому-либо признаку, например, по социальной смелости, выше, а в другой ниже, то для проверки значимости этих различий необходимо сформулировать направленные гипотезы.
Если же необходимо доказать, что первой группе под влиянием каких-то экспериментальных воздействий произошли более выраженные изменения, чем во второй группе, то в этом случае тоже необходимо сформулировать направленные гипотезы.
Если же требуется доказать, что различаются формы распределения признака в первой и во второй группах, то формулируются ненаправленные гипотезы.
Замечание. При описании каждого критерия даются формулировки гипотез, которые он помогает проверить.
Вообще говоря, при принятии или отвержении гипотез возможны различные варианты.
Например, психолог провел выборочное тестирование показателей интеллекта у группы подростков из полных и неполных семей. В результате обработки экспериментальных данных установлено, что у подростков из неполных семей показатели интеллекта в среднем ниже, чем у их ровесников из полных семей. Может ли психолог на основе полученных результатов сделать вывод о том, что неполная семья ведет к снижению интеллекта у подростков? Принимаемый в таких случаях вывод носит называние статистического решения. Подчеркнем, что такое решение всегда вероятностно.
При проверке гипотезы экспериментальные данные могут противоречить гипотезе , тогда эта гипотеза отклоняется. В противном случае, т.е. если экспериментальные данные согласуются с гипотезой ,она не отклоняется. Часто в таких случаях говорят, что гипотеза принимается (хотя такая формулировка не совсем точна, однако она широко распространена и мы ею будем пользоваться в дальнейшем).
Отсюда видно, что статистическая проверка гипотез, основанная на экспериментальных, выборочных данных, неизбежно связана с риском (вероятностью) принять ложное решение. При этом возможны ошибки двух родов.
Ошибка первого рода произойдет, когда будет принято решение отклонить гипотезу ,хотя в действительности она оказывается верной.
Ошибка второго рода произойдет, когда будет принято решение не отклонять гипотезу , хотя в действительности она будет неверна. Очевидно, что и правильные выводы могут быть приняты также в двух случаях. Вышесказанное лучше представить в виде таблицы 1:
Таблица 1
Результат проверки гипотезы | Возможные состояния проверяемой гипотезы | |
Верна гипотеза | Верна гипотеза | |
Гипотеза отклоняется | Ошибка первого рода | Правильное решение |
Гипотеза не отклоняется | Правильное решение | Ошибка второго рода |
Не исключено, что психолог может ошибиться в своем статистическом решении; как видим из таблицы 1, эти ошибки могут быть только двух родов. Поскольку исключить ошибки при принятии статистических гипотез невозможно, то необходимо минимизировать возможные последствия, т.е. принятие неверной статистической гипотезы. В большинстве случаев единственный путь минимизации ошибок заключается в увеличении объема выборки.
Понятие уровня статистической значимости
При обосновании статистического вывода следует решить вопрос, где же проходит линия между принятием и отвержением нулевой гипотезы? В силу наличия в эксперименте случайных влияний эта граница не может быть проведена абсолютно точно. Она базируется на понятии уровня значимости.
Опр. Уровнем значимости называется вероятность ошибочного отклонения нулевой гипотезы. Или, иными словами, уровень значимостиэто вероятность ошибки первого рода при принятии решения.
Для обозначения этой вероятности, как правило, употребляют либо греческую букву , либо латинскую букву Р. В дальнейшем мы будем употреблять букву Р.
Исторически сложилось так, что в прикладных науках, использующих статистику, и в частности в психологии, считается, что низшим уровнем статистической значимости является уровень ; достаточным — уровень и высшим уровень . Поэтому в статистических таблицах, которые приводятся в приложении к учебникам по статистике, обычно даются табличные значения для уровней: ; ; . Иногда даются табличные значения для уровней и . Величины 0,05, 0,01 и 0,001 — это так называемые стандартные уровни статистической значимости. При статистическом анализе экспериментальных данных психолог в зависимости от задач и гипотез исследования должен выбрать необходимый уровень значимости. Как видим, здесь наибольшая величина, или нижняя граница уровня статистической значимости, равняется 0,05 — это означает, что допускается пять ошибок в выборке из ста элементов (случаев, испытуемых) или одна ошибка из двадцати элементов (случаев, испытуемых).
Считается, что ни шесть, ни семь, ни большее количество раз из ста мы ошибиться не можем. Цена таких ошибок будет слишком велика.
Заметим, что в современных статистических пакетах на ЭВМ используются не стандартные уровни значимости, а уровни, подсчитываемые непосредственно в процессе работы с соответствующим статистическим методом. Эти уровни, обозначаемые буквой Р, могут иметь различное числовое выражение в интервале от 0 до 1, например, Р = 0,7, Р = 0,23 или Р = 0,012. Понятно, что в первых двух случаях, полученные уровни значимости слишком велики и говорить о том, что результат значим нельзя. В то же время в последнем случае результаты значимы на уровне 12 тысячных, это достоверный уровень.
Правило принятия статистического вывода таково: на основании полученных экспериментальных данных психолог подсчитывает по выбранному им статистическому методу так называемую эмпирическую статистику, или эмпирическое значение. Эту величину удобно обозначить как Чэмп. Затем эмпирическая статистика Чэмп сравнивается с двумя критическими величинами, которые соответствуют уровням значимости в 5% и в 1% для выбранного статистического метода и которые, обозначаются как . Величины находятся для данного статистического метода по соответствующим таблицам, приведенным в приложении к любому учебнику по статистике. Эти величины, как правило, всегда различны и их в дальнейшем для удобства можно назвать, как и . Найденные по таблицам величины критических значений и удобно представлять в следующей стандартной форме записи:
(2)
Подчеркнем, однако, что мы использовали обозначения и как сокращение слова «число». Во всех статистических методах приняты свои символические обозначения всех этих величин: как подсчитанной по соответствующему статистическому методу эмпирической величины, так и найденных по соответствующим таблицам критических величин. Например, при подсчете рангового коэффициента корреляции Спирмена по таблице 21 Приложения были найдены следующие величины критических значений, которые для этого метода обозначаются греческой буквой (ро).
Принято найденные значения записывать следующим образом:
Теперь нам необходимо сравнить наше эмпирическое значение с двумя найденными по таблицам критическими значениями. Лучше всего это сделать, расположив все три числа на так называемой «оси значимости». «Ось значимости» представляет собой прямую, на левом конце которой располагается 0, хотя он, как правило, не отмечается на самой этой прямой, и слева направо идет увеличение числового ряда. По сути дела это привычная школьная ось абсцисс ОХ декартовой системы координат. Однако особенность этой оси в том, что на ней выделено три участка, «зоны». Левая зона называется зоной незначимости, правая — зоной значимости, а промежуточная зоной неопределенности. Границами всех трех зон являются Чкр1 для Р = 0,05 и для Р = 0,01, как это показано ниже:
Ось значимости
Подсчитанное Чэмп по какому либо статистическому методу должно обязательно опасть в одну из трех зон.
1. Пусть Чэмп попало в зону незначимости, тогда рисунок выглядит так:
В этом случае принимается гипотеза Но об отсутствии различий.
2. Пусть Чэмп попало в зону значимости, тогда рисунок выглядит так:
В этом случае принимается альтернативная гипотеза Н1, о наличии различий, а гипотеза Но отклоняется.
3. Пусть Чэмп попало в зону неопределенности, тогда рисунок выглядит так:
В этом случае перед психологом стоит дилемма. Так, в зависимости от важности решаемой задачи он может считать полученную статистическую оценку достоверной на уровне 5%, и принять, тем самым гипотезу Н1 отклонив гипотезу Но, либо — недостоверной на уровне 1%, приняв тем самым, гипотезу Но. Подчеркнем, однако, что это именно тот случай, когда психолог может допустить ошибки первого или второго рода. Как уже говорилось выше, в этих обстоятельствах лучше всего увеличить объем выборки.
Подчеркнем также, что величина Чэмп может точно совпасть либо с Чкр1., либо с . В первом случае можно считать, что оценка достоверна точно на уровне в 5% и принять гипотезу Н1, или, напротив, принять гипотезу Н0. Во втором случае, как правило, принимается альтернативная гипотеза Н1, о наличии различий, а гипотеза Н0 отклоняется.
Для иллюстрации этих положений строим соответствующую «ось значимости» рассмотренного выше примера для оценки уровня значимости эмпирически рассчитанного рангового коэффициента корреляции Спирмена.
Как видим, в этом случае , следовательно принимается альтернативная гипотеза Н1, о наличии различий, а гипотеза Н0 отклоняется.
Классификация психологических задач, решаемых с помощью статистических методов
Подчеркнем еще раз, что, прежде чем выполнить любой психологический эксперимент, необходимо четко сформулировать его задачи, определить экспериментальную гипотезу и все этапы её статистической проверки, а также выбрать соответствующий статистический метод, наиболее эффективный для решения поставленных в исследовании задач.
Подавляющее большинство задач, решаемых психологом в эксперименте, предполагает те или иные сопоставления. Это могут быть сопоставления одних и тех же показателей в разных группах испытуемых или, напротив, разных показателей в одной и той же группе. Для определения степени эффективности каких-либо воздействий (обучение, тренировка, тренинг, инструктаж и т.п.) сравниваются показатели «до» и «после» этих воздействий. Например, сравниваются показатели уровня агрессивности у подростков до и после психотренинга, что позволяет определить его эффективность. Или в лонгитюдном исследовании сопоставляются результаты у одних и тех же испытуемых по одним и тем же методикам, но в разном возрасте; это позволяет выявить временную динамику анализируемых показателей. Иногда возникает задача сравнить индивидуальные показатели, полученные при различных внешних условиях, для выявления связи между показателями и факторов, объединяющих эти связи.
Два выборочных распределения сравниваются между собой или с теоретическим законом распределения, чтобы выявить различия или, напротив, сходство в типах распределений. Например, сравнение распределений времени решения простой и сложных задач позволит построить классификацию задач и типологию испытуемых.
В общем, психологические задачи, решаемые с помощью методов математической статистики, условно можно разделить на несколько групп.
1. Задачи, требующие установления сходства или различия.
2. Задачи, требующие группировки и классификации данных.
3. Задачи, ставящие целью анализ источников вариативности получаемых психологических признаков.
4. Задачи, предполагающие возможность прогноза на основе имеющихся данных.
Эта неполная классификация носит предварительный характер. Наиболее полная сводка типов задач и методов их решения дана в Приложении 3.
Приложение 3
Задачи | Условия | Методы |
1. Выявление различий в уровне исследуемого признака | а) 2 выборки испытуемых | Критерий Макнамары; Q критерий Розенбаума; U критерий Манна-Уитни; критерий (угловое преобразование Фишера) |
б) 3 и больше выборок испытуемых | S критерий Джонкира; H критерий Крускала-Уоллиса | |
2. Оценка сдвига значений исследуемого признака | а) 2 замера на одной и той же выборке испытуемых | T критерий Вилкоксона; G критерий знаков; критерий (угловое преобразование Фишера); t-критерий Стьюдента |
б) 3 и более замеров на одной и той же выборке испытуемых | критерий Фридмана; L критерий тенденций Пейджа; t-критерий Стьюдента | |
3. Выявление различий в распределении признака | а) при сопоставлении эмпирического распределения с теоретическим | критерий Пирсона; — критерий Колмогорова — Смирнова; t-критерий Стьюдента |
б) при сопоставлении двух эмпирических распределений | критерий Пирсона; — критерий Колмогорова — Смирнова; критерий (угловое преобразование Фишера) | |
4. Выявление степени согласованности изменений | а) двух признаков | коэффициент корреляции Пирсона; коэффициент корреляции Кендалла; R – бисериальный коэффициент корреляции; корреляционное отношение Пирсона; коэффициент ранговой корреляции Спирмена; коэффициент корреляции Пирсона; Линейная и криволинейная регрессии |
б) трех и большего числа признаков | коэффициент ранговой корреляции Спирмена; коэффициент корреляции Пирсона; множественная и частная корреляции; линейная, криволинейная и множественная регрессия; факторный и кластерный анализы | |
5. Анализ изменений признака под влиянием контролируемых условий | а) под влиянием одного фактора | S критерий Джонкира; L критерий тенденций Пейджа; Однофакторный дисперсионный анализ; Критерий Линка и Уоллеса; Критерий Немени; Множественное сравнение независимых выборок |
б) под влиянием двух факторов одновременно | двухфакторный дисперсионный анализ |