Понятие уровня статистической значимости

Лекция 4.

Общие принципы проверки статистических гипотез

Подчеркнем еще раз, что полученные в результате экспери­мента на какой-либо выборке данные служат основанием для суждения о генеральной совокупности. Однако в силу действия случайных вероятностных причин оценка параметров генераль­ной совокупности, сделанная на основании экспериментальных (выборочных) данных, всегда будет сопровождаться погрешнос­тью, и поэтому подобного рода оценки должны рассматриваться как предположительные, а не как окончательные утверждения. Подобные предположения о свойствах и параметрах генеральной совокупности получили название статистических гипотез.

Сущность проверки статистической гипотезы заключается в том, чтобы установить, согласуются ли экспериментальные дан­ные и выдвинутая гипотеза, допустимо ли отнести расхождение между гипотезой и результатом статистического анализа экспе­риментальных данных за счет случайных причин? Таким обра­зом, статистическая гипотеза это научная гипотеза, допускаю­щая статистическую проверку, а математическая статистика это научная дисциплина задачей которой является научно обосно­ванная проверка статистических гипотез.

 

Статистические гипотезы

При проверке статистических гипотез используются два по­нятия: так называемая нулевая (обозначение Н0) и альтернатив­ная гипотеза (обозначение Н1).

Нулевая гипотеза – это гипотеза об отсутствии различий. Она обозначается как и называется нулевой потому, что содержит число 0: , где — сопоставляемые значения признаков.

Нулевая гипотеза – это то, что мы хотим опровергнуть, если перед нами стоит задача доказать значимость различий.

Альтернативная гипотеза – это гипотеза о значимости различий. Она обозначается как . Альтернативная гипотеза – это то, что мы хотим доказать, поэтому иногда ее называют экспериментальной гипотезой.

Бывают задачи, когда требуется доказать как раз незначимость различий, т.е. подтвердить нулевую гипотезу. Однако чаще все-таки требуется доказать значимость различий, так как они более информативны в поиске нового.

Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными.

Направленные гипотезы

: не превышает

: превышает

Ненаправленные гипотезы

: не отличается

: отличается

 

6 стр., 2590 слов

Выявление различий в уровне исследуемого признака Н-критерий Крускала-Уоллиса

... что, собственно, он обнаружил. Статистические гипотезы подразделяются на нулевые и альтернативные, направленные и ненаправленные. Нулевая гипотеза - это гипотеза об отсутствии различий. Она обозначается как H0 и называется нулевой потому, что содержит число ...

Если в ходе эксперимента было замечено, что водной группе индивидуальные значения испытуемых по какому-либо признаку, например, по социальной смелости, выше, а в другой ниже, то для проверки значимости этих различий необходимо сформулировать направленные гипотезы.

Если же необходимо доказать, что первой группе под влиянием каких-то экспериментальных воздействий произошли более выраженные изменения, чем во второй группе, то в этом случае тоже необходимо сформулировать направленные гипотезы.

Если же требуется доказать, что различаются формы распределения признака в первой и во второй группах, то формулируются ненаправленные гипотезы.

Замечание. При описании каждого критерия даются формулировки гипотез, которые он помогает проверить.

Вообще говоря, при принятии или отвержении гипотез воз­можны различные варианты.

Например, психолог провел выборочное тестирование пока­зателей интеллекта у группы подростков из полных и неполных семей. В результате обработки экспериментальных данных уста­новлено, что у подростков из неполных семей показатели интел­лекта в среднем ниже, чем у их ровесников из полных семей. Может ли психолог на основе полученных результатов сделать вывод о том, что неполная семья ведет к снижению интеллекта у подростков? Принимаемый в таких случаях вывод носит назы­вание статистического решения. Подчеркнем, что такое решение всегда вероятностно.

При проверке гипотезы экспериментальные данные могут противоречить гипотезе , тогда эта гипотеза отклоняется. В противном случае, т.е. если экспериментальные данные согласу­ются с гипотезой ,она не отклоняется. Часто в таких случаях говорят, что гипотеза принимается (хотя такая формулировка не совсем точна, однако она широко распространена и мы ею будем пользоваться в дальнейшем).

Отсюда видно, что статисти­ческая проверка гипотез, основанная на экспериментальных, выборочных данных, неизбежно связана с риском (вероятнос­тью) принять ложное решение. При этом возможны ошибки двух родов.

Ошибка первого рода произойдет, когда будет принято решение отклонить гипотезу ,хотя в действительности она оказывается верной.

Ошибка второго рода произойдет, когда бу­дет принято решение не отклонять гипотезу , хотя в действи­тельности она будет неверна. Очевидно, что и правильные выво­ды могут быть приняты также в двух случаях. Вышесказанное лучше представить в виде таблицы 1:

Таблица 1

Результат проверки гипотезы Возможные состояния проверяемой гипотезы
Верна гипотеза Верна гипотеза
Гипотеза отклоняется Ошибка первого рода Правильное решение
Гипотеза не отклоняется Правильное решение Ошибка второго рода

 

Не исключено, что психолог может ошибиться в своем ста­тистическом решении; как видим из таблицы 1, эти ошибки могут быть только двух родов. Поскольку исключить ошибки при принятии статистических гипотез невозможно, то необходимо минимизировать возможные последствия, т.е. принятие неверной статистической гипотезы. В большинстве случаев единственный путь минимизации ошибок заключается в увеличении объема выборки.

 

Понятие уровня статистической значимости

При обосновании статистического вывода следует решить вопрос, где же проходит линия между принятием и отвержени­ем нулевой гипотезы? В силу наличия в эксперименте случайных влияний эта граница не может быть проведена абсолютно точно. Она базируется на понятии уровня значимости.

Опр. Уровнем значимо­сти называется вероятность ошибочного отклонения нулевой гипотезы. Или, иными словами, уровень значимостиэто вероят­ность ошибки первого рода при принятии решения.

Для обозна­чения этой вероятности, как правило, употребляют либо гречес­кую букву , либо латинскую букву Р. В дальнейшем мы будем употреблять букву Р.

Исторически сложилось так, что в прикладных науках, ис­пользующих статистику, и в частности в психологии, считается, что низшим уровнем статистической значимости является уровень ; достаточным — уровень и высшим уровень . Поэтому в статистических таблицах, которые приводятся в приложении к учебникам по статистике, обычно даются таблич­ные значения для уровней: ; ; . Иногда даются табличные значения для уровней и . Величины 0,05, 0,01 и 0,001 — это так называемые стандартные уровни статистической значимости. При статистическом анализе экспериментальных данных психолог в зависимости от задач и гипотез исследования должен выбрать необходимый уро­вень значимости. Как видим, здесь наибольшая величина, или нижняя граница уровня статистической значимости, равняется 0,05 — это означает, что допускается пять ошибок в выборке из ста элементов (случаев, испытуемых) или одна ошибка из двад­цати элементов (случаев, испытуемых).

Считается, что ни шесть, ни семь, ни большее количество раз из ста мы ошибиться не можем. Цена таких ошибок будет слишком велика.

Заметим, что в современных статистических пакетах на ЭВМ используются не стандартные уровни значимости, а уровни, подсчитываемые непосредственно в процессе работы с соответ­ствующим статистическим методом. Эти уровни, обозначаемые буквой Р, могут иметь различное числовое выражение в интер­вале от 0 до 1, например, Р = 0,7, Р = 0,23 или Р = 0,012. Понятно, что в первых двух случаях, полученные уровни значимос­ти слишком велики и говорить о том, что результат значим нельзя. В то же время в последнем случае результаты значимы на уровне 12 тысячных, это достоверный уровень.

Правило принятия статистического вывода таково: на осно­вании полученных экспериментальных данных психолог подсчи­тывает по выбранному им статистическому методу так называе­мую эмпирическую статистику, или эмпирическое значение. Эту величину удобно обозначить как Чэмп. Затем эмпирическая стати­стика Чэмп сравнивается с двумя критическими величинами, ко­торые соответствуют уровням значимости в 5% и в 1% для выб­ранного статистического метода и которые, обозначаются как . Величины находятся для данного статистического метода по соответствующим таблицам, приведенным в приложении к лю­бому учебнику по статистике. Эти величины, как правило, все­гда различны и их в дальнейшем для удобства можно назвать, как и . Найденные по таблицам величины критических значе­ний и удобно представлять в следующей стандартной форме записи:

(2)

Подчеркнем, однако, что мы использовали обозначения и как сокращение слова «число». Во всех статистических ме­тодах приняты свои символические обозначения всех этих вели­чин: как подсчитанной по соответствующему статистическому методу эмпирической величины, так и найденных по соответ­ствующим таблицам критических величин. Например, при под­счете рангового коэффициента корреляции Спирмена по таблице 21 Приложения были найдены сле­дующие величины критических значений, которые для этого мето­да обозначаются греческой буквой (ро).

Принято найденные значения записывать следующим образом:

Теперь нам необходимо сравнить наше эмпирическое значе­ние с двумя найденными по таблицам критическими значения­ми. Лучше всего это сделать, расположив все три числа на так называемой «оси значимости». «Ось значимости» представляет собой прямую, на левом конце которой располагается 0, хотя он, как правило, не отмечается на самой этой прямой, и слева направо идет увеличение числового ряда. По сути дела это при­вычная школьная ось абсцисс ОХ декартовой системы координат. Однако особенность этой оси в том, что на ней выделено три участка, «зоны». Левая зона называется зоной незначимости, правая — зоной значимости, а промежуточная зоной неопреде­ленности. Границами всех трех зон являются Чкр1 для Р = 0,05 и для Р = 0,01, как это показано ниже:

Ось значимости

Подсчитанное Чэмп по какому либо статистическому методу должно обязательно опасть в одну из трех зон.

1. Пусть Чэмп попало в зону незначимости, тогда рисунок выглядит так:

В этом случае принимается гипотеза Но об отсутствии различий.

2. Пусть Чэмп попало в зону значимости, тогда рисунок выглядит так:

В этом случае принимается альтернативная гипотеза Н1, о на­личии различий, а гипотеза Но отклоняется.

3. Пусть Чэмп попало в зону неопределенности, тогда рисунок выглядит так:

В этом случае перед психологом стоит дилемма. Так, в зависи­мости от важности решаемой задачи он может считать полученную статистическую оценку достоверной на уровне 5%, и принять, тем самым гипотезу Н1 отклонив гипотезу Но, либо — недостоверной на уровне 1%, приняв тем самым, гипотезу Но. Подчеркнем, одна­ко, что это именно тот случай, когда психолог может допустить ошибки первого или второго рода. Как уже говорилось выше, в этих обстоятельствах лучше всего увеличить объем выборки.

Подчеркнем также, что величина Чэмп может точно совпасть либо с Чкр1., либо с . В первом случае можно считать, что оценка достоверна точно на уровне в 5% и принять гипотезу Н1, или, напротив, принять гипотезу Н0. Во втором случае, как пра­вило, принимается альтернативная гипотеза Н1, о наличии разли­чий, а гипотеза Н0 отклоняется.

Для иллюстрации этих положений строим соответствующую «ось значимости» рассмотренного выше примера для оценки уровня значимости эмпирически рассчитанного рангового коэф­фициента корреляции Спирмена.

Как видим, в этом случае , следовательно принима­ется альтернативная гипотеза Н1, о наличии различий, а гипотеза Н0 отклоняется.

Классификация психологических задач, решаемых с помощью статистических методов

Подчеркнем еще раз, что, прежде чем выполнить любой пси­хологический эксперимент, необходимо четко сформулировать его задачи, определить экспериментальную гипотезу и все этапы её статистической проверки, а также выбрать соответствующий статистический метод, наиболее эффективный для решения по­ставленных в исследовании задач.

Подавляющее большинство задач, решаемых психологом в эксперименте, предполагает те или иные сопоставления. Это мо­гут быть сопоставления одних и тех же показателей в разных группах испытуемых или, напротив, разных показателей в одной и той же группе. Для определения степени эффективности ка­ких-либо воздействий (обучение, тренировка, тренинг, инст­руктаж и т.п.) сравниваются показатели «до» и «после» этих воз­действий. Например, сравниваются показатели уровня агрессив­ности у подростков до и после психотренинга, что позволяет оп­ределить его эффективность. Или в лонгитюдном исследовании сопоставляются результаты у одних и тех же испытуемых по од­ним и тем же методикам, но в разном возрасте; это позволяет выявить временную динамику анализируемых показателей. Иног­да возникает задача сравнить индивидуальные показатели, полу­ченные при различных внешних условиях, для выявления связи между показателями и факторов, объединяющих эти связи.

Два выборочных распределения сравниваются между собой или с теоретическим законом распределения, чтобы выявить различия или, напротив, сходство в типах распределений. На­пример, сравнение распределений времени решения простой и сложных задач позволит построить классификацию задач и типо­логию испытуемых.

В общем, психологические задачи, решаемые с помощью ме­тодов математической статистики, условно можно разделить на несколько групп.

1. Задачи, требующие установления сходства или различия.

2. Задачи, требующие группировки и классификации данных.

3. Задачи, ставящие целью анализ источников вариативности по­лучаемых психологических признаков.

4. Задачи, предполагающие возможность прогноза на основе имеющихся данных.

Эта неполная классификация носит предварительный харак­тер. Наиболее полная сводка типов задач и методов их решения дана в Приложении 3.

 

Приложение 3

Задачи Условия Методы
1. Выявление различий в уровне исследуемого признака а) 2 выборки испытуемых Критерий Макнамары; Q критерий Розенбаума; U критерий Манна-Уитни; критерий (угловое преобразование Фишера)
б) 3 и больше выборок испытуемых S критерий Джонкира; H критерий Крускала-Уоллиса
2. Оценка сдвига значений исследуемого признака а) 2 замера на одной и той же выборке испытуемых T критерий Вилкоксона; G критерий знаков; критерий (угловое преобразование Фишера); t-критерий Стьюдента
б) 3 и более замеров на одной и той же выборке испытуемых критерий Фридмана; L критерий тенденций Пейджа; t-критерий Стьюдента
3. Выявление различий в распределении признака а) при сопоставлении эмпирического распределения с теоретическим критерий Пирсона; — критерий Колмогорова — Смирнова; t-критерий Стьюдента
б) при сопоставлении двух эмпирических распределений критерий Пирсона; — критерий Колмогорова — Смирнова; критерий (угловое преобразование Фишера)
4. Выявление степени согласованности изменений а) двух признаков коэффициент корреляции Пирсона; коэффициент корреляции Кендалла; R – бисериальный коэффициент корреляции; корреляционное отношение Пирсона; коэффициент ранговой корреляции Спирмена; коэффициент корреляции Пирсона; Линейная и криволинейная регрессии
б) трех и большего числа признаков коэффициент ранговой корреляции Спирмена; коэффициент корреляции Пирсона; множественная и частная корреляции; линейная, криволинейная и множественная регрессия; факторный и кластерный анализы
5. Анализ изменений признака под влиянием контролируемых условий а) под влиянием одного фактора S критерий Джонкира; L критерий тенденций Пейджа; Однофакторный дисперсионный анализ; Критерий Линка и Уоллеса; Критерий Немени; Множественное сравнение независимых выборок
б) под влиянием двух факторов одновременно двухфакторный дисперсионный анализ