Вали́дность (англ. validity) — мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам. В частности, валидность считается фундаментальным понятием экспериментальной психологии ипсиходиагностики.
Как в экспериментальной психологии, так и в статистике валидное измерение — такое измерение, которое измеряет то, что оно должно измерять. То есть, к примеру, при валидном измерении интеллекта измеряется именно интеллект, а не что-то другое. Безупречный эксперимент (возможный лишь в теории) будет обладать безупречной валидностью: он будет точно показывать, что экспериментальный эффект был вызван изменением независимой переменной, он будет полностью соответствовать реальности, его результаты можно обобщить без ограничений.
Когда говорят о степени валидности, рассматривается то, насколько результаты исследования соответствуют поставленным задачам (однако при этом валидность не измеряется в каких-либо условных единицах).
Содержание [убрать]
|
[править]Способы установления валидности теста
Существуют четыре основных способа установления валидности теста.
Очевидная валидность – валидность, при которой оценивается общее соответствие теста его назначению.
II. Оценка содержательной валидности.
Содержательная валидность предполагает, что тест обнаруживает в себе полный набор заданий для измерения определенной черты.
III. Оценка конструктной валидности.
Этот способ проверки заключается в проведении продуманных экспериментов. Подход первый — «конвергентная валидизация» — это проверка ожидаемой связи тестовых оценок с другими показателями. Например, если для измерения какой-либо черты существует несколько методик, целесообразным было бы провести эксперименты по хотя бы двум, и тогда при обнаружении высокой положительной корреляции их результатов между собой можно говорить о валидности. Основной целью конвергентной валидизации является определение того, будут ли оценки теста варьироваться в соответствии с ожиданиями. Подход второй — «дивергентная валидизация» (англ.). Проверка валидности здесь заключается в том, что тест не должен измерять никакой черты, с которой он теоретически и не должен быть связан.
IV. Оценка прогностической валидности.
Прогностическая валидность заключается в том, что психологический тест часто используется для прогноза поведения. Соответственно, если прогноз оправдывается с течением времени, это говорит о том, что тест был валидным. Но для характеристики многих видов деятельности этого метода не достаточно.
[править]Требования к идеальному тесту
- Минимальное количество заданий. Однако чем больше личностных факторов хочет измерить тестирующий, тем большее количество вопросов целесообразнее задать тестируемому.
- Тест должен соответствовать целевой группе, на которую он направлен. Верно то утверждение, что тест, направленный на одну группу, в результате тестирования которой были получены достоверные результаты, может быть невалидным в отношении другого целевого сегмента.
- Адаптация теста. Применяется в случае проведения теста в иноязычной стране.
3.8. Валидность теста
Тест называется валидным, если он измеряет то, для измерения чего предназначен.
Очевидная валидность — описывает представление о тесте, сложившееся у ис- пытуемого. Тест должен восприниматься обследуемым как серьезный инструмент познания его личности, чем-то схожий с вызывающим уважение и в какой-то ме- ре трепет медицинским диагностическим инструментарием. Очевидная валид- ность приобретает особое значение в современных условиях, когда представление о тестах в общественном сознании формируется многочисленными публикация- ми в популярных газетах и журналах того, что можно назвать квазитестами, с по- мощью которых читателю предлагается определить все, что угодно: от интеллек- та до совместимости с будущим супругом.
Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установ- лена. П. Клайн отмечает, что данные о конкурентной валидности полезны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых пе- ременных, а новые создаются для того, чтобы улучшить качество измерения. В са- мом деле, Существует достаточно много разных способов доказательства валидности теста. О них и пойдет речь далее.
Тест если уже существует эффективный тест, то для чего нужен такой же новый?
Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свой- ство, но в более позднее время. Например, прогностическая валидность какого- либо теста интеллекта может быть показана корреляцией его показателей, полу- ченных у испытуемого в возрасте 10 лет, с академической успеваемостью в пери- од окончания средней школы. Л. Кронбах считает прогностическую валидность наиболее убедительным доказательством того, что тест измеряет именно то, для чего он был предназначен. Основная проблема, с которой сталкивается исследо- ватель, пытающийся установить прогностическую валидность своего теста, состо- ит в выборе внешнего критерия. В особенной степени чаще всего это касается из- мерения личностных переменных, где подбор внешнего критерия — чрезвычайно сложная задача, решение которой требует немалой изобретательности. Несколь- ко проще обстоит дело при определении внешнего критерия для когнитивных тестов, однако и в этом случае исследователю приходится «закрывать глаза» на многие проблемы. Так, академическая успеваемость традиционно используется в качестве внешнего критерия при валидизации тестов интеллекта, но в то же вре-
3.9. Стандартизация теста 167
мя хорошо известно, что успехи в обучении далеко не единственное свидетельство высокого интеллекта.
Инкрементная валидность имеет ограниченное значение и относится к слу- чаю, когда один тест из батареи тестов может иметь низкую корреляцию с крите- рием, но не перекрываться другими тестами из этой батареи. В этом случае дан- ный тест обладает инкрементной валидностью. Это может быть полезно при про- ведении профотбора с помощью психологических тестов.
Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успева- емостью, но по-разному для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено.
Содержательная валидность определяется через подтверждение того, что за- дания теста отражают все аспекты изучаемой области поведения. Обычно она определяется у тестов достижений (смысл измеряемого параметра полностью ясен!), которые, как уже указывалось, тестами собственно психологическими не являются. На практике для определения содержательной валидности подбирают- ся эксперты, которые указывают, какая область (области) поведения наиболее важна, например, для музыкальных способностей, а затем, исходя из этого, гене- рируются задания теста, которые вновь оценивают эксперты.
Конструктная валидность теста демонстрируется полным, насколько это воз- можно, описанием переменной, для измерения которой предназначается тест. По сути дела, конструктная валидность включает в себя все подходы к определению валидности, которые были перечислены выше. Кронбах и Мил (Cronbach & Meehl,
1955), которые ввели в психодиагностику понятие конструктной валидности, пытались решить проблему отбора критериев при валидизации теста. Они подчер- кивали, что во многих случаях ни один отдельно взятый критерий не может слу- жить для валидизации отдельного теста. Можно считать, что решение вопроса о конструктной валидности теста представляет собой поиск ответа на два вопроса:
1) существует ли реально некоторое свойство; 2) надежно ли измеряет данный тест индивидуальные различия по этому свойству. Вполне понятно, что с конструкт- ной валидностью связана проблема объективности в интерпретации результатов по изучению конструктной валидности, однако эта проблема общепсихологиче- ская и выходит за рамки валидности (подробнее см. гл. 2).
Из вышесказанного следует, что не существует какого-либо единичного пока- зателя, с помощью которого устанавливается валидность психологического теста. В отличие от показателей надежности и дискриминативности, нельзя осуществить точные статистические расчеты, подтверждающие валидность методики. Тем не менее разработчик должен представить весомые доказательства в пользу валидно- сти теста, что потребует от него психологических знаний и интуиции.
Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.
Содержание [убрать]
|
[Править]Надёжность как устойчивость
Устойчивость результатов теста или ретестовая надежность (англ — test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.
Устойчивость определяется с помощью повторного тестирования (ретеста):
В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,5. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему).
Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.
В связи с выше сказанным применяется исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. При этом испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.
[Править]Надёжность как внутренняя согласованность
Внутренняя согласованность(англ. — internal consistency) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты, разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.
Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению. Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно «узкую» переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием. Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.
Для проверки внутренней согласованности применяются:
- Метод расщепления или метод автономных частей
- Метод эквивалентных бланков
- Альфа Кронбаха
[Править]Метод расщепления (Split-half reliability)
Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.
[Править]Метод эквивалентных бланков
МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.
[Править]Альфа Кронбаха
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же общего основания. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.
[Править]Вычисление Кронбаха
Кронбаха определяется как
,
где — число элементов в шкале, — дисперсия общего тестового балла, и — дисперсия элемента .
Альтернативный способ вычисления выглядит следующим способом:
где N — число элементов в шкале, — средняя дисперсия для выборки, — среднее значение для всех ковариаций между компонентами выборки.
В настоящее время Кронбаха считают при помощи SPSS, STATISTICA и других современных статистических пакетов, возможно и при помощи Microsoft Excel
[Править]Значение Кронбаха
Альфа Кронбаха в целом будет возрастать по мере увеличения взаимных корреляций переменных, и, поэтому, считается маркёром внутренней согласованности оценки достоверности результатов тестов. Так как максимальное взаимные корреляции между переменными по всем пунктам присутствуют, если измеряется одно и то же, альфа Кронбаха косвенно указывает на степень того, насколько все пункты измеряют одно и то же. Таким образом, альфа наиболее целесообразно использовать, когда все пункты направлены на измерение одного и того же явления, свойства, феномена. Однако, следует заметить, что высокое значение коэффициента указывает на наличие общего основания у набора вопросов, но не говорит о том, что за ними стоит один единственный фактор — одномерность шкалы следует подтверждать дополнительными методами Когда измеряют гетерогенную структуру, альфа Кронбаха часто будет низким. Таким образом, альфа не подходит для оценки надежности умышленно гетерогенной инструментов (например, для оригинала MMPI, в данном случае имеет смысл проводить отдельные измерения для каждой шкалы).
Считается, что профессионально разработанные тесты должны иметь внутреннюю согласованность на уровне не менее 0.90.
Коэффициент альфа может применяться и для решения другого типа задач. Так, с его помощью можно измерять степень согласованности экспертов, оценивающих тот или иной объект, стабильность данных при многократных измерениях и т.д
[Править]Теоретическое основание Кронбаха
Альфа Кронбаха может быть рассмотрено как расширение Кьюдера-Ричардсона-20 , которая является эквивалентом для работы с дихотомиями или переменными, принимающих только два значения (например, ответы истинно/ложно).
Α Кронбаха теоретически связана с формулой прогнозирования Спирмана-Брауна. И обе эти формулы вытекают из классической теорией теста, заключающийся в том, что достоверность результатов тестирования может быть выражена как отношение дисперсий истинной и общей оценок (ошибки и истинной оценки).
[Править]См. Также Дискриминативность
Дискриминативность задач определяется как способность отделять испытуемых с высоким общим баллом по тесту от тех, кто получил низкий балл, или испытуемых с высокой продуктивностью учебной деятельности от испытуемых с низкой продуктивностью.
Другими словами, дискриминативность — способность заданий теста дифференцировать студентов относительно «максимального» или «минимального» результата теста. Определение дискриминативности тестового задания необходимо для того, чтобы поставить заслон некачественным заданиям.
Для вычисления дискриминативности будет применяться метод крайних групп: при расчете дискриминативности тестового задания учитываются результаты наиболее и наименее успешных студентов — это самый простой и наглядный метод вычисления дискриминативности.
Доля членов крайних групп может изменяться в широких пределах в зависимости от величины выборки. Чем больше выборка, тем меньшей долей испытуемых можно ограничиться при выделении групп с высоким и низким результатами. Нижняя граница «отсечения групп» составляет 10% от общего числа испытуемых в выборке, верхняя — 33%. В данном случае будет использоваться 27% группа, так как при таком процентном соотношении достигается максимальная точность определения дискриминативности. Индекс дискриминации вычисляется как разность между долей лиц, правильно решивших задачу, из «высокопродуктивной» и «низкопродуктивной» групп.
Психометрический парадокс — явление, возникающее при использовании опросников личностных; его сущность состоит в том, что вопросы (утверждения), имеющие высокий показатель дискриминативности (см. Дискриминативность заданий теста), являются неустойчивыми по отношению к повторяемости результата, и, наоборот, стабильность ответа часто отмечается у тех вопросов, которые обладают низкой дискриминативностью.
П. Айзенбергом (1941) было показано, что вопросы, которые позволяют отличать больных неврозом от других больных или здоровых, являются ненадежными; иначе говоря, мала вероятность получения того же самого ответа при повторном обследовании. В то же время с помощью вопросов, определяемых как надежные, различение изучаемых групп не достигалось или было неудовлетворительным. Позднее изучению этого явления, получившего название П. п., были посвящены работы Л. Голдберга (1963) и М. Новаковской (1975).
П. п. не может быть объяснен без психологического анализа процесса формирования ответов на вопросы личностных опросников. Согласно М. Новаковской, вопросы, оставаясь формально неизменными, подвержены семантическим (психологическим) преобразованиям как в плане интериндивидуальном, так и интра-индивидуальном. Интериндивидуальная изменчивость обусловлена двумя причинами: различия в выраженности измеряемой черты (свойства) у разных обследуемых и различия в понимании значения вопросов. Интраиндивидуальная изменчивость обусловлена вариабельностью значения, трудностью принятия решения об ответе и флуктуацией выраженности черты (последний источник изменчивости можно не учитывать, если интервал между повторными исследованиями невелик).
Для психологической интерпретации П. п. М. Новаковская предлагает различать три детерминанты ответов: выраженность черты у обследуемого; значение, придаваемое вопросу; степень легкости принятия решения об ответе. Она подчеркивает также необходимость отличать вопросы однозначные от многозначных, которые в известном смысле могут быть Уподоблены проективным стимулам.
М. Новаковская предлагает различать два вида П. п. — типа Л и типа В — и исходить из следующих гипотез их возникновения. Парадокс типа Л возникает при вопросах, поддающихся различному истолкованию (многозначных), а также в том случае, когда трудно принять решение об ответе. Такие вопросы имеют высокий показатель дискриминативности при значительной вариабельности ответа. Парадокс типа В возникает при однозначных вопросах, для которых легко подобрать ответ. Сюда же должны быть отнесены т. н. односторонние диагностические вопросы или те вопросы, для которых только один тип ответа является диагностически значимым. Подобные вопросы характеризуются слабой дискриминативностью и незначительно выраженной вариабельностью.
Необходимо учитывать П. п. при конструировании (адаптации) личностных опросников.