Материалы к лекции по теме:

Н.Н. Баль, 2011 г.

“Психометрические требования к Диагностическим методикам”

Литература

  1. Анастази А., Урбина С. Психологическое тестирование. – СПб.: Питер, 2001. – 688с.
  2. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психологической диагностике. – СПб.: ПитерКом, 1999. – 528 с.
  3. Горбатов Д.С. Практикум по психологическому исследованию: Учеб пособие. — М.: Генезис, 2000. – 248 с.
  4. Ингенкамп К. Педагогическая диагностика. – М.: Педагогика, 1991. – 240 с.
  5. Основы психодиагностики: Учеб. пособие для студентов педвузов / Под общ. Ред. А.Г.Шмелева. — Ростов-н/Д.: «Феникс», 1996. – 544 с.
  6. Психологическая диагностика: Учеб. пособие / Под ред. К.М.Гуревича, Е.М.Борисовой. – М.: УРАО, 2001. – 304 с.
  7. Психолого-педагогическая диагностика: Учеб.-метод. пособие / Сост. Н.Н.Баль, И.Н. Логинова. – Минск: БГПУ, 2006. – 29 с.
  1. Понятие о психометрии.

Психометрия / психометрика (греч. душа+мера) – область психологии, связанная с теорией практикой измерения психических явлений [1].

Психометрия – технологическая научная дисциплина, содержащая научное обоснование и описание определенных методов измерения психических свойств, в частности методов конструирования психологических тестов [5].

Создание любого психологического инструмента измерения (предметом психологического измерения может быть интеллект, личностные, психофизиологические свойства и др.) требует соблюдение определенных требований – точности, достоверности, адекватности методики измерения, сопоставимости получаемых с ее помощью результатов. Соответствие этим требованиям устанавливается путем применения специальных процедур: стандартизации, надежности и валидности.

  1. Стандартизация процедуры и оценки теста.

Стандартизация

(англ. standard – типовой, нормальный) – унификация, единообразие

Стандартизация – совокупность процедур, обеспечивающих создание строго фиксированных компонентов теста.

Во-первых, это унификация инструкции, набора заданий, метод разработки протокола, способа интепретации.

Во-вторых – это сбор тестовых норми построение стандартной шкалы тестовых баллов. Для чего это нужно? Допустим, что при выполнении теста интеллекта испытуемый успешно решил определенное количество заданий (160 из 200 возможных).

Зная только это, мы еще не можем ничего сказать о том, каков уровень его интеллекта. Много им сделано или мало? Хорошо прошло для него испытание или плохо? Часто ли такой показатель встречается у других? А сколько заданий следовало бы выполнить, чтобы засвидетельствовать высокий уровень интеллекта? На все эти вопросы невозможно дать ответ, не имея единой для всех системы ответа, некоего эталона. В качестве последнего обычно выступают итоги тестирования репрезентативной выборки.

Процедура разработки теста обязательно предусматривает установление норм его выполнения путемпредварительного тестированиярепрезентативнойвыборки(выборки стандартизации) лиц, для которых он предназначен (генеральная совокупность).

Генеральная совокупность – множество людей, на которых распространяются результаты исследования. Это множество, все элементы которого обладают какими-то общими признаками. Выборка стандартизации – группа испытуемых, на которых проводится стандартизация теста, часть генеральной совокупности, отражающая ее специфику как по составу, так и по индивидуальным характеристикам включенных в генеральную совокупность людей. Репрезентативность – свойство выборочной совокупности представлять характеристики генеральной совокупности.

При тестировании выборки выявляется диапазон тестовых баллов, характерный для низкого уровня развития данного психического свойства или функции, среднего уровня и высокого. Задания теста подбираются таким образом, чтобы итоги их выполнения выборкой приближались к кривой нормального распределения Гаусса.

Кривая нормального распределения – это математический закон, которому подчиняется большое количество явлений в природе. Задания теста подбираются таким образом, чтобы итоги их выполнения выборкой приближались к кривой нормального распределения Гаусса. В тесте есть задания, с которыми справляется 68% выборки (норма), а также те, с которыми справляются 14% (выше среднего) и только 2% (выше среднего).

Рестандартизация – исследование, направленное на пересмотр тестовых норм, а в некоторых случаях и других компонентов теста (набора заданий, ключей).

Надежность и ее проверка

    Надежность – точность, постоянство

    Надежность – характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов.

    Надежность – это помехоустойчивость теста, независимость его результатов от действия случайных факторов. Можно ли в дальнейшем применять тест, если на этапе проверки его качества испытуемые каждый раз получают оценки, значительно расходящиеся с предыдущими своими оценками? Ведь если исследуемый признак по природе свое стабилен, то результаты повторных тестирований одних и тех же лиц должны быть сходными, почти не отличающимися от полученных ранее. Надежность является характеристикой точности измерения. Она позволяет сулить о том, в какой мере можно доверять данным тестирования.

    Причинами недостаточной надежности тестов являются:

    • Разнообразие ситуационных условий испытания, меняющихся от одного случая к другому (различия в манере тестирующего лица, наличие посторонних помех, непредусмотренное присутствие других людей, вариативность освещенности помещения и температуры воздуха и др.),
    • Несовершенство разработанного теста (нечеткость инструкций, принципиальная разнородность заданий, допущение элементов субъективизма при интерпретации выполнений и т.д.),
    • Изменения внутренних состояний испытуемых (усталость, раздражение, апатия, нервозность и т.д.), а также их отношение к тестированию.

    Максимальное устранение названных причин способствует достижению приемлемой надежности теста.

    Типы

    Способы проверки

    Ретестовая надежность – характеристика надежности психодиагностической методики, получаемой путем повторного обследования испытуемых с помощью одного и того же теста. Позволяет установить степень независимости результатов тестирования от воздействия проводящих его людей, а также от возможности изменения ситуаций обследования.

    Повторное обследование одной и той же выборки – метод ретестирования. Коэффициент надежности должен быть не ниже 0,80 – иначе – точность измерения недостаточна, нужна дополнительная стандартизация.

    Надежность частей теста (по внутренней согласованности)

    Надежность частей теста – характеристика надежности психодиагностической методики, получаемая путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста. Характеризует степень однородности (гомогенности) всех его заданий – все задания согласованы, непротиворечивы и неразнонаправлены.

    Деление заданий методики (теста) на равные части (четные-нечетные) и обследование одной и той же выборки – метод «расщепления».

    Коэффициент надежности должен быть не ниже 0,75 – иначе – точность измерения недостаточна, нужно выяснить, какие задания следует изъять из теста или переделать.

    Надежность параллельных форм – характеристика надежности психодиагностической методики с помощью взимозаменяющих форм теста (наборов заданий, сходных, но не идентичных по своему содержанию).

    Например, как варианты заданий школьной контрольной работы. Задания из первой формы теста должны быть аналогичны заданиям из параллельной, второй формы (4+3 и 3+2, а не 3+2-4) – иначе «средний» ученик справился плохо с контрольной, а через день на отлично справился с аналогичной.

    Деление выборки на две равные части и обследование одной из них с помощью первой формы методики (теста), а другой – с помощью второй.

    Коэффициент надежности должен быть не ниже 0,80.

    Надежность–константность (независимость результатов от личности диагноста)

    Обследование одной и той же выборки в относительно одинаковых условиях разными диагностами

    Валидность. Виды

      Валидность

      (англ. valid – действенность, пригодность) – действенность, обоснованность

      Основные виды валидности:

      конструктная:

      • конвергентная
      • дискриминантная

      критериальная

      • диагностическая (текущая)
      • прогностическая

      содержательная

      Валидность – соответствие результатов, получаемых при помощи данной методики тому, для чего она была по замыслу предназначена.

      А. Анастази: «Валидность теста – это понятие, указывающее нам на то, что тест измеряет и насколько хорошо он это делает». Узнать, что на самом деле диагностирует данный тест, можно только на основании результатов специальной проверки – валидизации.

      Если в процессе валидизации получены данные о том, что ученики, лучше справляющиеся с тестом, действительно лучше успевают в школе, и, наоборот, то тогда можно считать, что данный тест замеряет те факторы, от которых зависит успеваемость в школе. Но это еще не означает, что он определяет, например, уровень развития интеллекта. Возможно, и успеваемость в школе, и успешность выполнения заданий теста обусловлены уровнем концентрации внимания.

      О соотношении надежности и валидности. При прочих равных условиях, чем надежнее тест, тем он валиднее. Но надежность теста сама по себе не обеспечивает его валидность. Если высокая валидность теста свидетельствует, что он точно что-то измеряет, то высокая валидность указывает, что тест измеряет именно то, для чего он был разработан. Поэтому коэффициенты валидности не могут превышать значений коэффициентов надежности.

      Выделяются разные виды валидности. Процедуры получения их показателей достаточно сложны. Для пользователя теста важно понимать психологический смысл каждого типа, особенно таких традиционных, как валидность по конструкту, по критерию, по содержанию.

      Конструктная валидность – тип валидности, отражающий степень репрезентации психологического конструкта (т.е. теоретической идеи, разработанной для объяснения и организации некоторых аспектов существующего знания) в результатах теста.

      А. Анастази: «Конструктная валидность теста показывает, насколько его результаты могут рассматриваться в качестве меры некоего теоретического конструкта». Этот вид показывает, что тест измеряет именно тот показатель, для которого он предназначен, и делает это достаточно полно. Примеры теоретических психологических конструктов – интеллект, память, эмоциональная стабильность и др. Когда предмет измерения существует в неявном комплексном виде, требуется специальный анализ и проведение валидизации по конструкту.

      После этого формулируется ряд гипотез о том, каким образом данные разрабатываемого теста будут коррелировать с широким кругом других тестов, направленных как на близкие конструкты, так и на отдаленные. Гипотезы подтверждаются методами корреляционного и факторного анализа. Подтверждение или отсутствие корреляции становится характеристикой конструктной валидности.

      Конвергентная валидность – тип конструктной валидности, отражающий степень связи с родственной методикой, имеющей одинаковое теоретическое обоснование с валидизируемой методикой.

      Дискриминантная валидность – тип конструктной валидности, отражающий отсутствие связи валидизируемой методики с методикой, имеющей другое теоретическое обоснование.

      Критериальная валидность – комплекс характеристик, включающий валидность текущую и прогностическую и отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемого явления.

      А. Анастази: «Валидность по критерию показывает, насколько по результатам теста можно судить об интересующем нас аспекте поведения индивида в настоящем и будущем. Чтобы определить ее, выполнение теста соотносится с критерием, т.е. непосредственной и независимой мерой того, что должен предсказывать тест». Критерий – показатель той деятельности, ради диагностики и прогнозирования создается тест (учебные достижения, производительность труда, уровень физического здоровья и т.д.) Критериальная валидность показывает, как результаты теста соотносятся с теми оценками измеряемого качества или свойства, которые получены другими (не тестовыми) способами, а именно: с мнениями специалистов, данными наблюдений, анализом продуктов деятельности.

      Например, если нас интересует, насколько клинический тест позволяет предсказывать диагноз, мы должны сравнить результаты теста с медицинским заключением, полученным на основании независимых исследований медицинскими средствами, т.е. данными историей болезни.

      Таким образом, в качестве критерия валидизации выступают независимые от теста внешние показатели (поведенческие реакции, достижения в деятельности).

      Критериальная валидность может быть 2 типов:

      Текущая (диагностическая, конкурентная) валидность – характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике.

      Результаты теста сопоставляются с данными из других источников, собираемыми одновременно с тестированием (успеваемость, состояние здоровья, уровень притязаний, уровень способностей в период тестирования).

      Валидизация по критерию эффективно осуществляется методом «известных (контрастных)» групп. Например, валидизация теста интеллекта младших школьников – сравнение результатов тестирования у 2 групп детей – нормально развивающихся и с интеллектуальными нарушениями (критерий – уровень умственного развития заранее определен не тестовым способом – экспертной оценкой специалистов).

      Прогностическая (предсказывающая) валидность – соответствие прогноза, сделанного на основании данного теста, с реальным состоянием измеряемого качества спустя некоторое время. Результаты теста сопоставляются с более поздним поведением испытуемого в данной сфере (не одновременно с тестированием, а через некоторый временной интервал).

      Например, итоги тестирования учебных достижений в выпускном классе могут быть – подтверждены, а могут быть и опровергнуты фактами о поступлении членов выборки в вузы.

      Совокупность характеристик валидности теста, полученных сравнительным статистическим способом оценивания, называется эмпирической валидностью. В нее объединяются диагностическая и прогностическая валидности.

      Содержательная валидность – тип валидности, характеризующий степень репрезентативности содержания заданий теста измеряемой области психических свойств.

      Суть валидности по содержанию заключается в том, что в тесте должны быть представлены в полном объеме и в правильной пропорции ключевые показатели, для диагностики которых он предназначен. Такая валидность имеет особое значение в тестах достижений.

      Предположим, что разрабатывается тест для диагностики успешности изучения программы по истории за курс средней школы. Для обеспечения валидности по содержанию необходимо включить в него вопросы по всем периодам, начиная с первобытности и до современности, а не только, предположим, по истории средних веков. Кроме того, должны быть представлены вопросы по различным аспектам жизни людей, а не только по военным сражениям и культуре.

      Работа по созданию теста начинается с анализа диагностируемой области и составления так называемой матрицы-спецификации, в которой записывается, какого типа и сколько вопросов должно быть в тесте, что и позволяет обеспечить его валидность по содержанию [5, 7].

      Матрицу-спецификацию может создать только эксперт в соответствующей области. В данном случае – это квалифицированный преподаватель истории. Т.о. валидность по содержанию не измеряется, а закладывается уже в процессе разработки теста, поэтому содержательная валидность не имеет количественного выражения и не может быть представлена как коэффициент корреляции, в руководстве, как правило, приводится матрица-спецификация.

      В заключение нужно отметить, что выделяемые типы валидности не являются строго разграниченными. Но их упорядочивание удобно для пользователей.

      7