Тема «Психометрические требования к методам психолого-педагогической диагностики»

Вопросы к практическому занятию 11.11.2014

Тема «Психометрические требования к методам психолого-педагогической диагностики»

  1. Понятие достоверности или защищенности методики от фальсификации со стороны испытуемого.
  2. Понятие социальной желательности ответа.
  3. Способы зашиты теста от искажения.
  4. Достоверность как информационная безопасность тестовой технологии (защита от утечки «ключей» к тесту).
  5. Мотивационные искажения.
  6. Методы обеспечения достоверности и информационной безопасности.
  7. Нормы как критические точки (диапазоны) на шкале тестовых баллов.
  8. Понятие сырых и стандартизированных тестовых баллов.
  9. Стандартизация и нормирование. Виды диагностических норм: абсолютные, статистические, критериальные.
  10. Процентильные нормы на порядковых тестовых шкалах.
  11. Параметрические нормы на интервальных тестовых шкалах.
  12. Понятие репрезентативности. Способы повышения репрезентативности тестов.
  13. Проверка нормальности и проверка устойчивости норм.

8. Что, несомненно, должен знать и уметь делать каждый грамотный пользователь теста — это понимать, что такое тестовые нормы и как ими пользоваться.

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют в тестологии «сырым тестовым баллом». Применение тестовых норм в профессионально организованной психодиагностике основывается на переводе тестовых баллов из «сырой» шкалы в «стандартную». Эта процедура называется «стандартизация тестового балла».

Пусть мы провели тест из 20 заданий и испытуемый дал 12 правильных ответов. Можно ли при этом сказать, что способность у испытуемого выражена лучше или хуже, чем в среднем? Нет. Для такого вывода нужно сравнить балл 12 со средним баллом по представительной выборке испытуемых.

Выборка, на которой определяются статистические тестовые нормы, называется ВЫБОРКОЙ СТАНДАРТИЗАЦИИ. Ее численность, как правило, не меньше 200 человек. Столько должны принять участие в психометрическом эксперименте по определению тестовых норм — в эксперименте по стандартизации теста.

Если после стандартизации теста выясняется, к примеру, что среднее арифметическое по сырой шкале теста равно 14, то

5 стр., 2115 слов

Тестовые задания Тест № 1

№ Вопрос Ответ 1. Как называется чувство, когда человек ощущает нехватку чего-либо? 1) - потребность 2) - нужда 3) - спрос 4) - запрос 2. Какой из элементов международного исследования является орудием исследования? 1) - наблюдение 2) - эксперимент 3) - анкета 4) - опрос 3. Какой из представленных элементов относится к внутренней среде предприятия? 1) - потребители 2) - научно – техническая среда ...

оказывается балл 12 — это не лучше, а хуже среднего (хотя испытуемый и справился больше, чем с половиной заданий).

Просто в данном случае тест содержит слишком простые задания, несколько отклоняется по этому параметру от оптимальной трудности.

Для серьезных профессиональных тестов вместо описанной здесь простейшей линейной стандартизации используется более сложная процедура нелинейной нормализации (форсированный переход к нормальному распределению).

В результате этой, более точной, процедуры разработчики снабжают пользователей теста так называемой «КОНВЕРСИОННОЙ ТАБЛИЦЕЙ» для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и интервалами стандартной.

Ниже приведен пример того, как может выглядеть конверсионная таблица для некоторого теста арифметических вычислений из 30 заданий. Простейшая процедура подсчета баллов (за правильный ответ — 1 очко, за ошибку — 0) дает нам сырую шкалу от 0 до 30:

 

Таблица 1

Пример фрагмента конверсионной таблицы для

перевода сырых баллов в стены

 

Сырой

балл

 

0-6

 

7-8

 

8-9

 

10-13

 

14-16

 

17-19

 

20-22

 

23-24

 

25

 

26-30

Стены

  1

  2

  3

    4

   5

   6

   7

   8

 9

  10

 

Как пользоваться таблицей? Если испытуемый показал 5 сырых очков (решил только 5 заданий), то ему ставится минимальный стандартный балл 1. Если испытуемый решил 25 заданий, то — балл 9.

После того, как балл по тесту стандартизирован, можно выносить диагностическое заключение. Общее правило здесь таково: если стандартный балл У превышает единицу «верхней» (или «высокой») группы M+Ss, то данному испытуемому приписывается повышенное значение измеренного психического свойства. Например, про ученика говорят, что он является определенно более дисциплинированным, чем средний ученик в российской школе (или московской, или иркутской — в зависимости от того, на какой выборке стандартизации получены нормы).

Если же стандартный балл У ниже границы «нижней» («низкой») группы M-Ss, то о данном испытуемом формулируется заключение, соответствующее низкому полюсу измеряемого свойства. Если стандартный тестовый балл Y заключен в пределах центрального интервала (M-Ss, M+Ss), то про испытуемого говорят, что у него измеренное свойство выражено в средней степени — как у большинства людей.

На шкале стенов граница «верхней» группы равна 7.5, а «нижней» — 3.5, то есть при получении 8 стенов и больше испытуемый зачисляется в «верхнюю» группу; а при получении 3 стенов и меньше — в «нижнюю».

Если мы имеем дело с биполярным (двухполюсным) психическим свойством, например, «гибкость — ригидность», то для «высокой» группы формулируется заключение как для «гибких» людей, а для «низкой» группы —как для ригидных людей. Соответственно средняя группа из центрального интервала признается нейтральной, неполяризованной по данному тестовому параметру.

Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется РЕПРЕЗЕНТАТИВНОСТЬЮ тестовых норм. [Примечание. Под популяцией обычно понимают категорию испытуемых определенной социальной, профессиональной или половозрастной принадлежности]. Репрезентативность — третье важнейшее психометрическое свойство теста. Понимание смысла этого требования к тесту помогает правильно учитывать ограничения в сфере применения теста.

Например, если тест проходил стандартизацию на студентах, то перед его применением на школьниках следует вначале произвести РЕСТАНДАРТИЗАЦИЮ, то есть снова собрать тестовые нормы на представительной выборке, сформированной именно из школьников. В противном случае диагностические выводы будут производиться по неадекватным тестовым нормам и будут неточны и неверны.

Проверка репрезентативности тестовых норм осуществляется с помощью анализа так называемого распределения частот тестовых баллов. Одним из простейших методов является проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если два этих распределения оказываются практически тождественными, то можно говорить о репрезентативности тестовых норм (более подробно об этом см. уже указанные специализированные издания по психометрике).

Введение понятия репрезентативности позволяет нам дать более строгое определение того, что такое стандартизация теста. О СТАНДАРТИЗАЦИИ ТЕСТА в строгом смысле можно говорить, когда задана полная таблица соответствия сырой шкалы и стандартной шкалы и содержание этой таблицы обосновано статистической структурой распределения тестовых баллов на выборке стандартизации.

Кроме статистических тестовых норм в современных тестах часто используются КРИТЕРИАЛЬНЫЕ НОРМЫ. Они особенно важны для сферы образования. Действительно, что дает нам знание о том, что Петров выполнил тест лучше среднего испытуемого, если средний испытуемый тоже не справился с большинством заданий и мы прогнозируем, что подавляющее большинство испытуемых без специального дополнительного обучения не смогут показать требуемого уровня эффективности в будущей деятельности.

При построении так называемого «теста по критерию» шкала сырых тестовых баллов калибруется особыми реперными точками, которые соответствуют уровням рассчитанной вероятности достижения какого-то критерия (заданной эффективности деятельности).

Например, если оператор АЭС был точен в 45 из 48 процентов заданий, то это может еще и не соответствовать требуемому уровню критериальной «надежности оператора» (в данном случае «надежность» — измеряемое свойство), а вот если он был точен в 47 из 48 заданий, то это может считаться достаточным уровнем «надежности». Таким образом, при построении диагностических заключений по критериальным тестам мы интересуемся не степенью отклонения балла от центра шкалы, а достижением или недостижением какого-то критического уровня на шкале.

10. Что такое перцентили (процентили)? По-английски это слово означает «процент». Средняя линия — 50-я перцентиль — это средний показатель роста для данного возраста. Нижняя линия графика — 3-я перцентиль (процентиль).

Такой рост имеют 3% детей данного возраста. Верхняя линия графика — 97-я перцентиль. Такой рост также имеют 3% детей данного возраста, только 3-я перцентиль — это 3% детей с наименьшими показателями, а 97-я — это 3% детей с наибольшими показателями для данного возраста. Если рост ребенка ниже 3-ей перцентили или больше 97-й, то следует обязательно обратиться к врачу.

11. Шкала интервалов

Шкала интервалов является первой метрической шкалой. Собствен­но, начиная с нее, имеет смысл говорить об измерениях в узком смысле этого сло­ва — о введении меры на множестве объектов. Шкала интервалов определяет вели­чину различий между объектами в проявлении свойства. С помощью шкалы интер­валов можно сравнивать два объекта. При этом выясняют, насколько более или менее выражено определенное свойство у одного объекта, чем у другого.

Шкала интервалов очень часто используется исследователями. Классическим примером применения этой шкалы в физике является измерение температуры по Цельсию. Шкала интервалов имеет масштабную единицу, но положение нуля на ней произвольно, поэтому нет смысла говорить о том, во сколько раз больше или меньше утренняя температура воздуха, измеренная шкалой Цельсия, чем дневная.

Значения интервальной шкалы инвариантны относительно группы аффинных преобразований прямой. То есть мы имеем право изменять масштаб шкалы, умно­жая каждое из ее значений на константу, и производить ее сдвиг относительно про­извольно выбранной точки на любое расстояние вправо или влево (прибавлять или отнимать константу).

Интервальная шкала позволяет применять практически всю параметрическую статистику для анализа данных, полученных с ее помощью. Помимо медианы и моды для характеристики центральной тенденции используется среднее арифметическое, а для оценки разброса — дисперсия. Можно вычислять коэффициенты асимметрии и эксцесса и другие параметры распределения. Для оценки величины статистиче­ской связи между переменными применяется коэффициент линейной корреляции Пирсона и т.д.

Большинство специалистов по теории психологических измерений полагает, что тесты измеряют психические свойства с помощью шкалы интервалов. Прежде всего это касается тестов интеллекта и достижений. Численные значения одного теста можно переводить в численные значения другого теста с помощью линейного пре­образования: х’ = ах + b.

Ряд авторов полагает, что относить тесты интеллекта к шкалам интервалов нет оснований. Во-первых, каждый тест имеет «нуль» — любой индивид может полу­чить минимальный балл, если не решит ни одной задачи в отведенное время. Во-вторых, тест имеет максимум шкалы — балл, который испытуемый может получить, решив все задачи за минимальное время. В-третьих, разница между отдельными зна­чениями шкалы неодинакова. По крайней мере, нет никаких теоретических и эмпи­рических оснований утверждать, что 100 и 120 баллов по шкале IQ отличаются на столько же, на сколько 80 и 100 баллов.

Скорее всего, шкала любого теста интеллекта является комбинированной шка­лой, с естественным минимумом и/или максимумом, но порядковой. Однако эти соображения не мешают тестологам рассматривать шкалу IQ как интервальную, преобразуя «сырые» значения в шкальные с помощью известной процедуры «норма­лизации» шкалы.

12. При проведении выборочного наблюдения нельзя даже теоретически получить абсолютно точные данные, как при сплошном обследовании. Обусловлено это тем, что наблюдению подвергается не вся совокупность, а только ее часть, поэтому при проведении выборочного наблюдения неизбежна некоторая свойственная ему погрешность (ошибки).

Принято различать среднюю и предельную ошибки выборки.

Ошибка репрезентативности — расхождение между выборочной характе­ристикой и характеристикой генеральной совокупности.

Ошибки репрезентативности

Систематические (возникают в результате нарушения научных принципов отбора единиц совокупности)  

Случайные (возникают в результате несплошного характера наблюде­ния)  

Преднаме­ренные  

Непреднаме­ренные  

Средняя (стандарт­ная) ошибка выборки

Предельная ошибка выборки

Теоретическим обоснованием появления случайных ошибок выборки является теория вероятностей и ее предельные теоремы.

Сущность предельных теорем состоит в том, что в массовых явлениях совокупное влияние случайных причин на формирование закономерностей и обобщающих характеристик будет сколь угодно малой величиной или практически не зависит от случая.

Гак как случайная ошибка выборки возникает в результате случайных различий между границами выборочной и генеральной совокупностей, при достаточно большом объеме выборки пи ошибка будет сколь угодно мала. Этот вывод, опирающийся на доказательстве предельных теорем, позволяет предполагать, что характеристики выборочного наблюдения могут достаточно хорошо представлять характеристики генеральной совокуп­ности.

Случайные ошибки могут быть доведены до незначительных размеров, а главное, их размеры и пределы можно определить с достаточной точностью на основании закона больших чисел.

Средняя ошибка выборки — такое расхождение между средними вы­борочной и генеральной совокупностями, которое не превышает ±s.

Средняя ошибка выборки зависит от:  

объема выборки — чем больше численность при прочих равных условиях, тем меньше величина средней ошибки выборки  

степени варьирования признака — чем меньше вариация признака, а следовательно, и дис­персия, тем меньше ошибка выборки, и наоборот  

 

В математической статистике доказывается, что значения средней ошибки выборки определяются по формулам:

Формула для определения величины средней ошибки выборки для количественного признака:

 

Формула для определения величины средней ошибки выборки для альтернативного признака:

 

Полученное значение средней ошибки необходимо для установления возможного значения . Которое определяется по формуле:

 

Но такое суждение можно гарантировать не с абсолютной достоверностью, а лишь с определенной степенью вероятности.

В математической статистике доказывается, что пределы значений характеристик генеральной совокупности отличаются от характеристик выборочной совокупности лишь с вероятностью, которая определена числом 0,683.

Это означает, что в 683 случаях из 1000 генеральная средняя будет находиться в установленных пределах, т.е. отклонение ГС от ВС не превысит однократной средней ошибки выборки. В остальных 317 случаях они могут выйти за эти пределы. Вероятность можно повысить, если расширить пределы отклонений. Так, при удвоенном значении , вероятность достигает 0,954 ( ).

Если утроить значение то вероятность увеличится до 0,997 ( ).

Возможное значение генеральной средней

Вероятность

 

0,683

 

0,954

 

0,997

Если обозначить значение увеличения за t, то можно записать в общем виде:

 

Множитель t называется коэффициентом доверия. Известный русский математик А.М.Ляпунов дал выражение конкретных значений множителя t для различных степеней вероятности в виде функции:

 

На практике пользуются готовыми таблицами этой функции.

t

0,1

0,5

1,5

2,5

2,6

j(t)

0,1

0,0797

0,3829

0,6827

0,8664

0,9545

0,9876

0,9907

0,9973

0,99994

Из вышесказанного следует, что лишь с определенной степенью вероятности можно утверждать, что показатели генеральной совокупности и их отклонения не превысят величину . Полученную величину называется предельной ошибкой выборки.

Предельная ошибка выборки  максимально возможное расхождение вы­борочной и генеральной средних, т.е. максимум ошибки при заданной ве­роятности ее появления.

Предельная ошибка выборки для количественного признака:

 

Предельная ошибка выборки для альтернативного признака:

В связи с тем, что существуют различные методы, виды и способы отбора единиц из генеральной совокупности формулы для расчета средней ошибки выборки также будут различаться:

Способ отбора

Оцениваемый параметр

Повторный отбор

Бесповторный отбор

Собственно случайный и механи­ческий

Средняя

 

 

Доля

 

 

Типический

Средняя

 

 

Доля

 

 

Серийный

Средняя

 

 

Доля

 

 

— средняя из групповых дисперсий;

wi -доля единиц совокупности, обладающих изучаемым признаком в i-й типической группе;

— средняя из групповых дисперсий для доли. В табл. 6.6 представлены формулы для исчисления средней ошибки выборки при типическом отборе;

S – общее число серий;

s – число отобранных серий;

— межгрупповая дисперсия средних, определяемая по формуле:

 

— межгрупповая дисперсия доли, определяемая по формуле:

 

— средняя i-й серии;

— средняя по всей выборочной совокупности;

w — доля признака i-й серии;

— общая доля признака во всей выборочной совокупности.