Тема «Психометрические требования к методам психолого-педагогической диагностики», Тест

метки: Шкала, Средний, Ошибка, Норма, Значение, Выборка, Испытуемый, Выборочный

Вопросы к практическому занятию 11.11.2014

Тема «Психометрические требования к методам психолого-педагогической диагностики»

Понятие достоверности или защищенности методики от фальсификации со стороны испытуемого.
Понятие социальной желательности ответа.
Способы зашиты теста от искажения.
Достоверность как информационная безопасность тестовой технологии (защита от утечки «ключей» к тесту).
Мотивационные искажения.
Методы обеспечения достоверности и информационной безопасности.
Нормы как критические точки (диапазоны) на шкале тестовых баллов.
Понятие сырых и стандартизированных тестовых баллов.
Стандартизация и нормирование. Виды диагностических норм: абсолютные, статистические, критериальные.
Процентильные нормы на порядковых тестовых шкалах.
Параметрические нормы на интервальных тестовых шкалах.
Понятие репрезентативности. Способы повышения репрезентативности тестов.
Проверка нормальности и проверка устойчивости норм.

8. Что, несомненно, должен знать и уметь делать каждый грамотный пользователь теста — это понимать, что такое тестовые нормы и как ими пользоваться.

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют в тестологии «сырым тестовым баллом». Применение тестовых норм в профессионально организованной психодиагностике основывается на переводе тестовых баллов из «сырой» шкалы в «стандартную». Эта процедура называется «стандартизация тестового балла».

Пусть мы провели тест из 20 заданий и испытуемый дал 12 правильных ответов. Можно ли при этом сказать, что способность у испытуемого выражена лучше или хуже, чем в среднем? Нет. Для такого вывода нужно сравнить балл 12 со средним баллом по представительной выборке испытуемых.

Выборка, на которой определяются статистические тестовые нормы, называется ВЫБОРКОЙ СТАНДАРТИЗАЦИИ. Ее численность, как правило, не меньше 200 человек. Столько должны принять участие в психометрическом эксперименте по определению тестовых норм — в эксперименте по стандартизации теста.

Если после стандартизации теста выясняется, к примеру, что среднее арифметическое по сырой шкале теста равно 14, то

5 стр., 2115 слов

Тестовые задания Тест № 1

... интерес 2) - активность 3) - внимание 4) - желание 7. Что из перечисленного предполагает понятие «фирменного стиля»? 1) - личная продажа 2) - стимулирование сбыта 3) - паблик рилейшнз ... интенсификация коммерческих усилий 3) - социально-этичный маркетинг 4) - концепция совершенствования товара Тесты №5 № Вопросы Ответы 1. Какая функция международного маркетинга предполагает разработку рекомендаций по ...

оказывается балл 12 — это не лучше, а хуже среднего (хотя испытуемый и справился больше, чем с половиной заданий).

Просто в данном случае тест содержит слишком простые задания, несколько отклоняется по этому параметру от оптимальной трудности.

Для серьезных профессиональных тестов вместо описанной здесь простейшей линейной стандартизации используется более сложная процедура нелинейной нормализации (форсированный переход к нормальному распределению).

В результате этой, более точной, процедуры разработчики снабжают пользователей теста так называемой «КОНВЕРСИОННОЙ ТАБЛИЦЕЙ» для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и интервалами стандартной.

Ниже приведен пример того, как может выглядеть конверсионная таблица для некоторого теста арифметических вычислений из 30 заданий. Простейшая процедура подсчета баллов (за правильный ответ — 1 очко, за ошибку — 0) дает нам сырую шкалу от 0 до 30:

Таблица 1

Пример фрагмента конверсионной таблицы для

перевода сырых баллов в стены

Сырой

балл

0-6

7-8

8-9

10-13

14-16

17-19

20-22

23-24

26-30

Стены

Как пользоваться таблицей? Если испытуемый показал 5 сырых очков (решил только 5 заданий), то ему ставится минимальный стандартный балл 1. Если испытуемый решил 25 заданий, то — балл 9.

После того, как балл по тесту стандартизирован, можно выносить диагностическое заключение. Общее правило здесь таково: если стандартный балл У превышает единицу «верхней» (или «высокой») группы M+Ss, то данному испытуемому приписывается повышенное значение измеренного психического свойства. Например, про ученика говорят, что он является определенно более дисциплинированным, чем средний ученик в российской школе (или московской, или иркутской — в зависимости от того, на какой выборке стандартизации получены нормы).

Если же стандартный балл У ниже границы «нижней» («низкой») группы M-Ss, то о данном испытуемом формулируется заключение, соответствующее низкому полюсу измеряемого свойства. Если стандартный тестовый балл Y заключен в пределах центрального интервала (M-Ss, M+Ss), то про испытуемого говорят, что у него измеренное свойство выражено в средней степени — как у большинства людей.

На шкале стенов граница «верхней» группы равна 7.5, а «нижней» — 3.5, то есть при получении 8 стенов и больше испытуемый зачисляется в «верхнюю» группу; а при получении 3 стенов и меньше — в «нижнюю».

Если мы имеем дело с биполярным (двухполюсным) психическим свойством, например, «гибкость — ригидность», то для «высокой» группы формулируется заключение как для «гибких» людей, а для «низкой» группы —как для ригидных людей. Соответственно средняя группа из центрального интервала признается нейтральной, неполяризованной по данному тестовому параметру.

Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется РЕПРЕЗЕНТАТИВНОСТЬЮ тестовых норм. [Примечание. Под популяцией обычно понимают категорию испытуемых определенной социальной, профессиональной или половозрастной принадлежности]. Репрезентативность — третье важнейшее психометрическое свойство теста. Понимание смысла этого требования к тесту помогает правильно учитывать ограничения в сфере применения теста.

Например, если тест проходил стандартизацию на студентах, то перед его применением на школьниках следует вначале произвести РЕСТАНДАРТИЗАЦИЮ, то есть снова собрать тестовые нормы на представительной выборке, сформированной именно из школьников. В противном случае диагностические выводы будут производиться по неадекватным тестовым нормам и будут неточны и неверны.

Проверка репрезентативности тестовых норм осуществляется с помощью анализа так называемого распределения частот тестовых баллов. Одним из простейших методов является проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если два этих распределения оказываются практически тождественными, то можно говорить о репрезентативности тестовых норм (более подробно об этом см. уже указанные специализированные издания по психометрике).

Введение понятия репрезентативности позволяет нам дать более строгое определение того, что такое стандартизация теста. О СТАНДАРТИЗАЦИИ ТЕСТА в строгом смысле можно говорить, когда задана полная таблица соответствия сырой шкалы и стандартной шкалы и содержание этой таблицы обосновано статистической структурой распределения тестовых баллов на выборке стандартизации.

Кроме статистических тестовых норм в современных тестах часто используются КРИТЕРИАЛЬНЫЕ НОРМЫ. Они особенно важны для сферы образования. Действительно, что дает нам знание о том, что Петров выполнил тест лучше среднего испытуемого, если средний испытуемый тоже не справился с большинством заданий и мы прогнозируем, что подавляющее большинство испытуемых без специального дополнительного обучения не смогут показать требуемого уровня эффективности в будущей деятельности.

При построении так называемого «теста по критерию» шкала сырых тестовых баллов калибруется особыми реперными точками, которые соответствуют уровням рассчитанной вероятности достижения какого-то критерия (заданной эффективности деятельности).

Например, если оператор АЭС был точен в 45 из 48 процентов заданий, то это может еще и не соответствовать требуемому уровню критериальной «надежности оператора» (в данном случае «надежность» — измеряемое свойство), а вот если он был точен в 47 из 48 заданий, то это может считаться достаточным уровнем «надежности». Таким образом, при построении диагностических заключений по критериальным тестам мы интересуемся не степенью отклонения балла от центра шкалы, а достижением или недостижением какого-то критического уровня на шкале.

10. Что такое перцентили (процентили)? По-английски это слово означает «процент». Средняя линия — 50-я перцентиль — это средний показатель роста для данного возраста. Нижняя линия графика — 3-я перцентиль (процентиль).

Такой рост имеют 3% детей данного возраста. Верхняя линия графика — 97-я перцентиль. Такой рост также имеют 3% детей данного возраста, только 3-я перцентиль — это 3% детей с наименьшими показателями, а 97-я — это 3% детей с наибольшими показателями для данного возраста. Если рост ребенка ниже 3-ей перцентили или больше 97-й, то следует обязательно обратиться к врачу.

11. Шкала интервалов

Шкала интервалов является первой метрической шкалой. Собственно, начиная с нее, имеет смысл говорить об измерениях в узком смысле этого слова — о введении меры на множестве объектов. Шкала интервалов определяет величину различий между объектами в проявлении свойства. С помощью шкалы интервалов можно сравнивать два объекта. При этом выясняют, насколько более или менее выражено определенное свойство у одного объекта, чем у другого.

Шкала интервалов очень часто используется исследователями. Классическим примером применения этой шкалы в физике является измерение температуры по Цельсию. Шкала интервалов имеет масштабную единицу, но положение нуля на ней произвольно, поэтому нет смысла говорить о том, во сколько раз больше или меньше утренняя температура воздуха, измеренная шкалой Цельсия, чем дневная.

Значения интервальной шкалы инвариантны относительно группы аффинных преобразований прямой. То есть мы имеем право изменять масштаб шкалы, умножая каждое из ее значений на константу, и производить ее сдвиг относительно произвольно выбранной точки на любое расстояние вправо или влево (прибавлять или отнимать константу).

Интервальная шкала позволяет применять практически всю параметрическую статистику для анализа данных, полученных с ее помощью. Помимо медианы и моды для характеристики центральной тенденции используется среднее арифметическое, а для оценки разброса — дисперсия. Можно вычислять коэффициенты асимметрии и эксцесса и другие параметры распределения. Для оценки величины статистической связи между переменными применяется коэффициент линейной корреляции Пирсона и т.д.

Большинство специалистов по теории психологических измерений полагает, что тесты измеряют психические свойства с помощью шкалы интервалов. Прежде всего это касается тестов интеллекта и достижений. Численные значения одного теста можно переводить в численные значения другого теста с помощью линейного преобразования: х’ = ах + b.

Ряд авторов полагает, что относить тесты интеллекта к шкалам интервалов нет оснований. Во-первых, каждый тест имеет «нуль» — любой индивид может получить минимальный балл, если не решит ни одной задачи в отведенное время. Во-вторых, тест имеет максимум шкалы — балл, который испытуемый может получить, решив все задачи за минимальное время. В-третьих, разница между отдельными значениями шкалы неодинакова. По крайней мере, нет никаких теоретических и эмпирических оснований утверждать, что 100 и 120 баллов по шкале IQ отличаются на столько же, на сколько 80 и 100 баллов.

Скорее всего, шкала любого теста интеллекта является комбинированной шкалой, с естественным минимумом и/или максимумом, но порядковой. Однако эти соображения не мешают тестологам рассматривать шкалу IQ как интервальную, преобразуя «сырые» значения в шкальные с помощью известной процедуры «нормализации» шкалы.

12. При проведении выборочного наблюдения нельзя даже теоретически получить абсолютно точные данные, как при сплошном обследовании. Обусловлено это тем, что наблюдению подвергается не вся совокупность, а только ее часть, поэтому при проведении выборочного наблюдения неизбежна некоторая свойственная ему погрешность (ошибки).

Принято различать среднюю и предельную ошибки выборки.

Ошибка репрезентативности — расхождение между выборочной характеристикой и характеристикой генеральной совокупности.

Ошибки репрезентативности

Систематические (возникают в результате нарушения научных принципов отбора единиц совокупности)

Случайные (возникают в результате несплошного характера наблюдения)

Преднамеренные

Непреднамеренные

Средняя (стандартная) ошибка выборки

Предельная ошибка выборки

Теоретическим обоснованием появления случайных ошибок выборки является теория вероятностей и ее предельные теоремы.

Сущность предельных теорем состоит в том, что в массовых явлениях совокупное влияние случайных причин на формирование закономерностей и обобщающих характеристик будет сколь угодно малой величиной или практически не зависит от случая.

Гак как случайная ошибка выборки возникает в результате случайных различий между границами выборочной и генеральной совокупностей, при достаточно большом объеме выборки пи ошибка будет сколь угодно мала. Этот вывод, опирающийся на доказательстве предельных теорем, позволяет предполагать, что характеристики выборочного наблюдения могут достаточно хорошо представлять характеристики генеральной совокупности.

Случайные ошибки могут быть доведены до незначительных размеров, а главное, их размеры и пределы можно определить с достаточной точностью на основании закона больших чисел.

Средняя ошибка выборки — такое расхождение между средними выборочной и генеральной совокупностями, которое не превышает ±s.

Средняя ошибка выборки зависит от:

объема выборки — чем больше численность при прочих равных условиях, тем меньше величина средней ошибки выборки

степени варьирования признака — чем меньше вариация признака, а следовательно, и дисперсия, тем меньше ошибка выборки, и наоборот

В математической статистике доказывается, что значения средней ошибки выборки определяются по формулам:

Формула для определения величины средней ошибки выборки для количественного признака:

Формула для определения величины средней ошибки выборки для альтернативного признака:

Полученное значение средней ошибки необходимо для установления возможного значения . Которое определяется по формуле:

Но такое суждение можно гарантировать не с абсолютной достоверностью, а лишь с определенной степенью вероятности.

В математической статистике доказывается, что пределы значений характеристик генеральной совокупности отличаются от характеристик выборочной совокупности лишь с вероятностью, которая определена числом 0,683.

Это означает, что в 683 случаях из 1000 генеральная средняя будет находиться в установленных пределах, т.е. отклонение ГС от ВС не превысит однократной средней ошибки выборки. В остальных 317 случаях они могут выйти за эти пределы. Вероятность можно повысить, если расширить пределы отклонений. Так, при удвоенном значении , вероятность достигает 0,954 ( ).

Если утроить значение то вероятность увеличится до 0,997 ( ).

Возможное значение генеральной средней	Вероятность
	0,683
	0,954
	0,997

Если обозначить значение увеличения за t, то можно записать в общем виде:

Множитель t называется коэффициентом доверия. Известный русский математик А.М.Ляпунов дал выражение конкретных значений множителя t для различных степеней вероятности в виде функции:

На практике пользуются готовыми таблицами этой функции.

t		0,1	0,5		1,5		2,5	2,6
j(t)	0,1	0,0797	0,3829	0,6827	0,8664	0,9545	0,9876	0,9907	0,9973	0,99994

Из вышесказанного следует, что лишь с определенной степенью вероятности можно утверждать, что показатели генеральной совокупности и их отклонения не превысят величину . Полученную величину называется предельной ошибкой выборки.

Предельная ошибка выборки — максимально возможное расхождение выборочной и генеральной средних, т.е. максимум ошибки при заданной вероятности ее появления.

Предельная ошибка выборки для количественного признака:

Предельная ошибка выборки для альтернативного признака:

В связи с тем, что существуют различные методы, виды и способы отбора единиц из генеральной совокупности формулы для расчета средней ошибки выборки также будут различаться:

Способ отбора	Оцениваемый параметр	Повторный отбор	Бесповторный отбор
Собственно случайный и механический	Средняя
Доля
Типический	Средняя
Доля
Серийный	Средняя
Доля

— средняя из групповых дисперсий;

w_i -доля единиц совокупности, обладающих изучаемым признаком в i-й типической группе;

— средняя из групповых дисперсий для доли. В табл. 6.6 представлены формулы для исчисления средней ошибки выборки при типическом отборе;

S – общее число серий;

s – число отобранных серий;

— межгрупповая дисперсия средних, определяемая по формуле:

— межгрупповая дисперсия доли, определяемая по формуле:

— средняя i-й серии;

— средняя по всей выборочной совокупности;

w — доля признака i-й серии;

— общая доля признака во всей выборочной совокупности.

Примеры похожих учебных работ

8. Тесты их виды и общая характеристика

... десятибалльные шкалы. Балл может быть выражен не только числом, но и прилагательным («очень сильный, сильный, средний» и ... в сочетании с системой оценок». виды тестов Традиционные тесты Традиционный тест обладает составом, целостностью и структурой. Он ...

Тесты общего интеллекта

... жестко установленными, они составляются на основе креативных тестов, тестов интуитивного характера, где оцениваются не скорость, а ... тестируется лишь как исполнитель, проверяется по стандартной шкале не имея возможности выделиться из общей схемы. ...

Взаимосвязь когнитивного стиля и уровня успешности тестового контроля знаний

... успешности в тесте по математике. Глава 1 ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ВЗАИМОСВЯЗИ КОГНИТИВНОГО СТИЛЯ И УРОВНЯ УСПЕШНОСТИ ТЕСТОВОГО КОНТРОЛЯ ... с заданиями быстрее и с меньшим количеством ошибок, чем у рефлективных детей, которые систематично проверяли ...

Интеллектуальная шкала Д. Векслера

... Н. Бейли, которые относятся к тестовым методам. Хотя и процедуры наблюдения, и методы обработки в шкалах Геззела, в отличие от обычных психологических тестов, недостаточно стандартизированы, есть основания ...

Леонтьев Д. Тест СЖО (1966)

... клинических выборках вариативность тестовых данных оказалась выше, чем в контрольных. Дополнительным подтверждением валидности теста «Цель ... числовых значений для всех 20 шкал и переводу суммарного балла в стандартные значения (процентили). Восходящая ...

ТЕСТ _ПСИХОДИАГНОСТИКА

... выборках использование параллельных форм К тестовым батареям можно отнести следующие методики чернильные пятна Роршаха рисуночный тест «Несуществующее животное» и корректурную пробу * тест ... обобщению, креативность, вокализация Шкала моторного развития ...