12. Понятие валидности, надежности, достоверности в психодиагностике.
Надёжность – один из критериев проверки методик. В разработку этого критерия внесли свой вклад А. Анастази, Кронбах, Торндайк.
Надёжность – относительное постоянство, устойчивость, согласованность результатов тестов при первичном и повторном измерении на одних и тех же испытуемых. Необходимо повторное измерение на той же выборке. Расхождения возможны, но они должны быть незначительны. Таким образом, надёжность говорит о точности и устойчивости результатов к действию случайных факторов.
Общий разброс может быть результатом двух групп причин:
- Изменчивость, присущая самому признаку.
- Факторы внешней среды, которые могут повлиять
Процедуры вычисления надёжности:
- Проведение одной и той же формы теста. (ретестовая надёжность), вычисление коэффициента корреляции. Интервал между проведением тестирования – от одного до нескольких месяцев.
- Проведение параллельных форм тестов. При проведении исследования с помощью эквивалентной формы теста специалист убеждается в правильности выбранного признака. Чтобы формы теста считались эквивалентными необходимо одинаковое количество заданий в обоих тестах, задания должны быть унифицированы, задания должны располагаться одинаково по степени сложности, должны быть одинаковые средние и стандартное отклонение. Используют два подхода для вычисления надёжности при помощи параллельных форм тестов:
- Одни и те же испытуемые обследуются при помощи одного теста. А потом другого и если коэффициент корреляции больше 0.7, то надёжность высока.
- Испытуемые делятся на две группы, одна группа проходит тест А, другая тест Б, через неделю – наоборот.
- Расщепление теста и вычисление коэффициента корреляции. Испытуемые выполняют две части теста, которые равноценны. В одну часть попадают все чётные задания, в другую – нечётные. Эта процедура показывает последовательность теста внутри себя, меру адекватности подбора вопросов. Вычисляется коэффициент корреляции.
Коэффициент надёжности соответствует коэффициенту корреляции Спирмена или Писрона.
Надёжность факторно-дисперсионная — способ определения надежности, основанная дисперсионном анализе результатов теста. Надежность теста соответствует отношению истинной дисперсии (т. е. дисперсии самого исследуемого фактора) к реально полученной эмпирической дисперсии. Последняя складывается из истинной дисперсии и дисперсии погрешности измерения. Факторно-аналитический подход к определению надежности дополнительно расчленяет и дисперсию истинного показателя (Дж. Гилфорд, 1956).
Тесты общего интеллекта
... Такие методы никогда не бывают жестко установленными, они составляются на основе креативных тестов, тестов интуитивного характера, где оцениваются не скорость, а манера решения той или иной ... - инстинктах и временных связях (ассоциациях). Инстинкты - врожденные, передаваемые по наследству видовые формы поведения и отражения среды, сложившиеся в результате многих тысячелетий биологической эволюции. ...
Дисперсия истинного показателя, в свою очередь, может состоять из дисперсии общего фактора для групп аналогичных тестов, особых факторов, обеспечивающих тесты специфической направленности и дисперсии факторов, присущих конкретной тестовой методике. Следовательно, полная дисперсия теста равна сумме дисперсий для общих, специфических и единичных факторов плюс дисперсия погрешности
Факторно-дисперсионный способ определения надежности подходит для оценки уже факторизованного теста, но не для тестов, измеряющих широкий набор разнообразных параметров, так как некоторые из них могут не входить в установленную область валидности методики.
Достоверность и допустимая ошибка измерения:
Достоверность определяется критерием ошибки измерения. Ошибка – это статистический показатель, характеризующий степень точности отдельных измерений. Предполагается, что для любой черты каждый индивид имеет истинный показатель. Любой показатель, полученный в тесте отличается от его истинного значения на какую-то случайную погрешность. И если протестировать человека несколько раз, получится разброс показателя вокруг истинного значения. Это значение колеблется в определённых границах. Колебание данного значения может зависеть от систематических ошибок и случайных. Причинами систематических ошибок может быть неправильное проведение теста, не соблюдение процедуры, неточность в обработке, низкая валидность методики. Вероятны и случайные ошибки, связанные с человеческим фактором. Если в методике не заложены подобные сбои, то её нельзя считать точной. При большом количестве наблюдений индивидуальные оценки образуют определённый тип распределения статистического показателя, которые будут обнаруживать ошибки измерения. Ошибка измерения определяется статистическими методами – величиной квадратичного отклонения, связанной с дисперсией распределения отдельных измерений. Погрешность не должна превышать 5 %.
Валидность:
Валидность – способность теста измерить то, что он должен измерить по замыслу автора. Это понятие относится больше не к тесту, а к его цели. Тест может быть надёжным, но не валидным. Но если тест валиден, то он надёжен.
Источники идей валидности:
- Первые идеи появились ещё до создания тестов. Часто исследователи связывали результаты исследования с будущими успехами. Например, Пифагор, связывал мышление и речь при помощи интуиции.
- Идея о необходимости практической проверки пригодности теста. Вне практики проблема валидности не может существовать.
- Философские идеи: истина- соответствие мысли действительности. Критерий истинности – полезность.
- Измерения, которые мы делаем не очевдны, они требуют теоретической основы. Теоретико=эмпирическая валидность.
- Развитие статистической науки – корреляции и факторного анализа.
Пять источников породили пять видов валидности.
В начале 20 века ведущую роль играла интуиция. Если создателем теста был известный человек, то вера в валидность принималась на слово.
В 20-30 годы росли запросы практики, стали создаваться тесты на основе эмпирических источников. Было разработано 3 эмпирических подхода:
Тест-опросник для измерения потребности в общении
... человеком, что поступает зло, а также ощущаемые им угрызения совести. Тест-опросник для измерения потребности в общении 1. Потребность в общении является одной из основных ...
- Все поступающие на работу проходят тест. Через какое-то время измеряется их производительность труда и эффективность. Затем шло коррелирование показателей. Таким образом, тесты использовались для полезности.
- Сначала тестируются те, кто успешно уже работает, а затем результаты этого тестирования коррелируются с результатами кандидатов. Если есть взаимосвязь, то тест валидный.
- Работы Бине и Симона. Для уверенности, что тест измеряет именно интеллект. Все задания теста проводились на двух группах, которые отбирались не психологами, а учителями. В 1 группе были дети с высокими умственными способностями, во 2 – с невыраженными способностями.этот способ получил название «экспертного». Далее проводилось тестирование. И если в обеих группах большинство отвечало в соответствии с ожиданиями авторов, то тест признавался валидным.
Таким образом, эмпирические методы обоснования валидности просуществовали до 50ых годов. Стали считать, что доказывать валидность можно не только с помощью практики. Анализ и соответствие теории и практики. Валидность по содержанию, сравнение с программой исследования и содержания теста. Сравнение облегчается, когда в программе выделяется проблема, цель и основные понятия. Концептуальная валидность, так как психологи интересуются соотнесением научных понятий с эмпирически наблюдаемыми фактами.
В эмпирический методах доказательства валидностиособую роль играют внешние критерии, которые служат доказательством валидности. Американские психологи Тиффани и МакКормик провели анализ использования внешних критериев и выделили их 4 типа:
- Критерий исполнения – количество выполненной работы, темп роста мастерства
- Субъективный критерий – включение различных видов ответов, которые отражают отношение к чему-либо.
- Физиологический критерий — используется при изучении окружающей среды.
- Критерий случайности – учет многих факторов.
Внешние критерии должны отвечать требованиям релевантности, свободы от помех, надёжности. Релевантность – смысловое соответствие между тестом и независимым от него жизненноважным критерием. Свобода от помех (контаминация) считается важной так как на деятельность влияет сам человек и условия его труда. Надёжность – постоянство результатов
Диагностическая (конкурентная) В. отражает способность теста дифференцировать испытуемых по изучаемому признаку. Анализ диагностической В. имеет отношение к установлению соответствия показателей теста реальному состоянию психологических особенностей испытуемого в момент обследования. Примером определения этого типа В. может быть исследование по методу контрастных групп. Проведение теста интеллекта у нормально развивающихся детей и их сверстников с нарушениями в интеллектуальном развитии может выявить глубокие количественные и качественные различия в выполнении заданий сравниваемыми группами. Степень надежности дифференциации детей первой и второй групп по данным теста будет характеристикой диагностической В. оценки умственного развития, получаемой с помощью данной методики.
Валидность содержательная (внутренняя, логическая) — комплекс сведений о репрезентативности заданий теста по отношению к измеряемым свойствам и особенностям. Одним из основных требований при валидизации методики в этом направлении является отражение в содержании теста ключевых сторон изучаемого психологического феномена. Если область поведения или особенность очень сложна, то содержательная В. требует представления в заданиях теста всех важнейших составных элементов исследуемого явления.
Тест №1: Методика изучения личности и познавательной сферы школьника
... ответ. Тест №7. Изучение самооценки личности по отношению к ее идеалу В каждом столбике отметьте знаком «+» качества, ... Известный человек, Другое, Затрудняюсь ответить. Счастливы ли Вы? ____________________________________________________ Тест №2: Исследование внимания методом анкетирования Отметьте значком «+» согласие ... юмора капризность равнодушие Тест №8. Исследование самооценки (методика Дембо - Р
Дифференциальная В. — валидность, рассматривающая внутренние взаимоотношения между психологическими факторами, диагностируемыми с помощью психодиагностической методики. Содержание Д.В. может быть иллюстрировано на примере тестов интересов, которые в своем большинстве обычно умеренно коррелируют с показателями общей академической успеваемости, однако в различной степени связаны с успеваемостью по отдельным дисциплинам. В. д. особенно важна как показатель диагностической ценности методик, используемых в профотборе.
Иллюзорная В. (ложная) — иллюзия соответствия заключения по результатам тестирования личностным характеристикам обследуемого. Возникает как следствие использования предельно общих, а поэтому применимых практически ко всем обследуемым формулировок, таких, например, как «разумный в выборе цели», «стремящийся к лучшей жизни» и т. п. Такого рода утверждения принимаются почти всеми людьми в качестве точного описания их личности, что создает почву для деятельности различного рода прорицателей и предсказателей.
Инкрементная В. — (англ. incremental — приращение, прибыль) — один из компонентов критериальной валидности, прогностической валидности теста, отражающий практическую ценность методики при проведении отбора. В. и. может быть выражена количественно при помощи валидности коэффициента.
Консесусная В. (consensual validity) — тип валидности, основывающейся на установлении связи (корреляции) тестовых данных с данными, полученными от внешних экспертов, хорошо знакомых с теми лицами, которые были подвергнуты тестированию. Понятие и процедура В. к. введены Р. Мак-Краэ в 1982 г. с целью обеспечения валидизации опросников личностных, которая нередко затруднена ( а иногда и невозможна) в связи с отсутствием необходимых для установления валидности критериев.
Конструктная В.—один из основных типов валидности, отражающий степень репрезентации исследуемого психологического конструкта в результатах теста. В качестве конструкта могут выступать практический или вербальный интеллект, эмоциональная неустойчивость, интроверсия, понимание речи, переключаемость внимания и т. д. Иначе говоря, В. к. определяет область теоретической структуры психологических явлений, измеряемых тестом.
Следует, однако, заметить, что, в отличие от критериальной валидизации, при анализе В. к. не требуется высокой степени связи результатов двух тестов. Если окажется, что новый и эталонный тесты практически идентичны по содержанию и результатам и разрабатываемая методика не обладает преимуществами краткости или легкости применения, это означает лишь дублирование теста, оправданное только с т. з. создания параллельной формы теста. Смысл процедуры В. к. состоит в установлении одновременно как сходства, так и различия психологических феноменов, измеряемых новым тестом по сравнению с известным.
Важным аспектом В. к. является внутренняя согласованность, отражающая то, насколько определенные пункты (задания, вопросы), составляющие материал теста, подчинены основному направлению теста как целого, ориентированы на изучение одних и тех же конструктов. Анализ внутренней согласованности осуществляется путем коррелирования ответов на каждое задание с общим результатом теста. При определении В. к. важное место принадлежит изучению динамики измеряемого конструкта. При этом мы можем опираться на гипотезы о его возрастном развитии, влиянии тренировок, обучения, освоения профессии и т. д.
Эффективность психологических тестов
... показателями, например, с успешностью выполнения соответствующей деятельности. Кроме того, валидность теста можно установить, сравнивая его результаты с результатами по аналогичным методикам. К примеру, разработанный тест на вербальный интеллект можно провести вместе ...
Критериальная В. — комплекс характеристик, включающий валидность текущую и прогностическую методики и отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемого явления. В качестве валидизации критерия выступают независимые от результатов теста и непосредственные меры исследуемого качества, такие как уровень достижений в какой-либо деятельности, степень развития способности, выраженность определенного свойства личности и т. д. При валидизации тестов достижений результат измерений сравнивается с мнением педагогов о знаниях обследуемого в определенной области, с академическими оценками, контрольными проверками и т. д. В случае валидизации профориентационных тестов и методик тестовые оценки сравниваются как с экспертными оценками коллег и руководителей, так и с объективными показателями достижений в профессиональной сфере.
Очевидная В. — пред ставление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики. В. о. не является компонентом объективно устанавливаемой валидности. Вместе с тем высокая В. о. в большинстве случаев является весьма желательной. Она выступает в качестве фактора, побуждающего испытуемых к обследованию, способствует более серьезному и ответственному отношению к работе по выполнению заданий теста и к заключениям, формулируемым психологом.
Достаточный уровень В. о. особенно значим для методик обследования взрослых. Представления испытуемых и пользователей психодиагностической информацией о В. о. в немалой степени определяются названием методики, поскольку эта часть сведений о тесте наиболее доступна неспециалистам. В. о. существенно улучшает применение понятных формулировок и терминов, а также заданий, по содержанию являющихся наиболее естественными с учетом возрастной, половой, профессиональной специфики испытуемых. Неадекватно завышенная В. о. способствует более выраженному проявлению эффекта контаминации критерия.
В. о. иногда носит название внешней (face validity), или «доверительной» (faith validity), валидности.
В. по возрастной дифференциации — один из компонентов валидности конструктной, связанный с возрастной динамикой изменений исследуемого качества. Характеристика валидности по конструкту здесь заключается в определении соответствия результатов теста теоретически ожидаемым и практически наблюдаемым возрастным изменениям данного конструкта или свойства.
Прогностическая В. — информация о том, с какой степенью точности и обоснованности методика {тест) позволяет судить о диагностируемом психологическом качестве спустя определенное время после измерения. В. п. отражает временной интервал, на который распространяется обоснование такого суждения. Сведения о В. п. имеют самое непосредственное отношение к раскрытию предсказательной силы методики, выяснению степени обоснованности сформулированного на ее основе ближайшего и более отдаленного прогноза, анализу значимости получаемых в тесте показателей с т. з. экстраполирования результатов на будущее.
А) конструктная валидность теста
... и количественные характеристики генеральной совокупности...»? А) репрезентативная выборка 1. В качестве критерия достоверности результатов валидность, достигаемая в ходе реального эксперимента по сравнению с идеальным, ... допускает квантификация показателей в шкале: В) отношений 11. Методика Дембо - Рубинштейн представляет собой: А) тест уровня самооценки 12. Какой из названных четырех факторов ...
В качестве валидизации критерия могут выступать не только показатели актуального поведения, но и ожидаемые результаты деятельности, лечения, обучения и т. д. Процедура определения В. «п. опирается на анализ корреляции между оценками по тесту и предсказанными результатами деятельности, формирующимися свойствами личности, исходом лечения и т. п. Вместе с тем различие двух видов критериальной валидности связано не только с временными пределами критериальных сопоставлений. Валидность текущая и В. п. отражают разные цели применения методики: текущий диагноз, оценка настоящего положения, с одной стороны, и прогнозирование развития качества или успеха в деятельности — с другой.
Важность показателей В. п. при анализе тестовых процедур, направленных на отбор, подчеркивается введением специального понятия валидности инкрементной. Этот показатель В. п. дает информацию о том, насколько улучшается процедура отбора с применением данного теста по сравнению с традиционной (основывающейся лишь на формальных сведениях о предыдущей деятельности, анализе документов личного дела, беседах).
Содержательная В. — один из основных типов валидности методики, характеризующий степень репрезентативности содержания заданий теста измеряемой области психических свойств.
Комплекс сведений В. с. традиционно имеет наибольшее значение для тестов, исследующих деятельность, близкую или совпадающую с реальной (чаще всего учебной или профессиональной).
Изучаемая деятельность носит, как правило, синтетический характер, складывается из многих, подчас разнородных факторов (проявления личностных особенностей, комплекс необходимых знаний и навыков, специфические способности и т. д.).
Поэтому одной из важнейших задач создания адекватной модели тестируемой деятельности является подбор таких заданий, которые будут охватывать главные аспекты изучаемого феномена в правильной пропорции к реальной деятельности в целом.
Текущая В. (диагностическая, конкурентная)— характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике. В качестве таких признаков могут выступать уровни общих способностей, притязаний, вербальный интеллект, тревожность и т. д. В более узком значении В. т. — установление соответствия результатов валидизируемого теста независимому критерию, отражающему состояние исследуемого тестом качества в момент проведения исследования.
Своеобразным показателем В. т. является комплекс сведений о том, насколько удобен, экономичен тест по сравнению с получением информации об исследуемом качестве из других источников (наблюдение, анализ объективных данных, экспертная оценка и т. д.).
Экологическая В. — валидность теста по отношению к измеряемому свойству в контексте определенной ситуации. В. э. является свойством теста, проявляющимся в том, что его применение при решении различных практических задач ведет к качественно различной интерпретации результатов тестирования (В. Н. Дружинин, 1990).
Эмпирическая В.—совокупность характеристик валидности теста, полученных сравнительным статистическим способом оценивания. Имеет отношение главным образом к области валидности критериальной и двум ее видам: валидности текущей и валидности прогностической. Если при определении валидности содержательной оценка теста проводится с помощью различных качественных процедур получения информации описательными методами с использованием экспертных оценок и других источников информации (для вынесения суждения о соответствии заданий теста содержанию предмета измерения), то В. э. измеряется всегда с помощью статистического коррелирования. Проводится корреляционный анализ связи двух рядов значений — оценок теста и показателей по внешнему параметру изучаемого свойства (или результатов другого теста, валидность которого известна).
8. Тесты их виды и общая характеристика
... качестве усвоения учащимися изучаемого материала. В.П. Беспалько весьма кратко, но достаточно емко тест определил так: «Задания на выполнение деятельности определенного уровня в сочетании с системой оценок». виды тестов Традиционные тесты ... и исследователя интересует только частота их появления (система для анализа вербального взаимодействия учителя и ученика Н. Фландерса). Такая форма записи ...