Глава 3. Представление о надежности и

Глава 3. Представление о надежности и

валидности в обыденном сознании

и в психодиагностике

В первой главе показано, что существуют три уровня функционирования трех психодиагностики:

1) уровень житейских представлений: психологические понятия имеют некоторое содержательное наполнение и в повседневной жизни, т.е. на уровне обыденного сознания;

2) концептуальный и таксономический уровень: этот уровень представлен психологическими теориями о поведении, мышлении, эмоциях;

3) математический уровень: этот уровень образуют различные модели ответов на задания тестов и методики анализа данных. Существует множество разнообразных психологический теорий и концепций. К сожалению, не всегда можно подобрать для них адекватные статистические методы обработки данных, а с другой стороны, уровень математического моделирования не часто соответствует определенным концепциям и конструктам. Некоторые понятия не имеют четко определенного значения, что затрудняет разработку для них математических моделей.

Последовательность трех уровней представляет собой описание психодиагностики «снизу вверх». В идеальном варианте эти три уровня согласуются между собой, причем сведения одного уровня к другому не происходит. Например, математический уровень психометрической модели соответствует теоретически ожидаемой модели поведения (или когнитивной характеристике).

Информация, полученная в результате эмпирических исследований, и математическое моделирование на основе теорий и концепций обогащают житейские представления о характеристиках поведения, познания и т. д. В попытке достигнуть этого мы без особой необходимости не подчеркиваем различия между теоретическими конструктами и математическими моделями, а описания конструктов на уровне здравого смысла не всегда отбрасываем как наивные, ненаучные, ошибочные или необоснованные. Житейские представления о поведении человека достаточно хаотичны, но они-то и поставляют материал для научной психологии. В качестве примера понятия, в котором можно выделить три уровня, можно привести концепцию атома. Представления об атоме упоминались уже Демокритом, понятие атома существовало на уровне житейских представлений, а затем получило теоретическое обоснование и обрело соответствующую математическую модель.

Взаимодействие между уровнями никогда не бывает абсолютно успешным, поскольку каждый уровень имеет свою собственную логику развития. Развитие математического моделирования происходит слишком быстро по сравнению с изменениями житейских представлений, а иногда даже по сравнению с динамикой деятельности практического психодиагноста. Это и обусловливает различия в деятельности практических психологов и разработчиков математических методов в психологии. Кроме того, уровень знаний пользователей-непрофессионалов и практических психодиагностов также различен, поскольку различны их ориентиры при тестировании и прогнозировании. На наш взгляд, взаимодействие между уровнями должно рассматриваться как полезное и разумное. Ни один из уровней не может существовать сам по себе, ни один из них не сводим к другому, в то время как их сопоставление представляется продуктивным для понимания поведения человека.

11 стр., 5352 слов

Уровень усвоения понятий учащимися старших классов коррекционной школы

... направленности обучения; Ш соблюдения основных этапов формирования представлений и понятий. В настоящем исследовании: 1) рассмотрены ... результаты (см. Приложение). Рисунок 1 - Уровень усвоения естествоведческих понятий 1 - высокий уровень; 2 - выше среднего; 3- средний; ... когда строго научное понятие, усваиваемое детьми в школе, расходится с так называемым житейским, донаучным понятием, уже усвоенным ...

Помимо выделения трехуровневой структуры, возможно также рассмотрение психодиагностики как системы, состоящей из четырех компонентов. Компоненты и уровни иногда взаимодействуют. Концепции надежности и валидности — главный предмет рассмотрения данной главы — могут быть проанализированы с точки зрения трех уровней и четырех компонентов. В обыденном сознании надежность и валидность имеют много различных значений, также как и в некоторых научных дисциплинах (например, в эпистемологии).

В психологии требование надежности и валидности предъявляются как к теоретическим конструктам, так и к тестам и процедурам; точно так же его можно отнести и к проведению диагностического обследования. Остановимся подробнее на характеристике житейских представлений о надежности и валидности, а также на описании соответствующих психологических концепций.

Понятие надежности широко используется в повседневной жизни, но оно существует и как психологическое понятие, имеет оно также и свое математическое определение. В классической и в современной теории тестов акцент сделан на математическом (статистическом) определении. Это определение представлено в главе 1. В данной же главе мы приведем описание житейских представлений о надежности и валидности, рассмотрим некоторые философские представления, оказывающие определенное влияние на психологические концепции, и изложим содержание понятий валидности и надежности. Понятие надежности тесно связано с понятием надежности теста или опросника (а часто им и ограничивается).

24 стр., 11871 слов

Модуль 1 Понятие о психодиагностике

... методик: валидность, надежность, дискриминативность, репрезентативность. . Валидность, виды валидности : содержательная, конструктная, критериальная, прогностическая. Понятие надежности теста ... и стиль деятельности человека. Надежность – характеристика методики, отражающая точность ... 3.Метод психологической диагностики, когда используются стандартизированные вопросы, утверждения, картинки, ...

Понятие валидности используется в житейском языке не так широко, как понятие надежности. Тем не менее существует некоторое представление о валидности суждений. В психологии понятие валидности имеет различные значения, на которые оказывают влияние как представления здравого смысла, так и данные эпистемологии, как психологические теории и конструкты, так и развитие математических моделей и различных техник анализа данных. Значение понятия валидности меняется, поскольку изменяются житейские представления, развиваются психологические концепции и математические модели, происходят изменения и в эпистемологии. Валидность — понятие многостороннее.

3.1. Надежность

Слово «надежность» часто используется в повседневной речи. Например, можно говорить о человеке как о надежном или ненадежном. В психодиагностике понятие «надежность» относится в большинстве случаев к характеристике тестов, процедур и способов оценивания. Более того, существует теория тестов, которая определяет надежность теста в соответствии с определенными правилами и основывается на представлении о характеристиках тестовых показателей. Существуют эмпирические процедуры оценки надежности тестов (это рассматривалось в главе 1).

Уровни не являются абсолютно независимыми.

3.1.1. Житейские представления о надежности

В повседневной жизни мы характеризуем человека как надежного или ненадежного. В основе этого лежит наше представление о том, можем ли мы доверять этому человеку, честен он или нет. Термин «надежность» используется также и при оценке качества информации. Вместе с тем понятие может использоваться и при характеристике презервативов или при оценке долговечности снежного покрова в начале зимы. Для психологов надежность представляет интерес как характеристика человека. Еще в 1928 г. Хартшорн и Мэй попытались оценить индивидуальные различия людей по показателю «надежность». По общему мнению, успех не сопутствовал исследователям при измерении этой характеристики, т.к. она оказалась слишком зависимой от ситуации. Однако в одной из интерпретаций данного исследования эта черта была названа стабильной, а нестабильность результатов объяснялась низким методическим уровнем сбора и обработки данных (Rushton, Brainerd, Pressley, 1983).

1 стр., 448 слов

Понятие личности в психологии. Человек, индивид, личность, индивидуальность

Понятие личности в психологии. “Человек”, “индивид”, “личность”, “индивидуальность” Наиболее общим в психологии является понятие человек — некое биологическое существо, обладающее членораздельной речью, сознанием, способностью создавать орудия труда и пользоваться ими, и т.д. Развитие человека невозможно без активной передачи новым поколениям человеческой культуры. Индивид — отдельный ...

Многие люди рассматривают надежность как важную характеристику. В одном исследовании, проведенном голландскими психологами, 600 родителям предлагалось перечислить характеристики, которые они считают важными для своих детей. Как показало это исследование, наиболее часто называются следующие качества: честность, справедливость, независимость, открытость и ответственность (Van Voorst, 1984).

Долгое время предметом исследований психологов были прилагательные, описывающие личностные характеристики. С помощью эксплоративного факторного анализа, обычно по методу варимакс-вращения, следуя традиции простой структуры по Терстоуну, выделялись и интерпретировались отдельные факторы. Многие исследователи разделяют положение о том, что прилагательные, описывающие личностные характеристики, могут быть представлены пятифакторной моделью (см. также гл. 5).

Эта модель была создана в результате анализа всех прилагательных, с помощью которых можно описать человека. Третий фактор из этой модели — “Добросовестность” (ответственность) — в какой-то степени напоминает то, что называется надежностью. Приведем список прилагательных, представляющих полярные, т.е. позитивные и, соответственно, самые негативные, характеристики по этому фактору: организованный, способный к планированию, эффективный, ответственный, надежный, добросовестный, с одной стороны, и беззаботный, хаотический, беспорядочный, легкомысленный, безответственный, неряшливый, непредсказуемый, забывчивый, с другой.

В США в прикладной психологии управления используются так называемые «тесты честности» («integrity tests»).

И, хотя характеристики этих тестов не бесспорны, они достаточно хорошо предсказывают соответствующий критерий. Этот критерий содержит преимущественно описание таких личностных характеристик и типов поведения, как безответственность, бездеятельность, проблемы с дисциплиной, возможные нарушения правил во время работы, медлительность и частое отсутствие на рабочем месте. В тесте существуют задания, направленные на выявление таких позитивных характеристик, как добросовестность, управляемость, надежность, и задания, выявляющие такие негативные типы поведения как стремление к сенсациям, ссоры с авторитетными лицами, враждебность (Sackett, 1994).

4 стр., 1977 слов

Характеристика тестов мотивов и потребностей

ВВЕДЕНИЕ Активность живых существ - основной способ существования. У животных активность заложена в инстинктах (сохранения жизни, продолжения рода и пр.). Поведение человека определяется двумя факторами: побудительным и регулятивным, потребностями и мотивами. Мотивация занимает ведущее место в структуре личности и является одним из основных понятий, которое используется для объяснения движущих сил ...

Американские работодатели выбрали из 86 предложенных характеристик, описывающих подчиненных, те, которые они считают наиболее важными: некоррумпированность, целостность натуры, добросовестность. Когнитивные способности занимают в этом списке шестое место (Ones, Viswesvaran, Schmidt, 1993).

Подведем некоторые итоги. В этом разделе шла речь о том, что понятие «надежность» часто используется в повседневном общении для описания качеств того или иного человека. Надежность является очень важной характеристикой человека, как по мнению родителей, так и по мнению работодателей. Характеризуя человека как надежного, мы имеем в виду, что он не действует непредсказуемым образом от случая к случаю. Этот же смысл вкладывается в понятие надежности в психологии.

3.1.2. Понятие надежности в психодиагностике

Надежность является важным понятием научной психологии. Концептуальная схема и практические процедуры оценки надежности используются и в других научных дисциплинах. В прекрасных обзорах методов оценивания в педагогике под редакцией Американского Совета по образованию всегда отводится место для главы о концептуальных и методических аспектах надежности. Стенли (1971) считает, что о надежности проще говорить на языке формул. Но, отмечает он, внимание должно также уделяться и “логическим и эмпирическим аспектам” (с. 359).

“Логический аспект” в терминологии Стенли близок тому, что в данной работе мы называем концептуальным аспектом.

Исходное предположение концепции надежности состоит в том, что при оценивании различных феноменов (биологических, физиологических, психологических) неизбежны ошибки измерения. При повторном измерении никогда не получают те же баллы или ту же сумму баллов, что и в первом измерении. Под надежностью в психодиагностике понимается повторяемость результатов измерения (Runkel, McGrath, 1972; Nunnally, Bernstein, 1994) или согласованность результатов измерения (Feldt, Brennan, 1989, Stanley, 1971).

10 стр., 4530 слов

Тест По «теории массовых коммуникаций» Основные положения теории массовых коммуникаций

Тема 1.1. Проблемы массовых информационных процессов и теория информации Когда процессы продуцирования и передачи информации попали висло объектов научного интереса людей? Нач.20века Какая научная теория позволила выявить наиболее общие связи, проявляющиеся в ходе создания, передачи, приема и потребления информации в природе и обществе? Теория информации Что становится возможным при соединении ...

Таким образом, понятие «надежность» показывает степень свободы результатов тестирования от ошибок измерения, а также степень согласованности и повторяемости полученных результатов.

Об ошибках в повседневной жизни говорят в тех случаях, когда человек был способен избежать неудачи или исправить сделанное. «Errare humanum est»*, но в то же время мы говорим: «Я больше никогда не допущу подобной ошибки». Понятие «случайной ошибки» в математической модели является частью этой модели. В этом смысле ошибки могут считаться неизбежными. Совсем не просто описать случайные ошибки. Можно попытаться рассматривать их как характеристику самого процесса оценивания или (что также возможно) как нечто свойственное самому исследуемому феномену. Речь не идет о постоянной или систематической ошибках, которые можно контролировать в процессе психологического оценивания и которых можно избежать путем стандартизации.

Понятие случайной ошибки плохо улавливается на интуитивном уровне, а термин «надежный» иногда соотносится с понятием валидности. Как было показано в гл. 2, случайность и случайные события с трудом воспринимаются таковыми. Люди усматривают закономерности в случайном наборе чисел, и сами они не способны создать такой набор. Всегда соблазнительно видеть структуру или какой-либо план в случайных феноменах. В этом смысле непредвиденные ошибки противоречат интуитивным ожиданиям.

Кроме того, в обыденном языке понятия надежности и валидности иногда отождествляются. Например, прогноз погоды называется надежным в том случае, если он соответствует реальным событиям, а не тогда, когда различные радиовещательные компании дают одинаковую информацию. Лекарство считается надежным тогда, когда дает желаемый эффект, а не когда различные специалисты выписывают одно и то же лекарство в подобных случаях.

Любое руководство по теории тестов перечисляет множество возможных источников случайных ошибок. В качестве таких источников могут быть названы: сам человек, колебания внимания и работоспособности, забывчивость, легкомысленное отношение, импульсивность. Второй источник — это среда. Окружение различается объективно и субъективно. Оно по-разному влияет на субъекта, работающего с тестом. Наконец, и методики, и процедуры, и даже сами исследователи могут быть источниками ошибок. В той мере, в какой эти факторы возможно учесть или устранить, они не являются источниками “ненадежности” теста, но всегда остаются и иные, неконтролируемые, ошибки. Существует ряд практических процедур, определяющих случайные ошибки. Теория «обобщаемости» («generalizability theory”) Кронбаха, Глезера, Нанды и Раджаратханама (1972) наряду с другими может рассматриваться как система, упорядочивающая источники ошибок. Эта теория определяет различные коэффициенты надежности применительно к той конкретной области заданий, показатели которой психолог хочет обобщить: например, относительно заданий (внутренняя согласованность), относительно времени (стабильность), относительно оценок разных экспертов (согласие между теми, кто производит оценивание).

11 стр., 5062 слов

Критерии валидности, применяемые к качественным исследованиям.

... обработку. 7. Понятия надёжности, валидности, достоверности теста по А.Г. Шмелёву. Свойства теста Какие другие важные следствия ... психология. Осознана необходимость создания особой психотехнической теории, т.е. теории, обосновывающей человековедческую, психологическую практику. По ... сущность теста, не видим адекватным образом ограничений в практике его использования, мы совершаем серьезные ошибки. ...

Дисперсионный анализ применяется для оценки всех источников (например, Van der Kamp, 1976; De Gruyter, Van der Kamp, 1991).

Надо признать, что психологам, математикам и методологам не слишком легко представить себе, что же такое случайная ошибка «на самом деле». Но, может быть, к этому и не следует стремиться. В математических моделях трудностей с понятием случайной ошибки не возникает, а практическая ценность этого понятия доказана (личное сообщение Синджера, Амстердам, 20 декабря, 1994).

Исторически сложилось так, что надежность измерительного инструмента или процедуры измерения определяется с помощью двух конкретных показателей: ошибки измерения и коэффициента надежности. Первый отражает расхождение тестовых баллов, получаемых у одного человека. Если величина этого расхождения мала, то измерение допустимо признать надежным. Стандартная ошибка может быть рассмотрена как стандартное отклонение в процессе большого числа измерений, когда в качестве испытуемого выступает один и тот же человек. Практически это недостижимо, так как невозможно много раз предлагать работу с одним и тем же тестом одному и тому же человеку. Выходом из этой ситуации стало введение коэффициента надежности. Коэффициент надежности является выражением двух отношений: постоянства-непостоянства и стабильности-нестабильности. Существует несколько коэффициентов, описание которых можно встретить в любом руководстве по использованию тестов. В 1937 году Кьюдер и Ричардсон составили список этих коэффициентов. Хорошо известны предложенные ими KR-20 и KR-21.

Разработка первого коэффициента надежности приписывается Спирмену (1904).

Если невозможно подвергнуть одинаковым тестовым испытаниям одного и того же человека и не существует его двойника (ведь можно же подумать о монозиготных близнецах!), то, очевидно, нужно проявить некоторую изобретательность, чтобы создать «копию» этого человека. Оригинальное решение Спирмена заключалось в том, чтобы сконструировать неких искусственных «двойников для разных целей», по выражению Виттманна (1988, с. 513).

То же было сделано Фишером, отцом дисперсионного анализа. Он тоже создавал искусственных двойников, используя их в разных целях. Результаты испытуемых внутри клеток матрицы двумерного распределения представляют собой результаты «двойников», выбранных для оценки дисперсии ошибки. Это, конечно, не реальные, а статистически сконструированные двойники. Задания в тесте Спирмена — это “теоретические” двойники, потому что они представляют случайную выборку в одной из областей вопросов теста. Это было одной из причин определения надежности для параллельных тестов Гулликсена (1950).

Блестящая идея Спирмена позволяет определить надежность в виде следующей формулы: “1 минус отношение дисперсии ошибки к общей дисперсии” (см. гл. 1).

У одного и того же теста могут быть различные коэффициенты надежности. Однако изначально нужно знать, какой тип надежности подходит для тех или иных практических и исследовательских целей. Например, что является наиболее приемлемым — согласие ли между экспертами, между разными измерениями, между разными заданиями одного и того же теста или двумя частями одного теста. Пользователь тестов должен выбрать коэффициент, наиболее соответствующий его целям. Обратившись к справочникам, можно определить, имеется необходимый коэффициент надежности или нет.

Понятие «надежность» используется для характеристики тестов, методик и процедур оценивания. Под «надежностью» понимается повторяемость и согласованность результатов тестирования. Концепция надежности предполагает также оценку неизбежных случайных ошибок. Считается, что расхождение между результатами тестирования в отношении какой-либо характеристики основывается на реально существующих, стабильных различиях между людьми. Допускается, что истинные результаты человека стабильны во времени. В основе лежит допущение, что однажды полученные показатели не изменяются (Feldt, Brennan, 1989; Wittmann, 1988; Nunnally, Bernstein, 1994).

Это предположение присутствует в известных руководствах по теории тестов (Gulliksen, 1950).

Следовательно, можно говорить об “истинных” баллах (истинных в платоновском смысле, т.е. подлинных, идеальных сущностей), в соответствии с которыми все изменения во времени являются только “видимостью”. В настоящее время исследователи уже не делают предположений о существовании неизменных истинных показателей, но требование надежности тестовых показателей остается, поскольку истинные или надежные показатели рассматриваются как предполагаемая оценка многих независимых повторных процедур тестирования. Однако эти истинные или надежные баллы могут изменяться с течением времени.

Понятие надежности в психодиагностике специально разработано для характеристики тестов и других методик. Теоретическая основа заимствована из теории тестов. Но применительно к психодиагностическому процессу концепция надежности обычно не рассматривалась. В каком смысле психодиагностический процесс может быть назван надежным и как можно оценить надежность процесса оценивания? Прямого ответа на этот вопрос не существует.

В первой главе приведено описание измерения случайной ошибки. Учет случайной ошибки позволяет обеспечить интервалы надежности для полученных баллов. Психодиагност предпочитает иметь дело не с точечным оцениванием, а с интервальным, при котором существует 95-процентная вероятность того, что будут получены истинные показатели человека. Кстати, синоптики, делая прогноз погоды, поступают примерно так же.

Невозможно не видеть ценность понятия случайной ошибки. Эти ошибки можно оценить с помощью некоторых искусственных конструктов («двойников» Спирмена).

Однако они остаются чуждыми нашему интуитивному пониманию. Представление о надежности на уровне здравого смысла иногда имеет сходство с психологической концепцией валидности. Отметим, что представляется достаточно соблазнительным рассматривать полученные результаты как стабильные. Однако такого условия нет в современной теории тестов. Классическое понятие параллельного теста базируется на скрытом допущении, что вещи никогда не меняются (см. также Wittmann, 1988).

Следствием этого является то, что в теории отсутствуют средства понятийного описания и процедуры измерения феномена динамики и изменений. Слишком просто сказать, подобно Платону, что все изменения — это только «видимость» и что «ничто не ново под луной». Наннелли и Бернштейн (1994) с некоторым сожалением приводят этот вывод в своем собственном руководстве, но это не что иное, как следствие классической теории тестов.

Подведем некоторые итоги. Концепция надежности является важной и сложной. В руководствах по проведению психологического оценивания приводится описание различных коэффициентов надежности. Их вычисление основано преимущественно на классической теории тестов. Концепция надежности развивалась внутри психологии, но она используется и в рамках других наук. Можно встретить замечания, что в психология чрезмерно внимательна к ошибкам, потому что сами психологические концепции содержат слишком много ошибок. Однако Наннелли и Бернштейн (1994) замечают, что проблемы коррекции ошибочного оценивания не чужды медицинским и естественным наукам. Так, например, при измерении давления может быть зафиксировано некоторое непостоянство, как и при измерении психологических характеристик (Lenders, 1988).

3.1.3. Проблема согласованности трех уровней

психодиагностики при определении надежности

В предыдущем разделе описывались житейские представления о надежности и психологические концепции надежности, обсуждались различия между ними. Житейские представления о надежности можно углубить и дополнить положениями научной психологии о существовании случайных ошибок, согласованности и повторяемости. Также возможна и обратная ситуация, когда представления из житейской психологии дадут толчок для разработки содержания понятия надежности.

Отношение между математическим определением надежности и содержанием психологических теорий нельзя назвать простыми и ровными. Леви (1974, с. 21) критиковал классическую теорию тестов, отмечая, что «… теория тестов сильна своим практическим применением, но ее отношение к другим психологическим теориям сомнительно, неясно. Виттманн (1988) делает замечание сходного характера, а Вуд (1989) считает, что то же самое может быть высказано и по адресу современной теории анализа ответов на задания теста (IRT).

Конечно, психометрики выдвигают аргументы в свою защиту, отмечая при этом недостатки содержания самих психологических теорий и говоря о том, что исследователи не понимают теории тестов. Например, Мелленберг (1980) приводит в качестве примера исследование клинического психолога, который оценивал “степень адаптированности”, рассматривая различия между показателями, полученными при характеристике » реального Я» и «идеального Я».

Клинический психолог был удивлен, не обнаружив корреляции этих показателей с другими индикаторами адаптации. Мелленберг отметил ненадежность показателей различий и вероятность того, что существует корреляция между двумя этими измерениями. В полученных результатах нет ничего удивительного, считает Мелленберг: они могли быть предсказаны, исходя из определения надежности показателей различий в классической теории тестов.

Иногда происходит просто путаница. Автору этой книги предложили однажды высказать свое мнение о тесте, который оценивает способность детей воспринимать предмет, показанный с разных сторон, как тождественный,. Методика основана на концепции Пиаже о понимании необходимости учета точки зрения на объект. Пиаже использовал известный тест с тремя горами: детям предлагалось описать, что, по их мнению, видят сверстники, которые смотрят на горы с другой позиции. Малыши допускают ошибки при выполнении данного теста. Эти ошибки учитывались при начислении ребенку баллов за выполнение теста. Для детей разного возраста был определен коэффициент согласованности. Он оказался ниже для старших и выше для детей из семей с низким социально-экономическим статусом. Однако, результат объяснялся той простой причиной, что показатели разброса для малышей и выходцев из семей с низким социально-экономическим статусом были больше. Этот феномен является феноменом развития, т.к. более старшие дети делают меньше ошибок при решении заданий на понимание перспективы. Следовательно, при работе с данным тестом должен быть использован другой индекс надежности.

Попытка связать психологию, занимающуюся разработкой предметного содержания, с психометрикой или со статистической моделью может быть обнаружена в разработках по теории аспектов (the facet theory).

В рамках этой теории анализируются корреспондирующие и независимые аспекты конструктов и идет поиск приемлемых способов их оценивания (см. например, De Groot, Medendorp, 1986).

Как показано в этой главе, взаимодействие между уровнями протекает не всегда гладко. Временами оно ведет к трениям между психологами, занимающимися разработкой предметного содержания, с одной стороны, и психометриками — с другой. Это противостояние имеет, вероятно, тот же характер, что и противоречие между клиническим и статистическим подходами (см. гл. 4).

Однако это противостояние способствует также и лучшему пониманию концепций надежности, повторяемости, внутренней согласованности и источников случайных ошибок, а также способов их оценивания.

3.2. Валидность

Представления о валидности существуют как на уровне здравого смысла, так и в форме психологической концепции. Понятие валидности занимает важное место в каждой научной дисциплине. В психометрии понятию валидности уделяется не слишком много внимания по сравнению с концепцией надежности. Концепция валидности относительно трудна для изучения и для математического определения. Теория анализа ответов на задания теста (IRT) может быть рассмотрена как специфический вклад психометрии в развитие концепции валидности. Кроме того, существует несколько различных моделей и статистических процедур, которые можно использовать при изучении валидности. Принято считать, что каждая процедура, помогающая ответить на вопросы, имеет отношение к валидности. В последующих главах приводится описание валидности на уровне здравого смысла, представлено философское понимание валидности, в частности те аспекты, которые существенны для психологической науки. Эта информация приводится для того, чтобы определить, насколько ценным для психодиагностики является житейское и философское понимание валидности. Далее рассматривается использование концепции валидности в психологическом тестировании и экспериментальном (и квазиэкспериментальном) исследовании.

CH3RED — Стр 2

3.2.1. Представление о валидности на уровне здравого смысла

Валидность означает «быть валидным», т. е. действительным, эффективным, имеющим реальное отношение к чему-то. О придании валидности говорят, например, в случае утверждения документа, результатов голосования, вступления в силу закона и т. д. Методику или процедуру называют валидной для определенных целей. Но невозможно сказать о человеке, что он «валиден» аналогично тому, как мы говорим о его “надежности”. Представление о валидности на житейском уровне содержит отчасти и философские элементы. Например, ответ детей на вопрос: «Как ты узнал, что другие дети говорили правду?» — содержит те же критерии, которые встречаются и в философских работах (Van Houdt, 1994).

В своих ответах дети от 7 до 11 лет указывают на:

1) связь между утверждениями человека и реальными событиями;

2) связь утверждения с предыдущими суждениями (связанность);

3) тот факт, что проблема решится, если будет рассказано, что случилось (прагматическая полезность);

4) согласие между независимыми наблюдателями (интерсубъектный консенсус);

5) тот факт, что никто не отрицает истинность утверждения (ассенсус).

3.2.2. Житейские представления о валидности

и валидность в психодиагностике

Принцип корреспонденции и валидность. Понятие валидности используется для характеристики теста, процедуры или утверждения. Часто валидность определяется как теория (принцип) корреспонденции. В рамках этой теории определяются отношения между субъектом, познающим мир, и объективной реальностью. Существует несколько вариантов этой теории. До ХIХ века наиболее распространенной была теория истины. Первым исследователем формальной истинности объяснения, а затем и создателем теории корреспонденции был Аристотель. Вслед за ним Фома Аквинский попытался определить истину как соответствие (adequatio) процессов познания (intellectus) реальной действительности («реальности вне языка») (res).

В этих теориях центральным является отношение между утверждением (суждением) в той или иной форме (на уровне житейских представлений, на языке логики или математики) и реальным миром. Это очень старые вопросы о взаимоотношениях между объектом и субъектом, между бытием и сознанием, между реальной действительностью и нашим представлением о мире, между нашими суждениями и реальным положением дел.

Эти вопросы являются важными и для психодиагностики, например вопрос о том, как соотносятся оценки, данные психодиагностом, и оцениваемые характеристики личности. Точна ли оценка психодиагноста? Еще один случай проявления теории корреспонденции можно рассмотреть на примере теории когнитивного развития Пиаже, согласно которой развитие интеллекта ребенка проходит несколько стадий от сенсомоторного интеллекта до стадии формальных операций, и только на последней стадии у ребенка возникает способность понимать основные свойства реальности.

Теория корреспонденции допускает определенное расхождение мнений. Возникает вопрос: какой язык наиболее адекватен реальности — используемый в повседневном общении, логический или математический? Существуют попытки разрешения этого вопроса путем создания формализованного метаязыка (например, теория формальной семантики Тарского, 1949).

Представители философии обыденного языка (например, Searle /1969/) изучают особенности используемого в повседневном общении языка, при этом особое внимание уделяется рассмотрению функций языка. Часто при описании исследований можно встретить термин «наивные реалисты», применяемый для обозначения людей, использующих обычный язык. «Наивностью» в данном случае называется представление человека о том, что его опыт, восприятие и мысли суть непосредственное отражение окружающего его реального мира. Логический и математический способы передачи информации формальны и абстрактны. Они слишком далеки от языка повседневного общения. Другой дискуссионный вопрос — это вопрос о том, сам ли человек, познавая мир, привносит в него что-то или же действительность привносит нечто в «человека познающего». Что первично — законы нашего мышления или реальность?

Эти вопросы носят философский характер, но оказывают влияние и на психодиагностику. Например, относится ли данный вопрос к когнитивному развитию или же это проблема адекватной операционализации конструкта? Имеет ли гипотетический конструкт дополнительный смысл? Здесь имеется в виду, что конструкт не полностью покрывается операциональным определением. Эти вопросы не становятся предметом рассмотрения в конкретных психологических исследованиях, поскольку велик риск того, что эмпирические исследования на данную тему увязнут в зыбкой почве философских вопросов, ответы на которые вряд ли могут быть найдены.

Критерий когеренции и валидность. Валидность может быть рассмотрена как соответствие критерию когеренции. В этом случае какое-либо утверждение должно соответствовать не реальной действительности, а другим утверждениям. В некоторой единой системе утверждения должны быть связаны между собой. Новое утверждение должно “подходить” ко всем остальным, не обнаруживая каких бы то ни было противоречий. В случае, если существуют какие-либо расхождения, возможно два варианта решений: либо новое утверждение должно быть отвергнуто, либо нужно отказаться от целой системы. Второй вариант не менее вероятен, чем первый, поскольку вполне может быть так, что собранные воедино утверждения не имеют отношения к действительности, а являются лишь «причудой» создателя теста. От подобного положения дел в определенной мере нас предохраняет то, что существуют некоторые общепризнанные представления об окружающей действительности, настолько очевидные, что нет необходимости их доказывать. Это так называемые «Protokollsatze»*, т.е. основополагающие утверждения, которые не противоречат опыту. Логический позитивизм, играющий важную роль в психологии, имеет в своей основе несколько аксиоматических утверждений, напоминающих «Protokollsatze». Нейрат (1931) считал неверным сравнение высказываний с реальностью. Все знания принимают форму утверждений, и последнее не должно противоречить другим утверждениям.

Критерий когеренции подвергается критике, и вопрос о нем вызывает споры. В каких именно случаях утверждение считается противоречивым? На этот вопрос обычно отвечают формально. Такой ответ не подходит для утверждений, где преобладает смысловое содержание. Психологи оперируют смыслами, их конструкты не являются чисто формальными; высказывания клиентов не понятны в формально логическом смысле. Другая линия критики указывает на то, что возможна иная система связанных утверждений, относящихся к той же области реальности.

Критерий когеренции важен для психодиагностики. При изучении описаний (повествований — narratives) связанность отдельных высказываний о событиях, чувствах и поведении может быть критерием валидности этого описания или повествования. До сего времени психодиагносты редко изучали повествования, предметом их рассмотрения являлись преимущественно анамнез, интервью и тестовые показатели. Наконец, требование внутренней согласованности заданий теста может быть сопоставлено с критерием когеренции.

Критерий полезности и валидность. Рассмотрим практическое значение (полезность) или функциональность критерия валидности. В данном случае речь идет не о соответствии аспектам реальности и не о соответствии другим утверждениям. Здесь подразумевается прежде всего то, что утверждения, содержащие в себе некоторую информацию, и идеи дают человеку возможность с большим или меньшим успехом взаимодействовать с реальной действительностью. Для определенных целей критерии являются полезными и функциональными. В психодиагностике существуют нормативные модели (модели решения и исследования), которые максимизируют определенный критерий. Цель должна быть достигнута с использованием минимальных усилий. В главе 7 будут приведены некоторые примеры. Это модель полезности ожидаемых последствий (the multy-attribute utility theory).

Споры ведутся и по поводу этого критерия. Все ли то, что полезно, истинно? Одинаково ли полезно это понятие для каждого? Или же то, что подходит одному человеку, ничего не дает другому? Или вообще является нежелательным для другого человека?

Критерий межличностного соглашения. Критерий интерсубъектного соглашения иногда определяется как консенсус (Habermas, 1973).

Подход Хабермаса к пониманию этого критерия содержит ряд конструктивных элементов. Согласно его точке зрения, содержание или материал, по поводу которого достигается согласие, считается понятным. Утверждения являются истинными в том смысле, что они соответствуют реальным событиям. События и «факты», полученные в результате эмпирических исследований, требуют удовлетворительной специфической интерпретации, которая следует за “herrschaftfreie”* диалогом. Диалог понимается как коммуникативный акт, удовлетворяющий следующим требованиям. Истинными считаются утверждения, описывающие внешнее положение вещей. Утверждения истинны, если намерения, чувства, потребности не скрываются, а открыто выражаются в процессе коммуникации. Кроме этого, утверждения должны соответствовать нормам и ценностям общества. Имея такую информацию, слушатель принимает или не принимает утверждение.

В психодиагностике интерсубъектность выполняет несколько функций, одна из которых соответствует функции надежности.

Понятие консенсуса играло значительную роль в разработке пятифакторной модели личностных свойств Хофсти (1992, 1994).

Выбор этих пяти факторов основан на согласии мнений репрезентативной выборки, которая оценивала достаточно полный список прилагательных, описывающих личностные характеристики. Эта пятерка — наименьшее число прилагательных, необходимых для описания личностных характеристик любого человека. Если кто-то скажет, что использует другие, не входящие в состав пятифакторной модели прилагательные, то в этом случае Хофсти может ответить: то, что этот человек называет «храбрым», понимается в соответствии с итогами исследования-референдума как «высокомерный» и «самоуверенный». Таким образом, каждый человек может вступить в противоречие с установленным другими консенсусом.

Подведем итоги. Очевидно, что различные концепции валидности (в эпистемологическом понимании) являются значимыми для психодиагностики. В психодиагностике и в психологии не существует одного, превалирующего типа валидности. Хотя логический позитивизм оказал большое влияние на используемые критерии, валидность — это не просто понятие, заимствованное из эпистемологии. Более того, можно выделить различные уровни психологической теории (Snow, 1973).

Это означает, что “Protokollsatze”, в качестве аксиомы предпочитаемое логическими позитивистами, не является единственным уровнем теории. Существуют также таксономические теории и, наконец, простые рабочие гипотезы.

3.2.3. Как возникает представление о валидности?

Приобретение валидных знаний можно изучать как феномен развития. Специалист в области педагогической психологии, Перри (1970) изучал то, каким образом у студентов Гарвардского университета в процессе образования изменяются представления об истине, валидности и ценностях. С помощью серии повторных интервью он провел исследование на 140 студентах. В полученных материалах он выделяет 9 позиций, которые можно объединить в три категории.

1) Первая категория характеризуется пассивным приобретением знаний и восприятием преподавателя как несомненного авторитета с точки зрения знаний.

2) Вторая категория ответов показывает понимание студентами того, что любое знание зависит от контекста и является относительным. Соответственно, и точка зрения преподавателя рассматривается как одна, произвольно выбранная, из множества возможных.

3) Третья категория ответов студентов показывает, что они формируют свое собственное видение мира и ощущают необходимость действовать на основе собственных знаний и практически использовать их в конкретных ситуациях.

Перри (1970) показал, что представления об истине и валидности изменялись в процессе обучения в университете.

Китченер и Кинг (1981) заинтересовались тем, как молодые люди в возрасте 15 лет и старше представляют реальность, как они понимают источники знаний о реальности и что они думают о природе знаний. Полученные результаты авторы разбили на 7 уровней — “шагов”, последовательность которых можно рассматривать как отражение этапов развития. Первый “шаг” выявил представление о том, что знания находятся где-то “вовне” (“out there”), что они сильно зависимы от мнений экспертов или авторитетов и что мнение в общем не нуждается в доказательстве, хотя наше собственное мнение и должно быть сходно с мнением экспертов. Пятый шаг отражает понимание того, что в какой-то мере реальность существует в уме наблюдателя, что знания до некоторой степени субъективны, что для приобретения знаний со стороны человека необходимо приложение усилий и что истинное знание требует соблюдения методологических правил. Заключительный, седьмой, этап подчеркивает идею о том, что объективный мир существует, но с трудом поддается пониманию. Однако его познание возможно путем проверки идей и гипотез. Полученные знания субъективны и нуждаются в обсуждении с экспертами и исследователями. Знание на этом этапе представляется как постепенное приближение к реальности с помощью более или менее вероятных теорий, идей и гипотез. Может быть достигнуто достаточно близкое приближение к реальности. Любое полученное знание нуждается в подтверждении на основе использования методологических правил и критериев валидности. Нет критериев на все случаи жизни. Существуют ситуации, когда возможно их изменение. Оцениваются объективность знаний и их интерсубъектный характер.

В ходе этого исследования было также показано, как у людей начиная с 15 лет и старше изменяются представления о валидности и валидном знании. Последний шаг содержит в большей или меньшей степени эпистемологическую концепцию социальных наук и более частную сферу — психологию как науку о человеческом поведении.

Кроме того, исследование представлений детей о правде и лжи показало, что дети от 5 лет и старше полагаются на «факты», то есть для них наиболее важной является связь между утверждениями и реальными событиями (Strichartz, Burton, 1990).

В представлениях об истине детей от 5 до 8 лет важным является соответствие между утверждениями и реальными событиями, и на это представление не влияет замечание о том, что кто-то верит или не верит этой информации (Bussey, 1992).

Начальная форма представлений об истине опирается на простую корреспонденцию, и лишь впоследствии появляются такие критерии, как консенсус, полезность и когерентность (Van Houdt, 1994).

Например, изучалось, каким образом и когда дети постигают принципы коммуникативного консенсуса (Adalbjarnadottir, 1992), описанные Хабермасом (1984).

Подведем некоторые итоги. Представление о знании в ходе развития ребенка проходит путь от наивного реализма к постижению реальности с помощью теорий, идей и гипотез. В процессе развития постепенно приходит понимание необходимости проверки и подтверждения знаний, все большее и большее значение приобретают методологические правила. Этот процесс познания начинается с апелляции к авторитетам, но с течением времени важнее роль общепринятых, хотя вовсе не незыблемых, методологических правила.

3.2.4. Концепция валидности в психодиагностике

Для получения информации о людях и группах в психодиагностике используются тесты и другие процедуры. В главе 1 утверждалось, что такого рода изучение идет дальше оценки собственно тестируемого поведения. В диагностике обычно различают три типа валидности: прогностическую, конструктную и содержательную.

Валидность — это достаточно сложное понятие. В качестве сходных с ним понятий могут быть названы правдивость, полезность, точность, возможность интерпретации (интерпретируемость), прогностическая способность и помощь в принятии решений. Как уже подчеркивалось, разные типы валидности имеют одну и ту же основу. Однако понятие валидности должно быть четко определено применительно к различным целям, аспектам и контекстам. Такая дифференциация дает информацию о том, в каком контексте концепция валидности может быть использована.

Первая дифференциация типов валидности: прогностическая валидность по внешнему критерию, конструктная и содержательная валидность. В каждом руководстве по психодиагностике можно встретить описание данных трех типов. Гийон (1980) заметил, что эти три типа стали чем-то «… вроде святой троицы». Под прогностической валидностью понимается способность к предсказанию поведения испытуемых на основе критериев. Другое название этого типа валидности — валидность по критерию. Критерием в большинстве случаев выступает социально-значимое поведение, например, успеваемость в школе, профессиональная деятельность или социальная адаптация. Прогностическая валидность теста оценивается по тому, насколько данный прогноз получает подтверждение в будущем или в настоящее время (соответственно прогностическая и конкурентная валидность).

Конструктная валидность имеет отношение к теоретическому конструкту самому по себе и включает в себя поиск факторов, объясняющих поведение при выполнении теста. Как особый тип конструктная валидность канонизирована в статье Кронбаха и Миля (1955).

Эти авторы оценивали с помощью названного типа валидности все тестовые исследования, которые не были прямо направлены на предсказание некоторых значимых критериев. Это исследование содержало информацию о психологических конструктах. Содержательная валидность требует того, чтобы каждое задание, задача или вопрос, принадлежащие к определенной области, имели равные шансы стать заданиями теста. Валидность по содержанию оценивает соответствие содержания теста (заданий, вопросов) измеряемой области поведения. Некоторые авторы характеризуют этот тип валидности как аспект надежности. Другие авторы (как, например, Lumsden, 1975, с. 270) называют его наиболее важным типом валидности. Поскольку Лумсден считает полную конструктную валидизацию невозможной, он предпочитает так называемый “смягченный подход в требованию ключевых ответов” (“lower keyed approach”), расширяя тем самым границы понятия содержательной валидности. Среди других возможных методов он обращается к разработке тестовых заданий в соответствии с определенными правилами. Оценка содержательной валидности в определенной степени зависит от мнений экспертов. Нередко считается, что эмпирические исследования содержательной валидности отсутствуют. Однако предложенный Кронбахом (cм. Crocker, Aldgina, 1986, с. 222) эксперимент с дублированным построение теста показывает, что проведение исследований содержательной валидности возможно, и такие исследования весьма полезны. Для осуществления этой идеи требуются группы независимых разработчиков тестов, имеющих в своем распоряжении определения содержания заданий, правила выборки заданий из области изучаемых феноменов, правила для проверки заданий и единые критерии для интерпретации. Тесты, составленные двумя командами разработчиков, проводятся на выборке испытуемых. Надежность тестов подсчитывается путем расщепления заданий на две части, в результате чего получают индекс содержательной валидности.

Описание этих трех типов валидности встречается во всех учебниках по психодиагностике. Кроме них выделяются также и другие специфические виды валидности. Мы заимствуем их описание у Дренса (1975).

Некоторые авторы (например, Guilford, 1954) приводят описание еще большего числа типов валидности.

Вторая дифференциация валидности: специфические типы. Первый специфический тип — это “внутренняя валидность”. Она относится к требованию, согласно которому корреляция не должна быть тривиальной или тавтологичной. Тестируемые отношения не включаются в определенные понятия. Исследования не должны идти “по кругу”. Это резонные замечания. Однако не так легко избежать чисто семантического уровня разработки психологических конструктов. Например, социальные конструктивисты Смедслунд и Герден упрекают психологов за то, что они занимаются проверкой не реальных гипотез, а тавтологий.

“Факторная валидность” имеет отношение к процедурам многомерного анализа и теории, которая преимущественно используется при конструировании тестов. Считается, что тест обладает факторной валидностью, если он имеет высокую нагруженность по известным факторам. Одним их первых этот тип валидности определил Гилфорд. Предложенная им концепция структуры интеллекта обусловила разработку “тестов одного фактора”, что на самом деле является разработкой простой структуры Терстоуна. Этот тип тестов направлен на измерение только одного конкретного фактора.

“Синтетическая валидность” содержит информацию о том, могут ли данные о валидности теста быть перенесены с одной ситуации на другую. Это имеет важное значение в тех случаях, когда критерий является комплексным. Преставляется ценным иметь в своем распоряжении тест, который предсказывает элементы, связанные с различными критериями.

“Конструктная валидность” обозначает корреляцию данного теста с уже существующими тестами того же типа.

“Внешнюю (очевидную) валидность” по-другому можно определить как валидность “с первого взгляда”, подобно тому как мы говорим о “любви с первого взгляда”. Имеется в виду, что первое впечатление о том, что оценивает тест, соответствует связанному с ним критерию. Это выглядит приемлемым. Но что произойдет, если без проведения каких бы то ни было эмпирических исследований тест будет назван валидным только на том основании, что его критерий представляется вполне очевидным? Дренс (1975) выступает против такого подхода и приводит примеры того, как тесты, казалось бы, предсказывающие критерий, на самом деле это делать не могли. Так, при отборе водителей проводятся испытания в специальном водительском кресле, но они не имеют никакой прогностической валидности. То же самое произошло и с тестом Бурдона-Виерсма при диагностике эпилепсии и использовании на вступительных экзаменах в высшую школу. “Внешняя валидность” предполагает существование прогностической валидности, которая при этом не исследуется эмпирически, а иногда фактически просто отсутствует. Но есть и обратная сторона проблемы. Предположим, что имеется тест, обладающий прогностической валидностью, но оцениваемый экспертами как не имеющий отношения к работе или к школьным достижениям. Естественно, что этот тест не будет допущен к использованию в качестве методики для отбора.

Понятие “инкрементной валидности” относится к требованию, согласно которому тест должен дополнять уже известную прогностическую валидность, основанную на демографических и социально-экономических данных. Этот тип валидности имеет смысл, поскольку валидные методики обязаны конкурировать с имеющимся базальным уровнем знаний. При этом, однако, не отбрасывается тот факт, что корреляции тестовых показателей с демографическими переменными являются информативными показателями, так как тесты могут оказаться пристрастными в отношении определенных групп.

Третья дифференциация: валидность в (квази)экспериментах. Вне психодиагностики в квазиэксперименте различаются четыре типа валидности. Кук и Кэмпбелл (1976) описывают концептуальные схемы исследований, проводимых в педагогической и инженерной психологии. Назначение эксперимента — выявить причинно-следственные связи. План такого исследования содержит указания относительно того, кто, где и когда может подвергаться наблюдению. С помощью идеи Фишера об “идентичных двойниках на все случаи жизни” и случайного выбора условий для субъекта проверяются возможные гипотезы о причинах поведения. В отличие от этого цель квазиэкспериментального исследования состоит в выявлении воздействия той или иной переменной (например, терапии) на зависимые переменные, в то время как случайное соответствие условиям исключено. Различаются следующие виды валидности.

1. Внутренняя валидность (internal validity).

Это понятие относится к тому факту, что наблюдаемые изменения зависимой переменной могут быть приписаны другой переменной как “независимой”. Источниками непреднамеренных изменений являются характеристики контрольной и экспериментальной групп, например различия в развитии, отборе, в избирательном участии и выпадении из ситуации эксперимента, а также взаимодействие между этими характеристиками. Факторами, влияющими на характеристики переменных, могут стать сами методики и ситуация эксперимента, например, феномен статистического сведения к среднему, повторное тестирование, тесты, оценивающие различное поведение и события, воздействующие на одни группы и не оказывающие никакого влияния на другие.

2. Валидность статистического вывода. Для того, чтобы выявить влияние независимых переменных при проведении экспериментов, внутриклеточная вариативность матрицы распределения (различия между субьектами) должна быть ограничена. Валидность статистического вывода возрастает (is ameliorated) при увеличении внутриклеточных различий, например, при малой (нерепрезентативной) выборке испытуемых, при разнородности их состава, при неправильном предъявлении независимых переменных или при отсутствии должного контроля за условиями работы контрольной и экспериментальной групп.

3. Внешняя валидность (external validity).

Целью любого исследования является обобщение результатов. Но при взаимодействии двух независимых переменных результаты могут приобретать специфический характер, так что может быть неясен эффект каждой из них. Существуют и другие примеры взаимодействия на уровне статистики — между независимой переменной и специфическим расположением субъектов, особенностями времени и ситуации.

4. Конструктная валидность. Этот тип валидности имеет отношение как к зависимой, так и к независимой переменной. Эти переменные должны быть адекватно операционализированы. Здесь не должно быть эффектов «недо…» или “пере…», то есть должно существовать соответствие между сходными и несоответствие между несходными конструктами, причем на содержание конструктов не должны оказывать влияние методы сбора данных. Прямое отношение к конструктной валидности имеют также ожидания экспериментаторов и участников эксперимента, поскольку их гипотезы и предположения могут влиять на результаты.

Таковы различия типов валидности для тестов и квазиэкспериментов (см. Cook, Shadish, 1994).

Понятие валидности конкретизировалось также применительно к разным контекстам. В то же время существует тенденция унифицировать понятие валидности.

Интегрированная концепция валидности. Мессик (1988, 1989, 1994) указывает на общие элементы при рассмотрении концепции валидности. Он определяет валидность следующим образом: «Валидность — это обобщенное оценочное суждение о том, насколько адекватными и приемлемыми (на эмпирическом и теоретическом уровнях) являются действия и выводы, основанные на информации о тестовых показателях или результатах других способов оценивания” (Меssick, 1989, с. 13).

Валидность не сводится к выводам, вытекающим только из тестовых показателей. Это понятие имеет отношение и к другим методам исследования и фиксации относительно устойчивого типа поведения. Причем относительно устойчивым может быть названо поведение не только личности, но и группы, такое понятие может быть использовано и при характеристике ситуаций, объектов и социальных институтов. Это определение охватывает столь же большую область, как и определение оценивания, данное Джадером и Петерманном (1992) и приведенное в главе 1. Мессик (1988, с. 3) выделил в качестве наиболее важных проблем валидности следующие вопросы: возможность интерпретации, релевантность, возможность практического использования тестовых показателей. Они относятся к трем наиболее известным типам валидности. Он добавляет также четвертый тип: функциональную ценность показателей с точки зрения результатов их социального использования. Автор подчеркивает, что надежность, валидность и объективность тестов — это не только методические требования. Тесты имеют также и социальное значение, поскольку они используются при оценивании людей и условий, в которых те живут. На это также указывает и Кронбах (1988).

Вопрос заключается не только в том, является ли методика валидной, но также и в том, отвечает ли она нормам и ценностям общества.

CH3RED — Стр 3

Независимо от Хабермаса (1973) два других автора подчеркивают, что валидность только тогда адекватна, когда она соответствует социальным нормам. Хабермас назвал это «Richtigkiet»*. Конкретный пример того, что последствия использования теста не соответствуют социальным нормам и ценностям, описан Кронбахом (1988).

Он указал на то обстоятельство, что, во-первых, результаты тестирования влияют на способ обучения в том отношении, что учителя акцентируют внимание на изучении фактов, и, во-вторых, тесты могут оказаться “пристрастными” в отношении некоторых групп.

Мессик считает наиболее важной понятие конструктной валидности и доказывает, что прогностическая и конструктная виды валидности могут быть рассмотрены как две категории этого типа валидности. Для объяснения связи между предиктором и критерием необходимо наличие теоретической возможности такой связи, например, посредством общего конструкта.

Содержательная валидность предполагает выбор заданий из соответствующей области, которую чаще всего образуют те или иные знания, умения, способности, навыки. Так, соблюдая требования валидности, можно косвенно оценивать знания, навыки, способности.

Валидность — это понятие открытого типа, предполагающее выведение содержательных заключений путем анализа полученных показателей. Нужно ответить на следующие вопросы:

— Корректны ли задаваемые вопросы?

— Все ли важные элементы рассматриваются?

— Существуют ли способы контроля и учета побочной вариативности тестовых показателей?

— Отражает ли процедура подсчета баллов процессы, происходящие в области заданий, и согласуется ли такая процедура с этой областью?

— Имеются ли данные, подтверждающие, что тестовые показатели отражают именно то, что они должны отражать на самом деле? Например, являются ли они показателями личностной черты, которую важно учитывать при профессиональном отборе, тренинге или в ходе терапевтического процесса?

— Существуют ли альтернативные способы интерпретации тестовых показателей или альтернативные способы обработки?

— Являются ли полученные показатели надежными и могут ли быть они обобщены по содержанию, контексту и группам?

— Учитываются ли возможные последствия использования показателей теста?

— Можно ли применять тестовые показатели в конкретных ситуациях?

— Корректно ли используется информация о тестовых показателях?

— Соответствуют ли близкие и далекие по времени последствия применения теста его исходным целям и нет ли нежелательных побочных результатов?

Исследование валидности предполагает приписывание тестовым показателям эмпирических значений, которые не противоречат принятым нормам и ценностям. Ясно, что интерпретация тестовых показателей имеет ценностный характер. При интерпретации результатов выполнения теста как показателей развития интеллекта, когнитивной сложности и некоторых других безоговорочно принимается то положение, что “интеллектуальный” и “сложный” — это “лучше”, чем “неинтеллектуальный” и “простой”.

3.2.5. Пятидесятые годы: новые акценты

в исследовании валидности

Первоначально психодиагностика рассматривалась всего лишь как прикладная психология. Акцент делался на предсказании релевантных критериев. В 1955 г. в статье Кронбаха и Миля проблема тестовой валидности была впервые поставлена как теоретическая. Мессик использовал согласованные тестовые показатели как источник теоретически и эмпирически обоснованных утверждений, характеризующих личность, ситуации, институты и даже объекты. Кроме того, в этих утверждениях учитывались также социальные ценности и нормы. Таким образом, понятие валидности в психодиагностике развивалось.

В истории развития концепции валидности можно проследить, что становилось основным предметом рассмотрения в тот или иной период и каким образом аккумулировались требования. Первый акцент был сделан на предсказании поведения. Вначале доминировал прагматический, а не теоретический интерес (Angoff, 1988).

Интересовали задачи, пригодные для тех или иных профессий. Это стало отправной точкой как при разработке тестов, так и при определении критериев. Критерий необходимо определять объективно, и тесты должны быть стандартизованы. Для применения в образовании были разработаны критериально-ориентированные тесты. Следующий акцент был сделан на развитии понятия конструктной валидности. Aнгофф (1988) назвал это понятие изобретением “магического средства”.

Развитие концепций валидности сопровождалось совершенствованием статистических методов, что в свою очередь оказывало влияние и на становление понятия валидности. Хорошо известный пример — это многометодная матрица свойств Кэмпбелла и Фиске (1959).

Оценивалась валидность при изучении различных черт при помощи разнообразных методов. Интерес был сконцентрирован на рассмотрении валидности черт. Предполагалось, что различные черты должны расходиться (дивергировать), а сходные — конвергировать, то есть речь шла о конвергентной и дискриминантной валидности. Допускалось, что отдельные черты будут нечувствительны к используемым методам. Применение этой матрицы было очень популярным и рассматривалось как метод конструктной валидизации. Магнуссон (1961, 1967) описал этот метод в своей книге по теории тестов и назвал его процедурой «полной конструктной валидизации».

В истории дифференциации и интеграции концепции валидности присутствует некоторая волнообразность. Данное очень старая проблема, и она была предметом размышлений у греческих философов. Концепция допускает существование обоих подходов — и холистического, и атомистического.

В последнее десятилетие было добавлено еще одно новое значение понятия валидности. Так что можно говорить о дальнейшей дифференциации этого понятия. Представляется интересным, что само это понятие как бы привносит некое единство (или объяснение) в разнообразие коэффициентов прогностической валидности одного и того же теста. Данное понятие представляет собой обобщение валидности. Исследование прогностической валидности одного и того же теста по различным, но связанным между собой критериям обнаруживает его разную ценность. Таким образом, по-видимому предпочтительнее подсчитывать новые коэффициенты валидности для каждого критерия. Шмидт и Хантер (1977) полагают, что существует один “истинный” коэффициент прогностической валидности и что расхождения коэффициентов валидности теста по различным, но сходным критериям представляют собой дисперсию ошибки. Они указали на 7 источников дисперсии ошибки:

— ненадежность в оценивании критерия;

— ненадежность теста;

— ограничение интервала;

— ошибки при составлении выборки;

— тип критерия и значимость;

— ошибки при подсчете и письме;

— небольшие различия в структуре факторов между задачами определенного типа.

Авторы попытались оценить источники этих систематических ошибок. Были проведены исследования, в которых подсчитывались коэффициенты валидности для сходных тестов и критериев. Подсчитывалась дисперсия в распределении коэффициентов валидности. Из этой дисперсии вычитались все показатели дисперсии, связанные с перечисленными источниками ошибок. Таким образом может быть подсчитан истинный коэффициент валидности прогностического критерия. Подобные расчеты действительно проводились авторами. Например, авторы оценивали некоторые из возможных источников ошибок в предсказании успешности работы механиков службы сервиса с помощью тестов на понимание принципов механики, а также при определении возможной эффективности труда работников службы быта с помощью интеллектуальных тестов. Этот тип исследования может быть рассмотрен как мета-исследование. В психодиагностике разработаны также статистические методы для оценки источников ошибок (Schmidt, Law, Hunter, Rothstein, Pearlman, McDaniel, 1993).

Но остается вопрос о том, как могут быть использованы знания о способах оценки истинного коэффициента корреляции и представления о возможных источниках ошибок. Используется ли реально эта информация практическими психологами или же они до сих пор обречены на то, чтобы подсчитывать коэффициенты валидности для каждой группы и для каждого критерия?

Подведем итоги. Итак, в истории развития представлений о валидности первым предметом рассмотрения была прогностическая валидность. Постепенно представления о валидности становились все более дифференцированными, и в качестве объединяющей их силы выступила концепция конструктной валидности. Сравнительно недавно была разработана обобщенная концепция валидности для объяснения различий между коэффициентами прогностической валидности сходных тестов по сходным критериям.

3.2.6. Статистическая оценка валидности

Валидность представляет собой весьма широкое и сложное понятие. Этим и объясняется отсутствие специфических математических моделей или статистических методик для оценки валидности. Современная теория тестов вносит свой довольно скромный вклад в развитие понятия валидности (см. гл. 1) Для объяснения того, как даются ответы на отдельные задания теста или группу заданий, были разработаны одномерные модели изучаемых (латентных) характеристик. По мнению Гольдштейна и Уда (1987, р. 163-164), в теории ответов на задания теста центральной проблемой является вероятностная природа ответов, а не то, почему люди дают правильные или неправильные ответы. С точки зрения авторов, часто недостатком нелинейных логистических моделей является их относительная математическая сложность, поскольку она может заслонять исследуемое реальное содержание. Эта критика не умаляет вклада современной теории тестов в объяснение тестируемого поведения.

Поскольку существует множество различных значений валидности, при изучении валидности в психологии используется целая гамма способов анализа данных психологии. В связи с этим при обсуждении проблемы валидности в учебниках авторы делают это несколько по-разному. Дренс и Сиджсма (1990) ограничиваются такими методами анализа данных, как регрессионные анализ и прогноз, факторный анализ (без их последующей разработки).

Крокер и Альджина пошли на шаг дальше. Они описывают процедуры шкалирования, модели линейного прогноза (при рассмотрении прогностической валидности) и факторный анализ (для конструктной валидности).

Наннелли и Бернштейн (1994) продвинулись еще дальше в использовании статистических процедур. Кроме перечисленных методик они применяют дискриминантный анализ, многомерное шкалирование и др.

По мере разработки новых методов анализа данных они будут использоваться при исследовании валидности. Трудно найти специфические связи между исследованиями валидности и ограниченным набором специфических техник. Однако некоторое устойчивые связи все же сложились. Исследования прогностической валидности связаны главным образом с моделями линейного прогноза (корреляции и регрессия).

В исследовании конструктной валидности общей линейной модели используются многометодная матрица свойств и факторный анализ. Кронбах и Миль еще в 1955 году составили перечень множества процедур конструктной валидизации.

Изучение различий между группами. Если существует теоретическое предположение о том, что между двумя группами имеются различия в отношении определенной поведенческой характеристики, то можно попытаться оценить различия между средними показателями.

Изучение матриц корреляции и факторного анализа. Первоначально эти методы оптимистически рассматривались как средства выявления основных параметров мышления и характеристик личности (см. Cronbach, Meehl, 1955, с. 285).

Изучение внутренней структуры тестовых заданий. Это имеет отношение к многочисленным способам анализа заданий.

Изучение изменений во времени. Интерес сконцентрирован преимущественно на том, насколько характеристики остаются стабильными с течением времени.

Изучение процесса. По мнению авторов, внимание должно быть уделено анализу поведения во время работы с тестом, необходимо точное ведение протоколов и фиксация допущенных ошибок.

С 1955 г. репертуар статистических методов существенно расширился: помимо исследовательских методик стали использоваться и методы проверки гипотез.

Как показано в этом разделе, при оценке валидности используются все виды линейных и нелинейных методов анализа данных. Изучение валидизации сопровождается аналитическим “насилием” над полученными данными. Мессик говорит также о необходимости качественного анализа поведения (материалов протоколов).

3.2.7. Соотношения трех уровней

Житейские представления о валидности в какой-то мере согласуются с психодиагностическими концепциями. Психодиагностические концепции могут наполнять новым содержанием “житейскую психологию”. Эмпирические исследования прогностической и конструктной валидности также показывают, что житейские представления не слишком “скромны”. Высокие ожидания, основанные на житейских представлениях, редко получают эмпирическое подтверждение, поскольку корреляции предиктора и критерия невысоки. Феномен внешней валидности является примером излишне большой веры в возможность непосредственно “увидеть” валидность предиктора. В итоге житейские объяснения являются объяснениями уже совершившихся фактов.

Математический уровень с помощью нелинейной модели и современной теории тестов направлена на объяснение того, как человек отвечает на задание или группу заданий. Эти модели элегантны, но ограничены. Леви (1973), Гольдштейн и Вуд (1989) высказывали критические замечания в адрес теории тестов, потому что связь с содержанием поведения, по мнению этих авторов, отсутствует почти полностью. Число моделей быстро возрастает, причем связи с реальным поведением рассматриваются как менее интересные по сравнению с вероятностными моделями самими по себе (Goldstain, Wood, 1989).

Следует добавить по поводу моделей, что они требуют тщательной проверки.

Анализ валидности может использовать все типы исследований (экспериментальные и корреляционные) и все типы методов анализа данных (линейные и нелинейные, количественные и качественные).

Мессик указывает на то, что используемые методы анализа данных должны соответствовать предполагаемой структуре психологических концепций, поскольку эти методы не являются нейтральными. Велик соблазн использовать новые способы анализа данных, и они действительно будут использоваться. Отчасти это необходимо, чтобы определить области их приложения и ограничения в их применении. Главное значение все же имеют психологические теории и концепции, а не модели. Аспектный анализ (the facet analysis) представляет собой попытку сочетания понятийного и статистического анализа. Цитируя “анархиста от методологии” Фейерабенда (1975), можно сказать, что для исследования валидности “подходит” чуть ли не все. Важно, что в процессе опробования любых возможностей устанавливаются разумные пределы.

3.2.8. Некоторые эпистемологические “строительные” блоки

понятия валидности в психодиагностике

Концепция валидности в психодиагностике находится в центре теоретических, методологических изысканий и вопросов методического обеспечения, что обусловливает комплексный характер этой концепции. В данной главе обсуждаются некоторые основные проблемы концепции валидности. За основу взята статья Мессика (1989), в которой автор предпринимает попытку связать концепцию валидности с общими эпистемологическими принципами (личное сообщение 26 августа 1993), что является достаточно трудной задачей. Сам Мессик оценивает результаты своей работы скептически, считая, что это в большей степени изыскания в области философии науки, чем строгие научные факты, поскольку ни одно из его утверждений не подкреплено эмпирическими данными. Само замечание показывает, насколько осторожным в суждениях и требовательным к себе должен быть исследователь, обращающийся к основам проблемы валидности в психологии. С другой стороны, разработчики некоторых моделей не считают нужным рассматривать недостатки собственной модели, как, например, психометрики при представлении нелинейных моделей для ответов на задания теста. Этот пример показывает ограниченность эмпирической ориентации, которая в определенные моменты времени являлась преобладающей в психологии.

В определении прогностической, содержательной и конструктной валидности в психологии пятидесятых годов доминировал логический позитивизм. В рамках этой эпистемологии, с одной стороны, существовала ориентация на логику, синтаксис и структуру, а с другой — на значение, требующее эмпирической верификации. Первая (логическая) относится к логической структуре теорий. Эти теории должны быть сформулированы аксиоматическим, математическим или формально-логическим способом. Абстрактные теоретические термины должны быть связаны с категориями, доступными наблюдению, с помощью правил соответствия, то есть правил взаимодействия, определений или правил интерпретации, описывающих как теоретические понятия, так и соответствующие им экспериментальные процедуры. Хорошо известным примером правил соответствия служат операциональные определения психологических конструктов. Строгие требования подробной спецификации психологических понятий не получили полной поддержки в психологии. Наиболее приемлемыми оказались правила соответствия, которые в той или иной степени определяются теоретическими понятиями. Теоретические понятия содержат некоторое «избыточное» значение. Вторая составляющая относится к области значений. Согласно правилам проверяемости теории истины, утверждение является истинным тогда и только тогда, когда оно соответствует законам логики. Это можно интерпретировать как подчинение предписанным конструктам и правилам формулирования выводов или как эмпирическую верификацию значения. Соотношение логического и эмпирического — это старая проблема, восходящая к предложенному еще Кантом различению аналитических и синтетических суждений. Принципу верифицируемости всегда уделялось должное внимание, поскольку он призван «отделять имеющее смысл от бессмысленного» и способствовать исключению всякой метафизики.

Логический позитивизм в своей исходной форме показал себя настолько требовательной и жесткой концепцией, что едва ли мог оказаться плодотворным для развития психологического знания. В истории науки есть примеры того, как концепции, не будучи чисто аналитическими или чисто эмпирическими, оказывались важными и значимыми. Много лет назад категории пространства и времени были названы Кантом априорными синтетическими суждениями. Эти категории, существование которых невозможно в рамках логического позитивизма, имеют форму общих законов и гипотетических конструктов, и в то же время существует возможность проверки эмпирических заключений.

Логический позитивизм предполагает возможность двух интерпретаций значения. С одной стороны, значение всецело зависит от данных эмпирического опыта (эмпиризм, позитивистская составляющая), с другой стороны, значение определяется также связью утверждения с другими утверждениями (логическая составляющая, структурализм).

Структурный принцип, то есть определение абстрактных, бессодержательных конструктов с помощью набора правил, до сих пор оказывает влияние на развитие психодиагностики. Примером может служить современная теория тестов с абстрактной нелинейной вероятностной моделью. Позитивистские принципы проявляются и в подчеркивании эмпирического и операционального определений. Эмпирическая интерпретация абстрактных бессодержательных конструктов — это не простой процесс. Гипотетические конструкты должны быть дополнены системой опытного знания, то есть система с бессодержательными элементами и абстрактными отношениями должна быть соединена с элементами, которые могут быть почерпнуты из наблюдений. Роскам (1991) формулирует это положение (цит. по Hempel, 1970, с. 688) следующим образом: теоретическая проблема «плавает» в океане данных и пытается установить с ними контакт, но как это сделать? Роксан считает, что связи не могут быть образованы на основе семантического содержания конструктов, для этого необходимо наличие сходства по форме и структуре. Конструкт — это не семантическая единица, но его необходимо описать как набор определенных элементов и связей.

Теоретическая система называется номологической сетью. В ее рамках сети происходит формулировка выводов, прогнозов, утверждений об отношениях. Возможна эмпирическая проверка этих утверждений. Связи между абстрактной и эмпирической системами носят вероятностный характер, используемые процедуры лишь частично «покрывают» конструкты. Считается, что конструкты имеют дополнительное (избыточное) значение. Результат взаимодействия элементов и отношений номологической сети с эмпирическими данными важен для обеих сторон этого процесса, поскольку становится ясно, получают ли поддержку эмпирические конструкты, возможно ли дальнейшее существование номологической сети, являются ли данные адекватными, надежными и валидными.

Следующая характеристика, влияющая на психологические и диагностические исследования и имеющая своим истоком позитивизм, — это предпочтение дедукции. Дедуктивная номологическая модель содержит логические, теоретические (гипотетические) отношения, интерпретация которых носит вероятностный характер. Объяснить какой-либо феномен — значит представить его как проявление общего закона. Если какой-либо феномен является частным случаем общего закона, то он может быть объяснен и предсказан. Подчеркивается, что гипотезы выводятся или, по крайней мере, формулируются без какого бы то ни было обращения к данным. Ван дер Хейден (1995) приводит примеры исследований, в которых многие сторонники клинического подхода честно признавали, что иногда они переформулируют гипотезы по мере получения данных. Это часто называется “предложением, делаемым задним числом” (“Harking”), т.е. это выдвижение гипотез уже после того, как стали известны результаты (см. также Kerr, Harris).

Эти авторы указывают на то, что такая практика является достаточно распространенной в некоторых школах.

Логический позитивизм влияет на развитие концепции конструктной валидности. Конструктная валидизация касается отношений, специфицированных номологической сетью. По крайней мере некоторые элементы и отношения нуждаются в эмпирической интерпретации, то есть они должны быть операционализированы и соотнесены между собой тем или иным способом.

Мессик (1989) пришел к выводу, что исходные строгие требования логического позитивизма не были использованы в «чистом виде», они были адаптированы к возможностям конкретных эмпирических исследований. Значение логического позитивизма для психологии он определяет как (с.23) «освещение того, как должна быть представлена роль конструктов в психологической теории и измерении«. В психологии не слишком сильны «принудительные» элементы логического позитивизма, но дидактические правила анализа конструктов, взаимодействие между конструктами, их отношения представляются достаточно важными и ценными. Мессик согласен с Кронбахом, утверждающим, что было бы слишком претенциозным использовать позитивистскую эпистемологию в «нашей незрелой науке». Это замечание еще раз показывает, с каким уважением психологи относятся к эпистемологии. В философии логический позитивизм был популярен в течение короткого времени, и тем более удивительно, что он до сих пор остается идеалом познания в психологии.

Идеология логического позитивизма оказала значительное влияние на развитие концепции валидности в психологии. Поппер (1939/1959) подверг критике верификацию логического позитивизма. Он указывал на возможность фальсификации утверждений с помощью других правдоподобных утверждений. Не бывает единственно возможного объяснения. Существует множество правдоподобных и конкурирующих между собой объяснений. Впрочем, это положение не получило распространения в исследованиях конструктной валидности, возможно, из-за относительного характера объяснений. Кук и Кэмпбелл (1976), обсуждая вопросы внутренней валидности в квазиэксперименте, выдвинули альтернативное объяснение.

Проверяемость и фальсифицируемость предполагают строгое разграничение теоретических и эмпирических терминов. Считается, что иногда такое разграничение невозможно. Концепция исследовательских парадигм предполагает, что каждая теория в какой-то степени сама создает свои собственные данные и факты (Kuhn, 1962, 1970).

Хотя эти представления достаточно хорошо известны в психодиагностике, тем не менее они редко становятся предметом дискуссий.

Существование различных парадигм с их собственными исследованиями и собственными «истинами» обусловливает наличие релятивизма. Конструктивизм и контекстуализм относятся к радикальному релятивизму в определенной степени из-за приверженности той позиции, что научное знание образует всего лишь одну из многих эквивалентных парадигм или один из подходов. Применительно к психодиагностике можно утверждать, что невозможно установить истинные показатели испытуемого, поскольку они во многом зависят от контекста, с помощью же методик оценивается “сконструированный” человек. В ситуации тестирования и в эксперименте испытуемый является «сконструированным» субъектом. При том, что исследователи все-таки принимают во внимание относительный характер полученных результатов, главным предметом интересов психодиагноста остаются стабильные характеристики поведения, мышления, эмоций. Отмечается, однако, что исследования зависимы от контекста. Конструктивисты обычно не признают «ремесленную» работу психодиагностов, ими разработан метод естественного наблюдения и качественного анализа.

Релятивизм предполагает эквивалентность любого ответа на вопрос или любого решения проблемы. Считается, однако, что по определенным причинам некоторые ответы и решения «лучше» других. Теории и конструкты в той или иной степени противоречат реальности. Лакатос (1978) утверждает, что исследовательские программы имеют определенную продолжительность существования. Их “ядерные” конструкты какое-то время сохраняются, будучи предметом эмпирической проверки и обсуждения. Программа может быть приостановлена или изменена, если ее концептуальные решения становятся неудовлетворительными, а эвристическая сила падает. При отсутствии подтверждения со стороны эмпирических данных, теории и основные понятия исследовательской программы становятся изолированными. В этой ситуации программа может быть заменена новыми теориями и концепциями. Таким образом, никакого релятивистского объяснения тому, что программы возникают и исчезают, нет. Функционирование программ — их “жизнь” и “смерть” — подчиняется рациональным законам. «Рационалистическая» ориентация не предполагает, что теории должны быть немедленно заменены, если появляются альтернативные теории или эмпирические исследования не дают ожидаемого подтверждения. Эта ориентация способствует проведению исследований конструктной валидности.

CH3RED — Стр 4

В данном разделе мы попытались показать, как несколько различных эпистемологических концепций оказали влияние на развитие понятия валидности в психологии. Это дало основание для упрека в том, что данное понятие с философской точки зрения противоречиво (Norris, 1983).

Понятие валидности в психологии должно охватить столь сложную и многостороннюю реальность, что сосуществование различных критериев и точек зрения вполне возможно.

3.2.9. Конструктная валидность и системы исследования

Мессик (1989) попытался прояснить понятие валидности, используя концепцию «системы исследований», представленную эпистемологом Чечменом (1971).

Последний предпринял попытку представить и проанализировать эпистемологические теории в виде системы исследовательских вопросов (inquiry).

Каждая такая система имеет свои специфические «строительные» блоки или информационные единицы, с помощью которых представляется существо проблемы. Имеются также гарантии того, что само представление проблемы будет отвечать требованиям валидности.

В системе Лейбница основным является формальный или символический способ представления проблемы, точнее эпистемологической проблемы познания. Набор простейших аналитических истин и системы правил и операций образуют основу для выведения теоретических суждений. Критериями валидности являются согласованность, полнота и др.

Учение Локка применяет эмпирический и индуктивный подход к постановке проблемы. Система знаний развивается путем обобщения данных наблюдения. Критериями валидности являются согласие экспертов, объективность, беспристрастность к данным и методам их сбора и анализа.

Мессик замечает, что обе эти системы пригодны для анализа хорошо структурированных проблем. В том случае, когда проблема плохо структурирована, стоит вечный вопрос о том, как определить ее суть. По-видимому, во многих случаях ученые еще не могут найти адекватный способ представления проблем. Это те проблемы, о которых в одной из своих ранних работ (1916) Виттгенштейн сказал: “О чем нельзя говорить, о том должно молчать”.

Система исследовательских вопросов у Канта содержит способ представления проблемы, интегрирующий подходы Лейбница и Локка. В рамках этой системы существует, по крайней мере, два подхода к представлению проблемы и к систематизации данных или совокупности фактов. Эти подходы могут в одних случаях дополнять друг друга, в других случаях — находиться в антагонистических отношениях. В течение долгого времени наилучшей считалась та теория представления проблемы, которая более успешно оперировала эмпирическими данными.

Диалектическая система Гегеля содержит противоположные способы представления проблемы. Для анализа одних и тех же данных используются две конкурирующие теории. Противоположность позиций со всей наглядностью обнаруживается в публичном споре. Конфликт позиций переносится на более высокий уровень — уровень интеграции, где и “снимается”. Возможно противостояние интегрированной теории новым конкурирующим теориям, так что диалектический процесс может продолжаться. Конечно, этот процесс развертывается между идеями, а не между людьми.

Чечмен рассматривает еще одну, не столь хорошо известную систему, систему Синджера. Эта система содержит описание перечисленных систем и рассматривает связь каждой из них с остальными. Данный метод способствует лучшему пониманию преимуществ каждой системы. Критерием валидности является прогресс путем последовательного приближения.

В психологических исследованиях валидности основное значение имеют системы Лейбница и Локка. Система Канта, рассматривающая альтернативные модели, используется не столь часто. Диалектическая система также используется редко, возможно, из-за трудностей формулирования противоположных теорий. Другой весьма вероятной причиной не столь широкой распространенности диалектической модели является опасение скатиться к релятивизму, если к каждой теории добавлять противоположную. Мессик считает, что “метарефлексия” в системе Синджера могла бы способствовать проведению достаточно “сбалансированных” исследований конструктной валидности.

Таким образом, в психологических исследованиях валидности доминируют формально структурная (Лейбниц) и эмпирическая (Локк) системы постановки проблем. Мессик считает необходимыми и полезными для исследований валидности увеличение числа соперничающих теорий и анализ всех систем. Его рассуждения напоминают в той или иной степени аргументацию из концепции фальсификации Поппера.

ТРИНАДЦАТЬ ИТОГОВЫХ ТЕЗИСОВ

1. Наиболее полная система психодиагностики предполагает “кооперацию” (на деле пока отсутствующую) между тремя ее уровнями:

а) житейскими представлениями о характеристиках людей:

б) конструктами психологических теорий:

в) математическими или статистическими моделями.

2. Ошибки измерения носят случайный и неизбежный характер, интуитивно они не улавливаются. Эти ошибки дают информацию о согласованности-несоглаcованности поведенческих и когнитивных характеристик. Существуют способы оценки ошибок измерения.

3. Под индексом надежности понимается стандартная ошибка измерения, получаемая путем повторного оценивания одного и того же субъекта. Поскольку это практически невыполнимо, можно говорить о коэффициенте корреляции как об альтернативном варианте.

4. Каждый тест должен быть снабжен не менее чем одним коэффициентом надежности и не менее чем одним коэффициентом валидности (см. также пункт 10).

5. По мнению Леви (1974), Гольдштейна и Вуда (1989), взаимодействие между «содержательными» психологическими теориями и классической и современной теориями тестов можно назвать успешным только в определенной степени. Возможно, со временем теорию тестов и психологические теории соединят аспектный анализ и теория обобщаемости.

6. Критерии валидности могут происходить из различных эпистемологических источников. Это такие, например, критерии, как корреспонденция, когеренция, консенсус, практическая полезность. Данное многообразие не означает, что понятие валидности разнородно и даже противоречиво. Такое множество стало допустимым потому, что предмет психологии сложен и многообразен.

7. Возможна определенная унификация понятия валидности, но существует также несколько весьма важных разграничений, главное из которых — это разграничение между прогностической, конструктной и содержательной валидностью.

8. Концепция валидности используется и в экспериментальных исследованиях (в собственно экспериментальном и квазиэкспериментальном вариантах).

Различаются внутренняя, внешняя, конструктная типы валидности и валидность статистического вывода. Эти типы валидности в определенной степени аналогичны типам, используемым в психодиагностике.

9. Понятие валидности предполагает, что тестовые результаты должны соответствовать изучаемым феноменам, что возможна их интерпретация и что они практически полезны (для конкретных целей).

Информация о тестовых результатах и данные наблюдения должны использоваться в соответствии с нормами и ценностями общества.

10. Генерализация валидности является результатом дифференциации понятия прогностической валидности. Процедура состоит в оценке источников ошибок в выборке коэффициентов валидности и в нахождении истинного коэффициента валидности. Обсуждение практической полезности будет представлено далее.

11. Конструктная валидность претендует на то, чтобы объединить концепции валидности. Можно рассматривать, например, прогностическую и содержательную валидность как конкретные варианты разработки этого более широкого понятия.

12. Представители психометрии больше интересовались изучением надежности, чем валидности. Разработка моделей исследования валидности достаточно сложна. В исследовании валидности всегда «что-то ускользает».

13. Главные заботы представителей психодиагностики связаны с проблемами поиска соответствия между эмпирическими данными и моделями их описания, между понятиями и способами их операционализации, между структурой и ее содержанием.

* “Человеку свойственно ошибаться” (лат.) — (прим. перев.)

* Protokollsatze (нем.) — протокольные выражения. Согласно теории Карнапа, они описывают содержание непосредственного опыта, т.е. феномены, иначе говоря, простейшие познаваемые факты (прим. перев.).

* “herrschaftfreie” (нем.) — свободный от господства одной из сторон (прим. перев.).

* Richtigkiet (нем.) — правильность, верность, точность (прим. перев.)

79