Критерии валидности, применяемые к качественным исследованиям.

Естественнонаучная и гуманитарная парадигма в психологии

Всю историю развития психологии можно охарактеризовать как взаимоотношения двух противоположных подходов — естественнонаучного и гуманитарного, причем в последние десятилетия наблюдается постепенное вытеснение первого вторым. Изначально Аристотель утверждал, что изучение души есть дело естествоиспытателя. Современное положение дел можно охарактеризовать как кризис попыток построения психологии по образцу естественной науки. Наличие отдельных разделов психологии, которые невозможно отнести к естественнонаучной линии (психоанализ, гуманистическая психология, логотерапия) лишь усугубляет кризисное состояние.

Но в отечественной психологии в настоящее время, по мнению В.И. Слободчикова и Е.И. Исаева преобладающей все еще является ориентация на естествознание, на объективность, на измерение и эксперимент как на идеал научности. Советская психология развивалась как академическая, сциентистская дисциплина. В последние годы в рамках психологической практики начала оформляться гуманистическая психология. Осознана необходимость создания особой психотехнической теории, т.е. теории, обосновывающей человековедческую, психологическую практику. По сути, это означает создание гуманитарной психологии как альтернативы естественнонаучной академической психологии [6].

В.Н. Сурков отмечает, что попытки психологов соответствовать естественнонаучным стандартам в области взаимодействия теории и эксперимента привели к «позитивистскому перенапряжению» психологии. Защитной реакцией психологов на давление «позитивистских ритуалов» является широкое распространение «теневой методологии» (традиции формулировать гипотезы уже после проведения исследования, выводить их из полученных данных, а не из теорий, отбирать лишь «удобные» эмпирические данные и т.п.) [7]..

Основными причинами, препятствующими оформлению психологии в качестве естественной науки, выступают:

o духовный характер происхождения человека, не позволяющий рассматривать его как объект первой природы или механизм;

o рефлексивность и активность человека; невозможность лишь управления человеком — в отношении человека органичны понимающая позиция, любовь, помощь, поддержка [5].

Данные причины аналогичны специфическим характеристикам гуманитарного познания, т.к. человек выступает как духовная ценность, а не только как «объект исследования». Основной целью психологии является понимание другого человека, объяснение определенного духовного или культурного феномена, придание смысла. Рефлексивный характер психологического знания проявляется во взаимовлиянии субъекта и объекта познания; направленность психологии предполагает не просто понимание, а активный диалог исследователя и исследуемого объекта.

19 стр., 9279 слов

Версии происхождения человека. Основные теории происхождения человека

... познания. Теория Дарвина о происхождении человека Настоящий переворот в науке вызвала публикация работы Ч. Дарвина «Происхождение видов…» (1859 г.). Он утверждал, что возникновение любого нового вида происходит путем естественного отбора, ...

Таким образом, применение требований естественнонаучного стандарта в психологии является ограниченным. По мнению многочисленных авторов, даже психологический эксперимент, не говоря уже обо всем комплексе психологического знания, должен строиться по гуманитарным канонам.

Заключение

Значительная часть дискуссий о статусе научности психологии связана не столько с обсуждением вопроса о том, является ли психология наукой, сколько с вопросом о том, на какой эталон (естественнонаучный или гуманитарный) ей следует ориентироваться (и каким критериям научности соответствовать).

Зарубежные психологи более склонны воспринимать психологию в рамках гуманитарной психологии, отечественные же психологи до сих пор придают меньшее значение гуманитарному знанию в психологии по сравнению с естественнонаучным. Но тенденцией последних лет является все же гуманизация знания психической реальности. Как справедливо отмечают многие авторы, в основе получения психологического знания должна лежать гуманитарная парадигма, но для доказательства неоспоримых фактов служит естественнонаучная, т.е. обе парадигмы в исследований психической реальности необходимы.

Но, по мнению большинства психологов, с точки зрения перспектив исследовательской деятельности именно в рамках гуманитаризации познания определяются по-настоящему сложные задачи, являющиеся достойным вызовом для научного сообщества.

 

Критерии валидности, применяемые к качественным исследованиям.

 

Валидность психодиагностических методик

 

Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методики решается лишь после того, как установлена достаточная ее надежность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практически бесполезной.

 

Следует заметить, что вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста — понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает».

Валидность по своей сути — это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Валидность в первом ее понимании имеет отношение к самой методике, т. е. это валидность измерительного инструмента. Такая проверка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

20 стр., 9902 слов

Роль и место экспериментальной психологии в системе научного знания.

... экспериментальной психологии в системе научного знания. Под экспериментальной психологией понимают 1.    всю научную психологию как систему знаний, полученных на основе экспериментального изучения поведения человека и животных. ... ассоциаций. На это же время приходится и развитие тех областей теории вероятности и математической статистики, которые легли в основу количественной ...

Обобщая, можно сказать следующее:

— при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация;

— при прагматической валидизации суть предмета измерения (психологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что нечто, измеряемое методикой, имеет связь с определенными областями практики.

Провести теоретическую валидизацию, в отличие от прагматической, порой оказывается значительно труднее. Не вдаваясь пока в конкретные детали, остановимся в общих чертах на том, как проверяется прагматическая валидность: выбирается какой-нибудь независимый от методики внешний критерий, определяющий успех в той или иной деятельности (учебной, профессиональной и т. п.), и с ним сравниваются результаты диагностической методики. Если связь между ними признается удовлетворительной, то делается вывод о практической значимости, эффективности, действенности диагностической методики.

Для определения теоретической валидности найти какой-либо независимый критерий, лежащий вне методики, гораздо труднее. Поэтому на ранних стадиях развития тестологии, когда концепция валидности только складывалась, бытовало интуитивное представление о том, что тест измеряет:

1) методика называлась валидной, так как то, что она измеряет, просто очевидно; 2) доказательство валидности основывалось на уверенности исследователя в том, что его метод позволяет понять испытуемого; 3) методика рассматривалась как валидная (т. е. принималось утверждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, очень хорошая.

Принятие на веру голословных утверждений о валидности методики не могло продолжаться длительное время. Первые проявления действительно научной критики развенчали такой подход: начались поиски научно обоснованных доказательств.

Таким образом, провести теоретическую валидизацию методики — это доказать, что методика измеряет именно то свойство, качество, которое она по замыслу исследователя должна измерять.

Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие детей, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то другие особенности (например, личность, характер и т. п.).

Таким образом, для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, посредством которых эти психологические явления пытаются познать. Это показывает, насколько замысел автора и результаты методики совпадают.

Не столь сложно провести теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с доказанной валидностью. Наличие корреляции между новой и аналогичной уже проверенной методикой указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная. И если новый метод одновременно оказывается более компактным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инструмент вместо старого.

3 стр., 1123 слов

Психофизиологические методики. Определения метода, методики, теста

... материала; невмешательство исследователя в деятельность испытуемого); стандартизация (наличие норм); надежность; валидность. Тесты ü по форме ответов: устные и письменные; ü по материалу ... дополнительных условий и основаны на психофизиологических особенностях человека: например, теппинг-тест. Малоформализированные методики ü методики наблюдения (наличие плана и критериев); ü опрос (интервью); ü ...

Но теоретическая валидность доказывается не только путем сопоставления с родственными показателями, а также и с теми, где, исходя из гипотезы, значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность) и отсутствие этой связи с методиками, имеющими другое теоретическое основание (дискриминантная валидность).

Гораздо труднее провести теоретическую валидизацию методики тогда, когда такой путь проверки невозможен. Чаще всего именно с такой ситуацией сталкивается исследователь. В таких обстоятельствах только постепенное накопление разнообразной информации о изучаемом свойстве, анализ теоретических предпосылок и экспериментальных данных, значительный опыт работы с методикой позволяет раскрыть ее психологический смысл.

Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами деятельности. Но здесь особенно важно, чтобы методика была тщательно проработана в теоретическом плане, т. е. чтобы имелась прочная, обоснованная научная база. Тогда при сопоставлении методики с взятым из повседневной практики внешним критерием, соответствующим тому, что она измеряет, может быть получена информация, подкрепляющая теоретические представления о ее сущности.

Важно помнить, что если доказана теоретическая валидность, то интерпретация полученных показателей становится более ясной и однозначной, а название методики соответствует сфере ее применения. Что касается прагматической валидизации, то она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности, поскольку диагностической методикой имеет смысл пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных жизненных ситуациях, в определенных видах деятельности. Ей придают большое значение особенно там, где встает вопрос отбора.

Если опять обратиться к истории развития тестологии, то можно выделить такой период (20-30-е гг. XX в.), когда научное содержание тестов и их теоретический багаж интересовали в меньшей степени. Важно было, чтобы тест работал, помогал быстро отбирать наиболее подготовленных людей. Эмпирический критерий оценки тестовых заданий считался единственно верным ориентиром в решении научных и прикладных задач.

Использование диагностических методик с чисто эмпирическим обоснованием, без отчетливой теоретической базы нередко приводило к псевдонаучным выводам, к неоправданным практическим рекомендациям. Нельзя было точно назвать те особенности, качества, которые тесты выявляли. По существу они являлись слепыми пробами.

Такой подход к проблеме валидности тестов был характерен вплоть до начала 50-х гг. XX в. не только в США, но и в других странах. Теоретическая слабость эмпирических методов валидизации не могла не вызвать критики со стороны тех ученых, которые в разработке тестов призывали опираться не только на голую эмпирику и практику, но и на теоретическую концепцию. Практика без теории, как известно, слепа, а теория без практики мертва. В настоящее время теоретико-практическая оценка валидности методик воспринимается как наиболее продуктивная.

16 стр., 7906 слов

К вопросу о валидности теста Люшера

... главных задач патопсихолога остается дифференциальная диагностика, а в этом смысле тест Люшера собственной валидностью, по-видимому, не обладает и может рассматриваться только как вспомогательный ... свободна также от влияния возрастных, интеллектуальных, социальных, этнических факторов. Немаловажным достоинством методики (а точнее, адаптированных отечественных руководств к ней) является и то, ...

Для проведения прагматической валидизации методики, т. е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий — показатель проявления изучаемого свойства в повседневной жизни. Таким критерием может быть и успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), и производственные достижения (для методик профессиональной направленности), и эффективность реальной деятельности — рисование, моделирование и т. д. (для тестов специальных способностей), субъективные оценки (для тестов личности).

Американские исследователи Д. Тиффин и Е. Мак-Кормик, проведя анализ используемых для доказательства валидности внешних критериев, выделяют четыре их типа:

1) критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т. п.); 2) субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет); 3) физиологические критерии (они используются при изучении влияния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давление крови, электросопротивление кожи, симптомы утомления И т. д.); 4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).

Внешний критерий должен отвечать трем основным требованиям:

— он должен быть релевантным;

— свободным от помех;

— надежным.

Под релевантностью имеется в виду смысловое соответствие диагностического инструмента независимому жизненно важному критерию. Другими словами, должна быть уверенность в том, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний критерий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородными по психологической сущности. Если, например, тест измеряет индивидуальные особенности мышления, умение выполнять логические действия с определенными объектами, понятиями, то и в критерии нужно искать проявление именно этих умений. Это в равной степени относится и к профессиональной деятельности. Она имеет не одну, а несколько целей, задач, каждая из которых специфична и предъявляет свои условия к выполнению. Из этого вытекает существование нескольких критериев выполнения профессиональной деятельности. Поэтому не следует проводить сопоставление успешности по диагностическим методикам с производственной эффективностью в целом. Необходимо найти такой критерий, который по характеру выполняемых операций соотносим с методикой.

 

Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполезным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оценку валидности методики.

Требования свободы от помех вызываются тем, что, например, учебная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут привнести помехи, «загрязнить» применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно статистический характер. Так, например, производительность следует брать не по абсолютным значениям, а в отношении к средней производительности рабочих, работающих в аналогичных условиях

Когда говорят, что критерий должен иметь статистически достоверную надежность, это означает, что он должен отражать постоянство и устойчивость исследуемой функции.

Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации. В западной тестологии много методик дисквалифицировано только потому, что не удалось найти подходящего критерия для их проверки. Например, у большей части анкет данные по их валидности сомнительны, так как трудно найти адекватный внешний критерий, отвечающий тому, что они измеряют.

Оценка валидности методик может носить количественный и качественный характер.

Для вычисления количественного показателя — коэффициента валидности — сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).

Сколько испытуемых необходимо для расчета валидности?

Практика показала, что их не должно быть меньше 50, однако лучше всего более 200. Часто возникает вопрос, какой должна быть величина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20-0,30, средним — 0,30-0,50 и высоким — свыше 0,60.

 

Но, как подчеркивают А. Анастази, К. М. Гуревич и др., не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической пробы. Позиция зарубежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40 % решения теста. Дальнейший успех в тесте уже не имеет никакого значения для профессии. Наглядный пример из монографии К. М. Гуревича: почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень большой скоростью — это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наиболее адекватным способом установления валидности может быть критерий различий.

Возможен и другой случай: более высокий уровень свойства, чем это требует профессия, служит помехой профессиональному успеху. Так, еще на заре XX в. американский исследователь Ф. Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда. То есть высокий уровень их умственного развития мешал им высокопроизводительно трудиться. В этом случае для вычисления коэффициента валидности более подошел бы дисперсионный анализ или вычисление корреляционных отношений.

 

Как показал опыт работы зарубежных тестологов, ни одна статистическая процедура не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто для доказательства валидности методик используют другую модель — клинические оценки. Это не что иное, как качественное описание сущности изучаемого свойства. В этом случае речь идет об использовании приемов, не опирающихся на статистическую обработку.

7. Понятия надёжности, валидности, достоверности теста по А.Г. Шмелёву.

Свойства теста

Какие другие важные следствия мы можем вывести из метафоры «тест — оружие»? Эта метафора позволяет нам точнее и глубже осознать ряд инструментальных требований к тестам, которым тесты должны соответствовать, а также нормативы применения тестов. Я вовсе не собираюсь здесь перечислять все психометрические свойства тестов, но все-таки некоторые наиболее важные стоит упомянуть — хотя бы не строго, хотя бы чисто метафорически.

1) Надежность теста. Может ли быть надежным оружие, изготовленное в кустарной полуподвальной мастерской, как говорится, «на коленках»? Это оружие будет стрелять куда попало — иногда в цель, но чаще вбок, а иной раз может и просто разорваться в руках стреляющего. Тут уместно напомнить следующее: надежные тесты не создаются в крошечных лабораториях (и тем более за письменным столом автором-одиночкой).

Надежность теста не только проверяется на репрезентативной (массовой) выборке, но просто не вырабатывается без обширной статистики. Репрезентативная выборка для стандартизации теста — это своеобразный полигон для обстрела нового оружия. Только после таких полевых испытаний конструктор теста может внести целенаправленные («зрячие») коррективы в первоначальную конструкцию своего оружия. Тем самым уже на примере этого одного свойства теста — надежности — мы видим, что? нам дает в этом контексте метафора «тест -оружие». Плохое оружие не усиливает, а, наоборот, ослабляет пользователя, подвергает его риску. Но разве можно судить о качестве оружия вообще по образцам кустарного оружия? Плохими являются не тесты вообще, а ненадежные тесты.

2) Валидность теста. Напомним, что это мера пригодности теста целям психодиагностики, мера соответствия измеряемому свойству. Куда будет стрелять оружие? Это зависит не только от надежности самого теста, но и от пользователя. Ненадежный тест не может быть валидным. Эту аксиому теории измерения в данном контексте легко понять: если вы не попадаете с пяти шагов в силуэт, то о какой валидности, о каком соответствии теста измеряемому свойству может идти речь, ведь вы же можете попасть с помощью такого «теста» не во врага, а в «своего» — того, кто рядом стоит, то есть «цепляете» с помощью теста не целевое, а иное психическое свойство. Но если сам стрелок слепой, если он — дальтоник, который не различает цвета мундиров, в которые одеты свои и чужие, если он к тому же паникер, то будет в панике палить даже из надежного стрелкового оружия и по своим, и по чужим. Таким образом, мы легко формулируем важное следствие: тест не может быть валидным в руках непрофессионала. Вот вам и еще одна аксиома тестологии, которую, увы, так трудно бывает объяснить не только массовой аудитории, но и самим психологам, ибо при словах «надежность» и «валидность» в их сознании вплывают страшные и непонятные психометрические формулы. Поэтому эти понятия кажутся им скорее математическими, чем психологическими, то есть чуждыми их «гуманитарному интеллекту».

Опять же вернемся в этом контексте к критике тестов. Можно ли судить о тесте и тем более тестах вообще, если даже вполне качественное фабричноеоружие передано в руки новобранцев-паникеров, которые то стреляют из пушки по воробьям (например, применяют тяжелую батарею IQ вроде теста Векслера для диагностики дефицита внимания), то бросаются с пистолетиком тщетно обстреливать бронированный танк (пытаются понять природу и содержательный смысл внутреннего конфликта по цветовым предпочтениям в тестике Люшера, пригодного, по моему убеждению, лишь для грубой оценки фона настроения).

Любому мало-мальски сведущему в военном деле человеку как дважды два понятно: нет универсального оружия и в разных условиях боя надо применять разное. Но психика человека — более тонкая, невидимая стороннему взгляду реальность, чем поле боя. И вот мы путаем все на свете: вялую позиционную перестрелку, активную артподготовку и яростную штыковую атаку в полный рост, когда пора доставать из-за пояса гранаты. Когда вы проводите какую-нибудь очень краткую пробу из нескольких заданий (несколько спрятанных фигур из теста Готтшальда, несколько чернильных пятен Роршаха), то следует все-таки отдавать себе отчет в том, что вы с такой же вероятностью наткнетесь на диагностически ценную информацию, с какой можно поразить стальной ДОТ с помощью легкой пехотной гранаты. Результата скорее всего не будет никакого! Только следует ли после этого делать вывод о том, что все тесты неэффективны? Я бы сказал, что многие одиночные психологические тестики — это очень слабое оружие против хорошо замаскированных укреплений, против глубокоэшелонированной обороны многоэтажной человеческой психики, которая нарабатывает ко времени социальной зрелости многие слои из весьма изощренных механизмов психологической защиты. Тут мы подходим к проблеме достоверности — проблеме соотношения сознательных и неосознаваемых механизмов психологической защиты от тестирования. Р. Кэттелл назвал это в свое время проблемой мотивационных искажений. Звучит красиво, хотя речь идет о некрасивых вещах — о более или менее осознаваемой лжи.

3) Достоверность. Это проблема фальсификаций. Сформулируем в этом контексте такой несколько парадоксальный профессионально-этический норматив: «Испытуемый имеет право на ложь». В самом деле, если тест — это оружие проникновения в человеческую психику, то испытуемый имеет право на самозащиту — на то, чтобы сопротивляться этому проникновению. В конце концов, можно оправдать испытуемого, сумевшего скрыть свои проблемы, свои дефекты, мобилизовавшись на социально-желательное выполнение теста: таким способом он проявляет в момент тестирования силу своих компенсаторных механизмов, умение решать задачки на моральное развитие, умение решать задачки на интеллектуальное развитие и т.п. 5, хотя, возможно, в повседневной жизни он ведет себя вовсе и не так. Прочность бронированного корпуса его судна, обеспечивающая ему непотопляемость, оказалась сильнее того удара, который психолог нанес из своего оружия. Честь и хвала такому испытуемому. Но этот тезис имеет и такое важное следствие: положительные результаты тестирования имеют меньшую ценность, меньшую предсказательную силу, чем негативные результаты.

Таким образом, если мы, наконец, разберемся в базисных представлениях о сущности теста, мы научимся адекватным образом его применять в социальной практике. До тех пор, пока мы неверно трактуем сущность теста, не видим адекватным образом ограничений в практике его использования, мы совершаем серьезные ошибки. Нужно ли запрещать распространение оружия в обществе, где никто толком не умеет грамотно им пользоваться? По-видимому, все-таки разумнее не запрещать вовсе, а разумно ограничить более узким кругом подготовленных аттестованных пользователей! И предоставлять им следует только сертифицированные инструменты, а не какие попало. Если горе-строители возводят многоэтажные здания на болотах или зыбучих песках без закладки прочного фундамента, т. е. нарушают все правила технологии безопасного строительства, то таким образом здание не следует строить вообще; это не значит, что следует запретить и архитектурные институты, и все заводы по производству стройматериалов, и сами строительные организации. Если кто-то использует определенные медицинские препараты не по назначению, превращая их в наркотики, то это не значит, что следует запретить фармацевтическую промышленность, хотя строгость в контроле за распространением опасных медицинских препаратов повысить, конечно, придется.

Тесты и экспертные оценки

По моему убеждению, стандартизованные тесты не дают основания для окончательного положительного диагноза (т. е. диагноза о пригодности к определенной деятельности), для этого они должны быть дополнены экспертными оценками (или другими менее стандартизованными диагностическими процедурами, включающими экспертные оценки в той или иной мере, как это, например, происходит в проективных методиках).

Таким образом, позитивный исход тестового испытания выступает логически необходимым, но не достаточным условием для окончательного позитивного заключения. Поскольку мне как тестологу, увы, хорошо известно, что с элементарной логикой у наших сограждан порой возникают серьезные проблемы5 , схематизируем сказанное в виде следующей таблички:

  Вывод о пригодности Вывод о непригодности
Позитивный исход теста Нельзя сделать Нельзя сделать
Негативный исход теста Нельзя сделать Можно сделать

Поясним это на содержательном примере. Вначале возьмем самый тривиальный случай, далекий от психологии — уже упомянутый экзамен на знание правил дорожного движения. Если кандидат сдал тест по правилам, то ему еще нельзя выдавать права — он должен пройти после этого менее формализованный экзамен на практическое вождение. Если же кандидат провалил тест, то он не допускается до следующего испытания. В этом контексте самое время также сделать и такую оговорку: отрицательный результат тестирования — не приговор. Всем понятно, что правила можно выучить, прийти снова и пересдать экзамен.

Возьмем теперь менее очевидную (не оформленную пока нормативно) процедуру тестирования кандидата при приеме на работу на предмет уровня так называемой «корпоративной лояльности». Предположим, что испытуемому при этом предъявляется совершенно примитивный тест-опросник, содержащий лобовые вопросы типа «Вам никогда не доводилось обманывать учителей при сдаче экзаменов в школе?». Как мы говорили выше, испытуемый в этом случае использует свое право на фальсификацию и отвечает «Верно, не доводилось». И какой вывод в данном случае мы сделаем? Никакой! Но если испытуемый вдруг сам в порыве откровенности отвечает «Неверно, доводилось», то по крайнем мере насторожиться следует.

В еще большей степени этот принцип относится к базовым тестам на элементарные профессиональные знания. Если кандидат в бухгалтеры не может ответить на вопрос конкурсного тест-опросника о том, что такое «план счетов», то следует ли дальше заниматься с этим кандидатом? Следует ли тратить дорогое время квалифицированных экспертов на детальное интервьюирование подобного кандидата? Конечно, нет 6 .

Таким образом, я предлагаю буквально везде, во всех отраслях практики использовать тест как первичный дешевый и формализованный фильтр, предшествующий применению более сложных и дорогих экспертных процедур. В какой-то мере подобной логикой руководствуются в настоящее время специалисты по оценке персонала, которые применяют технологию «Ассессмент-центр».

Таким образом, приведенную выше табличку следует изменить таким образом:

  Позитивный исход экспертной оценки Негативный исход экспертной оценки
Позитивный исход теста Вывод о пригодности Вывод о непригодности
Негативный исход теста Вывод о непригодности Вывод о непригодности

Как видим, для позитивного общего заключения требуется конъюнкция (логическое «И») двух независимых событий — позитивного тестового исхода и позитивного исхода экспертной оценки. Отсутствие хотя бы одного из позитивных исходов не дает возможности делать общий позитивный вывод.

Качество такой двухфильтровой системы отбора в любом случае выше, чем любой однофильтровой — основанной только на экспертных оценках или только на тестах. А разговоры о том, что в нашей стране результаты тестирования очень легко купить (увы, такие разговоры часто затевались, например, на дискуссионном форуме портала ЕГЭ ege.edu.ru), носят либо сознательно-демагогический характер, либо опять-таки выявляют дефект логического мышления. Там, где можно купить результаты тестирования, как правило, можно купить и результаты экспертной оценки, и нужно еще специально изучать, какой из фильтров по факту является менее продажным. Если даже при широком распространении теста происходит утечка ключей, негативный исход тестирования продолжает сохранять свою ценность, но особенно важно, чтобы после позитивного исхода в дело вступали неподкупные эксперты. Если мы связываем результаты двух процедур логическим «И», то числовые результаты теста и экспертной оценки правильнее не суммировать, но умножать, то есть агрегировать не аддитивно, а мультипликативно:

O = T E,

где T — результат теста, Е — результат экспертной оценки, О — общая оценка. Если любой из сомножителей принимает нулевое значение (оказывается ниже минимального порога), то общий результат оказывается нулевым независимо от значения второго сомножителя. При ненулевых значениях и того, и другого компонентов формулы максимальный результат достигается в том случае, если значения Т и Е близки друг к другу. ?! Откуда это следует? И при чем тут сумма? Такой подход несколько нивелирует эффект завышения одного показатели вследствие его «покупки».

Хороший тест лучше среднего интервьюера

К сожалению, в наших дебатах вокруг тестов редко апеллируют к результатам исследований сравнительной прогностической эффективности тестов и нетестовых диагностических процедур. Нет ничего удивительного в том, что наши специалисты просто не располагают такими данными, ведь подобные исследования очень дорогостоящи. За рубежом подобные исследования неоднократно проводились на весьма репрезентативных выборках испытуемых. Таблицы сравнительной эффективности (для прогнозирования профессиональной деятельности) различных тестов и такой процедуры, как интервью, публикуются практически в любом западном учебном пособии по организационному поведению (Fincham, Rhodes, 1998).

Суммируя различные источники, я бы так оценил в настоящее время выявленные коэффициенты прогностичности:

Процедура Прогностическая валидность
Интервью 0,1 — 0,3
Психологическое тестирование 0,3 — 0,5
Квалификационное тестирование 0,4 — 0,6
Ассессмент-центр 0,5 — 0,7

Почему же столь низкой оказывается валидность обыкновенного интервью? Все дело в том, что извлечение диагностически значимой информации из интервью требует не только значительного опыта интервьюирования (личного проведения сотен и тысяч интервью), но и определенного искусства, куда входит умение владеть собственными эмоциями, не выражать их резко, чтобы не индуцировать какое-то ситуационное атипичное ответное эмоциональное состояние у интервьюируемого (настороженность и замкнутость, лицемерную любезность, развязность, восторженно-прекраснодушное воодушевление и т.п.).

Живое общение людей (каким бы объективным профессионалом ни старался быть интервьюер) — это всегда вольный или невольный обмен эмоциями, который создает весьма различный фон в зависимости от ситуационного коммуникативного контекста, возникшего здесь и теперь в той или иной диаде (группе) общающихся друг с другом людей. На практике выясняется, что все разговоры о том, что «точнее всего понимаешь человека, когда посмотришь ему в глаза», как правило, лишь прикрывает стремление отстоять режим личной власти над судьбами.

Соотношение эффективности формализованных и неформализованных процедур в области психодиагностики можно сравнить с ситуацией противостояния шахматиста и шахматной программы. Хотя гроссмейстеры успешно конкурируют с шахматными суперкомпьютерами, средней руки разрядники (не говоря про новичков и любителей) проигрывают хорошей компьютерной программе весьма устойчиво. Имеется в виду программа, которая опирается, например, на компьютерный банк отработанных дебютов. Ведь подобный дебютный репертуар выработал коллективных разум сотен и тысяч профессиональных шахматистов в течение всей писаной истории шахмат.

Так получается и с тестами. Плохой тест может уступать среднему интервьюеру, но хороший тест, прошедший психометрическую апробацию на сотнях испытуемых, показавший прогностическую валидность, превосходит среднего одиночного интервьюера. (подчеркнем здесь слово «одиночного», так как коллектив интервьюеров всегда работает эффективнее).

Особенно это касается многофакторных тестов. Сколько параметров (характеристик) индивидуальности способен оперативно отслеживать интервьюер? Опросы показывают, что всего лишь чуть больше, чем обычный человек — в пределах 5-7 (что-то похожее на магическое число 7+/-2?), и в этом случае уже батарея из 12-16 факторов дает значительное преимущество.

Более высокое положение в указанном таблице методики «Ассессмент-центр» вполне объяснимо как раз в логике совмещения тестов и экспертных оценок, о которой мы говорили в предыдущем параграфе: здесь имеет место сочетание методов тестирования и интервьюирования, плюс деловые игры с множественной экспертной оценкой (привлекаются независимые судьи, способные сообща отследить больше параметров).

Выводы

Подводя итоги этой статьи, еще раз подчеркну главный тезис: нынешние дискуссии по поводу метода тестов, по моему убеждению, часто оказываются непродуктивными из-за того, что участники дискуссии (причем неважно, сторонники это тестов или противники) не вполне адекватно воспринимают статус теста как инструмента. Тест является инструментом не только научного исследования, не только индивидуального консультирования и помощи, но и социальной практики в малых и больших организациях. Бо?льшая часть недоразумений связана даже не с качеством (увы, подчас низким) разработанных тестов, но с их неправильным, неквалифицированным использованием. Значительная часть пользователей тестов в России до сих пор руководствуется нетехнологичными преставлениями о возможностях тестов, можно сказать даже, мифологическими. Значимость тестовых результатов либо резко переоценивается, либо недооценивается, причем некоторые пользователи приписывают ответственность за ошибки при тестировании разработчикам, не понимая, что это они сами — прежде всешго сами — несут ответственность за выбор и адекватное применение инструмента.

Тест — это оружие. И пользоваться им надо умело. Надо правильно заряжать это оружие и нацеливать в нужную сторону. Как нет универсального оружия, пригодного во всех ситуациях, так нет и универсальных тестов. Тест больше полезен, когда включен в контекст более широких процедур, использующих, кроме тестирования, экспертные оценки.

1 Автору этих строк довелось разрабатывать по заказу Минобразования России в 2002-2003 гг. так называемый «Портал информационной поддержки ЕГЭ» (см. адрес в Интернете- ege.edu.ru).

На этом портале ежегодно размещались репродукции свыше 300 статей по тематике ЕГЭ, среди которых добрая половина содержала всегда остро дискуссионные доводы «за» или «против» самого метода тестирования в российском образовании.

2 При этом не ближайшие, но отдаленные интересы испытуемого конечно же не страдают, но оказываются защищены: ведь за преступления на дороге, совершенные из-за незнания правил, самому водителю также приходится строго отвечать.

3 Может быть, и не надо было бы царедворцам Бориса Годунова брать страшный грех на душу и подстраивать в Угличе самоубийство царевича Дмитрия, если бы в то время в России существовал защищенный демократической властью институт медико-психиатрической экспертизы наследников престола, который просто установил бы диагноз «паталогический педагогически-некурабельный генетически-детерминированный садизм», после которого царевич смог бы жить спокойной частной жизнью и периодически истязать только мелких домашних животных, но никак не подданных огромной страны.

4 При этом, конечно же, не имеется в виду право испытуемого на совершения подлога — путем использования, например, тех же шпаргалок при выполнении интеллектуальных и образовательных тестов.

5 Это показали, в частности, тестологические обследования десятков тысяч наших выпускников школ и абитуриентов вузов в рамках проекта компьютеризованного тестирования «Телетестинг» (Шмелев, 2000): наши российские учащиеся в массе своей демонстрируют поразительную беспомощность при решении простейших текстовых логических задачек, хотя при этом «щелкают как орешки» сложные математические уравнения (правда, опять-таки не имея ни малейшего представления о том, какие физические процессы могут быть описаны с помощью этих формально-математических моделей).

6 Только не следует примитивно трактовать подобные примеры. Автор, конечно, не предлагает делать выводы на материале одного вопроса. Выводы следует делать путем подсчета ответов на несколько десятков вопросов, обеспечивая статистическую достоверность.