унитаз с выпуском в пол
В этих условиях стратегия решения каждый раз должна
строиться с учетом имеющихся сведений о взаимодействии между перво-
начальным результатом irci и дифференцированным обучением. Адап-
тивные методы нередко позволяют повысить число справляющихся
с учебной программой. Поскольку выбор того или иного альтернативно-
го метода в принципе является проблемой классификации, а не отбора,
соответствующие методики будут рассмотрены позже, в разделе, посвя-
щенном классификационным решениям.
Приведенные примеры показывают, что концепции и принципы тео-
рии решений могут помочь в оценке пригодности психологических тес-
тов для конкретных целей тестирования. Теория решений позволяет вы-
делить комплекс факторов, определяющих выигрыш, который дает
использование того или иного теста в частной ситуации. Сам же по себе
коэффициент валидности-лишь один из факторов, подлежащих рассмо-
трению при оценке влияния теста на эффективность всего процесса выра-
ботки решений.
" Более полное обсуждение применения теории решений в тестировании см. в рабо-
те Дж. Виггинса (J.S. Wiggins, 1973, гл. 6), на более специальном уровне эти проблемы об-
163 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ
МОДЕРАТОРЫ
Зависимость валидности от особенностей подгрупп испы-
туемых. Валидность теста относительно данного критерия может зави-
сеть от индивидуальных особенностей испытуемого. Классическая психо-
метрическая модель предполагает, что ошибка прогноза является
характеристикой теста, а не испытуемого и что эти ошибки распростра-
няются на испытуемых случайным образом. Гибкость подхода, свой-
ственная теории решений, способствовала созданию прогностических мо-
делей, учитывающих взаимодействие между индивидом и тестом. Такое
взаимодействие означает, что один и тот же тест может для одних клас-
сов или подмножеств испытуемых обладать большей, а для других-
меньшей прогностической способностью. Например, данный тест может
лучше предсказывать критериальное выполнение для мужчин, чем для
женщин, или для поступающих на работу из более низких, чем из более
высоких социоэкономических уровней. В этих примерах пол и социоэко-
номический уровень играют роль модераторов-переменных, не позво-
ляющих повысить валидность теста (D.R. Saunders, 1956).
Нередко валидность теста для всей группы слишком мала, чтобы
его можно было использовать в прогностических целях. Но подсчет ва-
лидности для подгрупп, различающихся по некоторому легко распозна-
ваемому признаку, выявляет, что в одной подгруппе она велика, а в дру-
гой ничтожна. Следовательно, тест можно эффективно использовать для
принятия решений относительно членов первой, но не второй группы.
Возможно, для второй группы будет эффективным другой тест или иной
способ оценки.
Модератор представляет собой некоторую характеристику группы
лиц, указывающую на прогностическую эффективность теста примени-
тельно именно к данной группе. Это могут быть демографические пока-
затели (пол, возраст, уровень образования, социоэкономический статус)
или результаты другого теста. В роли модераторов часто выступают ин-
тересы и мотивация. Так, если поступающий на работу почти не заинте-
ресован в ней, то его выполнение своих обязанностей, вероятно, будет
неудовлетворительным, независимо от его результатов по соответствую-
щему тесту способностей. Для таких лиц корреляция между результата-
ми теста способностей и качеством выполнения работы будет низкой,
тогда как для заинтересованных и высоко мотивированных индивидов
такая корреляция может оказаться весьма значительной.
Эмпирические примеры модераторов. Данные о действии мо-
дераторов поступают из разных источников. Просмотрев несколько сот
коэффициентов корреляции между результатами теста способностей
и успеваемостью, Г. Сишор (H.G. Seashore, 1962) установил, что в значи-
тельном большинстве случаев коэффициенты корреляции выше у жен-
щин, чем у мужчин. Эта тенденция имела место как в школах, так и
в колледжах, и в последнем случае она была более выраженной. Данные
не содержали указаний на причину отмеченных различий валидности, но
было бы интересно порассуждать о них в свете других известных по-
ловых различий. Поскольку ученицы обычно более склонны к конфор-
мизму, к принятию ценностей и норм школьной жизни, их достижения
в учебе, по-видимому, более связаны с их способностями. Напротив,
юноши чаще направляют свои усилия на те виды деятельности (в школе
164 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
сят дополнительную дисперсию в их учебные достижения, что и затруд-
няет прогноз успеваемости по результатам теста. Но каковы бы ни были
причины этих различий, ясно, что пол действует как модератор прогно-
зирования успеваемости, на основе результатов теста способностей.
Для оценки роли различных модераторов в предсказании успеваемо-
сти был проведен ряд исследований. В некоторых из них (N. Frederiksen.
A.C.F. Gilbert, 1960; N. Frederiksen, S.D. Melville, 1954; L.J. Stricker, 1966)
проверялась гипотеза о том, что более обязательные ученики, выяв-
ленные посредством двух тестов компульсивности, вкладывают много
сил в свою учебную работу независимо от интереса к тому или иному
предмету, в то время как усилия менее обязательных учеников опреде-
ляются их интересами. Поскольку эти усилия сказываются на оценках,
корреляция между соответствующими тестами интересов и успевае-
мостью должна быть выше у некомпульсивных, чем у компульсивных
учеников. Эта гипотеза подтвердилась при исследовании нескольких
групп студентов-мужчин из технических колледжей, но уже обследование
студентов (обоего пола) художественных училищ ни к чему не привело.
Более того, отсутствие согласованности между различными показателя-
ми компульсивности заставляет усомниться в том, что измерялся один
и тот же конструкт.
Другое исследование (R.R. Grooms, N.S. Endler, 1960) показало, что
успеваемость студентов, более склонных к тревожности, сильнее корре-
лирует с результатами тестов достижений и способностей (г = 0,63), чем
у более спокойных студентов (г = 0,19). Иной подход (R.F. Berdie, 1961)
связан с изучением влияния на валидность теста интраиндивидуальной
вариативности результатов. Гипотеза, согласно которой тест лучший
предиктор для тех индивидов, чье выполнение разных частей теста более
последовательно, а значит их суммарные результаты более надежны, ча-
стично подтвердилась, но изучавшееся соотношение оказалось сложнее,
чем ожидалось (R.F. Berdie, 1969).
При клинических исследованиях было обнаружено, что личностные
опросники, заполняемые самим испытуемым, для одних типов невроза
более валидны, чем для Других (S. С. Fulkerson, 1959). Особенности пове-
дения при разных типах невроза таковы, что испытуемые одного типа
отвечают на опросники старательно и точно, тогда как другие-небреж-
но и уклончиво. Индивид, для которого характерна точность и тщатель-
ность подробностей, который озабочен своими проблемами и прибегает
к интеллекту как к средству защиты, по-видимому, более точно воспрои-
зведет в опроснике картину своих эмоциональных затруднений, чем им-
пульсивный и беспечный индивид, который стремится избежать не-
приятных мыслей и эмоций и для кого первой защитной реакцией
является отрицание.
Э. Гизелли (Е.Е. Ghiselli, 1956; 1960й; 1960; 1963, 1968; E.E. Ghiselli,
E. P. Sanders, 1967) много занимался проблемой модераторов в про-
изводственной ситуации. При обследовании водителей такси
(Е.Е. Ghiselli, 1956) корреляция между тестом способностей и крите-
риальным выполнением равнялась лишь 0,22. Затем группа, исследовав-
шаяся по данным теста профессиональных интересов, была разбита на
три подгруппы. Для водителей, чьи интересы больше всего соответство-
вали работе, валидность теста способностей оказалась равной 0,664.
Во многих своих исследованиях Э. Гизелли для каждого испытуемо-
165 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ
гнозируемыми критериальными показателями (чем меньше D, тем лучше
прогнозируемый критериальный показатель). Сравнивая результаты вы-
полнения каждого задания в группах с разными значениями D, он строил
шкалу прогнозируемости, применяя затем к новой выборке, в которой
выделялись подгруппы с лучшей и худшей прогнозируемостью, и для
обеих подгрупп сравнивались значения валидности исходного теста.
Этот метод оказался многообещающим при выявлении индивидов, для
которых тест мог быть хорошим или плохим предиктором. Он был так-
же использован при решении вопроса о том, какой из двух тестов
является лучшим предиктором для данного индивида (Е. Е. Ghiselli,
1960я).
Некоторые исследователи (M.D.Dunnette, 1972; R.Hobert,
M.D.Dunnette, 1967) считают, что показатель D, основанный на абсо-
лютной величине ошибки прогноза без учета ее направленности, может
затушевывать важные индивидуальные различия. Ввиду этого были
предложены процедуры раздельного анализа случаев заниженного и за-
вышенного прогноза.
В настоящее время выявление и использование модераторов все еще
находятся в стадии исследования. Необходима большая осторожность,
чтобы избежать методических ловушек (N.M.Abrahams, 1972а, Ь;
M.D. Dunnette, 1972; Е.Е. Ghiselli, 1972; W.F. Velicer, 1972a, b). Резуль-
таты обычно действительны только для условий, в которых они были
получены. Важно к тому же проверять, насколько модератор действи-
тельно улучшает прогноз, который можно было бы получить и другими,
более прямыми путями (С. С. Finder, 1973).
/
ОБЪЕДИНЕНИЕ ДАННЫХ РАЗЛИЧНЫХ ТЕСТОВ
Для предсказания критерия обычно требуется не один, а несколько те-
стов. Большинство критериев достаточно сложны, а критериальные
меры зависят от целого ряда различных качеств. Если такой критерий
измеряется посредством одного теста, то этот тест должен быть весьма
разнородным. Уже отмечалось (гл. 5), что относительно однородный
тест, измеряющий преимущественно одно качество, позволяет получать
более однозначные результаты. Поэтому обычно предпочтительней
пользоваться серией из нескольких относительно однородных тестов,
каждый из которых нацелен на какой-то один аспект критерия, чем од-
ним большим тестом, представляющим собой мешанину самых разно-
родных заданий.
/ Когда для прогноза применяется серия специально подобранных те-
стов, такая серия называется батареей. Главная проблема использования
батареи состоит в том, как учитывать результаты отдельных тестов при
выработке решения в каждом индивидуальном случае. В этой связи при-
меняются преимущественно два типа статистической обработки резуль-
татов, один из которых основан на использовании уравнения множе-
ственной регрессии, а другой-системы нормативных результатов
Когда тесты применяются для интенсивного индивидуального иссле-
дования, скажем для клинического диагноза, при консультировании или
при оценке руководителей высоких рангов, экспериментатор, как прави-
ло, не прибегает к статистическому анализу результатов. Заполняя меди-
166 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
опыта и теоретических соображений. Такое клиническое использование
тестовых результатов подробнее рассматривается в гл. 16.
Уравнение множественной регрессии. Уравнение множествен-
ной регрессии позволяет для каждого испытуемого по результатам всех
тестов батареи рассчитать значение прогнозируемого критерия. Следую-
щее уравнение регрессии иллюстрирует применение этой процедуры для
предсказания успеваемости старшеклассника по математике на основе
результатов вербального (V), числового {N) тестов, а также теста мышле-
ния {R).
Успехи в математике = 0,21 + 0,21 + 0,327? + 1,35
В этом уравнении станайн ученика по каждому из трех тестов умно-
жается на соответствующие веса. Сумма трех таких произведений плюс
константа 1,35 дает прогнозируемый станайн ученика по математике.
Предположим, Билл Джонс получил следующие станайны:
вербальный тест 6
Числовой тест 4
Тест на мышление 8
Ожидаемые успехи по математике у этого ученика будут равны:
0,21 х б + 0,21 х 4 + 0,32 х 8 + 1,35 == 6,01. Итак, ожидаемый станайн
Билла примерно 6. Вспомним (гл. 4), что станайн 5 отвечает среднему
уровню. Значит, Билл, вероятно, будет иметь по математике оценки не-
сколько выше среднего. Его очень хорошее выполнение теста на мышле-
ние (R = 8) и неплохие результаты по вербальному тесту (V = 6) ком-
пенсируют невысокую скорость и точность вычислений (N = 4).
Конкретные процедуры вычислений, связанных с применением урав-
нений регрессии, читатель найдет в учебниках по статистике для психо-
логов (G. P. Guilford, В. Fruchter, 1973). Существенно, что такие уравне-
ния основываются на корреляции каждого теста с критерием и тестов
между собой. .Очевидно, что тесты, сильнее коррелирующие с критерием,
должны иметь больший вес. Столь же важно, однако, учитывать корре-
ляцию каждого теста с другими тестами батареи. .Высокая корреляция
указывает на ненужное дублирование одного теста другим, ибо это озна-
чает, что тесты в значительной мере направлены на один и тот же аспект
критерия. Включение таких тестов не повышает существенно валидности
всей батареи, даже если они тесно коррелированы с критерием. В этом
случае применение одного из этих тестов столь же эффективно, что
и обоих, поэтому в батарее следует оставить только один тест.
Однако даже после того, как случаев наиболее выраженного дубли-
рования в батарее не остается, тесты все равно будут в той или иной
степени коррелировать друг с другом. Ясно, что чем более <уни-
кальным> является вклад теста в общие результаты батареи, тем боль-
шим должен быть его вес. Таким образом, при расчете параметров урав-
нения регрессии вес каждого теста прямо пропорционален его корреля-
ции с критерием и обратно пропорционален корреляции с другими
тестами. Это значит, что максимальный вес получает тест, обладающий
наибольшей валидностью и в наименьшей степени дублирующий осталь-
ную часть батареи.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69
строиться с учетом имеющихся сведений о взаимодействии между перво-
начальным результатом irci и дифференцированным обучением. Адап-
тивные методы нередко позволяют повысить число справляющихся
с учебной программой. Поскольку выбор того или иного альтернативно-
го метода в принципе является проблемой классификации, а не отбора,
соответствующие методики будут рассмотрены позже, в разделе, посвя-
щенном классификационным решениям.
Приведенные примеры показывают, что концепции и принципы тео-
рии решений могут помочь в оценке пригодности психологических тес-
тов для конкретных целей тестирования. Теория решений позволяет вы-
делить комплекс факторов, определяющих выигрыш, который дает
использование того или иного теста в частной ситуации. Сам же по себе
коэффициент валидности-лишь один из факторов, подлежащих рассмо-
трению при оценке влияния теста на эффективность всего процесса выра-
ботки решений.
" Более полное обсуждение применения теории решений в тестировании см. в рабо-
те Дж. Виггинса (J.S. Wiggins, 1973, гл. 6), на более специальном уровне эти проблемы об-
163 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ
МОДЕРАТОРЫ
Зависимость валидности от особенностей подгрупп испы-
туемых. Валидность теста относительно данного критерия может зави-
сеть от индивидуальных особенностей испытуемого. Классическая психо-
метрическая модель предполагает, что ошибка прогноза является
характеристикой теста, а не испытуемого и что эти ошибки распростра-
няются на испытуемых случайным образом. Гибкость подхода, свой-
ственная теории решений, способствовала созданию прогностических мо-
делей, учитывающих взаимодействие между индивидом и тестом. Такое
взаимодействие означает, что один и тот же тест может для одних клас-
сов или подмножеств испытуемых обладать большей, а для других-
меньшей прогностической способностью. Например, данный тест может
лучше предсказывать критериальное выполнение для мужчин, чем для
женщин, или для поступающих на работу из более низких, чем из более
высоких социоэкономических уровней. В этих примерах пол и социоэко-
номический уровень играют роль модераторов-переменных, не позво-
ляющих повысить валидность теста (D.R. Saunders, 1956).
Нередко валидность теста для всей группы слишком мала, чтобы
его можно было использовать в прогностических целях. Но подсчет ва-
лидности для подгрупп, различающихся по некоторому легко распозна-
ваемому признаку, выявляет, что в одной подгруппе она велика, а в дру-
гой ничтожна. Следовательно, тест можно эффективно использовать для
принятия решений относительно членов первой, но не второй группы.
Возможно, для второй группы будет эффективным другой тест или иной
способ оценки.
Модератор представляет собой некоторую характеристику группы
лиц, указывающую на прогностическую эффективность теста примени-
тельно именно к данной группе. Это могут быть демографические пока-
затели (пол, возраст, уровень образования, социоэкономический статус)
или результаты другого теста. В роли модераторов часто выступают ин-
тересы и мотивация. Так, если поступающий на работу почти не заинте-
ресован в ней, то его выполнение своих обязанностей, вероятно, будет
неудовлетворительным, независимо от его результатов по соответствую-
щему тесту способностей. Для таких лиц корреляция между результата-
ми теста способностей и качеством выполнения работы будет низкой,
тогда как для заинтересованных и высоко мотивированных индивидов
такая корреляция может оказаться весьма значительной.
Эмпирические примеры модераторов. Данные о действии мо-
дераторов поступают из разных источников. Просмотрев несколько сот
коэффициентов корреляции между результатами теста способностей
и успеваемостью, Г. Сишор (H.G. Seashore, 1962) установил, что в значи-
тельном большинстве случаев коэффициенты корреляции выше у жен-
щин, чем у мужчин. Эта тенденция имела место как в школах, так и
в колледжах, и в последнем случае она была более выраженной. Данные
не содержали указаний на причину отмеченных различий валидности, но
было бы интересно порассуждать о них в свете других известных по-
ловых различий. Поскольку ученицы обычно более склонны к конфор-
мизму, к принятию ценностей и норм школьной жизни, их достижения
в учебе, по-видимому, более связаны с их способностями. Напротив,
юноши чаще направляют свои усилия на те виды деятельности (в школе
164 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
сят дополнительную дисперсию в их учебные достижения, что и затруд-
няет прогноз успеваемости по результатам теста. Но каковы бы ни были
причины этих различий, ясно, что пол действует как модератор прогно-
зирования успеваемости, на основе результатов теста способностей.
Для оценки роли различных модераторов в предсказании успеваемо-
сти был проведен ряд исследований. В некоторых из них (N. Frederiksen.
A.C.F. Gilbert, 1960; N. Frederiksen, S.D. Melville, 1954; L.J. Stricker, 1966)
проверялась гипотеза о том, что более обязательные ученики, выяв-
ленные посредством двух тестов компульсивности, вкладывают много
сил в свою учебную работу независимо от интереса к тому или иному
предмету, в то время как усилия менее обязательных учеников опреде-
ляются их интересами. Поскольку эти усилия сказываются на оценках,
корреляция между соответствующими тестами интересов и успевае-
мостью должна быть выше у некомпульсивных, чем у компульсивных
учеников. Эта гипотеза подтвердилась при исследовании нескольких
групп студентов-мужчин из технических колледжей, но уже обследование
студентов (обоего пола) художественных училищ ни к чему не привело.
Более того, отсутствие согласованности между различными показателя-
ми компульсивности заставляет усомниться в том, что измерялся один
и тот же конструкт.
Другое исследование (R.R. Grooms, N.S. Endler, 1960) показало, что
успеваемость студентов, более склонных к тревожности, сильнее корре-
лирует с результатами тестов достижений и способностей (г = 0,63), чем
у более спокойных студентов (г = 0,19). Иной подход (R.F. Berdie, 1961)
связан с изучением влияния на валидность теста интраиндивидуальной
вариативности результатов. Гипотеза, согласно которой тест лучший
предиктор для тех индивидов, чье выполнение разных частей теста более
последовательно, а значит их суммарные результаты более надежны, ча-
стично подтвердилась, но изучавшееся соотношение оказалось сложнее,
чем ожидалось (R.F. Berdie, 1969).
При клинических исследованиях было обнаружено, что личностные
опросники, заполняемые самим испытуемым, для одних типов невроза
более валидны, чем для Других (S. С. Fulkerson, 1959). Особенности пове-
дения при разных типах невроза таковы, что испытуемые одного типа
отвечают на опросники старательно и точно, тогда как другие-небреж-
но и уклончиво. Индивид, для которого характерна точность и тщатель-
ность подробностей, который озабочен своими проблемами и прибегает
к интеллекту как к средству защиты, по-видимому, более точно воспрои-
зведет в опроснике картину своих эмоциональных затруднений, чем им-
пульсивный и беспечный индивид, который стремится избежать не-
приятных мыслей и эмоций и для кого первой защитной реакцией
является отрицание.
Э. Гизелли (Е.Е. Ghiselli, 1956; 1960й; 1960; 1963, 1968; E.E. Ghiselli,
E. P. Sanders, 1967) много занимался проблемой модераторов в про-
изводственной ситуации. При обследовании водителей такси
(Е.Е. Ghiselli, 1956) корреляция между тестом способностей и крите-
риальным выполнением равнялась лишь 0,22. Затем группа, исследовав-
шаяся по данным теста профессиональных интересов, была разбита на
три подгруппы. Для водителей, чьи интересы больше всего соответство-
вали работе, валидность теста способностей оказалась равной 0,664.
Во многих своих исследованиях Э. Гизелли для каждого испытуемо-
165 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ
гнозируемыми критериальными показателями (чем меньше D, тем лучше
прогнозируемый критериальный показатель). Сравнивая результаты вы-
полнения каждого задания в группах с разными значениями D, он строил
шкалу прогнозируемости, применяя затем к новой выборке, в которой
выделялись подгруппы с лучшей и худшей прогнозируемостью, и для
обеих подгрупп сравнивались значения валидности исходного теста.
Этот метод оказался многообещающим при выявлении индивидов, для
которых тест мог быть хорошим или плохим предиктором. Он был так-
же использован при решении вопроса о том, какой из двух тестов
является лучшим предиктором для данного индивида (Е. Е. Ghiselli,
1960я).
Некоторые исследователи (M.D.Dunnette, 1972; R.Hobert,
M.D.Dunnette, 1967) считают, что показатель D, основанный на абсо-
лютной величине ошибки прогноза без учета ее направленности, может
затушевывать важные индивидуальные различия. Ввиду этого были
предложены процедуры раздельного анализа случаев заниженного и за-
вышенного прогноза.
В настоящее время выявление и использование модераторов все еще
находятся в стадии исследования. Необходима большая осторожность,
чтобы избежать методических ловушек (N.M.Abrahams, 1972а, Ь;
M.D. Dunnette, 1972; Е.Е. Ghiselli, 1972; W.F. Velicer, 1972a, b). Резуль-
таты обычно действительны только для условий, в которых они были
получены. Важно к тому же проверять, насколько модератор действи-
тельно улучшает прогноз, который можно было бы получить и другими,
более прямыми путями (С. С. Finder, 1973).
/
ОБЪЕДИНЕНИЕ ДАННЫХ РАЗЛИЧНЫХ ТЕСТОВ
Для предсказания критерия обычно требуется не один, а несколько те-
стов. Большинство критериев достаточно сложны, а критериальные
меры зависят от целого ряда различных качеств. Если такой критерий
измеряется посредством одного теста, то этот тест должен быть весьма
разнородным. Уже отмечалось (гл. 5), что относительно однородный
тест, измеряющий преимущественно одно качество, позволяет получать
более однозначные результаты. Поэтому обычно предпочтительней
пользоваться серией из нескольких относительно однородных тестов,
каждый из которых нацелен на какой-то один аспект критерия, чем од-
ним большим тестом, представляющим собой мешанину самых разно-
родных заданий.
/ Когда для прогноза применяется серия специально подобранных те-
стов, такая серия называется батареей. Главная проблема использования
батареи состоит в том, как учитывать результаты отдельных тестов при
выработке решения в каждом индивидуальном случае. В этой связи при-
меняются преимущественно два типа статистической обработки резуль-
татов, один из которых основан на использовании уравнения множе-
ственной регрессии, а другой-системы нормативных результатов
Когда тесты применяются для интенсивного индивидуального иссле-
дования, скажем для клинического диагноза, при консультировании или
при оценке руководителей высоких рангов, экспериментатор, как прави-
ло, не прибегает к статистическому анализу результатов. Заполняя меди-
166 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
опыта и теоретических соображений. Такое клиническое использование
тестовых результатов подробнее рассматривается в гл. 16.
Уравнение множественной регрессии. Уравнение множествен-
ной регрессии позволяет для каждого испытуемого по результатам всех
тестов батареи рассчитать значение прогнозируемого критерия. Следую-
щее уравнение регрессии иллюстрирует применение этой процедуры для
предсказания успеваемости старшеклассника по математике на основе
результатов вербального (V), числового {N) тестов, а также теста мышле-
ния {R).
Успехи в математике = 0,21 + 0,21 + 0,327? + 1,35
В этом уравнении станайн ученика по каждому из трех тестов умно-
жается на соответствующие веса. Сумма трех таких произведений плюс
константа 1,35 дает прогнозируемый станайн ученика по математике.
Предположим, Билл Джонс получил следующие станайны:
вербальный тест 6
Числовой тест 4
Тест на мышление 8
Ожидаемые успехи по математике у этого ученика будут равны:
0,21 х б + 0,21 х 4 + 0,32 х 8 + 1,35 == 6,01. Итак, ожидаемый станайн
Билла примерно 6. Вспомним (гл. 4), что станайн 5 отвечает среднему
уровню. Значит, Билл, вероятно, будет иметь по математике оценки не-
сколько выше среднего. Его очень хорошее выполнение теста на мышле-
ние (R = 8) и неплохие результаты по вербальному тесту (V = 6) ком-
пенсируют невысокую скорость и точность вычислений (N = 4).
Конкретные процедуры вычислений, связанных с применением урав-
нений регрессии, читатель найдет в учебниках по статистике для психо-
логов (G. P. Guilford, В. Fruchter, 1973). Существенно, что такие уравне-
ния основываются на корреляции каждого теста с критерием и тестов
между собой. .Очевидно, что тесты, сильнее коррелирующие с критерием,
должны иметь больший вес. Столь же важно, однако, учитывать корре-
ляцию каждого теста с другими тестами батареи. .Высокая корреляция
указывает на ненужное дублирование одного теста другим, ибо это озна-
чает, что тесты в значительной мере направлены на один и тот же аспект
критерия. Включение таких тестов не повышает существенно валидности
всей батареи, даже если они тесно коррелированы с критерием. В этом
случае применение одного из этих тестов столь же эффективно, что
и обоих, поэтому в батарее следует оставить только один тест.
Однако даже после того, как случаев наиболее выраженного дубли-
рования в батарее не остается, тесты все равно будут в той или иной
степени коррелировать друг с другом. Ясно, что чем более <уни-
кальным> является вклад теста в общие результаты батареи, тем боль-
шим должен быть его вес. Таким образом, при расчете параметров урав-
нения регрессии вес каждого теста прямо пропорционален его корреля-
ции с критерием и обратно пропорционален корреляции с другими
тестами. Это значит, что максимальный вес получает тест, обладающий
наибольшей валидностью и в наименьшей степени дублирующий осталь-
ную часть батареи.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69