сидячая ванна купить
Если такие тесты, как словарный,
синонимов, антонимов и завершения предложений, тесно коррелируют
между собой и слабо-с другими тестами, то мы могли бы выделить на-
личие общего им фактора-понимание слов.
Поскольку такой проверочный анализ корреляционной таблищд
и труден и ненадежен, то для выявления общих факторов, за счет ко-
торых можно объяснить полученные корреляции, применяются более
точные статистические методы. Эти методы будут еще рассмотрены
в гл. 13, где речь пойдет о комплексных батареях способностей, разра-
батываемых при помощи факторного анализа.
В ходе факторного анализа равное количеству тестов число пере-
менных или категорий, служащих для описания выполнения теста инди-
видом, сокращается до нескольких факторов или общих свойств. В при-
веденном выше примере для объяснения попарных корреляций между 20
тестами хватило бы 5-6 факторов. Иначе говоря, результаты каждого
индивида по 20 тестам можно было бы заменить данными по 5 или
6 факторам. Главное назначение факторного анализа состоит в упроще-
нии описания данных путем сокращения числа категорий до нескольких
143 ВАЛИДНОСТЬ. ОСНОВНЫЕ ПОНЯТИЯ
После идентификации факторов их можно использовать для описа-
ния факторного состава теста. Каждый тест может быть охарактеризо-
ван посредством основных факторов, определяющих его показатели, ве-
сом, или нагрузкой, каждого фактора и корреляцией теста с каждым из
них. Такая корреляция именуется факторной валидностью теста. Так, ес-
ли в словарном тесте фактор понимания слов имеет вес 0,66, то фактор-
ная валидность этого лексического теста как средства измерения пони-
мания слов равна 0,66. Важно отметить, что факторная валидность
представляет собой корреляцию теста с тем, что есть общего для группы
тестов или других указателей поведения. Анализируемое множество
переменных может, конечно, включать в себя как тестовые, так и внете-
стовые данные, в том числе субъективные оценки и другие крите-
риальные меры. Все они наряду с другими тестами могут быть исполь-
зованы для исследования факторной валидности конкретного теста и для
определения измеряемых им свойств.
Внутренняя согласованность. В описаниях ряда тестов, особен-
но тех, которые применяются для исследования личности, говорится, что
валидность теста была установлена методом внутренней согласованно-
сти. Существенной чертой этого метода является использование в каче-
стве критерия суммарного показателя данного теста. Иногда при этом
применяется метод сравнения контрастных групп, которые формируются
из испытуемых, показавших самые высокие и самые низкие суммарные
результаты. Выполнение каждого теста группой с высокими результата-
ми сравнивается с выполнением группой с низкими результатами, и те
задания, с которыми первая группа не справляется значительно лучше,
чем вторая, признаются невалидными и либо отбрасываются, либо пере-
сматриваются. Можно также воспользоваться бисериальной корреляцией
между исходами (<справился-не справился>) каждого задания и сум-
марным результатом теста, и тогда сохраняются только те задания, для
которых отмечена значимая корреляция с тестом в целом. Если тест со-
стоит из заданий, прошедших такого рода отбор, то говорят, что тест
обладает внутренней согласованностью, поскольку все его задания под-
чинены основному направлению теста как целого.
Критерий внутренней согласованности означает также корреляцию
между результатами субтеста и суммарным результатом. Многие тесты
интеллекта, например, состоят из раздельно применяемых субтестов (та-
ких, как словарный, арифметический, завершение картинки и т.д.), из ре-
зультатов которых складывается общий результат теста. При построе-
нии таких тестов определяется корреляция между результатами каждого
субтеста с общим результатом и субтесты, плохо коррелирующие с те-
стом в целом, отбрасываются. Коэффициенты корреляции для оставших-
ся субтестов приводятся затем как свидетельство внутренней согласован-
ности всего теста.
Очевидно, что корреляции внутренней согласованности теста-суще-
ственная мера его однородности. Поскольку это свойство помогает оха-
рактеризовать область поведения или свойство, выборочно представлен-
ное в тесте, то степень однородности теста имеет отношение
к конструктной валидности. Тем не менее роль внутренней согласованно-
сти в валидности теста весьма ограничена. При отсутствии информации,
внешней по отношению к тесту, мало что можно сказать о том, что он
измеряет.
.-_-".""" "др""" д результаты
144 ПРИНЦИПЫ П(ИХ0.1(11ИЧ1.(К010 ТЕСТИРОВАНИЯ
теста. Еще одним источником данных о конструктной валидности мо-
гут служить эксперименты, в которых исследуется влияние тех или иных
факторов на результаты теста. При проверке валидности критериально-
ориентированного теста, предназначенного, скажем, для использования
в индивидуальном обучении, один из подходов состоит в сравнении ре-
зультатов тестирования до и после экспериментального воздействия.
Предполагается, например, что результаты до обучения должны быть
низкими, а после обучения - высокими. То же соотношение можно прове-
рить и на отдельных заданиях теста (W.J. Popham, 1971). В идеале
с каждым заданием до обучения должно справиться минимальное, а по-
сле обучения-максимальное число учеников. Задания, с которыми мало
кто справляется в обоих случаях, слишком трудны, а те, с которыми
справляются все и до и после обучения, слишком доступны с точки зре-
ния целей, преследуемых тестом. Если многие в первый раз справляются,
а во в горой раз не справляются с заданием, то что-то неладно или
с этим заданием, или с обучением, или с тем и другим.
Тест, предназначенный для измерения тревожности, можно испы-
тать, давая его испытуемым до и после того, как они были помещены
в обстановку, провоцирующую состояние тревоги (примером может слу-
жить проверка знаний в условиях, отвлекающих от проверки, и в стрес-
совой ситуации). Начальные тестовые показатели можно сопоставить
с физиологическими и иными показателями тревоги во время и после
экспериментального воздействия. Вместе с тем можно сравнить резуль-
таты тестирования до и после воздействия. Значимый прирост показате-
ля теста будет свидетельствовать о том, что он отражает текущий уро-
вень тревожности. Аналогичным образом можно построить эксперимент
на проверку теста относительно других измеряемых им свойств.
Конвергентная и дискриминантная валидности. В своем
глубоком анализе конструктной валидности Д.Т. Кэмпбелл
(D.T. Campbell, 1960) отмечает, что конструктная валидность теста зави-
сит не только от того, насколько тесно он коррелирует с другими пере-
менными, с которыми теоретически должен коррелировать, но и от от-
сутствия значимой корреляции с переменными, с которыми он не должен
быть связан. В более ранней работе Д.Т.Кэмггбелла и Д. В. Фиске
(D.T. Campbell, D.W. Fiske, 1959) эти процессы соответственно были на-
званы конвергентной и дискриминантной валидацией. Например, значи-
мая корреляция теста технических способностей с последующими оцен-
ками но курсу производственною обучения относится к конвергентной
валидности, тогда как дискриминант ной валидности отвечала бы низкая
и незначимая корреляция с пониманием читаемою текста, поскольку это
умение безотносигельно к icciy. предназначенному измерять технические
способное т и.
Напомним. 410 требование низкой корреляции с безотносительными
к тесту переменными рассматривалось выше в связи с дополнительными
процедурами валидацни по содержанию. Дискриминантная валидация
также имеет прямое отпопгенпс к определению валидности личностных
тестов, в которых безотносшельные к гесту переменные, причем разны-
ми путями, могут влиять на результаты.
В упомянутой выше сгатье (13. Т. Campbell. D.W. Fiske. 1959) предло-
жена схема эксперимента, позволяюгцею одновременно производить
конвергентную и дпскриминапгпую валидацию. названную ими много-
145
иЛЛИД11(Н1Ь. (KHOBHbIL ПОНЯТИЯ
гает оценку двух или более свойств двумя или более методами. Табл. 12,
взятая из этой сппьи, поясняет эту процедуру. На этой таблице изобра-
жены всевозможные корреляции показателей по трем свойствам, изме-
ряемым тремя методами. Эти свойства А, В и С могут обозначать со-
ответственно склонность к лидерству, общительность и мотивацию
достижений. В качестве методов могут выступать (1) опросник, который
испытуемый заполняет сам, (2) проективная методика и (3) оценки кол-
лег. Таким образом, А\ означает данные о стремлении к лидерству, по-
лученные с помощью онросника, л;-данные по тому же признаку, но на
основании проективного теста, а Сд-оценки мотивации достижений, да-
ваемые коллегами, и т.д.
Гипотетические коэффициенты корреляции, приведенные в табл. 12,
включают в себя коэффициенты надежности (они стоят в скобках вдоль
главной диагонали) и коэффициенты валидности (напечатаны полу-
жирным шрифтом но трем коротким диагоналям). Как показывают
коэффициенты валидности, результаты измерения каждого свойства раз-
личными методами коррелируют между собой. Здесь каждая мера сопо-
ставляется с другими независимыми мерами того же свойства, как и
в знакомой нам процедуре валидации. Таблица также содержит коэффи-
циенты корреляции между различными свойствами, измеренными одним
и тем же (сплошные треугольники) и разными (пунктирные треугольни-
Таблица 12
Гипотетическая миоюметодная матрица свойств (D.T.Campbell, D.W.Fiske, 1959, р. 82)
Мотод 1
Метод 2
Метод 3
свойства А B.i С.)
В, С, АЗ
0,89)
Метод 1 В<
.(0,76)
Ag 0,570,22 0,0910,93)
1
Метод 2 Bg 1 0,220,57 0,10
I -j
Ll -ЇU Ъ
0,22 0 1.0,670,42 0,33 1,94)
1 1
Метод 3 Вд 1 0,23 0,58 \ 0,12 \ \ 0,43" 0,660,34
1
0,11 0,110,45 [0,34 0,320,58
.(0,85)
146 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
ки) методами. Конструктная валидность может считаться удовлетвори-
тельной, если коэффициенты валидности явно выше коэффициентов кор-
реляции между различными свойствами, измеренными различными
методами. Они также должны быть выше коэффициентов корреляции
между различными свойствами, измеренными одним и тем же методом.
Например, корреляция между стремлением к лидерству, определенным
путем самооценки и проективным методом, должна быть выше, чем кор-
реляция между стремлением к лидерству и общительностью, найденным
по опросникам, заполняемым самим испытуемым. Если последняя кор-
реляция, представляющая дисперсию при фиксированном методе, была
бы высокой, то это могло бы означать, например, что на индиви-
дуальные результаты данного опросника заметно влияет такой безотно-
сительный к тесту фактор, как способность понимать вопросы или жела-
ние предстать в выгодном свете по всем свойствам.
Д. В. Фиске (D. W. Fiske, 1973) считает желательным дополнительно
воспользоваться еще одним множеством корреляций, особенно при кон-
структной валидности личностных тестов. Эти корреляции относятся
к измерению одного и того же свойства одним и тем же методом, но по-
средством разных тестов. Например, два исследователя могут независи-
мо друг от друга составить опросники выносливости, а результаты обо-
их опросников могут по-разному коррелировать с другими свойствами
личности. Если это происходит, то нельзя считать, что оба опросника из-
меряют один и тот же личностный конструкт-выносливость.
Добавим, что описанная выше матрица надежности указывает на со-
гласованность двух мер одного и того же свойства, полученных предель-
но сходными методами, такими, как параллельные формы теста; на ва-
лидность между двумя мерами одного свойства, полученными предельно
различными методами, например с помощью теста и посредством опро-
са мнений коллег. Поскольку сходство и различие методов могут про-
являться в разной степени, теоретически надежность и валидность могут
рассматриваться как принадлежащие одному и тому же континууму. Од-
нако, как правило, методы, используемые для измерения надежности
и валидности, легко различимы.
итоги
Мы рассмотрели несколько способов задавать вопрос: <Насколько
валиден данный тест?> Чтобы четче выделить отличительные черты раз-
ных типов валидности, применим каждый из них к тесту, состоящему
из 50 различных арифметических задач. В табл. 13 отражены 4 способа
использования данного теста и соответствующие им процедуры валида-
ции. Из таблицы видно, что выбор процедуры валидации зависит от
последующего назначения результатов теста. Валидность одного и того
же теста в зависимости от цели его применения должна устанавли-
ваться по-разному. Если тест достижений используется для предска-
зания дальнейших успехов на более высоком уровне обучения, как в слу-
чае отбора старшеклассников при их приеме в колледж, то валидность
этого теста нужно устанавливать относительно оценок, получаемых
в колледже, а не относительно содержания данного школьного курса.
Примеры из табл. 13 поясняют различия между разного типа ва-
лидациями. Дальнейшее рассмотрение этих процедур, однако, показы-
вает, что валидности по содержанию, относительно критерия и конструкт-
ная ре являются строго различными или логически упорядоченными
147 ВАЛИДНОСТЬ. ОСНОВНЫЕ понятия
Таблица 13
Валидность одного и того же арифметического теста применительно к разным целям
Цель тестирования Вопрос) на который должен Тип валидности
ответить тест
Тестирование достижений по Что Дик усвоил на По содержанию
арифметике в средних классах сегодняшний день?
школы
Тестирование способностей для Как Джим будет Прогностическая
предсказания возможности освоения учиться в дальнейшем? относительно критерия
курса математики в старших
классах
Диагностирование трудностей Выявило ли выполнение Текущая относительно
в обучении теста Биллом какие-то критерия
трудности в обучении?
Тестирование логического Как можно охарактери- Конструктная
мышления зовать психическую
деятельность Генри?
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69
синонимов, антонимов и завершения предложений, тесно коррелируют
между собой и слабо-с другими тестами, то мы могли бы выделить на-
личие общего им фактора-понимание слов.
Поскольку такой проверочный анализ корреляционной таблищд
и труден и ненадежен, то для выявления общих факторов, за счет ко-
торых можно объяснить полученные корреляции, применяются более
точные статистические методы. Эти методы будут еще рассмотрены
в гл. 13, где речь пойдет о комплексных батареях способностей, разра-
батываемых при помощи факторного анализа.
В ходе факторного анализа равное количеству тестов число пере-
менных или категорий, служащих для описания выполнения теста инди-
видом, сокращается до нескольких факторов или общих свойств. В при-
веденном выше примере для объяснения попарных корреляций между 20
тестами хватило бы 5-6 факторов. Иначе говоря, результаты каждого
индивида по 20 тестам можно было бы заменить данными по 5 или
6 факторам. Главное назначение факторного анализа состоит в упроще-
нии описания данных путем сокращения числа категорий до нескольких
143 ВАЛИДНОСТЬ. ОСНОВНЫЕ ПОНЯТИЯ
После идентификации факторов их можно использовать для описа-
ния факторного состава теста. Каждый тест может быть охарактеризо-
ван посредством основных факторов, определяющих его показатели, ве-
сом, или нагрузкой, каждого фактора и корреляцией теста с каждым из
них. Такая корреляция именуется факторной валидностью теста. Так, ес-
ли в словарном тесте фактор понимания слов имеет вес 0,66, то фактор-
ная валидность этого лексического теста как средства измерения пони-
мания слов равна 0,66. Важно отметить, что факторная валидность
представляет собой корреляцию теста с тем, что есть общего для группы
тестов или других указателей поведения. Анализируемое множество
переменных может, конечно, включать в себя как тестовые, так и внете-
стовые данные, в том числе субъективные оценки и другие крите-
риальные меры. Все они наряду с другими тестами могут быть исполь-
зованы для исследования факторной валидности конкретного теста и для
определения измеряемых им свойств.
Внутренняя согласованность. В описаниях ряда тестов, особен-
но тех, которые применяются для исследования личности, говорится, что
валидность теста была установлена методом внутренней согласованно-
сти. Существенной чертой этого метода является использование в каче-
стве критерия суммарного показателя данного теста. Иногда при этом
применяется метод сравнения контрастных групп, которые формируются
из испытуемых, показавших самые высокие и самые низкие суммарные
результаты. Выполнение каждого теста группой с высокими результата-
ми сравнивается с выполнением группой с низкими результатами, и те
задания, с которыми первая группа не справляется значительно лучше,
чем вторая, признаются невалидными и либо отбрасываются, либо пере-
сматриваются. Можно также воспользоваться бисериальной корреляцией
между исходами (<справился-не справился>) каждого задания и сум-
марным результатом теста, и тогда сохраняются только те задания, для
которых отмечена значимая корреляция с тестом в целом. Если тест со-
стоит из заданий, прошедших такого рода отбор, то говорят, что тест
обладает внутренней согласованностью, поскольку все его задания под-
чинены основному направлению теста как целого.
Критерий внутренней согласованности означает также корреляцию
между результатами субтеста и суммарным результатом. Многие тесты
интеллекта, например, состоят из раздельно применяемых субтестов (та-
ких, как словарный, арифметический, завершение картинки и т.д.), из ре-
зультатов которых складывается общий результат теста. При построе-
нии таких тестов определяется корреляция между результатами каждого
субтеста с общим результатом и субтесты, плохо коррелирующие с те-
стом в целом, отбрасываются. Коэффициенты корреляции для оставших-
ся субтестов приводятся затем как свидетельство внутренней согласован-
ности всего теста.
Очевидно, что корреляции внутренней согласованности теста-суще-
ственная мера его однородности. Поскольку это свойство помогает оха-
рактеризовать область поведения или свойство, выборочно представлен-
ное в тесте, то степень однородности теста имеет отношение
к конструктной валидности. Тем не менее роль внутренней согласованно-
сти в валидности теста весьма ограничена. При отсутствии информации,
внешней по отношению к тесту, мало что можно сказать о том, что он
измеряет.
.-_-".""" "др""" д результаты
144 ПРИНЦИПЫ П(ИХ0.1(11ИЧ1.(К010 ТЕСТИРОВАНИЯ
теста. Еще одним источником данных о конструктной валидности мо-
гут служить эксперименты, в которых исследуется влияние тех или иных
факторов на результаты теста. При проверке валидности критериально-
ориентированного теста, предназначенного, скажем, для использования
в индивидуальном обучении, один из подходов состоит в сравнении ре-
зультатов тестирования до и после экспериментального воздействия.
Предполагается, например, что результаты до обучения должны быть
низкими, а после обучения - высокими. То же соотношение можно прове-
рить и на отдельных заданиях теста (W.J. Popham, 1971). В идеале
с каждым заданием до обучения должно справиться минимальное, а по-
сле обучения-максимальное число учеников. Задания, с которыми мало
кто справляется в обоих случаях, слишком трудны, а те, с которыми
справляются все и до и после обучения, слишком доступны с точки зре-
ния целей, преследуемых тестом. Если многие в первый раз справляются,
а во в горой раз не справляются с заданием, то что-то неладно или
с этим заданием, или с обучением, или с тем и другим.
Тест, предназначенный для измерения тревожности, можно испы-
тать, давая его испытуемым до и после того, как они были помещены
в обстановку, провоцирующую состояние тревоги (примером может слу-
жить проверка знаний в условиях, отвлекающих от проверки, и в стрес-
совой ситуации). Начальные тестовые показатели можно сопоставить
с физиологическими и иными показателями тревоги во время и после
экспериментального воздействия. Вместе с тем можно сравнить резуль-
таты тестирования до и после воздействия. Значимый прирост показате-
ля теста будет свидетельствовать о том, что он отражает текущий уро-
вень тревожности. Аналогичным образом можно построить эксперимент
на проверку теста относительно других измеряемых им свойств.
Конвергентная и дискриминантная валидности. В своем
глубоком анализе конструктной валидности Д.Т. Кэмпбелл
(D.T. Campbell, 1960) отмечает, что конструктная валидность теста зави-
сит не только от того, насколько тесно он коррелирует с другими пере-
менными, с которыми теоретически должен коррелировать, но и от от-
сутствия значимой корреляции с переменными, с которыми он не должен
быть связан. В более ранней работе Д.Т.Кэмггбелла и Д. В. Фиске
(D.T. Campbell, D.W. Fiske, 1959) эти процессы соответственно были на-
званы конвергентной и дискриминантной валидацией. Например, значи-
мая корреляция теста технических способностей с последующими оцен-
ками но курсу производственною обучения относится к конвергентной
валидности, тогда как дискриминант ной валидности отвечала бы низкая
и незначимая корреляция с пониманием читаемою текста, поскольку это
умение безотносигельно к icciy. предназначенному измерять технические
способное т и.
Напомним. 410 требование низкой корреляции с безотносительными
к тесту переменными рассматривалось выше в связи с дополнительными
процедурами валидацни по содержанию. Дискриминантная валидация
также имеет прямое отпопгенпс к определению валидности личностных
тестов, в которых безотносшельные к гесту переменные, причем разны-
ми путями, могут влиять на результаты.
В упомянутой выше сгатье (13. Т. Campbell. D.W. Fiske. 1959) предло-
жена схема эксперимента, позволяюгцею одновременно производить
конвергентную и дпскриминапгпую валидацию. названную ими много-
145
иЛЛИД11(Н1Ь. (KHOBHbIL ПОНЯТИЯ
гает оценку двух или более свойств двумя или более методами. Табл. 12,
взятая из этой сппьи, поясняет эту процедуру. На этой таблице изобра-
жены всевозможные корреляции показателей по трем свойствам, изме-
ряемым тремя методами. Эти свойства А, В и С могут обозначать со-
ответственно склонность к лидерству, общительность и мотивацию
достижений. В качестве методов могут выступать (1) опросник, который
испытуемый заполняет сам, (2) проективная методика и (3) оценки кол-
лег. Таким образом, А\ означает данные о стремлении к лидерству, по-
лученные с помощью онросника, л;-данные по тому же признаку, но на
основании проективного теста, а Сд-оценки мотивации достижений, да-
ваемые коллегами, и т.д.
Гипотетические коэффициенты корреляции, приведенные в табл. 12,
включают в себя коэффициенты надежности (они стоят в скобках вдоль
главной диагонали) и коэффициенты валидности (напечатаны полу-
жирным шрифтом но трем коротким диагоналям). Как показывают
коэффициенты валидности, результаты измерения каждого свойства раз-
личными методами коррелируют между собой. Здесь каждая мера сопо-
ставляется с другими независимыми мерами того же свойства, как и
в знакомой нам процедуре валидации. Таблица также содержит коэффи-
циенты корреляции между различными свойствами, измеренными одним
и тем же (сплошные треугольники) и разными (пунктирные треугольни-
Таблица 12
Гипотетическая миоюметодная матрица свойств (D.T.Campbell, D.W.Fiske, 1959, р. 82)
Мотод 1
Метод 2
Метод 3
свойства А B.i С.)
В, С, АЗ
0,89)
Метод 1 В<
.(0,76)
Ag 0,570,22 0,0910,93)
1
Метод 2 Bg 1 0,220,57 0,10
I -j
Ll -ЇU Ъ
0,22 0 1.0,670,42 0,33 1,94)
1 1
Метод 3 Вд 1 0,23 0,58 \ 0,12 \ \ 0,43" 0,660,34
1
0,11 0,110,45 [0,34 0,320,58
.(0,85)
146 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
ки) методами. Конструктная валидность может считаться удовлетвори-
тельной, если коэффициенты валидности явно выше коэффициентов кор-
реляции между различными свойствами, измеренными различными
методами. Они также должны быть выше коэффициентов корреляции
между различными свойствами, измеренными одним и тем же методом.
Например, корреляция между стремлением к лидерству, определенным
путем самооценки и проективным методом, должна быть выше, чем кор-
реляция между стремлением к лидерству и общительностью, найденным
по опросникам, заполняемым самим испытуемым. Если последняя кор-
реляция, представляющая дисперсию при фиксированном методе, была
бы высокой, то это могло бы означать, например, что на индиви-
дуальные результаты данного опросника заметно влияет такой безотно-
сительный к тесту фактор, как способность понимать вопросы или жела-
ние предстать в выгодном свете по всем свойствам.
Д. В. Фиске (D. W. Fiske, 1973) считает желательным дополнительно
воспользоваться еще одним множеством корреляций, особенно при кон-
структной валидности личностных тестов. Эти корреляции относятся
к измерению одного и того же свойства одним и тем же методом, но по-
средством разных тестов. Например, два исследователя могут независи-
мо друг от друга составить опросники выносливости, а результаты обо-
их опросников могут по-разному коррелировать с другими свойствами
личности. Если это происходит, то нельзя считать, что оба опросника из-
меряют один и тот же личностный конструкт-выносливость.
Добавим, что описанная выше матрица надежности указывает на со-
гласованность двух мер одного и того же свойства, полученных предель-
но сходными методами, такими, как параллельные формы теста; на ва-
лидность между двумя мерами одного свойства, полученными предельно
различными методами, например с помощью теста и посредством опро-
са мнений коллег. Поскольку сходство и различие методов могут про-
являться в разной степени, теоретически надежность и валидность могут
рассматриваться как принадлежащие одному и тому же континууму. Од-
нако, как правило, методы, используемые для измерения надежности
и валидности, легко различимы.
итоги
Мы рассмотрели несколько способов задавать вопрос: <Насколько
валиден данный тест?> Чтобы четче выделить отличительные черты раз-
ных типов валидности, применим каждый из них к тесту, состоящему
из 50 различных арифметических задач. В табл. 13 отражены 4 способа
использования данного теста и соответствующие им процедуры валида-
ции. Из таблицы видно, что выбор процедуры валидации зависит от
последующего назначения результатов теста. Валидность одного и того
же теста в зависимости от цели его применения должна устанавли-
ваться по-разному. Если тест достижений используется для предска-
зания дальнейших успехов на более высоком уровне обучения, как в слу-
чае отбора старшеклассников при их приеме в колледж, то валидность
этого теста нужно устанавливать относительно оценок, получаемых
в колледже, а не относительно содержания данного школьного курса.
Примеры из табл. 13 поясняют различия между разного типа ва-
лидациями. Дальнейшее рассмотрение этих процедур, однако, показы-
вает, что валидности по содержанию, относительно критерия и конструкт-
ная ре являются строго различными или логически упорядоченными
147 ВАЛИДНОСТЬ. ОСНОВНЫЕ понятия
Таблица 13
Валидность одного и того же арифметического теста применительно к разным целям
Цель тестирования Вопрос) на который должен Тип валидности
ответить тест
Тестирование достижений по Что Дик усвоил на По содержанию
арифметике в средних классах сегодняшний день?
школы
Тестирование способностей для Как Джим будет Прогностическая
предсказания возможности освоения учиться в дальнейшем? относительно критерия
курса математики в старших
классах
Диагностирование трудностей Выявило ли выполнение Текущая относительно
в обучении теста Биллом какие-то критерия
трудности в обучении?
Тестирование логического Как можно охарактери- Конструктная
мышления зовать психическую
деятельность Генри?
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69