https://wodolei.ru/catalog/rakoviny/nakladnye/Roca/
Неудовлетворительные задания
Логично было бы в каждом случае неудачи при конструировании
теста предположить, что причиной этого является то, что подготов-
ленные задания просто не измеряют того, для измерения чего они
предназначались. Опять-таки, это более вероятно в случае личност-
ных и мотивационных тестов, чем для тестов способностей. Однако,
даже в последних противоречивые высказывания или плохо сформу-
лированные инструкции могут свести на нет их эффективность.
В том случае, когда мы следовали правилам формулирования
заданий (которые были описаны в главах 2 - 4, посвященных конст-
руированию тестов различных типов) и, что более важно, если мы
исправили слабые задания, исходя из требований процедуры их ана-
лиза для повторного испытания, как предлагалось выше, это малове-
роятно (за исключением обычно нескольких заданий, которые просто
отбрасываются).
Это объяснение может быть принято только тогда, когда мы убеж-
дены, что никакие другие причины не могут объяснить полученные
факты. В самом деле, единственный способ продемонстрировать это
- написать эффективные задания для последующих испытаний.
Задания нагружают (насыщают) несколько факторов
Одним из критических замечаний по процедуре анализа заданий
является то, что можно получить задания, нагружающие два корре-
200
пирующих фактора, для которых значение корреляции с общим по-
казателем все же будет высоким. Однако, если эти факторы не кор-
релируют, то значение корреляции с общим показателем может быть
только низким, и тест не может быть сконструирован.
Этот случай неудачного составления теста - по существу лишь
вариант первого случая: не существует переменной, положенной в
основу теста, - только в этом случае неудача нас постигает в резуль-
тате того, что существует несколько переменных, которые измеря-
ются нашими заданиями. Если это предположение исходит из приро-
ды самого теста, то должна быть принята следующая процедура.
Во-первых, должны быть вычислены коэффициенты корреляции
<р между заданиями теста. Эти корреляции затем должны быть под-
вергнуты факторному анализу. Это позволит выяснить, действитель-
но ли задания нагружают несколько факторов. Если да, это указыва-
ет на то, что у нас есть несколько тестов, составленных вместе. Когда
мы хотим разработать отдельные тесты для этих факторов, должны
быть изучены задания, нагружающие каждый из факторов, и должны
быть сформулированы другие, подобные им. Однако, при помощи
этой процедуры мы конструируем фактически факторизованные тес-
ты. Методология создания этих средств измерения описана в главе 9,
и здесь им не будет уделено внимания. Следует заметить, что если
задания вообще не нагружают ни один фактор, то мы приходим к
первому случаю, когда тест не измеряет вообще никакой переменной.
Недостаточное количество эффективных заданий
Nunnally (1978) упоминает один случай неудачного формирова-
ния теста, который легко устраним. Это происходит, когда существу-
ет ядро эффективных заданий с высокими значениями корреляции
заданий с общим показателем и, следовательно, взаимной корреля-
ции между заданиями, но количества этих заданий недостаточно,
чтобы сформировать надежный тест. Добавление других слабых за-
даний не улучшит надежность, поскольку они не коррелируют друг
с другом.
Причину такой неудачи можно быстро определить. Должно быть
несколько эффективных заданий (по критерию ГрЫл ), а для всех
остальных это значение будет низким. С целью устранения сложив-
шейся ситуации следует изучить содержание эффективных заданий
и должны быть сформулированы подобные им другие. Это, однако,
следует делать только тогда, когда видно, что составляющие ядро
эффективные задания охватывают все содержание теста. Если эф-
фективные задания сами очень похожи, то может случиться, что мы
201
опять конструируем тест для дутого, ложного специфического фак-
тора.
Этот случай идентичен первому случаю неудачного формирова-
ния теста - когда не существует переменная. Корреляционный ана-
лиз заданий может идентифицировать небольшой кластер заданий.
Однако, если это не проявилось в процедуре анализа заданий, таких
заданий будет мало.
В этой главе были указаны пошаговые процедуры для анализа
подготовленного множества заданий и отбора их для окончательного
теста. Было также показано, как результаты анализа заданий могут
помочь переформулированию заданий.
Следует подчеркнуть, что описанные методы гарантируют пол-
учение теста с удовлетворительной внутренней согласованностью и
дискриминативностью, который измеряет некоторую переменную.
Продемонстрировать, что это за переменная - задача исследований
валвдности.
Глава 7. Вычисление дискриминативности и
валидности тестов
В вводной главе, посвященной средствам измерения, было указа-
но, что у психометрических тестов есть три характеристики, благо-
даря которым они превосходят другие формы измерений: надеж-
ность, валидность и дискриминативность. Прежде чем переходить к
обсуждению методов достижения валидности, будут рассмотрены
приемы для измерения дискриминативности, поскольку, как и на-
дежность, она может быть получена с известной долей объективнос-
ти. При определении же валидности, хотя и существуют определен-
ные методики, все же присутствует некоторый элемент субъектив-
ности.
Дискриминативность
Как указывалось в главе 1, потенциально тест может быть гораздо
более дискриминативным, чем другие средства измерения, скажем,
интервью или рейтинги, в которых для обеспечения надежности мо-
жет использоваться не более девяти градаций.
Показатели дискриминативности, как указывает Guilford (1956),
связаны по существу с ранжированием исп-ытуемых. Основной пока-
затель коэффициента дискриминативности, ЙФергюсона (Ferguson,
1949), который был рекомендован для оценивания дискриминатив-
ности тестов, прост в вычислении. Его формула указана ниже. Вво-
дится отношение между показателями любых двух испытуемых: эти
показатели либо равны, либо различны. Общее количество возмож-
ных отношений между парами испытуемых в выборке из N испытуе-
мых равно N (N- 1 )/ 2 . Общее количество отношений равенства
среди этих пар:
2-2
(7.1)
где/; - частота встречаемости каждого показателя, следователь-
но, S=.
Общее количество отношений различия среди этих пар:
(2)-
(7.2)
и (7.1) + (7.2) = (YV +N)/2, поскольку это единственные воз-
можные отношения для этих пар. Очевидно, что наибольшее количе-
203
ство отношений различия - максимум дискриминативности - дос-
тигается тогда, когда все показатели имеют одинаковую частоту. Это
происходит, когда частота встречаемости каждого показателя равна
N/(n +!), где п - количество заданий теста.
Это основные сведения из статистики, на которых основана фор-
мула Фергюсона. Коэффициент д Ферпосона - это отношение меж-
ду показателем дискриминативности, полученным для некоторого
теста, и максимальным значением дискриминативности, которое мо-
жет обеспечить такой тест. Формула выглядит следующим образом:
л- -
- IN/(п +1)
Она может быть упрощена:
_ (п+1) -2/)
где N - количество испытуемых, п - количество заданий,// -
частота встречаемости каждого показателя.
д = 0, когда все испытуемые получили одинаковые показатели (то
есть когда нет дискриминативности), и равно 1 при равномерном
(прямоугольном) распределении.
ШАГИ ВЫЧИСЛЕНИЙ ДЛЯ и ФЕРГЮСОНА (ВЫЧИСЛЕНИЕ
7.1)
(1) Подсчитайте, как часто встречаются значения показателей
для данного теста.
(2) Возведите эти числа в квадрат и просуммируйте: S .
(3) Прибавьте 1 к количеству заданий: п + 1 .
(4) Возведите в квадрат количество испытуемых: N .
(5) Помножьте количество заданий на результат шага (4): п N .
(6) Это дает нам все элементы формулы. Теперь можно их подста-
вить в формулу:
д _ (3) x[(4j -(2)] _ (п +1) (-2/)
-( - nN
Разработчик тестов должен учитывать некоторые характеристики
этого коэффициента, обсуждавшиеся Ferguson (1949). Поскольку
для равномерного (прямоугольного) распределения (наиболее дис-
криминативного) необходимы задания, в которых бы наиболее полно
204
были реализованы все возможные проявления измеряемого свойства,
это означает, что дискриминативность до некоторой степени проти-
востоит надежности, так как использование заданий с широким пе-
речнем возможных проявлений измеряемого свойства уменьшает
взаимную корреляцию между заданиями. Конечно, как утверждает
Ферпосон, распределение показателей, которое дает тест - это фун-
кция трудности заданий и их взаимной коррелированности, а это
влияет не только на надежность, но также и на дискриминативность,
которая равна 0,86 в том случае, когда слишком мало простых и
слишком мало трудных заданий; 0,90 для биномиального и 0,93 для
бимодального распределений. Из всего этого следует, что при конст-
руировании теста то, до какой степени нашей целью является дости-
жение максимальной надежности или максимальной дискримина-
тивности, зависит от назначения теста.
Валидность
Когда показатели надежности и дискриминативности соответст-
вующим образом вычислены, то не может быть никаких разночтений
в толковании результатов. В случае с валидностью сделать такие
точные статистические заключения невозможно. Вместо этого долж-
но быть представлено свидетельство в пользу валидности теста. Это
свидетельство трактуется так, чтобы продемонстрировать валид-
ность теста, но такие интерпретации являются в высокой степени
субъективными. В настоящем разделе главы будут изложены лучшие
методы представления такого свидетельства.
В первой главе были полностью описаны различные виды валид-
ности тестов, и в соответствии с ними будут излагаться процедуры
установления валидности.
Очевидная валидность
Это тривиальный аспект теста, связанный только с тем, какое он
производит впечатление. Если по какой-либо причине тест должен
быть очевидно валидным, то достаточно просто спросить у испытуе-
мых, принимающих участие в процедуре оценки и отбора заданий
для теста, представляется ли он им хорошим средством измерения
данной переменной или нет. Очевидная валидность важна для при-
влечения испытуемых к работу над тестом.
Природа этого явления (снижения надежности при высокой дискриминативнос-
ти) сложнее. Подробнее о психометрическом парадоксе см.: БурлачукЛ.Ф. (1989)
(Прим.ред.)
205
Конкурентная валидность
Этот показатель получают из корреляций (или факторных нагру-
зок) с другими тестами, которые предназначены для измерения той
же переменной. Для эффективного изучения конкурентной валид-
ности существует несколько правил, представленных ниже, хотя они
ничем не отличаются от тех, которые имеют место в любой области
научной психологии.
(1) Убедитесь, что выборка испытуемых отражает ту категорию
лиц (популяцию), для которой данный тест предназначен, особенно
по отношению к полу, возрасту, уровню образования и социальному
положению. Тесты, разработанные для психиатрических целей, дол-
жны предъявляться соответствующим группам пациентов.
(2) Убедитесь, что выборки достаточно велики для получения
статистически значимых корреляций, могущих быть затем использо-
ванными в факторном анализе. Минимальное количество испытуе-
мых - 200.
(3) Используйте настолько широкое разнообразие других тестов
данной переменной, насколько возможно - чтобы убедиться, что
корреляция получена благодаря близости групповых факторов, а не
специфических. Например, если вы пытаетесь тестом измерить ",
то используйте вербальные и невербальные средства измерения "g,
созданные различными авторами.
(4) Если используется факторный анализ, убедитесь, что получе-
на простая структура.
(5) При обсуждении результатов четко объясняйте, какие корре-
ляции и нагрузки факторов можно ожидать. Это позволяет читателю
судить о психологическом значении этих результатов.
Исследования конкурентной валидности, удовлетворяющие этим
критериям, должны дать недвусмысленное свидетельство валиднос-
ти, которое не может быть методологически опровергнуто.
Прогностическая валидность
Здесь основной проблемой является выделение критерия предска-
зания. Хотя это представляет трудность всегда, все же степень труд-
ности изменяется в зависимости от типа теста. Обычно для тестов
способностей и интересов прогностическую валидность продемон-
стрировать легче, чем для личностных тестов. В общем, правила,
которым желательно следовать, подобны приведенным для конку-
рентной валидности.
(1) Что касается комплектования выборок испытуемых, то все
предыдущие замечания остаются в силе.
206
(2) Существенно важен размер выборки. Если используются мно-
жественные корреляции с акцентированием внимания на весовых
коэффициентах ft (индексе значимости данного теста в прогнозе по
данному критерию), то выборка должна быть расщеплена или под-
вергнута процедуре кросс-валидизации, так как значения весовых
коэффициентов/? могут изменяться от исследования к исследованию.
(3) При использовании факторного анализа должна быть получе-
на простая структура.
(4) Должна быть показана надежность используемого критерия.
Последняя процедура особенно важна, поскольку неудовлетвори-
тельная надежность измерений снижает корреляции.
УМЕНЬШЕНИЕ КОРРЕЛЯЦИЙ ВСЛЕДСТВИЕ НЕУДОВЛЕТ-
ВОРИТЕЛЬНОЙ НАДЕЖНОСТИ
Исходя из классической модели погрешностей измерений может
быть показано, что можно оценить, какой была бы корреляция между
двумя тестами, если бы для них было получено высокое значение
коэффициента надежности. Эта оценка может быть вычислена по
формуле (вывод этой формулы см. в Nunnally, 1978):
- - "а
V/-11 n.-i
где га - скорректированное значение коэффициента корреля-
ции, П1 - эмпирическое значение коэффициента корреляция, гц -
значение надежности для переменной 1, /-22 - значение надежности
для переменной 2.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47