ванна 90х90 угловая
(1) Субъективное оценивание. Субъективное оценивание являет-
ся общим источником ошибок. При таком оценивании допускаются
различия между результатами различных экспериментаторов и меж-
ду результатами работы одного и того же экспериментатора в разных
случаях. Очевидно, что это снижает корреляции между заданиями и,
следовательно, резко уменьшает значение коэффициента а. Очевид-
ным решением этой проблемы будет использование только тех типов
заданий, результаты выполнения которых могут быть обработаны
объективно. При использовании таких заданий источником неудов-
летворительной надежности может стать только случайная ошибка
при подсчетах. Все полезные типы заданий для разных тестов уже
обсуждались в главах 2-4.
(2) Угадывание. Эта проблема обсуждалось уже в главе 2 (стр. 88).
Угадывание ответов испытуемыми действительно снижает надеж-
ность тестов. Однако, как указывалось, оно в основном влияет на
задания с ответами типа "истинно-ложно", использование которых
не рекомендуется в любом случае. При большом количестве заданий
влиянием угадывания вообще можно пренебречь.
(3) Понятные задания. Как указывалось в главе 3, использование
понятных, недвусмысленных заданий улучшает надежность лично-
стных тестов (стр. 97).
(4) Величина теста. Как было показано в главе 1 (стр. 36), чем
длиннее тест, тем он надежнее. Для удовлетворительной надежности
обычно достаточно двадцати заданий.
(5) Инструкции к тесту. Инструкции к тесту должны быть не-
двусмысленными и понятными. Неоднозначные инструкции приво-
дят к неудовлетворительной надежности. При помощи инструкций
можно легко изменять уровень трудности заданий. Например, с ин-
струкцией "составьте эту фигуру из четырех элементов", задание
выполнить легче, чем с инструкцией "составьте эту фигуру из эле-
168
ментов", если испытуемым предъявляется шесть элементов. Если
необходимо изменить инструкции, то следует заново провести все
статистические процедуры.
(6) Неудовлетворительная ретестовая надежность. Nunnally
( 1978) проводит различия между ошибками, встречающимися в рам-
ках проведения одного теста, и ошибками, появляющимися при тес-
тированиях, проведенных через определенный промежуток времени;
последние являются источником неудовлетворительной ретестовой
надежности. Очевидно, что здесь важными факторами являются из-
менения в условиях тестирования, а также вариации в самочувствии
обследуемых. Могут сыграть роль как субъективность оценивания
показателей, так и реальные различия между заданиями, если ис-
пользуются параллельные формы теста. Нельзя путать реальные
изменения в выраженности измеряемой переменной с неудовлетво-
рительной надежностью или погрешностью измерения.
(7) Другие источники ошибок. Другие источники ошибок при
измерениях исходят от испытуемых, а не от заданий теста. Достаточ-
но лишь упомянуть о них. Испытуемый может почувствовать себя
нехорошо в процессе работы над тестом, так что его производитель-
ность ухудшится. Для некоторых может быть слишком жарко или
слишком холодно в помещении. Испытуемые могут ошибиться в фор-
ме задания и, следовательно, указать неверные ответы, или они мо-
гут перевернуть две страницы одновременно, и таким образом про-
пустят ряд вопросов. Могут проявиться усталость, скука и повлиять
на результаты выполнения последних заданий. Очевидно, что суще-
ствует большое количество таких возможных причин ошибок.
Таковы основные источники ошибок в тестах, снижающие их
надежность.
Выборка испытуемых для изучения надежности
Все выводы, которые могут быть сделаны на основании надежно-
сти теста об отношении показателей теста к истинным показателям,
предполагают, конечно, что значения корреляций или дисперсий в
уравнениях являются точными. Истинно это или нет, зависит от
подбора адекватной выборки испытуемых в исследованиях надежно-
сти.
Решающее значение при формировании такой выборки имеют две
переменные.
Объем выборки
Поскольку, как и любая другая статистическая величина, стан-
дартная погрешность коэффициента корреляции связана с объемом
169
выборки, на которой она была получена, то вполне естественно, что
должны использоваться большие выборки, чтобы минимизировать
погрешность такого рода. Решение вопроса о том, каков минималь-
ный объем выборки, позволяющий пренебречь этим источником по-
грешности, является до некоторой степени произвольным. GuiSford
(1956), обсуждая этот момент по отношению к факторному анализу,
предполагает в качестве минимума 200 испытуемых. Nunnally
(1978), несколько более строго, говорит о 300. Автор этой книги
исследовал стандартные погрешности корреляций при указанных
объемах выборки и пришел к выводу, что с выборкой из 200 испыту-
емых этот источник погрешностей уже можно не принимать в расчет.
Таким образом, рекомендуется, чтобы исследования надежности те-
стов выполнялись на выборках с объемом не менее 200, хотя и жела-
тельны большие объемы. Для точности вычислений по формуле К-
R20, в которой используется процент от количества испытуемых,
давших ключевые ответы, необходимы большие выборки, и 200 - это
в данном случае, конечно, лишь желательный минимум.
Состав выборки
Однако, даже более важным, чем объем выборки, является ее
состав. Большая, но несоответствующая по составу, выборка может
дать нам полностью ошибочные значения надежности.
Во-первых, существенно, чтобы выборка отражала ту категорию
лиц (популяцию), для которой предназначен тест. Если мы разраба-
тываем тест для высококвалифицированных работников, то показа-
тели надежности должны быть получены именно на этой специали-
зированной выборке. Если тест предназначен для обычных граждан,
то наша выборка должна отражать данную категорию населения.
Аналогично, надежность теста, разработанного для нужд психиат-
рии, должна быть показана на соответствующих пациентах. Не име-
ет смысла доказывать, что тест для испытуемых с отклонениями от
нормы надежен, например, на выборке из школьников.
Для теста, предназначенного к использованию в разных группах,
часто полезно показать, что он надежен для каждой группы в отдель-
ности. Здесь допустимы объемы выборок ниже 200. Например, если
показана устойчивая, высокая надежность для выборок из 100 сту-
дентов, ЮОбывших пациентов психиатрической клиники и 100 шко-
льных учителей, тогда мы можембыть уверены, чтоонбудетнадежен
в этих группах. Обратите внимание, что одна конкретная выборка из
300 испытуемых нс была бы репрезентативной для каждой из этих
групп.
С точки зрения надежности тестирования, нет необходимости в
столь же тщательной комплектации выборок, как при стандартиза-
ЦЕИ (см. главу 8). Так, нет необходимости в том, чтобы выборка точно
отражала разнообразные параметры генеральной совокупности (все-
го населения). Однако, это не должны быть только студенты или
только почтовые служащие или лица из какой-либо другой особой
группы, которые, как это случается, могли быть протестированы.
Причина, по которой выборки должны отражать ту категорию
лиц, для которой разрабатывается тест, состоит в том, что для раз-
личных особых групп значение корреляций между заданиями могут
изменяться, как и дисперсии заданий. Так, если мы опять рассмотрим
формулу K-R20 (1.8)- особый случай коэффициента О. для дихото-
мических заданий:
k
k-l
PQ
(1.8)
то можем увидеть, что если изменяется дисперсия (О у), то изменяет-
ся и надежность. Таким образом, в случае теста способностей, если
мы дадим его испытуемым, для которых он будет слишком легким
или слишком трудным, дисперсия будет незначительной (все резуль-
таты теста будут либо правильными, либо неправильными). Анало-
гично, в зависимости от выборки, Р (доля правильных ответов) и,
следовательно, Q (Р ~ 1) будут различаться. Так, если мы предло-
жим тест, созданный для различения выраженности невротических
симптомов, тем испытуемым, которые не имеют отклонений от нор-
мы, значение Р будет низким, Q - высоким, а дисперсия - незна-
чительной, что и происходит с тестом ММР1 на выборках из нормаль-
ных испытуемых.
Выводы
Таким образом, существенно, чтобы надежность теста вычисля-
лась на релевантных выборках адекватного объема.
Вычисление коэффициентов надежности
В этом разделе будут описаны шаги, необходимые для вычисления
различных коэффициентов надежности, обсуждавшихся ранее.
Коэффициент а
Не может быть никакого сомнения в том, что коэффициент о. -
это наиболее эффективное средство измерения надежности примени-
тельно к классической модели погрешностей измерения, и s идеаль-
171
ных обстоятельствах (при наличии достаточного времени и средств)
он всегда должен быть рассчитан. Формула (1.7):
1 -
Scr?
(1.7)
где k - это количество заданий, О у - квадрат стандартного от-
клонения для всего теста, S(7?- сумма квадратов стандартных
отклонений для заданий.
Для дихотомических заданий может быть использована формула
K-R20 :
где "LPQ=0 и Р - доля испытуемых, давших ключевые
ответы на задания, aQ=l -Р.
ПРОЦЕДУРЫ ВЫЧИСЛЕНИЯ ПО ФОРМУЛЕ K-R20 ДЛЯ ТЕ-
СТА Y (ВЫЧИСЛЕНИЕ 5.1)
(1) Вычислите дисперсию для показателей теста. Это дает нам
.
(2) Вычислите долю испытуемых, давших ключевые ответы для
каждого задания. Это дает нам значение Р для каждого задания.
(3) Для каждого задания вычтите Р из 1. Это дает нам Q.
(4) Для каждого задания перемножьте Р и Q. Это дает нам PQ.
(5) Просуммируйте РОдля всех заданий: Т. PQ.
(6) Затем легко может быть применена формула K-R20, где k -
количество заданий.
В справочнике Л.Ф.Бурлачук, С.М.Морозов (1989) в формуле Кьюдера-Ричард-
сона этот коэффициент Р назван индексом трудности, выраженным в виде доли :
/ - NilN , где NI - количество испытуемых, правильно выполнивших задание;
N - общее количество испытуемых. В данной книге правило для вычисления Р
нигде явно не задано (аналогично кратко формула K-R20 приведена и в гл. 1 ). В
гл. 6 указано: P~NI/N , - но в формуле для точечно-бисериальной корреляции.
Впрочем, это не столь существенно, так как в обеих формулах используется про-
изведение PQ, асами значения сомножителей: Р~ 1 -NI/N, wQ~ 1-P~Ni/N
, или J"" NI/N , Q~ I-P ~ I- NI/N ,- на значение произведения не влияют
(Прим.перев.)
Здесь Р-1-NI/N.
172
ПРОЦЕДУРЫ ВЫЧИСЛЕНИЯ ДЛЯ КОЭФФИЦИЕНТА а (ВЫ-
ЧИСЛЕНИЕ 5.2)
(1) Вычислите дисперсию для показателей теста. Это дает нам
.
(2) Вычислите дисперсию для каждого задания.
(3) Просуммируйте дисперсии для заданий. Это дает нам lJi .
Формула для вычисление дисперсии:
-ц
где х - отклонение каждого показателя от среднего значения.
На практике проще работать непосредственно с необработанными
("сырыми") показателями, и формула может быть записана:
-
где Х - необработанный показатель.
Вычисление надежности теста при расщеплении
его пополам
Надежность теста при расщеплении изменяется в зависимости от
того конкретного разбиения заданий, которое мы произвели. Nun-
nally (1978) утверждает, что ее следует рассматривать как оценку
коэффициента а, а в дихотомическом случае мы должны, следова-
тельно, всегда использовать формулу K-R20. Однако при этом упу-
щен один важный момент. Формула для надежности при расщепле-
нии теста пополам гораздо более проста и удобна в вычислениях, чем
K-R20. Более того, судя по опыту разработки тестов автором данной
книги, различие между K-R20 и надежностью при расщеплении была
несущественной, не имевшей никакого значения для практического
конструирования тестов. Я оправдываю ее использование только
лишь когда у вас нет никакой компьютерной программы для вычис-
ления коэффициента О. , а в процессе конструирования теста требу-
ется быстрая оценка его надежности, чтобы убедиться, что все идет
хорошо. При наличии недорогих, эффективных средств для вычисле-
ний (имеются в виду компьютеры) не имеет смысла использовать
значение надежности при расщеплении теста пополам, кроме случая
быстрой оценки надежности теста.
173
ПРОЦЕДУРЫ ВЫЧИСЛЕНИЯ НАДЕЖНОСТИ ПРИ РАСЩЕ-
ПЛЕНИИ ТЕСТА ПОПОЛАМ. ПЕРВАЯ ПОЛОВИНА ПО СРАВНЕ-
НИЮ СО ВТОРОЙ ПОЛОВИНОЙ (ВЫЧИСЛЕНИЕ 5.3)
( 1 ) Для каждого испытуемого вычислите его показатель по первой
половине теста: Х.
(2) Для каждого испытуемого вычислите его показатель по второй
половине теста: Y.
(3) Вычислите корреляцию между Х и Y .
ПРИМЕЧАНИЕ. Корреляция между Х и Y вычисляется по формуле:
2ху-(2х)(2г)
" Nx-xf V/2y"-(Sy)
где N - количество испытуемых, Х - показатели по тесту 1, Y - показатели по
тесту 2.
(4) Пересчитайте результирующую корреляцию, значение на-
дежности, в зависимости от величины частей теста по формуле Спир-
мена-Брауна (1.6):
2 ry
"J , - __________________У
kk - ] _i_ -
I i Гху
Это дает нам значение надежности при расщеплении теста попо-
лам (скорректированное по величине полученных частей теста).
ПРОЦЕДУРЫ ВЫЧИСЛЕНИЯ НАДЕЖНОСТИ ПРИ РАСЩЕ-
ПЛЕНИИ ТЕСТА ПОПОЛАМ. НАДЕЖНОСТЬ ДЛЯ ЧЕТНЫХ-
НЕЧЕТНЫХ ЗАДАНИЙ (ВЫЧИСЛЕНИЕ 5.4)
( 1 ) Для каждого испытуемого вычислите его показатель по зада-
ниям теста с четными номерами: Х .
(2) Для каждого испытуемого вычислите его показатель по зада-
ниям теста с нечетными номерами: Y.
(3) Вычислите корреляцию между Х и Y .
(4) Пересчитайте результирующую корреляцию, значение на-
дежности в зависимости от величины частей теста по формуле Спир-
мена-Брауна (1.6):
2rxy
Это дает нам значение надежности при расщеплении теста попо-
лам (скорректированное по величине полученных частей теста).
174
Метод дисперсионного анализа по Хойту
Hoyt (1941) использовал для оценки надежности дисперсионный
анализ. Как указывает Guilford (1956), Хойт рассматривает ответы
на задания как двухфакторный анализ дисперсии без репликации.
Гилфорд утверждает, что алгебраически это идентично формуле
K-R20. Следовательно, это означает, что такой метод идентичен
также применению коэффициента о. (частным случаем которого яв-
ляется формула K-R20).
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47