душевые кабины ниагара каталог
)-
Очевидно, что чем больше мераТУ, тем больше вероятность того,
что испытуемыйУполучит показатель 1 за свой ответ, и, аналогично,
чем ниже характеристика аь. задания k, тем больше вероятность того,
что испытуемый также получит показатель 1 за свой ответ. Также
понятно, что параметры испытуемого и задания считаются одномер-
ными. Если ответы испытуемых на некоторое множество заданий
удовлетворяют условиям данной модели, то очевидно, что задания
дают одномерные шкалы, или, в традиционной терминологии, что
задания внутренне согласованы или однородны.
Определяющим свойством модели ответа, определяемой форму-
лой (1.9), явно указанным у Rasch (1960, 1961) и Wright (1968),
45
является то, что оценки a.k независимы от значений TV и являются,
следовательно, также независимыми от распределения данной черты
в любой выборке испытуемых, ответы которых анализируются. Как
следствие, могут быть получены данные, касающиеся внутренней
согласованности шкалы в рамках выборочной совокупности, без ка-
кого-либо влияния слабого разброса в измеряемой выборке. Кроме
того, поскольку приблизительная оценка значения a.k для каждого
задания k должна быть эквивалентна, независимо от способов изме-
рения испытуемого, используемых для получения результатов, мо-
жет быть выполнена проверка согласованности шкалы между выбо-
рочными совокупностями.
Для оценивания параметров ад и Ту , а также для идентификации
тех заданий, ответы на которые не описываются данной моделью или
не соответствуют ей, был разработан ряд процедур.
При оценивании параметров производится максимизация вероят-
ности матрицы ответов по отношению к параметрам заданий и испы-
туемых одновременно, тогда как проверка соответствия заключается
в проверке того, могут ли исследуемые данные быть описаны данной
моделью, и выполняется уже после оценивания параметров.
Проверка того, являются ли задания внутренне согласованными
относительно некоторой одной выборочной совокупности, будет на-
зываться согласованностью заданий в рамках выборочной совокуп-
ности (within-population item-fit). Проверка того, соответствуют ли
задания данной модели относительно нескольких выборочных сово-
купностей, будет называться согласованностью заданий между выбо-
рочными совокупностями (among-population item-fit). Процедура
для выполнения этой проверки получается непосредственно из того
свойства, что оценки параметров заданий должны быть независимы-
ми от того, какие испытуемые выполняли эти задания. Для каждого
задания значения параметров, полученные для выборки из каждой
выборочной совокупности испытуемых, статистически сравнивают-
ся. Для подробного ознакомления со сложными уравнениями оцени-
вания читатели могут обратиться к Wright (1968) или Rasch (1961).
Модель Раша является математически гораздо более сложной,
чем классическая модель, и для вычислений по ней нужна компью-
терная программа. Говорят, что ее преимуществом, как основания
для конструирования тестов, является то, что можно использовать
задания для получения точных показателей для испытуемых, неза-
висимо от уровня способностей этих испытуемых, поскольку трудно-
сть заданий может быть дифференцирована в зависимости от способ-
ностей испытуемых (если мы измеряем переменную из сферы способ-
ностей) . Как было указано выше, модель Раша является фактически
46
частным случаем модели латентных черт Бирнбаума, и это может с
точки зрения психологии не соответствовать многим областям изме-
рений.
Ниже перечислены различные трудности, возникающие при ис-
пользовании модели Раша, которые до некоторой степени уравнове-
шивают преимущества не зависящих от заданий и не зависящих от
выборочных совокупностей измерений.
Некоторые из наиболее детализированных предположений моде-
ли Раша, почти наверное, являются ошибочными: это то, что задания
эквивалентны по своей дискриминативности; что нет угадывания
ответов; что задания затрагивают только одну черту. Конечно, чтобы
учесть случай угадывания, можно ввести в модель Раша дополни-
тельный параметр, но если мы сделаем это, ее процедуры станут
слишком громоздкими для практических приложений.
Более того, как указывает Lord (1974), если мы хотим получить
надежную, не зависимую от выборочной совокупности градуировку,
должны быть использованы огромные выборки. Вдобавок, опыт тес-
тирования достижений (например, Chopin, 1976) показывает, что
задания часто не соответствуют модели, и в любом случае есть зна-
чительные разногласия по поводу статистических процедур для из-
мерения этого соответствия. Что еще хуже, Wood (1978) показал, что
произвольные данные могут быть приведены в соответствие с мо-
делью Раша. И наконец, у Nunnally (1978) доказано, что в любом
случае существует очень высокая корреляция между шкалами Раша
и шкалами, сделанными в соответствии с классической моделью.
Barrett и Kline (1984) показали, что шкалирование по Рашу может
породить бессмысленные шкалы. Так, шкалирование по Рашу лич-
ностного опросника Айзенка (Eysenck Personality Questionnaire -
EPQ) породило некую смесь личностных шкал N, Е, Р и L. Однако,
несмотря на эти моменты, для некоторых целей, особенно когда тес-
тирование связано с хорошо описываемой выборочной совокупно-
стью заданий и когда желательны короткие формы тестов или повтор-
ное тестирование, шкалирование по Рашу может быть полезно. В
главу 10 включены практические процедуры, необходимые для кон-
струирования таких тестов.
Наконец, здесь необходимо кратко обсудить два других новых
подхода к тестированию, которые не связаны с шкалированием по
Рашу. Я имею в виду индивидуально-ориентированное тестирование
и компьютеризированное тестирование (более полно описанные в
главе 10).
47
Индивидуально-ориентированное тестирование
(tailored testing)
В соответствии с названием метода, при индивидуально-ориенти-
рованном тестировании используются специально создаваемые ин-
дивидуально-ориентированные тесты для определенных испытуе-
мых. По существу, испытуемому должно быть предъявлено задание
средней трудности. Если задание выполнено правильно, предъявля-
ется более трудное, если неправильно - более простое. Таким обра-
зом, путем предъявления относительно небольшого количества зада-
ний может быть достоверно установлен точный уровень испытуемого
на некотором множестве заданий. Для всего этого требуется компь-
ютерное представление заданий с индексами трудности по Рашу или
по другим шкалам, хранимым в памяти компьютера, и программа,
которая предъявляет задания в зависимости от ответов и трудности
заданий. Многие индивидуально-ориентированные тесты использу-
ют задания, градуированные по кривым зависимости "задание-от-
вет" , так что точные оценки могут быть получены на подмножествах
заданий. Такое индивидуально-ориентированное тестирование не-
сомненно имеет значение при практическом тестировании, когда
необходимо быстрое получение результата.
Компьютеризированное тестирование
Компьютеризированное тестирование в простейшем виде пред-
ставляет собой предъявление заданий теста на экране компьютера и
запись ответов с клавиатуры компьютера или со специально сконст-
руированной клавиатуры. По окончании теста компьютер может вы-
вести на экран показатель испытуемого и его простую интерпрета-
цию, основанную на нормах, занесенных в память компьютера. По-
казатели каждого испытуемого по отдельным заданиям и общие по-
казатели могут быть обработаны так, чтобы автоматически могли
быть выполнены анализ заданий, факторный анализ или любые дру-
гие психометрические приемы. Так, компьютерное представление
стандартизованных тестов может быть высокоэффективным средст-
вом для проведения испытаний и психометрического анализа. Одна-
ко, в этом смысле компьютерное представление имеет сходство с
ограничениями любой книги: это хорошо, поскольку удобно и эффек-
тивно, но в конечном счете более важным становится содержатель-
чый анализ.
На микрокомпьютере могут быть представлены большинство
стандартных тестов, хотя и возможны проблемы с идентичным пред-
ставлением визуального материала. Когда обычный тест переносится
на компьютер, он должен быть повторно валидизирован, а нормы
должны быть проверены. Более сложная процедура, извлекающая
больше пользы из потенциальной мощи компьютера, - разработка
тестов, которые могут быть представлены только на компьютере.
Примерами этого могут быть задания, по которым измеряется скоро-
сть реакции, и сами задания теста изменяются в зависимости от нее.
В последнем случае тест становится индивидуально-ориентирован-
ным, а индивидуально-ориентированные тесты, конечно же, дейст-
вительно зависимыми от компьютера. В общем, компьютеризирован-
ное тестирование, при котором задания действительно зависимы от
компьютера (в отличие от правил предъявления заданий, как в ин-
дивидуально-ориентированных тестах), в большинстве своем пере-
живает еще период своего раннего детства. Однако, в главе 10 будет
описано, как такие тесты могут быть созданы.
Заключение и краткий обзор
В первой главе были описаны наиболее важные характеристики
психологических тестов : свойства шкал, надежность, валидность,
дискриминативность и стандартизация. Отдельно была выделена те-
ория погрешностей измерения, которая лежит в основе этих психо-
метрических понятий, а далее были описаны некоторые отличные от
классического подходы к тестированию, в том числе базирующиеся
на кривых зависимости "задание-ответ", шкалировании Раша, ин-
дивидуально-ориентированном и компьютеризированном тестиро-
вании.
Подводя итог, можно сказать, что целью конструирования тестов
является разработка высоко валидных, надежных и дискриминатив-
ных тестов. Как это делается для тестов различных типов, будет
описано в последующих главах данной книги.
В англ. яз. tailored testing означает специально приспособленное для кого-либо
тестирование.
Глава 2. Создание надежных тестов 1:
Интеллект и способности. Разработка заданий
Как уже обсуждалось в главе 1, высокая надежность является
неотъемлемым атрибутом эффективных тестов. Было также показа-
но, что надежность зависит до некоторой степени от величины теста.
Следовательно, при разработке тестов важно иметь возможность
сформулировать настолько большое количество заданий, насколько
это возможно. Кроме того, одной из причин неудовлетворительной
надежности тестов является субъективизм исследователя, обрабаты-
вающего полученные данные, то есть наличие различий как между
результатами работы одного и того же исследователя в двух различ-
ных случаях, так и между результатами работы разных исследовате-
лей. Этот недостаток может быть полностью устранен, если можно
сформулировать задания, не требующие никаких субъективных суж-
дений от лица, проводящего тестирование,- то есть объективные
задания. Очевидно, именно по этим причинам разработка заданий
является решающим моментом при создании эффективных тестов. В
самом деле, тест не может быть лучше своих заданий. Однако, он
может быть хуже, если он плохо стандартизирован или если проце-
дуры отбора и оценивания заданий и валидизации выполнены невер-
но (эти процедуры подробно описаны в последующих главах данного
руководства).
Здесь основное внимание будет уделено фундаментальному ас-
пекту конструирования тестов: разработке заданий. В настоящее вре-
мя существует большое количество и разнообразие психологических
тестов и, как следствие, существует огромное количество разного
вида заданий. В данной главе обсуждение ограничивается рассмотре-
нием тестов интеллекта и специальных способностей, объединяемых
иногда термином "когнитивные тесты". Но даже в пределах этой
категории тестов невозможно обсудить все типы заданий, которые
могут использоваться. Тем не менее, когда будут понятны основные
принципы разработки заданий для когнитивных тестов, станет легче
формулировать и специфические задания. Основные принципы раз-
работки заданий будут иллюстрированы примерами наиболее часто
используемых типов заданий. Посредством этого я надеюсь вдохно-
вить читателя на разработку новых заданий, что является краеуголь-
ным камнем психометрии.
Прежде чем обсуждать разработку заданий, следует упомянуть о
некоторых небольших, но тем не менее важных моментах в констру-
ировании тестов. Как уже говорилось, игнорирование этих по суще-
ству тривиальных истин может разрушить то, что в противном случае
могло бы стать эффективным тестом.
Инструкции
Инструкции для испытуемых, выполняющих тест, должны быть
настолько простыми и понятными, насколько это возможно. Если они
будут сложными, некоторые испытуемые не смогут понять их, что
неблагоприятно отразится на полученных результатах. Может ока-
заться так, что общий фактор интеллекта (с учетом понимания ин-
струкции) будет смешан с фактором или факторами, присущими
предполагаемым заданиям.
При апробации тестов на некотором этапе могла бы оказаться
результативной попытка оценить инструкции. Я не хочу углубляться
в подробности этого очевидного момента, но все же стоит убедиться,
что инструкции не являются источником ошибок для испытуемых,
не справившихся с заданиями. Наилучшим образом это можно выя-
вить в ходе беседы, позволяющей узнать, что же пытались делать
испытуемые, показавшие низкие результаты. Такого рода беседы-
- опросы также неизбежно выявляют неудовлетворительную часть
(части) инструкций, которая впоследствии должна быть заменена.
Вот несколько правил для написания инструкций: ( 1 ) будьте крат-
ки, насколько это возможно; (2) изъясняйтесь настолько просто,
насколько возможно, употребляя простые предложения без уточня-
ющих придаточных предложений;
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47