https://wodolei.ru/brands/Jacob_Delafon/
125 НАДЕЖНОСТЬ
требуется проверить гипотезу, что испытуемый достиг требуемого овла-
дения навыком в какой-то содержательной области или учебными зада-
чами, тестовыми заданиями. Последовательный анализ состоит в осу-
ществлении одного за другим серии наблюдений, после каждого из
которых принимается решение: (1) принять гипотезу, (2) отклонить гипо-
тезу, (3) провести дополнительное наблюдение. Таким образом, число на-
блюдений (в данном случае-число заданий), необходимых для получе-
ния надежного заключения, определяется в процессе тестирования.
Испытуемый выполняет не фиксированный, заранее определенный .набор
заданий, а продолжает выполнять задания, пока не принимается реше-
ние, владеет он навыком или нет. С этого момента тестирование прекра-
щается и учащийся либо переводится на следующий уровень обучения,
либо продолжается его подготовка по овладению навыком на уровне,
который предполагается тестом. При описанном в гл. 4 применении
компьютеров такая процедура последовательных решений вполне осуще-
ствима и позволяет сократить общее время тестирования, сохраняя при
этом необходимую надежность оценки уровня владения навыком
(R. Glaser, J. Nitko, 1971).
Некоторые исследователи применяют бейесовский метод оценки, ко-
торый сам по себе весьма приспособлен для принятия того типа реше-
ний, которые требуются при тестировании владения навыком. Ввиду
многочисленности тестируемых конкретных учебных задач в критериаль-
но-ориентированных тестах каждая задача обычно обеспечивается не-
большим числом заданий. Для восполнения связанного с этим недостат-
ка информации разработаны способы привлечения дополнительных
данных по тестам, проведенным ранее с тем же учащимся, а также ре-
зультатов тестирования других учеников (R. L. Ferguson, М. R. Novick,
1973; R.K.Hambleton, M.R. Novick, 1973).
Когда гибкие, адаптированные к индивиду процедуры оказываются
неприменимы, для оценки надежности теста можно использовать более
традиционные методы. Например, правильность решения об овладении
навыком может быть проверена выполнением учебных задач следующе-
го уровня. Значительна ли доля учащихся, достигших или превысивших
зачетный норматив теста владения навыком на более низком уровне, но
после, казалось бы, достаточного периода обучения не сумевших овла-
деть навыком на следующем уровне? Можно ли считать на основе ана-
лиза возникших затруднений, что они не достигли по-настоящему
и предыдущего уровня? Если да, то эти данные вполне бы могли озна-
чать недостаточную надежность теста. Может оказаться необходимым
включить в тест больше заданий или установить более высокий за-
четный норматив. Еще одним способом (R. К. Hambleton, М. R. Novick,
1973) определения надежности теста владения навыком является предъяв-
ление двух параллельных форм одним и тем же индивидам и регистра-
ция процента испытуемых, для которых по обеим формам принимается
одинаковое решение (овладение или неовладение навыком).
При разработке некоторых критериально-ориентированных тестов
Служба тестирования в образовании до сих пор эмпирическим путем
устанавливает стандарты овладения навыком. Применяемая процедура
предусматривает предъявление теста не только ученикам того класса, на
которых этот тест рассчитан, но также учащимся следующего и преды-
дущего класса. Чтобы выявить случаи мнимого овладения соответствую-
126 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
овладения ими в старшем классе, привлекается мнение учителя,
позволяющее осуществлять более дифференцированную оценку. За-
четный норматив выбирается затем так, чтобы число ошибочных реше-
ний, принимаемых с его помощью, было минимальным.
Все статистические процедуры, предназначенные для критериально-
ориентированных тестов, находятся в стадии разработки. Многое еще
предстоит сделать как в теоретическом, так и в экспериментальном пла-
не, прежде чем удастся получить наиболее эффективную методику, со-
ответствующую различным ситуациям тестирования.
ГЛАВА 6. ВАЛИДНОСТЬ.
ОСНОВНЫЕ ПОНЯТИЯ
Валидность теста-понятие, указывающее нам, что тест измеряет и на-
сколько хорошо он это делает. Следует иметь в виду, что название теста
не может служить указанием на то, что он измеряет. Оно лишь позво-
ляет опознать его. По большей части названия тестов слишком широки
и расплывчаты, чтобы по ним можно было установить, на какую сферу
поведения ориентирован тест. Правда, в последнее время наметилась
тенденция давать тестам более конкретные и операционально опреде-
ленные названия. Установить, какое свойство измеряет данный тест,
можно, лишь ознакомившись с объективными источниками информации
и эмпирическими процедурами, применявшимися для установления его
валидности (A. Anastasi, 1950). Более того, про валидность нельзя гово-
рить обобщенно, например, что тест имеет высокую или низкую валид-
ность. При ее определении всегда должно быть указано конкретное пред-
назначение теста.
Цель любой процедуры определения валидного теста-выяснить, как
выполнение теста соотносится с другими независимо наблюдаемыми
фактами исследуемых характеристик поведения. Конкретных методов ис-
следования подобных соотношений достаточно много. В <Стандартах
учебных и психологических тестов> (Standards for Educational, 1974) эти
методы распределяются по трем основным критериям: (1) валидность по
содержанию, (2) валидность по критерию и (3) конструктная валидность.
Каждый из этих типов валидности обсуждается в одном из последую-
щих разделов, а анализу их соотношения между собой посвящен заклю-
чительный раздел главы. Методика анализа и интерпретация данных
о валидности при выработке практических решений рассматриваются
в гл. 7.
ВАЛИДНОСТЬ ПО СОДЕРЖАНИЮ
Природа. Валидность по содержанию в сущности означает системати-
ческую проверку содержания теста с тем, чтобы установить, соответ-
ствует ли оно репрезентативной выборке измеряемой области поведения.
Такая процедура валидации обычно применяется при оценке тестов до-
стижений, предназначенных для измерения того, насколько индивид
овладел конкретными навыками или учебным предметом. Может со-
здаться впечатление, что для установления валидности любого такого
теста достаточно просто проверить его содержание. Например, тест на
127 ВАЛИДНОСТЬ. ОСНОВНЫЕ ПОНЯТИЯ
мог бы быть валидным, если бы состоял соответственно из заданий на
умножение, правописание и ведение бухгалтерских операций.
Решение, однако, не столь просто, как это может показаться. Сразу
же возникает проблема адекватности выборки всего множества заданий,
поэтому тестируемая область поведения должна систематически прове-
ряться с тем, чтобы существовала уверенность, что задания теста ох-
ватывают все ее главные аспекты и в правильной пропорции. Тест легко
перенасытить теми аспектами исследуемой области, по которым легче
составить объективные задания. Поэтому рассматриваемое содержание
следует фиксировать заранее, а не после того как тест уже составлен.
Правильно построенные тесты достижений должны соответствовать не
только предмету обучения, но и его задачам. Содержание, следователь-
но, необходимо определять достаточно широко, включая в него помимо
знания фактического материала такие важнейшие цели обучения, как
применение изученных принципов и интерпретацию данных. Более того,
валидность содержания больше зависит от релевантности тестовых отве-
тов индивида, рассматриваемой в сфере поведения, чем от очевидной ре-
левантности содержания тестовых заданий. Простая проверка теста
может и не выявить те процессы, которые действительно обеспечивают
выполнение теста испытуемым.
Важно также избежать неоправданного обобщения выбранной темы
тестирования. Если, например, орфографический тест с множественным
выбором ответов измеряет способность распознавать правильно и не-
правильно написанные слова, то из этого не следует, что он также изме-
ряет способность правильно написать диктант, количество орфографиче-
ских ошибок в сочинении и другие аспекты грамотности письма
(K.G.Ahlstrom, 1964; D.M.Knoell, C.W.Harris, 1952). Еще одна труд-
ность возникает в связи с возможным влиянием посторонних факторов
на показатели теста. Например, на тест по измерению способностей типа
математических или технических может неявно влиять способность по-
нимать словесную, инструкцию или скорость выполнения простых
и обычных задач.
Конкретные методики. Валидность по содержанию закладывает-
ся в тест уже при отборе соответствующих заданий. Для тестов уровня
знаний подготовке их заданий предшествует полная систематизирован-
ная проверка соответствующих учебников и учебных программ, а также
консультации со специалистами по данному предмету. На основе со-
бранной таким путем информации составляется спецификация теста для
тех, кто будет составлять задания. В спецификации указываются тести-
руемые области содержания (темы), задачи (процессы) обучения, а также
относительное значение каждой темы и прбцесса. На этой основе по
каждой теме устанавливается число заданий различных типов. Удобной
формой представления такой спецификации является таблица, горизон-
тальные графы которой соответствуют темам, а вертикальные-процес-
сам (табл. 30, гл. 14). Разумеется, не во все ячейки этой таблицы должны
быть вписаны задания, поскольку некоторые процессы могут оказаться
несовместимыми с определенными темами. Кстати сказать, подобные
таблицы-спецификации полезны и для подготовки контрольных работ по
любому предмету.
Обсуждение валидности с разных точек зрения читатель найдет в работах
128 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
При перечислении задач обучения, подлежащих включению в тест
достижений в обучении, можно руководствоваться достаточно под-
робным справочником <Таксономия целей обучения> (В. S. Bloom et al.,
1956; D.R.Krathwohl et al" 1964), составленным группой специалистов
в области педагогического тестирования. Этот справочник снабжен также
различного типа примерами составления заданий по каждой из задач
обучения. Два его тома посвящены соответственно когнитивной и аф-
фективной областям поведения. Первая включает знания (в смысле за-
помненных фактов, терминов, методов, принципов и т.д.), понимание,
применение знаний и их оценку, анализ и синтез. Ко второй, охваты-
вающей установки, интересы, ценности и оценочное восприятие, можно
отнести прием информации, реагирование, оценивание, организацию и
описание.
Данные о валидности по содержанию в руководстве к тесту дости-
жений должны включать сведения об области знаний, навыках или
учебных задачах, освоение которых измеряется тестом, а также неко-
торые указания о числе заданий по каждой из задач обучения. Кроме то-
го, должны быть описаны процедуры отбора задач обучения и принцип
классификации заданий. Если в составлении теста принимали участие
специалисты по данному предмету, то необходимо указать их число
и профессиональную квалификацию. Если они выступали в роли экспер-
тов при классификации заданий, необходимо привести дававшиеся ими
указания и степень согласия между ними. Поскольку программы и со-
держание курсов со временем меняются, особенно желательно указать
дату обращения к экспертам. Следует также сообщить число и характер
изученных программ и учебников и привести годы их издания.
Эти сведения могут быть дополнены рядом эмпирических процедур.
Так, можно проверить, насколько от класса к классу повышается сум-
марный показатель и индивидуальное выполнение теста достижений.
В общем, сохраняются те задания, которые выполняются наибольшим
(вЇо) числом учеников. На рис. 14 приведен фрагмент таблицы из руко-
водства к последовательным тестам успехов в обучении, серия It (STEP).
Для каждого задания этой батареи достижений указан процент детей из
нормативной выборки, справившихся с ним в каждом из классов, для ко-
торых предназначен данный уровень теста, а также тип учебного навыка
и материала. 30 заданий из рис. 14 составляют лишь часть теста чтения
для 3-го уровня (VII-IX классы).
Помимо сказанного анализируются типичные ошибки испытуемых
и применяемые ими методы работы. В последнем случае тестирование
ведется в индивидуальном порядке, причем ученика просят при решении
каждой задачи <думать вслух>. Существенность скоростного фактора
контролируется по количеству испытуемых, не успевающих закончить
тест, или с помощью одного из более тонких методов, обсуждавшихся
в гл. 5. Для выявления возможного влияния способности читать ин-
струкции на выполнение теста показатели теста можно скоррелировать
с результатами теста на понимание прочитанного. В свою очередь, если
тест предназначен для оценки понимания текста, вопросы, относящиеся
к содержанию еще не прочитанного отрывка, покажут, насколько испы-
туемый в состоянии на них ответить, исходя из имеющихся у него пред-
варительных сведений или пользуясь разными косвенными данными.
Область применения. Валидность по содержанию, особенно если
Она ТТОПКпсТтгтрня rraulii-inJTJ тт>гт<1гтт1<., ,,г.п...,..-- ",,...> ""-.."".-_
129
вллидшкть.
OJOHhABHOH -HagJoalaa
1 L 1OJOHhABH-OH -dBiMHBIMAJX XX
OJOHHae -i33
OJOHhAeKOH -нэа1Эв1эвX XХX XX
OJOHhAeH-OH -delHHewAJ
5OJOHHag -1ЭЭЖо1ГАхXX X
e x ? S 1 <в 1OJOHhAeH онч1геиТ103X
OJOHhAeHOH -нэа10Э1эаXХ ХXX X
OJOHhABH-ОН -delHHeiMAJXXXi
OJOHHag -1ээжоИАхХX
5? иээвих xiсо <М 0 00 Їо<оLf) РОО t1- см - iin(мГ <о co
ээе"х 111Лп 1- т со [ in
зови> 11Л[-> Т-СТ1 [ иэгМ 0-in 1Л гпen Ti-in <мГво 0 w tor inсп 0 со in 10 in-т-[ cr юoo i- in см мчГIN inT ro 10 inЇ0 en (N 4- -<-Mшспт IN CM CM
UHHBtfBC N сч fn in 10t оост>0- <мгс t in101 COет> От-~ мсмм PO r CM
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69