Московский государственный университет печати

Попов Д.И., Попова Е.Д.


         

Экспертиза качества тестовых заданий

Учебное пособие


Попов Д.И., Попова Е.Д.
Экспертиза качества тестовых заданий
Начало
Печатный оригинал
Об электронном издании
Оглавление
1.

ВВЕДЕНИЕ

2.

ОСНОВЫ КОМПЬЮТЕРНОГО ТЕСТИРОВАНИЯ

2.1.

Пространство тестирования

2.2.

Управление системой тестирования

2.3.

Методология компьютерного тестирования. Основные определения

3.

ФОРМЫ ТЕСТОВЫХ ЗАДАНИЙ. СПЕЦИФИКАЦИЯ ТЕСТА

3.1.

Формы тестовых заданий

3.2.

Спецификация теста

4.

СЛОЖНОСТЬ И ТРУДНОСТЬ ТЕСТОВЫХ ЗАДАНИЙ

4.1.

Определение теоретической (априорной) трудности ТЗ

4.1.1.

Количество концептов

4.1.2.

Образ мышления

4.1.3.

Форма ТЗ

4.1.4.

Глубина расположения ТЗ в спецификации

4.1.5.

Количество дистракторов и правильных заключений

4.1.6.

Уровень значимости

4.2.

Определение фактической (апостериорной) трудности ТЗ

5.

ТРЕБОВАНИЯ К СОСТАВЛЕНИЮ ТЕСТОВОГО ЗАДАНИЯ

5.1.

Основные правила

5.2.

Категории качества тестовых заданий

5.3.

Методика оценки качества тестовых материалов

5.4.

Сокращение времени экспертизы тестовых материалов

5.4.1.

Определение ошибки выборочной совокупности

5.4.2.

Определение объема выборки тестовых заданий

5.4.3.

Определение объема выборки студентов

5.5.

Оценка согласованности мнений экспертов

6.

РАЗРАБОТКА БАНКОВ ТЕСТОВЫХ ЗАДАНИЙ

6.1.

Выделение предмета тестирования

6.2.

Создание структуры банков тестовых заданий

6.3.

Требования к спецификации банка тестовых заданий

7.

ТЕХНОЛОГИЯ ПРОВЕДЕНИЯ ТЕСТОВЫХ ПРОВЕРОК

7.1.

Тестовые проверки

7.2.

Права и обязанности испытуемых

7.3.

Модель адаптивного тестирования

8.

ОБРАБОТКА РЕЗУЛЬТАТОВ КОМПЬЮТЕРНОГО ТЕСТИРОВАНИЯ

8.1.

Надежность теста и погрешность измерения тестового балла

8.2.

Критериальный балл

8.3.

Коэффициенты содержательной и критериальной валидности теста

8.4.

Другие характеристики тестовых материалов

9.

ЗАКЛЮЧЕНИЕ

10.

ЛИТЕРАТУРА

Указатели
5   указатель иллюстраций

Определение сложности и трудности тестовых заданий дадим на основе определений слов «сложный» и «трудный» из толкового словаря русского языка Ушакова.

Итак, «Сложный - состоящий из нескольких частей или элементов, образованный посредством соединения, сложения частей». Очевидно, из этого определения становится ясным как можно установить сложность тестового задания. Для этого достаточно проанализировать количество элементов знаний, охватывающих это тестовое задание, а также установить насколько глубоко испытуемый при ответе должен знать предметную область, чтобы правильно ответить на это ТЗ. Другими словами, сложность может быть связана с количеством умственных операций, которые нужно совершить, чтобы достичь правильного ответа. Если испытуемый не знает некоторые из этих операций - то для него задание будет сложным, если знает - более легким.

«Трудный - требующий большого умственного напряжения, усилий, затруднительный, мудреный». Это определение дает один из критериев оценки трудности тестового задания, а именно - сколько времени потребуется испытуемому, чтобы усилия, направленные на поиск правильного ответа были потрачены не зря. Понятие трудности может основываться на статистических оценках, например, чем меньше правильных ответов, тем труднее задание.

В общем случае сложность и трудность определяются разработчиком ТЗ и указывают субъективную величину того, насколько тяжело будет решить данное тестовое задание испытуемому с минимальным уровнем подготовки за определенное время.

Можно различать два вида сложности и трудности - теоретическая (априорная) и фактическая (апостериорная). Априорная сложность и трудность определяются экспертами до проведения тестовых испытаний. В процессе апробации банка тестовых заданий и расчета по определенным методикам получаются апостериорные сложность и трудность.

Нужно учитывать, что при использовании банка тестовых заданий при тестировании трудность и сложность может адаптироваться в соответствии с аудиторией, т.е. при получении статистических данных по ответам на задания можно выявить насколько легко задание воспринимается тестируемыми, и какие заключения на него даются. В соответствии с этим устанавливаются фактическая (апостериорная) трудность и сложность тестового задания.

Важнейшее назначение сложности и трудности ТЗ - использование при алгоритмах адаптивного тестирования. При отсутствии информации о сложности и трудности невозможна адаптация тестовых заданий по текущему уровню знаний испытуемого. Более того, при ошибочном задании трудности и сложности алгоритмы адаптивного тестирования будут работать некорректно, и в результате будет выставлена оценка уровня учебных достижений, имеющая большую погрешность.

Как видно из определения, трудность ТЗ может рассчитываться по времени, отводимому на решение этого ТЗ испытуемому со средним уровнем знаний. Например, 30 секунд, или 1 минута и 50 секунд. Очевидно, что трудность в данном случае будет зависеть от сложности, поскольку, чем сложнее ТЗ, тем больше времени потребуется на его решение, тем труднее оно. С другой стороны, чем труднее задание, тем больше знаний нужно иметь для поиска ответа, тем сложнее становится задание. Таким образом, трудность и сложность, очевидно, зависят друг от друга. Именно поэтому в теории педагогических измерений используется, как правило, одно понятие - трудность, относительного которого рассмотрим более подробно, как можно определить трудность тестового задания.

Задача состоит в определении рекомендаций по назначению трудности тестовому заданию. Будем считать, что трудность ТЗ зависит от следующих факторов [ссылка на источники литературы]:

  1. количество концептов, необходимых для решения ТЗ;
  2. образ мышления, на который направлено ТЗ;
  3. форма ТЗ;
  4. глубина расположения ТЗ в спецификации;
  5. количество дистракторов и правильных заключений;
  6. уровень значимости.

Под концептом в дальнейшем понимается некоторое умозаключение (формула, правило, аксиома и т.д.), позволяющее приблизить правильное решение ТЗ. Чем больше шагов нужно выполнить для получения правильного ответа, тем выше трудность, тем труднее считается ТЗ. Трудность, безусловно, должна оцениваться с учетом количества используемых концептов, необходимых для поиска правильного решения.

Приведем следующие примеры:

Легкое тестовое задание

Фамилия автора произведения "Евгении Онегин" - ... . (Ответ: Пушкин).

Для решения такого задания не надо выполнять каких-либо действий, кроме как вспомнить фамилию известного русского поэта, всем известного по школьной программе. Легкое (простое) тестовое задание имеет один концепт.

Задание средней трудности

Корнями квадратичного уравнения <?xml version="1.0"?>
являются <?xml version="1.0"?>
(Ответ: 1 и -1).

Для того чтобы посчитать корни квадратного уравнения нужно вспомнить формулу для решения и выполнить не сложные арифметические действия. Здесь налицо наличие двух несложных концептов.

Задание трудное

Уравнение, один из корней которого равен <?xml version="1.0"?>

(Ответ: <?xml version="1.0"?>
)

<?xml version="1.0"?>

Для того чтобы дать верное утверждение на тестовое суждение, нужно посчитать корни трех квадратных уравнений. Здесь присутствует несколько концептов. И из всех представленных выше заданий здесь нужно сделать больше всего шагов для того, чтобы получить верное заключение, следовательно, это задания с точки зрения наличия концептов можно считать самым трудным.

Согласно мнению психологов, любое событие человек воспринимает с точки зрения своего интеллектуального, социального, психологического и физического уровня рассмотренных в разных аспектах. Эти аспекты, в общем, могут быть следующими:

  • пространство и время;
  • максимизация положительного и минимизация отрицательного;
  • индукция-дедукция;
  • причинно-следственное (аналитическое, позитивное, дедуктивное) мышление;
  • диалектико-алгоритмическое (синтетическое, негативное, дедуктивное) мышление;
  • голографическое, или полноописательное мышление;
  • вихревое, или синергетическое.

Каждый тестируемый имеет свой субъективный мир восприятия. Он формируется из того, на что более всего человек обращает внимание. Следовательно, если тестируемый изначально настроен воспринимать процедуру тестирования как нечто сложное, недостижимое, психологически травмирующее, то даже самое простое тестовое задание может восприниматься им как сложнейшая задача. Если же изначально испытуемых настраивать на то, что это достаточно объективная процедура для проверки того, чему их смогли научить, а над чем еще нужно потрудиться, и им самим было бы интересно узнать что они усвоили хорошо, то настрой на саму процедуру будет позитивен, следовательно, и трудность задания будет восприниматься тестируемым более объективно.

Попробуем выделить образы мышления, относительно которых формируется трудность тестовых заданий.

ТЗ простого уровня трудности:

  • «опознание» какого-то объекта или проверка «знания-знакомства»;
  • выбор одного варианта ответа из многих с помощью знания всего одного концепта;
  • задание открытого типа, направленное на выявление знания определения односложного базового термина.

ТЗ среднего уровня трудности:

  • направлено на применение усвоенных ранее знаний в типовых ситуациях (т.е. в тех ситуациях, с которыми знаком испытуемый) или на проверку «знаний воспроизведения копии». К ТЗ такого уровня трудности следует относить ТЗ, направленные на мышление, связанное с высказываниями конъюнктивного или дизъюнктивного вида или ТЗ с несколькими концептами по выбору подмножества правильных вариантов из заданного множества заключений. В некоторых случаях к ТЗ такого уровня трудности могут быть отнесены ТЗ на соответствие и порядок.

Трудные ТЗ:

  • направлено на применение усвоенных знаний и умений в нестандартных условиях (т.е. в условиях, ранее незнакомых испытуемому) или на проверку «знаний умения и применения». К ТЗ такого уровня трудности относятся задания, которые вызывают заключения, сформулированные в виде утверждений импликативного типа. Такие задания требуют применения рассуждений в форме дедуктивного, индуктивного вывода и аналогии, причем для получения окончательного ответа необходима некоторая последовательность умозаключения (несколько концептов).

Следует учитывать так же то обстоятельство, что трудность ТЗ определять можно с учетом формы тестового суждения. Здесь обязательно должно учитываться количество концептов, т.к. если для выбора верного ответа на задание необходимо иметь какие-то дополнительные знания или решить задачу, то трудность задания возрастает. Самой простой считается закрытая форма тестовых заданий, когда испытуемому предлагается выбрать верный вариант(ы) из предложенных. Самой трудной принято считать открытую форму, т.к. для того чтобы дать правильное заключение, нужно понять смысл тестового суждения и подобрать нужное определение из нескольких существующих. Формы на последовательность и на соответствие чаще всего относятся к заданиям со средним уровнем трудности [ссылка на источники литературы].

Назначение трудности можно осуществлять исходя из принадлежности ТЗ уровню «глубины» спецификации теста. Если ТЗ раскрывает самый нижний уровень иерархии спецификации теста (например, некоторое «Понятие»), то такое задание будет легким. Принадлежность ТЗ средним уровням иерархии спецификации теста (например, некоторой «Теме» или «Подтеме») повышает трудность. Такие ТЗ можно считать ТЗ со средней трудностью. Наконец, ТЗ, относящееся к верхнему уровню, корню дерева иерархии (например, к «Разделу», «Главе»), можно считать трудным. Следовательно, при рассмотрении трудности с учетом спецификации банка тестовых заданий будем считать, что задание на рассмотрение более частного случая имеет меньшую трудность, чем задание, рассмотренное на более общую тему.

Увеличение количества дистракторов и правильных заключений влияет на уровень трудности ТЗ. Чем больше число дистракторов и правильных заключений, тем более длительного мыслительного процесса требует верное заключение. Увеличивается время на ответ. Тем более трудным считается задание.

Определить трудность задания можно исходя из принадлежности ТЗ основному и дополнительному материалам (уровень значимости ТЗ). Очевидно, что для каждой дисциплины есть определенный набор базовых понятий, например, прописанных в ГОСе, а есть понятия, относящиеся к дополнительному материалу, то есть материалу, который дается лишь наиболее успешно обучающимся группам учащихся. Кроме того, допустимо давать около 10% всего материала по курсу на усмотрение преподавателя. Поэтому, если ТЗ раскрывает базовое понятие, то такое задание можно считать простым, если же ТЗ принадлежит к дополнительному материалу (т.е. для того, чтобы дать верное заключение нужно иметь дополнительные знания и оперировать несколькими концептами), то его можно считать трудным.

При определении трудности тестовых материалов важно уметь сопоставлять приведенные факторы для различных случаев и учитывать все особенности предметной области.

Для упрощения задачи выводов по трудности тестовых заданий определим количественные показатели качественных факторов.

Для примера возьмем 2 задания из банка, для которого определены следующие уровни трудности:

  • задание № 1 -теоретически интерпретируется как трудное;
  • задание № 2 - теоретически интерпретируется как средней трудности.

Рассматривается выборка из 10 групп испытуемых, которые тестировались по одной и той же дисциплине. Для примера возьмем средний балл, полученный в результате тестирования испытуемыми одной группы по предложенным двум заданиям.

Новая страница 1

Группы Баллы по 1-му ТЗ Баллы по 2-му ТЗ
№ 1 32,1 45
№ 2 20 65
№ 3 55 34
№ 4 70 58
№ 5 64,2 40
№ 6 45 36
№ 7 46,1 67
№ 8 80 54
№ 9 72,3 44
№ 10 46,7 53

Для оценивания трудности тестового задания выбираются различные шкалы. Возьмем следующую шкалу, которую будем априорно (теоретически) считать эталонной. Пусть W - оценка, набранная испытуемыми по i-му заданию при тестировании. Тогда 5-ти балльная шкала распределения процентов (исходя из 100%) и оценок, может быть следующей:

Результат тестирования

Результат тестирования, W Оценка Трудность
0W25 2 (неудовлетворительно) Трудное
25<W50 3 (удовлетворительно) Средней трудности
50<W75 4 (хорошо)
75<W100 5 (отлично) Легкое

Далее считаем среднее значение, полученное по ТЗ десятью группами для первого задания:

<?xml version="1.0"?>

что соответствует средней трудности по эталонной (априорной) шкале.

Изначально это задание интерпретировалось составителем-тестологом как трудное. Следовательно, априорное значение трудности в данном случае будет не совпадать с апостериорным значением, которое будем считать верным для данной выборки. Для более объективных результатов также можно предложить апостериорную (фактическую) шкалу для данной выборки учитывая самый высокий и самый низкие баллы для тестового задания, исходя из следующих расчетов

наименьший балл <?xml version="1.0"?>
а наибольший: <?xml version="1.0"?>

Для того, чтобы рассчитать интервал оценок шкалы для данной выборки применим формулу:

<?xml version="1.0"?>

где <?xml version="1.0"?>
- разница между уровнями шкалы, n - количество оценочных коэффициентов по выбранной шкале (например, «неудовл.», «удовл.», «хорошо», «отлично»). Таким образом, разница между оценками в данном примере равна 15%.

Шкалы для этой выборки будут выглядеть следующим образом:

<?xml version="1.0"?>

В приведенном примере получается следующая схема распределения баллов:

Результат тестирования

Баллы, Х Оценка Фактическая трудность
X<Sh2 2 (неудовлетворительно) Трудное
Sh2X<Sh3 3 (удовлетворительно) Средней трудности
Sh3X<Sh4 4 (хорошо)
X≥Sh4 5 (отлично) Легкое

Основываясь на расчетных нормах, проведем итоговый подсчет баллов, в результате которого получим, что:

  • «легким» - это задание было для 30% испытуемых;
  • «средней трудности» - для 50% испытуемых;
  • «трудное» - для 20% испытуемых.

Посчитаем среднее значение, полученное по ТЗ десятью группами для второго задания:

<?xml version="1.0"?>

что соответствует средней трудности по эталонной (априорной) шкале.

Изначально это задание интерпретировалось составителем-тестологом как средней трудности. Следовательно, априорное значение трудности задания в данном случае будет совпадать с апостериорным значением, которое будем считать верным для данной выборки. Также можно для второго задания посчитать апостериорную шкалу.

© Центр дистанционного образования МГУП