Процедуры комплексной экспертизы качества тестовых заданий и тестов при формировании банка данных

Процедуры комплексной экспертизы качества тестовых заданий и тестов при формировании банка данных.

Пермяков Олег Евгеньевич,

кандидат технических наук, докторант,

Максимова Оксана Александровна,

аспирант,

старший научный сотрудник Центра оценки качества образования Томского областного института повышения квалификации работников образования.

Томский Политехнический Университет.

Процесс рационализации контроля и оценки качества учебных достижений инициировал масштабное применение тестовых технологий на всех стадиях процесса обучения. Тестовые технологии, применяемые в системе высшего профессионального образования, призваны обеспечивать получение оперативной и достоверной информации о качестве учебных достижений студентов. Но, несмотря на весомый перечень достоинств тестовых технологий, по сей день большинство противников, нежели сторонников внедрения тестовых технологий в систему контроля и оценки качества обучения. При этом в качестве главного выдвигается мнение о низком качестве тестовых материалов. Современная дидактическая тестология считает, что необъективность тестов зависит в основном от низкого качества их разработки – если они сделаны наскоро, не проверены на надёжность и валидность [1]. Повышение качества тестовых материалов на стадии их разработки обеспечивается их экспертизой и коррекцией экспертиза.

Тестовые задания и тесты предназначены для измерения свойств совокупности исследуемых объектов, относящихся к множеству потенциальных испытуемых [2]. Тест как система состоит из взаимосвязанных тестовых заданий, расположенных в определенной последовательности. При экспертизе качества тестовых заданий и теста в целом необходимо оценить каждый компонент структуры тестового задания не только отдельно, но и в системе отношений с другими тестовыми заданиями. При этом нужно учитывать, что у каждого тестового задания имеется ряд структурных элементов, каждый из которых характеризуется рядом внутренних и внешних свойств. Каждый элемент тестового задания обладает своей топологией, а свойства тестового задания и теста в целом могут определяться особенностями множества испытуемых, показателями качества тестовых заданий и тестов (далее: тестовых измерителей - ТИ), особенностями технологии обработки результатов тестирования и показателями компетентности участвующих в экспертизе специалистов. Таким образом, учитывая сложность структуры ТИ и совокупности критериев, определяющих их качество, экспертизу теста и его элементов необходимо проводить на основе системного подхода.

Целью экспертизы качества ТИ является комплексная оценка их качества. При комплексном оценивании качества ТИ проводится:

· оценка степени соответствия ТИ минимуму содержания учебной дисциплины, определяемому ГОС (федеральный компонент);

· оценка степени соответствия ТИ целям изучения данной учебной дисциплины;

· оценка качества нормативных документов, сопровождающих разработку и применение ТИ – спецификации, кодификатора и др.;

· оценка соответствия формы, содержания (значения, смысла) морфологических (слово, символ, знак) и синтаксических (выражения, обороты) единиц тестового задания форме и содержанию аналогичных единиц, использованных (используемых) при изложении данной учебной дисциплины;

· приобщение преподавателей к культуре разработки, экспертизы и применения тестовых измерителей для контроля результатов учебных достижений студентов;

· формирование основ критического (аналитического) подхода к оценке качества образовательных достижений обучающихся;

· сбор необходимой информации о качестве тестовых измерителей для постановки и решения целей и задач стандартизации баз тестовых заданий и тестов.

Система комплексной экспертизы качества тестовых материалов состоит из четырех основных этапов:

1. Предварительная экспертиза качества тестовых материалов, целью которой является отбор авторского материала, соответствующего требованиям тестов.

2. Экспертное оценивание (внутренняя экспертиза) качества тестов, проводимое после составления первого варианта теста.

3. Тестологическая экспертиза, заключающаяся в проведении апробационного тестирования и расчета на основе его результатов статистических характеристик качества тестов и тестовых заданий.

4. Комплексное оценивание качества тестовых заданий и тестов [3].

Рис. 1.

Последовательность этапов комплексной экспертизы качества ТИ.

На этапе предварительной экспертизы качества тестовых заданий и тестов проводится первичное оценивание качества ТИ, которое включает в себя:

· оценивание качества спецификации и кодификатора теста, являющееся одним из важнейших этапов комплексной экспертизы в силу того, что на этапе экспертного оценивания внутреннее содержание качества ТИ оценивается экспертами в соответствии с теми характеристиками, которые заявлены в этих документах;

· оценивание ТИ на соответствие их формальным требованиям, заключающееся в том, что в соответствии с требованиями к оформлению и содержанию тестовых суждений эксперты-предметники проводят содержательный анализ формулировок тестовых заданий и оценивают корректность их формулировок.

Итогами предварительной экспертизы является перечень ТИ, соответствующих всем требованиям, и перечень ТИ, не соответствующих тем или иным требованиям. В первом случае – комплекты ТИ отправляют на следующий этап комплексной экспертизы − экспертное оценивание, во втором − возвращают авторам с комментариями по причинам отбраковки с указанием на коррецию ТИ.

Экспертное оценивание качества ТИ включает четыре этапа:

Первый этап – оценивание семантики, в том числе и корректности формулировки тестового задания. Любое содержание тестового задания может быть представлено вербально (словесно) и невербально (рисунки, графики, таблицы). В этом направлении эксперт проводит многокомпонентный анализ содержания тестового задания, а именно:

1) Предметно–содержательный анализ – эксперту необходимо оценить адекватность отражения фактического материала учебной программы, который можно представить двумя компонентами:

· фактологический – точность отражения фактов, событий, предметов, явлений материала преподаваемой учебной дисциплины в форме суждения;

· концептуальный – корректность представления содержания в формулировке тестового задания логически выделенному дидактическому модулю в соответствии со структурой содержания учебной дисциплины.

2) Композиционный анализ. Композиция тестового задания представляет собой единство формы, содержания, инструкции по выполнению задания и разнообразных вспомогательных компонентов (такие как, таблицы, рисунки, графики). От гармоничности оформления всех составляющих элементов структуры зависит логичность, содержательность, семантическая нагруженность задания, что, в свою очередь влияет на уровень восприятия тестового задания испытуемым.

3) Функциональный анализ. Тесты в педагогическом процессе выполняют ряд функций: диагностическую, прогностическую, коррекционную, воспитательную, обучающую. Тестовое задание, как компонент тестирования, имеет функциональную нагруженность. Каждое тестовое задание полифункционально, но степени выраженности той или иной функции различны. От точности определения функциональной значимости тестового задания зависит эффективность его применения в процедуре тестирования.

4) Вербальный анализ – грамматическое построение формы тестового суждения является одним из важнейших компонентов задания. От правильности грамматического оформления всех компонентов композиции зависит четкость, логичность формулировки и однозначность восприятия тестового задания.

Второй этап – прогнозирование успешности выполнения данного задания разными по уровню подготовки обучающимися. Одна из наиболее сложных и трудоемких работ эксперта, заключающаяся:

· во–первых, в точности выделения логических операций, соответствующих результатам когнитивных действий тестируемых, что является основой для определения уровня сложности задания;

· во–вторых, эксперт устанавливает ориентировочное время, необходимое для выполнения задания.

Особенность прогностического направления оценочной деятельности эксперта заключается в том, что в процессе создания конкретного тестового задания формируются нормативы его выполнения.

Третий этап – оценивание теста в целом по следующим критериям:

1. Соответствие теста целям обучения и тестирования: насколько разработанный тест способен максимально точно диагностировать уровень подготовки обучающихся по соответствующему виду контроля (входной, рубежный или итоговый).

2. Практичность теста, заключающаяся в доступности инструкций и содержания заданий теста для понимания тестируемого.

3. Куррикулярная валидность теста - определяется по наличию необходимого по каждой учебной теме количества тестовых заданий в соответствии с кодификатором учебной дисциплины и спецификацией теста с указанием в ней относительной значимости (веса) каждой темы.

4. Композиция теста - оценивается внутренняя согласованность заданий в тесте в зависимости от его назначения и гомогенности или гетерогенности. Основная задача оценивания внутренней согласованности заданий в тесте – это проверка сочетания подобранных друг к другу заданий, которое должно отражать структурную иерархию модели подготовки по учебной дисциплине. При этом эксперту необходимо оценить эффективность предложенной разработчиком схемы и способа расположения заданий в тесте. Понятие сбалансированности включает в себя пропорциональное наполнение теста заданиями разными уровнями сложности. Таким образом, анализ композиции теста показывает степень гармоничного представления ключевых элементов содержания учебной дисциплины и адекватность их отражения в тесте.

5. Представленность дидактических единиц в тесте.

6. Эффективность формы предъявления теста: бланковое тестирование, компьютерное тестирование, адаптивное тестирование.

7. Конструктную валидность, определяемую на основе анализа содержания теста тому насколько объект тестирования и характер заданий учитывают психологические особенности тестируемых. При этом анализируются: сложность используемых ТЗ, возраст тестируемых и определенное в соответствии с их физиологическими возможностями оптимальное время выполнения теста с учетом времени необходимого для выполнения каждого ТЗ, длины и общей трудности теста.

8. Функциональную валидность теста, определяемую на основе анализа соответствия конкретного теста тому уровню усвоения, виду деятельности, для которого он создан.

9. Содержательную валидность, определяемую по репрезентативности проверяемых тестом способов умственной или практической деятельности, знаний, умений и навыков в соответствии с требованиями ГОС ВПО, программы и кодификатора учебной дисциплины, спецификации теста.

10. Критериальную валидность теста, отражающую значимость результатов тестирования по сравнению с некоторой внешней переменной, внешним критерием. Основная трудность в экспертной оценке носит методологический характер, поскольку она состоит в выборе значимого внешнего критерия. Для педагогических тестов в качестве критерия обычно берутся оценки экспертов, выставленные ими при традиционной проверке знаний учеников без использования тестов.

Четвертый этап – оформление итогов экспертного оценивания и рекомендаций по доработке или корректировке задания, считаемым одним из важнейших этапов работ. Результаты экспертизы должны быть представлены в строгом формальном виде для того, чтобы они были доступны и понятны не только для эксперта, но и для тестолога, который будет проводить тестологическую экспертизу качества ТЗ и тестов после их апробации.

Итоги экспертного оценивания могут быть выражены формально в протоколе, предназначенном для автоматизированной обработки. При этом эксперт заполняет отведенные для меток поля. Специфика экспертных суждений заключается в том, что результаты ЭО по сути своей качественные (оценочно–атрибутивные), должны быть представлены числовыми величинами. Чаще всего для выражения качественной информации числовыми значениями используют трехбалльную или пятибалльную шкалы.

По результатам экспертного оценивания выносится суждение о качестве и пригодности теста для целей тестирования.

Одним из важнейших этапов комплексной экспертизы качества тестов и тестовых заданий является проведение апробационного тестирования с целью установления, проверки и оценки его измерительных возможностей путём апробации на репрезентативных выборках [1]. Для этого после апробационного тестирования, производится:

Шаг 1. Формирование матрицы ответов испытуемых на задания, в которой содержится информация об ответах в дихотомической или политомической шкале, номер варианта, выполненного тестируемым, информация о выборе вариантов ответов на каждое тестовое задание из предложенных тестируемому. Матрицы ответов испытуемых формируются методом преобразования исходных данных в набор признаков с двумя градациями. Данная процедура носит название дихотомизации ответов испытуемых [4].

Шаг 2. Обработка матриц ответов с целью получения и интерпретации количественных показателей ТЗ: трудности/легкости, фракции пропусков, дискриминативности ТЗ, подсчет коэффициентов корреляции подобранных дистракторов с правильным ответом (для заданий закрытого типа), подсчет значений коэффициентов корреляции ТЗ с итоговым баллом по тесту.

Шаг 3. Расчет показателя валидности теста, как корреляции между показателями теста и определенным внешним критерием.

Шаг 4. Расчет коэффициентов корреляции задания с заданием с целью оценивания внутренней согласованности теста. Внутренняя согласованность заданий теста − существенная характеристика теста, определяющая его гомогенность (однородность, взаимосвязанную близость заданий) [1].

Шаг 5. Оценивание параллельности вариантов тестов по результатам апробационного тестирования. В целях повышения объективности и надежности педагогических измерений для тестирования используются варианты тестов, при этом они должны отвечать свойству параллельности.

Шаг 6. Расчет и оценивание показателей надежности теста, характеризующей точность измерения. Чем выше надежность, тем выше точность, с какой он измеряет уровень учебных достижений студентов.

На заключительном этапе экспертизы осуществляется формирование комплексной оценки качества тестовых заданий и тестов. При комплексном оценивании качества ТИ снимается проблема несоизмеримости оценивания внутренних и внешних свойств ТИ за счет агрегирования показателей качества, основанных на построении оптимальной иерархической системы критериев и показателей.

Данный этап включает в себя следующие процедуры:

1. формирование сводной таблицы показателей качества ТИ, полученных на предыдущих этапах экспертизы;

2. построение комплексных показателей качества ТИ;

3. нормирование показателей качества ТИ;

4. определение доверительных интервалов комплексных оценок;

5. формирование вербально ̶ числовой шкалы качества ТИ;

6. формирование итогового заключения в виде рекомендаций:

̶ по применению стандартизированных ТИ для контроля качества УД;

̶ для авторов по корректировке и доработке ТИ с указанием причины несоответствия к требованиям качества.

Проведение комплексной экспертизы качества тестов позволит улучшить качество ТИ на этапе их разработки и сформировать банк стандартизированных тестовых заданий и тестов, что обеспечит контрольно-оценочные процедуры надежными и валидными тестовыми измерителями.

Литература.

1. Михайлычев Е. А. Дидактическая тестология. – М.: Народное образование, 2001. – 432 с.

2. Дружинин В.Н. Экспериментальная психология – СПб: Издательство Питер, 2000. – 320 с.

3. О.Е. Пермяков, О.А. Максимова. Формализация экспертного оценивания качества тестовых материалов с позиций системного подхода.// Вестник педагогических инноваций. № 3 (7). – Новосибирск, 2006. – 157 – 178 с.

4. Миркин Б.Г. Анализ качественных признаков (Математические модели и методы). – М.: Статистика, 1976. – 166 с.

Поступила в редакцию 11.02.2008 г.