ВАРИАТИВНОСТЬ В РАСЧЕТЕ ВАЛИДНОСТИ И НАДЕЖНОСТИ ДИДАКТИЧЕСКИХ ТЕСТОВ
Бузун Дмитрий Николаевич, Балыкина Елена Николаевна
Белорусский государственный университет (БГУ), г. Минск
В работе рассматриваются способы расчета надежности и валидности дидактических тестов, апробированных в учебном процессе вуза.
обсудить на форуме
написать автору
В последнее десятилетие в Белорусском государственном университете, как и в ряде других вузов тестовый контроль знаний, как один из наиболее эффективных, активно внедряется в учебный процесс. Составление тестовых заданий, проведение тестирования и статистическая обработка результатов тестирования опирались на практико-теоретический опыт и материалы исследователей, работающих в данной области. Впоследствии данные банки тестовых заданий были внедрены в учебный процесс.
Анализ заданий математическими методами позволяет получить информацию об их скрытых дефектах, которые не удается выявить с помощью экспертных методов. По мнению ученых-тестологов наиболее важными характеристиками тестовых заданий являются надежность и валидность.
Надежным считается тест, который дает постоянные результаты, оценки при повторных предъявлениях. Существует несколько способов расчета коэффициента надежности теста. Например, коэффициент надежности К определяется как отношение дисперсии истинной компоненты к дисперсии измеренных тестовых баллов. Для расчетов надежности по внутренней согласованности одним из лучших показателей, по мнению большинства специалистов, является коэффициент a “альфа”. В эту формулу входят квадрат стандартного отклонения для всего теста, и чем он выше, тем больше коэффициент надежности, то есть чем больше дисперсия всего теста, тем он надежнее, и чем меньше сумма квадратов стандартных отклонений для каждого из заданий, тем больше значение коэффициента. В расчетах надежности часто применяют формулу Кьюдера-Ричардсона, которая является частным случаем альфа Кронбаха для дихотомической оценки. П. Ж. Рюлон разработал формулу определения надежности методом расщепления. Для оценки статистической значимости коэффициента a используют формулу Дж. Китса. Для получения сведений о надежности целого теста применялась формула Спирмана-Брауна. В дидактическом тестировании этот метод определения надежности подходит для сравнительно гомогенных по форме тестов, содержащих задания примерно одного уровня сложности. Допустимо рассматривать вклад отдельного тестового задания в надежность всего теста и согласованность результатов ответов на данное задание с результатами всего теста. В соответствии с этим был выведен индекс надежности отдельного тестового задания Кrj.
Валидность – комплексная характеристика теста, отражающая обоснованность, значимость результатов, адекватность теста целям измерения.
Наиболее распространенным способом нахождения теоретической валидности методики является конвергентная валидность, т.е. сопоставление данной методики с авторитетными методиками и доказательством значимых связей с ними. Сопоставление с методиками, имеющими другое теоретическое основание и констатацию отсутствия значимых связей с ними, называют дискриминантной валидностью.
Значимость тестового задания отражает связь ответов на данное задание группы учащихся с индивидуальными баллами этой группы учащихся на конкретное задание теста и индивидуальными баллами учащихся. Приняв во внимание, что результат ответа на любое задание является дихотомической переменной, авторы для расчета валидности использовали формулу для нахождения коэффициента значимости Kbj. Приемлемыми считались задания, у которых значимость больше или равна 0,3.
Литература:
- Аванесов В.С. Композиция тестовых заданий. – М, 1998.
- Балыкина Е.Н. Подходы к проектированию компьютерных тестов учебных достижений по историческим дисциплинам / Информационное обеспечение исторического образования: Сб. ст. / Под. ред. В. Н. Сидорцова, А. Н. Нечухрина, Е. Н. Балыкиной. – Минск-Гродно, 2003. (Педагогические аспекты исторической информатики; Вып. 3). С.67-75.
- Бузун Д.Н. Компьютерные дидактические тесты: оценка качества. Там же. С.76-86.
- Бузун Д.Н. Методы проведения анализа статистических результатов (на примере теста по курсу “Теория и история культуры”) / ИТ в управлении и уч. процессе вуза: Материалы 3-й Всерос. очно-заочной научно-практ. конф. – Владивосток, 2003. – С.30-33.