Определение весовых коэффициентов (индексов сложности) вопросов


При разработке методов оценки знаний с помощью системы тестовых вопросов назначение весовых коэффициентов (индексов сложности) является одним из основных этапов, определяющих достоверность результатов контроля знаний.
С помощью весовых коэффициентов указывается степень трудности вопроса по отношению к остальным вопросам, задается максимальное количество баллов, которое студент может получить при правильном ответе на вопрос и возможное общее количество баллов за весь ответ, т.е. в конечном счете устанавливается количественная и качественная (для установленной шкалы оценок) характеристика знаний.
Для повышения достоверности результатов тестирования, особенно при большом количестве вопросов в теме, когда сложно выдержать общую стратегию и установить для каждого из вопросов сопоставимую меру сложности, предлагается определять весовые коэффициенты с помощью экспертного оценивания.

Проектный расчет. Проектный расчет весовых коэффициентов выполняется с помощью метода попарных сравнений. Для реализации метода попарных сравнений привлекаются эксперты из числа преподавателей и практических работников, обладающих достаточными знаниями по всем вопросам темы, предлагаемой для тестирования. При этом уровень знаний экспертов не обязательно должен быть однородным, т.к. для нормируемых весовых коэффициентов экспертиза предусматривает простановку относительных мер, которые затем пересчитываются в абсолютные величины.
Количество экспертов также не регламентируется, но при увеличении числа экспертов статистическая предсказуемость назначаемых весовых коэффициентов повышается. Если же привлекается только один эксперт, то процедуры повышения точности, основанные на статистической обработке экспертных оценок, должны быть опущены.
При проведении попарных сравнений последовательно сопоставляются степени сложности каждого вопроса с каждым и результаты оформляются в виде таблицы (см. табл. 2.1).
Если по мнению эксперта анализируемый вопрос более сложен, чем вопрос, с которым он сравнивается, то ему присваивается относительная мера V = 1. Если анализируемый вопрос менее сложен, то присваивается мера V = 0. В случае равной сложности вопросов принимается V = 0,5. Затем анализируемый вопрос сопоставляется с очередным вопросом темы, и для него определяется очередное значение относительной меры. Сравнение выполняется до тех пор, пока анализируемый вопрос не будет сопоставлен со всеми вопросами темы и ему не будет назначен соответствующий массив значений V, который отражает степень сложности вопроса по отношению ко всем остальным вопросам темы. По результатам сравнений рассчитывается ранг вопроса Д как сумма значений V:
R.=lvr
Экспертиза проводится для всех вопросов темы, для каждого из них устанавливается массив значений V и рассчитывается ранг Д.
Вопросу, получившему наивысшую оценку сложности (имеющему наивысший ранг), присваивается максимальное в


Вопрос N


Вопрос 3

Вопрос 2

Вопрос 1




V,

V,


Вопрос 1

vN


v3




V2




^2

Вопрос ?

Vn




4





V3

V3

Вопрос 3

vN




Ц

Вопрос N



VN

VN

Vn





V,

принятой шкале оценивания сложности тестов значение весового коэффициента, например, W = 100.

Для остальных вопросов темы значения весовых коэффициентов назначаются пропорционально рангу:
Я™ - W R.-P,
или (при W = 100)
г- Д, юо
Если в экспертизе участвует несколько экспертов, то каждый из них выполняет аналогичное оценивание, результатом которого является набор весовых коэффициентов, установленный по всем вопросам темы. Полученные значения весовых коэффициентов статистически обрабатываются.
Рассчитываются усредненные значения весовых коэффициентов Р по результатам оценивания всех экспертов Р к:
к
I Р.Л
Р =
К
где К - количество экспертов.

Определяются доверительные интервалы для экспертных оценок:
V,=,,7F
РВ = Р + v , РИ = Р -v, D -
I              l.cp              ly              I              t.cp              «’              I
где v_ - доверительный интервал; t — доверительная вероятность;
Dt - дисперсия оценок экспертов; Рв (Р") - верхняя (нижняя)
доверительная граница весовых коэффициентов.
В случае когда расчетное значение дозерительной границы (Р") не превышает О {Р''lt; 0), принимается решение или об исключении вопроса из списка вопросов (если количество вопросов превышает минимально допустимый размер выборки) или о присвоении этому вопросу минимального из значимых весовых коэффициентов.
Корректировочный расчет. Корректирование весовых коэффициентов выполняется по результатам проведенных тестов. При этом рассчитывается средняя оценка (среднее число баллов для принятой шкалы оценивания), полученная всеми студентами, участвующими в тестировании, и по всем вопросам:
В -В‘
в* "Т-
Рассчитанное значение принимается как средняя мера сложности вопросов темы.
Эта мера используется для вычисления относительных характеристик сложности каждого вопроса темы:
Р° = ?SL
' В, ‘
Вопросу, получившему максимальную относительную меру сложности Р °тах, присваивается максимальное в принятой шкале оценивания значение весового коэффициента, например W = 100. Весовые коэффициенты остальных вопросов темы

назначаются пропорционально их относительным характеристикам сложности:



или



при В, = О,
В -W
при В, о О,
о
В Р



где W - верхняя граница шкалы оценивания.
При стобалльной шкале (W = 100) расчет выполняется по формуле:
при В, = 0,
BCD 100
——Г— при В, о О,
В. ¦ Р°
Помимо расчетного значения весового коэффициента Р' определяются его доверительные границы, в пределах которых возможна корректировка установленных весовых коэффициентов:
рв = р              Р"              = Р              -v              v              =А_
г!              Г‘.тср              TVlgt; г,              I              'ГТ1(р              Vlgt;              Vl              I              •
vm



л /              \
? (p              - p )
i-i \ 1.1              l.m„              /
gt; = 1
m -1



где P - доверительный интервал; P - средняя оценка по вопро-
|              I,              mCp
су; D - дисперсия полученных баллов; m - количество ответов на вопрос.

Ранжирование вопросов по величине весовых коэффициентов позволяет ответить еще на один вопрос, который непременно встает перед разработчиком заданий для тестового контроля: каким же должно быть общее количество вопросов и насколько они должны быть сложными, чтобы их использование при тестировании давало бы возможность оценить знания студентов с наибольшей достоверностью. Необоснованное уменьшение количества вопросов приводит к тому, что оценка, получаемая студентом по результатам тестирования, во многом становится случайной, т.к. вопросы не охватывают всего материала темы, и тот учебный материал, который студент усвоил в недостаточной степени, может оказаться невключенным в вопросы теста. Завышение количества вопросов и их сложности, с одной стороны, может привести к тому, что лишние вопросы не уточнят оценку знаний, а просто продублируют уже полученные результаты. С другой стороны, увеличивается время, необходимое студенту для ответа по тестам, которые состоят из большого числа вопросов. Это приводит к утомляемости студента, его реакция притупляется, и, как следствие, он может при ответах допустить ошибки, связанные не с незнанием учебного материала, а с невнимательностью. Немаловажно, особенно для отечественных вузов, и увеличение машинного времени, которое необходимо выделить в компьютерном классе для проведения тестового контроля.
Очевидно, что при определении оптимального количества вопросов в тестовых заданиях следует учитывать как число, так и сложность каждого из вопросов, входящих в общую систему тестирования. Исходя из того что весовой коэффициент является числовой мерой сложности вопроса, можно считать, что сумма весовых коэффициентов всех вопросов, включенных в тестовые задания, будет отображать совокупную сложность тестового контроля:
п т
р = уур ,
д сов ^ ^ I. / ’
/=1 ./=1
где п - количество тем; т - количество вопросов в теме.

Отсюда можно сделать вывод, что для определения рационального количества вопросов, включаемых в тестовое задание, необходимо сопоставить величину Рсия с некой характеристикой значимости тестируемого учебного материала Р , учитывающей сложность материала и его важность для понимания содержания дисциплины              в целом.              С              учетом              принятого              допущения
количество вопросов              п следует выбирать таким              образом, чтобы
выполнялось условие
Рн К lt; Р lt;              Р" ¦ К
F дпп              - соя -              Гг)оп
где Р"доп, Р"Лоп ~ соответственно верхняя и нижняя доверительные
границы характеристики значимости учебного материала;
Кат - коэффициент, учитывающий вид проводимого теста.
При этом формирование содержательной части вопросов остается за преподавателем, и текст вопросов должен быть таким, чтобы тестировались наиболее существенные и типичные разделы контролируемой темы.
Числовые значения доверительных границ Р"Лоп, Р'Лп„ преподаватель может назначить исходя из собственной оценки сложности темы, ее важности для понимания дисциплины, а также с учетом времени, которое следует выделить для проведения тестового контроля. Однако правильнее будет определять эти характеристики по результатам экспертизы и статистической обработки полученных экспертных оценок.
При проведении экспертизы в качестве экспертов лучше приглашать практических работников или преподавателей, ведущих занятие по дисциплине, и студентов, прослушавших курс в целом (например, после итогового экзамена по дисциплине). В этом случае мнение практиков и преподавателей в большей степени укажет на значимость темы по отношению к другим темам курса, а высказывания студентов будут адекватнее отображать истинную сложность для изучения той темы, по которой предполагается проводить контроль. Для повышения объективности количество практических работников, преподавателей и студентов, участвующих в экспертизе, должно быть примерно одинаковым. Другой подход заключается в том, что экспертами должны быть или только студенты, или только преподаватели - в зависимости от условий предполагаемого тестирования и специфики дисциплины. При этом в любом случае необходимо,
чтобы каждый из экспертов делал свои заключения самостоятельно и не имел каких-либо предварительных сведений о высказываниях остальных участников.
Экспертизу можно проводить применительно только к одной теме, по которой предполагается выполнять тестирование знаний студентов. Однако правильнее оценивать сразу все темы, подлежащие контролю, сравнивая их между собой. В этом случае будет обеспечена сопоставимость результатов, полученных при тестировании по всем вопросам дисциплины. Кроме того, если тестирование знаний планируется выполнять по нескольким дисциплинам специальности и затем сравнивать результаты тестирования между собой, то рекомендуется аналогичную экспертизу проводить сразу по нескольким дисциплинам. На первом этапе - сравнивая дисциплины и проставляя количественные характеристики значимости дисциплин, а на втором - распределяя полученные обобщенные оценки между отдельными темами дисциплин.
Решение о том, что выводам экспертов следует доверять, делается после статистической обработки результатов экспертизы, в ходе которой рассчитываются: коэффициент конкордации:
*ГТЯ __«?.+ц
L L пк.ч 9 W =              —
Q2(K3 -К)              ,
~"I2 Qlfk
где К - количество экспертов; Q - количество тем; Rkq - ранг, присвоенный экспертом k теме q\ f'h - показатель связанных (рав- 1гов, зависимый от коли’
пертом:
группа студентов). При 0,4 lt; W lt; 0,85 мнению экспертов можно доверять; расчетное значение критерия Кохрена:
Я 2
Id;
7=1
где Z)^ - максимальная из дисперсий воспроизводимости D[*].
Если расчетное значение критерия Кохрена больше критериального, то считают, что дисперсии воспроизводимости однородны и результаты экспертизы воспроизводимы. В противном случае ужесточают требования к условиям проведения экспертизы и ее проводят повторно.
После статистического анализа достоверности результатов экспертизы по ним рассчитываются искомые характеристики значимости контролируемых разделов дисциплины;



Р - Р
доп, q              donep,q
где v’= 7к'
+ V Р              =              р              -V
7* don,q              допср,ч              Q*



Чтобы учесть вид контроля и соответствующую ему долю сложности тестового задания, выраженную коэффициентом Квт, можно воспользоваться величинами, приведенными в табл. 2.2.
Вид Входной Т екущий Тематический Рейтинговый Итоговый
контроля

Таблица 2.2. Значения коэффициента К

0,25

0,5

0,5

0,75





ция результатов тестирования, а возможно и корректировка, позволят выработать некоторые стандартизированные величины, использование которых будет оправдано в случае, если требуется получить результаты тестирования, сопоставимые по видам контроля знаний. 
<< | >>
Источник: Алексеев А.Н.. Дистанционное              обучение              инженерным              специальностям:              Мо нография. 2005

Еще по теме Определение весовых коэффициентов (индексов сложности) вопросов:

  1. Определение весовых коэффициентов (индексов сложности)
  2. 6. Определение весовых коэффициентов (коэффициентов важности) критериев
  3. Весовые коэффициенты важности критериев
  4. 4.1.3. Определение индекса групповой сплоченности Сишора
  5. 6. НЕКОТОРЫЕ СПОРНЫЕ ВОПРОСЫ ОПРЕДЕЛЕНИЙ МАТЕРИИ
  6. 4. КРИТИКА НЕОТОМИЗМА, НЕОПОЗИТИВИЗМА И РЕВИЗИОНИЗМА ПО ВОПРОСУ ОБ ОПРЕДЕЛЕНИИ МАТЕРИИ
  7. Балабанова Л.М.. Судебная патопсихология (вопросы определения нормы и отклонений). — Д.: Сталкер. — 432 с., 1998
  8. РАЗДЕЛ 37. УСТАНОВЛЕНИЕ МЕР И ВЕСОВ ^
  9. 2. Индексы согласия и несогласия
  10. АВТОМАТИЧЕСКИЕ И ПОЛУАВТОМАТИЧЕСКИЕ ВЕСОВЫЕ ДОЗАТОРЫ
  11. Что лежало на чаше весов?
  12. Глава 6 ВОССТАНОВЛЕНИЕ СЛОЖНОСТИ
  13. Глава 6 ВОССТАНОВЛЕНИЕ СЛОЖНОСТИ
  14. 2. Сложность восприятия