Определение параметров трудности и дифференцирующей способности заданий. Мера трудности задания Мера трудности задания

Дискриминативностью (дифференцирующей способностью) называют способность тестового задания дифференцировать учеников на более или менее подготовленных. Так как основная цель нормативно-ориентированного теста – это достижение дифференцирующего эффекта, то высокий показатель дискриминативности очень важен для задания.

Для оценки дискриминативности задания будем использовать расчет по формуле:

Где - индекс дискриминативности для j-ого задания теста; (P 1) j – процент учеников, правильно выполнивших j-ое задание в подгруппе из 27% лучших учеников по результатам выполнения теста; (P 0) j – процент учеников, правильно выполнивших j-ое задание в подгруппе из 27% худших учеников по результатам выполнения теста.

Индекс дискриминативности изменяется в пределах [-1; 1]. Максимального значения он достигает в том случае, когда все ученики из подгруппы сильных верно выполняют данное задание, а из подгруппы слабых это задание не выполняет верно никто. В этом случае задание будет обладать максимальным дифференцирующим эффектом. Нулевого значения индекс дискриминативности достигает тогда, когда в обеих подгруппах доли учеников, справившихся с заданием равны. Соответственно дифференцирующего эффекта нет вообще. Значение меньше 0 будет в ситуации, когда данное задание теста слабые ученики выполняют успешнее, чем сильные. Естественно, что задания, у которых индекс дискриминативности равен или ниже нуля необходимо удалить из теста.

Используя данные из файла Приложение4.xls, посчитать индекс дискриминативности для каждого задания. Сделать выводы.

ПОКАЗАТЕЛИ КАЧЕСТВА ТЕСТА

Темы для самостоятельного изучения:

Надежность нормативно-ориентированного и критериально-ориентированного теста

Валидность теста

Задания выполняются в программе Microsoft Excel . Слушателям можно раздать распечатки хода выполнения работы (см. файл в приложениях Лабораторная работа02.doc )

Надежность нормативно-ориентированного и критериально-ориентированного теста

Нормативно-ориентированный тест – позволяет сравнивать учебные достижения отдельных испытуемых друг с другом. Баллы, набранные испытуемыми, широко разбросаны по шкале. (Тесты, по которым можно ставить оценки: ЕГЭ, зачетационные тесты).

Критериально-ориентированный тест используются, чтобы аттестовать испытуемых по какой-либо области знаний. Баллы, набранные испытуемыми, сконцентрированы вокруг одной точки – критерия (например, в тесте из 50 вопросов, критерием является 25 верных ответов, т.е. если испытуемый набрал 25 баллов, то он аттестован, если нет, то не аттестован. Здесь оценка не выставляется). (Тесты проф. пригодности, тесты, составленные для зачетов).

Корреляция – это степень соответствия между результатами двух измерений.



НАДЕЖНОСТЬ

Надежность – отражает точность педагогического измерения, насколько полученные результаты по каждому студенту соответствуют его истинному баллу. Надежностью называется характеристика теста, отражающая точность тестовых измерений и устойчивость результатов к действию случайных факторов.

дипломная работа

2.4 МЕТОДЫ ОЦЕНКИ ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ

Дифференцирующая способность (ДС) - способность тестового задания дифференцировать (различать) сильных (способных) от слабых . Рассмотрим несколько методов вычисления дифференцирующей способности.

М етод 1 - вычисление коэффициента дискриминации.

А. В этом методе вычисляется коэффициент дискриминации по формуле :

где x - среднее арифметическое значение всех индивидуальных оценок по тесту, - среднее арифметическое значение оценок по тесту у тех испытуемых, которые правильно решили задачу, - среднеквадратическое отклонение индивидуальных оценок по тесту для выборки, n - число испытуемых, правильно решивших задачу, - общее число испытуемых.

В. Коэффициент дискриминации задачи может принимать значение от -1 до +1. Высокий и значимый положительный коэффициент является показателем того, что задача хорошо разделяет испытуемых с высокими и низкими оценками по тесту. Высокий, значимый отрицательный коэффициент свидетельствует о непригодности задачи для теста. Если значение коэффициента близко к 0, то задачи должны рассматриваться как некорректно сформулированные .

2-й метод - вычисление дискриминативности с применением метода крайних групп .

А. В этом методе вычисляется дифференцирующая способность (дискриминативности) с применением метода крайних групп, то есть при расчете учитываются результаты учащихся, наиболее и наименее успешно справившихся со всем тестом. Как правило, берут от 10 до 30% лучших и худших по результатам выполнения всего теста. Индекс дискриминации задания вычисляется как разность долей испытуемых из высокопродуктивной и низкопродуктивной групп, правильно решивших ее .

где - количество учащихся в группе лучших, верно выполнивших данное задание, - количество учащихся в группе худших, верно выполнивших данное задание, - общее количество испытуемых в группе лучших, - общее количество испытуемых в группе худших.

В. В этом методе, также как и в предыдущем, индекс дискриминации может изменяться в пределах от +1 (когда с заданием справились все учащиеся лучшей группы и ни один ученик из худшей группы) до -1 (когда складывается обратная ситуация - в лучшей группе никто не справился, а в худшей справились все). Задания с отрицательным значением индекса дискриминации или со значением, близким к нулю, не могут быть признаны удовлетворительными, и в них следует искать существенные ошибки. Показатель индекса дискриминации, больший 0,3, следует признать удовлетворительным .

3-й метод - сравнение средних достижений испытуемых, показавших наиболее высокие и наиболее низкие результаты.

А. Дифференцирующая способность вычисляется по формуле:

где и - средние достижения групп с наиболее высокими и наиболее низкими результатами соответственно (группа испытуемых делится на две равные части) .

4-й метод - проведение тестирования дважды в одной и той же группе в течение некоторого периода времени .

А. В этом методе дифференцирующая способность вычисляется по формуле:

где и - число правильных ответов по тесту, данных во время первого и второго тестирования соответственно, N - число испытуемых .

5-й метод - сравнение результатов выполнения одного и того же теста в разных группах.

А. И в последнем методе дифференцирующая способность вычисляется по формуле :

где и - число правильных ответов по тесту, данных в первой и второй группах, и - число испытуемых в каждой из групп.

В. Интерпретация результатов в последних трех методах следующая: дифференцирующая способность теста считается удовлетворительной, если показатель .

Вывод: можно заметить, что формулы нахождения дискриминативности 2-м и 3-м методами практически не отличаются. Разница заключается лишь в том, что в первом случае мы используем метод крайних групп. В 4-м и 5-м методах особенностью является ситуация тестирования (проведение тестирования дважды в одной группе и сравнение результатов в разных группах).

Государственное управление в сфере образования в Калмыкии

Проведение рыночных преобразований в России выдвигает соответствующие требования к подготовке высококвалифицированных специалистов, способных работать в новой экономической среде, а, следовательно, и к структуре системы образования...

Методика социально-педагогической деятельности по развитию творческих способностей детей младшего школьного возраста

творческий способность школьный изобразительная Под способностями понимают высокий уровень развития общих и специальных знаний, умений и навыков, обеспечивающих успешное выполнение человеком различных видов деятельности ...

Методы изучения педагогического опыта - это способы исследования реально складывающегося опыта организации образовательного процесса. Изучается как передовой опыт, т.е. опыт лучших учителей, так и опыт рядовых педагогов...

Методология научных исследований в педагогике

Третью классификацию методов мы рассмотрим более подробно. Традиционно-педагогические методы. Традиционными называются методы, доставшиеся современной педагогике по наследству от исследователей, стоявших у истоков педагогической науки...

Методы обучения и их выбор

Проверка и оценка знаний, умений и навыков учащихся является важным структурным компонентом процесса обучения и в соответствии с принципами систематичности...

Организация контроля и учета знаний, умений и навыков

Обсуждая оценку знаний по экономике, стоит хорошенько задуматься над вопросом - что именно учителя пытаются оценить? В прошлом в тестах и экзаменах делался неоправданно большой акцент на изучении и воспроизведении фактов. В последние годы...

Методы оценки основных характеристик теста состоят из двух частей: A. Вычисление некоторой величины или характеристики; B. Интерпретация полученного результата, в соответствии с нормой. Норма определяется согласно специфике теста...

Особенности статистической оценки качества теста диагностики индивидуального прогресса учащихся общеобразовательной школы

Напомним, что валидность в теории тестирования означает соответствие формы и содержания теста тому, что он должен оценивать или измерять по замыслу его создателей . Из анализа литературы мы выделили два метода оценки валидности...

Особенности статистической оценки качества теста диагностики индивидуального прогресса учащихся общеобразовательной школы

Как уже говорилось выше, надежность теста характеризует степень устойчивости результатов тестирования каждого испытуемого. Методы оценки надежности заключаются в вычислении коэффициента надежности разными способами...

Оценка эффективности деятельности государственного бюджетного образовательного учреждения среднего профессионального образования

Теоретические основы оценки качества образовательных услуг с участием потребителей» посвящена разработке и теоретическому обоснованию модели оценки качества образовательных услуг...

Пейзажная живопись как средство развития творческих способностей

Очень часто, когда мы пытаемся объяснить, почему люди, оказавшиеся в одинаковых или, почти одинаковых условиях, достигают разных успехов, мы обращаемся к понятию способности, полагая, что разницу в успехах людей можно объяснить именно этим...

Проблемы в повышении эффективности качества образования выпускников

В условиях модернизации системы профессионального образования...

Усвоение знаний в школе

В самом общем виде способности - это индивидуально-психологические особенности личности, обеспечивающие успех в деятельности, в общении и легкость овладения ими. Способности не могут быть сведены к знаниям, умениям и навыкам...

Физиолого-педагогические особенности развития учащихся в подростковом возрасте

Формирование двигательной активности детей старшего дошкольного возраста

Анализ литературы и опыт работы с детьми показывают, что для оценивания различных сторон физической подготовки дошкольников, используются контрольные испытания (тесты)...

ТЕСТИРОВАНИЕ (от англ. test – опыт, проба) – метод психологической диагностики, использующий стандартизированные вопросы и задачи (тесты), имеющие определенную шкалу значений. Применяется для стандартизированного измерения индивидуальных различий.

Существуют три основные сферы тестирования:

а) образование – в связи с увеличением продолжительности обучения и усложнением учебных программ;

Б) профессиональная подготовка и отбор – в связи с увеличением темпа роста и усложнением производства;

в) психологическое консультирование – в связи с ускорением социодинамических процессов. Тестирование позволяет с известной вероятностью определить актуальный уровень развития у индивида необходимых навыков, знаний, личностных характеристик и т. д.

Процесс тестирования может быть разделен на три этапа:

1) выбор теста (определяется целью тестирования и степенью достоверности и надежности теста);

2) проведение теста (определяется инструкцией к тесту);

3) интерпретация результатов (определяется системой теоретических допущений относительно предмета тестирования).

На всех трех этапах необходимо участие квалифицированного психолога (педагога). Процедура обработки тестовых результатов при большом количестве испытуемых отнимает много времени и сил. Компьютерные программы тестирования позволяют за считанные секунды увидеть характеристики выборки, для большей наглядности представленные на графиках и в таблицах, создают атмосферу независимости, устраняя межличностные отношения – преподаватель-студент. Это экономит время, деньги и силы педагога-психолога. Современные компьютерные программы дают возможность быстрой и качественной обработки полученных данных.

Анализ и оценка тестовых заданий начинается после апробации теста на целевой группе. Полученные данные сводятся в таблицу с матричной структурой, в которой задания начинают сортироваться по следующим критериям:

1) мера трудности задания;

2) дифференцирующая способность задания;

3) первичный анализ результатов тестирования

Мера трудности задания

Мера трудности задания дает информацию о степени задействования того параметра изучаемого свойства, которое оно призвано измерять и определяет соответствие задания целевой группе теста.

Трудное задание или легкое, определяют путем подсчета доли неправильных ответов к каждому из них. Трудность задания можно определить и умозрительно, на основе предполагаемого числа и характера тех элементов, которые участвуют в выполнении.

Дифференцирующая способность

Дифференцирующая способность – это насколько задание может отличить сильного испытуемого от слабого по уровню знаний. Если по одному из заданий у всех испытуемых имеется одинаковое значение – это задание нецелесообразно включать в тест. Дифференцирующая способность эмпирически определяется через вариацию данных.

Вариация – это степень разнообразия данных, полученных при выполнении задания. Она отражает дифференцирующую способность. Если дифференцирующая способность высокая, мы говорим о вариативных данных, и наоборот. При невариативных данных задание удаляют из теста. Определяется вариация путем вычисления дисперсии. Дисперсия вычисляет сумму квадратных отклонений значений баллов от среднего арифметического балла, т.е. рассчитывается среднее арифметическое по выборке, и все полученные значения баллов начинают с ним сравниваться. Так можно получить информацию о вариации тестового задания. Общепринятой мерой вариации тестовых баллов задания является стандартное отклонение, которое определяется путем вычисления квадратного корня из дисперсии.

Первичный анализ результатов тестирования

После того, как тест стандартизован, апробирован, одобрен экспертной комиссией, можно получить необходимую информацию о способности человека. Для этого после проведения тестирования проводят первичный анализ результатов, лучше использовать результаты группового тестирования.

Полученные данные сначала необходимо свести к среднему значению. Оно более наглядно показывает групповой результат. Однако среднее значение мало информативно в отношении характеристики распределения значений баллов, частоты встречаемости каждого значения. Мода (Мо) – показатель наиболее часто встречающегося значения балла. Мод может быть несколько – наибольшее количество раз могли встретиться несколько значений. Далее выборку делят пополам, а значения баллов пограничного испытуемого принимаются за медиану (Ме).

График результатов теста обычно принимает форму колокола ("колокол Гаусса"), отвечая закону о нормальном распределении, где крайние значения показывают редко встречающиеся баллы, а при приближении к середине кривой частота встречаемости баллов увеличивается. Моды, медиана и среднее арифметическое значение также откладываются на графике. В некоторых случаях они могут совпадать – тогда распределение данных называют симметричным. Чем больше расстояние между модой, медианой и средним значением, тем больше результаты теста отклоняются от нормального распределения.

Методы диагностики способностей

Диагностика способностей должна осуществляться высококвалифицированным специалистом. Для выявления способностей психолог проводит комплексную консультацию, которая включает в себя проведение тестирования, рассмотрение и интерпретацию полученных результатов, а также создание индивидуальной схемы развития, которая зависит от наличия тех или иных способностей.

К наиболее распространенным методам диагностики способностей можно отнести : батарея тестов дифференциальных способностей (ДАТ) и батарея тестов общих способностей (ГАТБ). ДАТ – 8 субтестов (особенности развития словесного мышления, числовых способностей, абстрактного мышления, технического мышления и др.). ГАТБ - 12 субтестов, измеряющих уровень развития 9 способностей.

Кроме того специалисты используют специальные тесты, позволяющие установить особенности, а также уровень развития интеллекта. В некоторых случаях, психологи дополняют свои консультации иными диагностическими методиками.

Целью выявления способностей является их дальнейшее развитие, которое представляет собой процесс, включающий в себя развитие операционных механизмов, функциональной системы, оперативности в системе операционных и функциональных механизмов и прочее.

Комплексные батареи способностей - измеряют ряд способностей и дают профиль, образуемый показателями каждой способности. Тесты способностей делятся на:

Общие (интеллектуальные - применяются тесты интеллекта).

Специальные (применяются специальные тесты).

Различают тесты математических, технических, музыкальны художественных и других способностей. В зарубежной тесто ЮГИИ принято классифицировать тесты этого типа по двум основаниям:

а) по видам психических функций - сенсорные, моторные тесты;

б) по видам деятельности - технические и профессионализированные тесты, т. е. соответствующие той или иной профессии (конторские, артистические и т. д.).

Моторные тесты направлены на изучение точности и скорости движений, зрительно-моторной координации, ловкости движений пальцев и рук, тремора, точности мышечного усилия и др. Наиболее известны тест скорости манипулирования с мелкими предметами Крауфорда и др. В отечественной психологии известны тесты, разработанные М. И. Гуревичем и Н. И. Озе-рецким. Для проверки психомоторики испытуемым в быстром темпе предлагалось завязывать узлы, нанизывать бусы.

Сенсорные тесты разрабатываются для изучения разных характеристик восприятия. Например, острота зрения и слуха, различительная чувствительность, цветоразличение, дифференциация высоты, тембра, громкости звуков и др. В изучении слуха, наряду с отдельными пробами, большую популярность приобрел тест музыкальной одаренности Сишора, технический – Беннета.

Однако существуют и более общие методы изучения способностей - специальные тестовые батареи .

Наиболее известными являются батарея тестов дифференциальных способностей (ДАТ) и батарея тестов общих способностей (ГАТБ).

Диагностика общих умственных способностей осуществляется с помощью трех субтестов: «запас слов», «математическое мышление» и «пространственное восприятие в трехмерном пространстве»;

вербальные способности диагностируются с помощью заданий на определение синонимов и антонимов (словарный запас); числовые способности изучаются с помощью двух субтестов на вычисления и математическое мышление; пространственное восприятие анализируется с помощью геометрических разверток; восприятие формы представлено двумя субтестами, в которых испытуемый сопоставляет различные инструменты и геометрические формы; задания на скорость восприятия, требующуюся для клерка, представлены парами слов, идентичность которых необходимо установить; моторная координация проверяется заданием - сделать пометки карандашом в серии квадратов; ловкость рук (пальцевая моторика) изучается с помощью специального приспособления (4 субтеста).

Для диагностики некоторых видов творческих способностей разрабатываются стандартизованные тесты. Так, тесты художественных способностей включают задания:

1) на понимание произведений искусства (диагностируют одно из важнейших качеств, требуемых для творчества - эстетическое отношение к жизни). Например, в тестах на понимание произведений искусства испытуемому необходимо выбрать из двух или более вариантов изображения какого-либо объекта наиболее предпочтительный;

2) на продуктивность (т. е. технику, мастерство исполнения) деятельности.

Тесты на интеллект предназначены для изучения уровня интеллектуального, умственного развития человека. Под интеллектом в данном случае подразумеваются познавательные процессы и функции (мышление, память, внимание). Тесты интеллекта являются исторически ранними методиками психодиагностики. В качестве основного и достаточно стабильного показателя умственного развития используется понятие «коэффициент интеллектуальности» (IQ). Среди наиболее известных тестов интеллекта, использующихся отечественными психологами, можно назвать тесты Д.Векслера, Р.Амтхауера, Дж.Равена, Стенфорд-Бине.

Тестология - междисциплинарная наука о создании качественных и научно обоснованных измерительных диагностических методик. В психологии содержание тестологии во многом совпадает с содержанием дифференциальной психометрики. Но принципы и методы тестологии выходят за рамки психологии. Они широко применяются в других отраслях науки и практики - в педагогике, медицине, технике, менеджменте (профессиональный отбор). В каждой из этих отраслей методы тестологии имеют общие черты, связанные с обеспечением таких свойств тестовых методик, как валидность, надежность, эффективность и т. п. Но есть и определенная специфика, связанная со спецификой предмета тестирования (профессиональные и общеобразовательные знания, комплекс медицинских симптомов и т.п.) и условий сбора эмпирической информации. Так как метод тестов не исчерпывает собой все многообразие методов современной психодиагностики, неправильно отождествлять тестологию с психодиагностикой.

Современная тестология представляет собой вполне зрелую прикладную науку, которая ставит перед исследователями широкий спектр теоретических проблем, предлагает многочисленные математические подходы, модели и методы. Широкому распространению, развитию и совершенствованию тестов способствовал целый ряд преимуществ, которые дает этот метод. Тесты позволяют дать оценку испытуемому в соответствии с поставленной целью исследования; являются относительно оперативным способом оценки большого числа неизвестных лиц; способствуют объективности оценок, не зависящих от субъективных установок лица, проводившего исследование. Обеспечивают сопоставимость информации, полученной разными исследователями на разных испытуемых

Анализ и оценка тестовых заданий начинается после апробации теста на целевой группе. Полученные данные сводятся в таблицу с матричной структурой, в которой задания начинают сортироваться по следующим критериям.

Мера трудности задания

Мера трудности задания дает информацию о степени задействования того параметра изучаемого свойства, которое оно призвано измерять. Иногда говорят, что мера трудности определяет соответствие задания целевой группе теста. В целом, можно сказать, что данный критерий позволяет судить и об этом.

Трудное задание или легкое, определяют путем подсчета доли неправильных ответов к каждому из них. Однако сегодня применяется и не совсем классический способ определения трудности задания - умозрительно, на основе предполагаемого числа и характера тех элементов, которые участвуют в выполнении задания (и входят в параметр измеряемого свойства). Допустим, в тесте на объем памяти присутствует задание, связанное с произвольным запоминанием, в котором могут участвовать речь (проговаривание списка цифр вслух или "про себя"), мышление (построение ассоциативных связей) и т.п. В этом случае задание на запоминание числового ряда с отвлеканием испытуемого может повысить трудность его выполнения.

Дифференцирующая способность

Дифференцирующая способность задания - насколько оно может отличить сильного испытуемого от слабого по измеряемому свойству. Если по одному из заданий у всех испытуемых имеется одинаковое значение - это задание нецелесообразно включать в тест. Очень сложно не сделать ошибку и не принять дифференцирующую способность задания за его трудность / легкость. Дело в том, что в тестах, измеряющих качество выполняемой деятельности, знаний и т.п., тестах достижений, ряд одинаковых ответов на задание будет означать два варианта: правильно / неправильно. Соответственно, по этому ряду можно сделать неверный вывод о трудности (в случае всех неправильных ответов) или легкости (в случае всех правильных ответов) задания.

Необходимо заметить, что данным критерием часто пренебрегают составители современных тестов. Это приносит большие неудобства и испытуемым, которым приходится отвечать на лишние вопросы, и психологам, которые вынуждены обрабатывать лишнюю информацию.

Дифференцирующая способность эмпирически определяется через вариацию данных.

Вариация и дисперсия

Вариация - буквально, степень разнообразия данных, полученных при выполнении задания. Она отражает дифференцирующую способность. Если дифференцирующая способность высокая, мы говорим о вариативных данных, и наоборот. При невариативных данных задание удаляют из теста. Определяется вариация путем вычисления дисперсии. Дисперсия вычисляет сумму квадратных отклонений значений баллов от среднего арифметического балла. Проще говоря, рассчитывается среднее арифметическое по выборке, и все полученные значения баллов начинают с ним сравниваться. Таким образом, мы получаем информацию о вариации тестового задания. Общепринятой мерой вариации тестовых баллов задания является стандартное отклонение, которое определяется путем вычисления квадратного корня из дисперсии.

Иногда вариацией называют наблюдаемую переменную величину. Дело в том, что то свойство, на измерение которого направлен тест, принимается за латентную (ненаблюдаемую) переменную. А с помощью теста определяется наблюдаемая переменная, которая выявляет лишь приближенные значения ненаблюдаемых истинных баллов испытуемого.

Первичный анализ результатов тестирования

Итак, тест стандартизован, апробирован, одобрен экспертной комиссией. Теперь с помощью него можно получать необходимую информацию о психологическом свойстве или способности человека. Для этого после проведения тестирования проводят первичный анализ результатов. Обычно о нем говорят в случае группового тестирования.

Полученные данные сначала необходимо свести к среднему значению. Оно более наглядно показывает групповой результат. Однако среднее значение мало информативно в отношении характеристики распределения значений баллов, частоты встречаемости каждого значения. Мода (Мо) - показатель наиболее часто встречающегося значения балла. Мод может быть несколько - наибольшее количество раз могли встретиться несколько значений. Далее выборку делят пополам, а значения баллов пограничного испытуемого принимаются за медиану (Ме).

График результатов теста обычно принимает форму колокола ("колокол Гаусса"), отвечая закону о нормальном распределении, где крайние значения показывают редко встречающиеся баллы, а при приближении к середине кривой частота встречаемости баллов увеличивается. Моды, медиана и среднее арифметическое значение также откладываются на графике. В некоторых случаях они могут совпадать - тогда распределение данных называют симметричным. Чем больше расстояние между модой, медианой и средним значением, тем больше результаты теста отклоняются от нормального распределения.

Преимущества компьютерных программ тестирования

Вышеописанная процедура обработки тестовых результатов при большом количестве испытуемых отнимает много времени и сил. Компьютерные программы тестирования позволяют за считанные секунды увидеть вышеназванные характеристики выборки, для большей наглядности представленные на графиках и в таблицах. Это экономит время, деньги и силы психолога, который, сразу получив результаты первичного анализа, может приступать к разработке рекомендаций или проверке научных гипотез.