Краткие теоретические и учебно-методические материалы 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Краткие теоретические и учебно-методические материалы



По теме лабораторной работы

Наиболее общая теория конструирования тестов, опирающаяся на теорию измерения, – Item Response Theory (IRT). Она основывается на теории латентно-структурного анализа (ЛСА), созданной П. Лазарсфельдом и его последователями.

Латентно-структурный анализ создан для измерения латентных (в том числе психических) свойств личности. Он является одним из вариантов многомерного анализа данных, к которым принадлежат факторный анализ в его различных модификациях, многомерное шкалирование, кластерный анализ и др.

Теория измерения латентных черт предполагает, что:

1. Существует одномерный континуум свойства – латентной переменной (х); на этом континууме происходит вероятностное распределение индивидов с определенной плотностью f (х).

2. Существует вероятностная зависимость ответа испытуемого на задачу (пункт теста) от уровня его психического свойства, которая называется характеристикой кривой пункта. Если ответ имеет две градации (“да – нет”, “верно – неверно”), то эта функция есть вероятность ответа, зависящая от места, занимаемого индивидом на континууме (х).

3. Ответы испытуемого не зависят друг от друга, а связаны только через латентную черту. Вероятность того, что, выполняя тест, испытуемый даст определенную последовательность ответов, равна произведению вероятностей ответов на отдельные задания.

Конкретные модели ЛСА, применяемые, дополнительных для анализа эмпирических данных, основаны на дополнительных допущениях о плотности распределения индивидов на латентном континууме или о форме функциональной связи уровня выраженности свойства у испытуемого и ответа на пункт теста.

В модели латентного класса функция плотности распределения индивидов является точечно-дискретной: все индивиды относятся к разным непересекающимся классам. Измерение производится при помощи номинальной шкалы.

В модели латентной дистанции постулируется, что вероятность ответа индивида на пункт текста является мультипликативной функцией от параметров задачи и величины свойства:

 

где Рi (х)– вероятность ответа “да” на i-й пункт, ai – “дифференцирующая сила” задания, х – величина свойства, bi – “трудность” задания.

Вероятность ответа на пункт теста описывается функцией, изображенной на графике.

Модель нормальной огивы есть обобщение модели латентной дистанции. В ней вероятность ответа на задание такова:

где Li(x)– плотность нормального распределения.

В логистической модели вероятность ответа на задание описывается следующей зависимостью:

где – логистическая функция распределения.

Логистическая модель используется наиболее широко, так как она специально предназначена для тестов, где свойство измеряется суммированием баллов, полученных за выполнение каждого задания с учетом их весов.

Логистическая функция и функция нормального распределения тесно связаны:

(здесь Ф (х)– кумулятивнаяфункция нормального распределения).

Развитием ЛСА являются различные модификации Item Response Theory. В IRT распределения переменных на оси латентного свойства непрерывны, т. е. модель латентного класса не используется.

База для IRT – это модель латентной дистанции. Предполагается, что и индивидов, и задания можно расположить на одной оси “способность – трудность” или “интенсивность свойства – сила пункта”. Каждому испытуемому ставится в соответствие только одно значение латентного параметра (“способности”).

В общем виде вероятность ответа зависит от множества свойств испытуемого, но в моделях IRT рассматривается лишь одномерный случай.

Главное отличие IRT от классической теории теста в том, что в ней не ставятся и не решаются фундаментальные проблемы эмпирической валидности и надежности теста: задача априорно соотносится лишь с одним свойством, т. е. тест заранее считается валидным. Вся процедура сводится к получению оценок параметров трудности задания и к измерению “способностей” испытуемых (образованию “характеристических кривых”).

В классической теории теста индивидуальный балл (уровень свойства) считается некоторым постоянным значением. В IRT латентный параметр трактуется как непрерывная переменная.

Первичной моделью в IRT стала модель латентной дистанции, предложенная Г. Рашем: [Rasch G., 1980]: разность уровня способности и трудности теста xi– bi, где xi– положение i-го испытуемого на шкале, а bi– положение j-го задания на той же шкале. Расстояние (xi –bi) характеризует отставание способности испытуемого от уровня сложности задания. Если разница велика и отрицательна, то задание не может быть выполнено, так как для данного испытуемого оно слишком сложно. Если же разница велика и положительна, то задание также не информативно, ибо испытуемый заведомо легко и правильно его решит.

Вероятность правильного решениязадания (или ответа “да”) i-м испытуемым:

Вероятность выполнения j-го задания группой испытуемых:

В IRT функции х и f (b)называются функциями выбора пункта. Соответственно первая является характеристической функцией испытуемого, а вторая – характеристической функцией задания.

Считается, что латентные переменные х и b нормально распределены, поэтому для характеристически функций выбирают либо логистическую функцию, либо интегральную функцию нормированного нормального распределения (как мы уже отметили выше, они мало отличаются друг от друга).

Поскольку логистическую функцию проще аналитически задавать, ее используют чаще, чем функцию нормального распределения.

Кроме “свойства” и “силы пункта” (она же – трудность задания) в аналитическую модель IRT могут включаться и другие переменные. Все варианты IRТ классифицируются по числу используемых в них переменных.

Наиболее известны однопараметрическая модель Г. Раша, двухпараметрическая модель А. Бирнбаума и его же трехпараметрическая модель.

В однопараметрической модели Раша предполагается, что ответ испытуемого обусловлен только индивидуальной величиной измеряемого свойства (qi) и “силой” тестового задания (bi). Следовательно, для верного ответа (“да”)

и для неверного ответа (“нет”)

В точке на шкале, где “трудность” равна “индивидуальной способности испытуемого”, происходит перегиб функции. С ростом “способности” (развитием психологического свойства) кривая сдвигается вправо.

Главной задачей IRT является шкалирование пунктов теста и испытуемых.

Упростим исходную формулу модели, введя параметр :

 

Шанс на успех i-го испытуемого при решении j-го задания определяется отношением:

Если сравнить шансы двух испытуемых решить одно и то же j-е задание, то это отношение будет следующим:

Следовательно, разница в успешности задания испытуемыми не зависит от сложности задания и определяется лишь уровнем способности.

Нетрудно заметить, что в модели Раша отношение трудности заданий не зависит от способности испытуемых. Для того чтобы убедиться в этом, достаточно проделать аналогичные простейшие преобразования, сравнивая вероятности ответов группы на два пункта теста, а не вероятности ответов разных испытуемых.

где Рik– вероятность ответа на k-e задание для i-го испытуемого, , и для неправильного ответа

Следовательно,

Для сравнения шансов на успех i-гoиспытуемого решить задания k и nберем отношение:

Тем самым отношение шансов испытуемого решить два разных задания определяется лишь трудностью этих заданий.

Обратим внимание, что шкала Раша (в теории) является шкалой отношений.

Теперь у нас есть возможность ввести единицу измерения способности (в общем виде – свойства). Если взять натуральный логарифм от или , то получается единица измерения “логит” (термин ввел Г. Раш), которая позволяет измерить и “силу пункта” (трудность задания), и величину свойства (способность испытуемого) в одной шкале.

Эмпирически эта процедура производится следующим образом. Предполагается, что данные тестирования и значения латентных переменных характеризуются нормальным распределением. Уровень “способности” испытуемого в “логитах” определяется на шкале интервалов с помощью формулы:

где n– число испытуемых, pi– доля правильных ответов i-го испытуемого на задания теста, qi– доля неправильных ответов,

 

Для первичного определения трудности задания в логитах используют оценку

где n– число заданий, рi– доля правильных ответов для испытуемых группы на j-е задание, qi–доля неправильных ответов,

Хотя параметры bиq и в изменяются от “плюса” до “минуса”, то при b <– 6значения ptблизки к единице, т. е. на эти задания практически каждый испытуемый дает правильный (“ключевой”) ответ. При b > 6 с заданием не сможет справиться ни один испытуемый, точнее – вероятность дать “ключевой” ответ ничтожна.

Рекомендуется рассматривать лишь интервалы от -3 до +3 как для b (трудности), так и для q(способность).

Второй этап шкалирования испытуемых и заданий сводится к тому, что шкалы преобразуются в единую шкалу путем “уничтожения” влияния трудности задания на результат индивидов. И к тому же элиминируется влияние индивидуальных способностей на решение заданий различной трудности.

Для шкалы испытуемых:

где

b– среднее значение логитов трудности заданий теста, W – стандартное отклонение распределения начальных значений параметра b, n– число испытуемых.

Для шкалы заданий:

где

– среднее значение логитов уровней способностей, V– стандартное отклонение распределения начальных значений “способности”, n– число заданий в тесте.

Эти эмпирические оценки используются в качестве окончательных характеристик измеряемого свойства и самого измерительного инструмента (заданий теста).

Если перед исследователем стоит задача конструирования теста, то он приступает к получению характеристических кривых заданий теста. Характеристические кривые могут накладываться одна на другую. В этом случае избыточные задания выбраковываются. На определенных участках оси в (“способность”) характеристические кривые заданий могут вовсе отсутствовать. Тогда разработчик теста должен добавить задания недостающей трудности, чтобы равномерно заполнить ими весь интервал шкалы логитов от -6 до +6. Заданий средней трудности должно быть больше, чем на “краях” распределения, чтобы тест обладал необходимой дифференцирующей (различающей) силой.

Вся процедура эмпирической проверки теста повторяется несколько раз, пока разработчик не останется доволен результатом работы. Естественно, чем больше заданий, различающихся по уровню трудности, предложил разработчик для первичного варианта теста, тем меньше итераций он будет проводить.

Главным недостатком модели Раша теоретики считают пренебрежение “крутизной” характеристических кривых: “крутизна” их полагается одинаковой.

Задания с более “крутыми” характеристическими кривыми позволяют лучше “различать” испытуемых (особенно в среднем диапазоне шкалы способностей), чем задания с более “пологими” кривыми.

Параметр, определяющий “крутизну” характеристических кривых заданий, называют дифференцирующей силой задания. Он используется в двухпараметрической модели Бирнбаума.

Модель Бирнбаума аналитически описывается формулой

Параметр а определяет “крутизну” кривой в точке ее перегиба; его значение прямо пропорционально тангенсу угла наклона касательной к характеристической кривой задания теста в точке q = bi.

Интервал изменения параметра Если значения aблизки к 0 (для заданий разной трудности), то испытуемые, различающиеся по уровню выраженности свойства, равновероятно дают “ключевой” ответ на это задание теста. При выполнении такого задания у испытуемых не обнаруживается различий.

Парадоксальный вариант получаем при a < 0. В этом случае более способные испытуемые отвечают правильно с меньшей вероятностью, а менее способные – с большей вероятностью. Опытные психодиагносты знают, что такие случаи встречаются в практике тестирования очень часто.

Ф. М. Лорд и М. Новик в своей классической работе [Lord F. M.,NovikM., 1968] приводят формулы оценки параметра a. При aj= 1 задание соответствует однопара-метрической модели Раша. Практики рекомендуют использовать задания, характеризующие значение aв интервале от 0,5 до 3.

Все психологические тесты можно разделить в зависимости от формального типа ответов испытуемого на “открытые” и “закрытые”. В тестах с “открытым” ответом, к которым относятся тест WAIS Д. Векслера или методика дополнения предложений, испытуемый сам порождает ответ. Тесты с “закрытыми” заданиями содержат варианты ответов. Испытуемый может выбрать один или несколько вариантов из предлагаемого множества. В тестах способностей (тест Дж. Равена, GABT и др.) предусмотрено несколько вариантов неправильного решения и один правильный. Испытуемый может применить стратегию угадывания. Вероятность угадывания ответа:

где n– число вариантов.

Результаты эмпирических исследований показали, что относительная частота решения “закрытых” заданий отклоняется от теоретически предсказанных вероятностей двухпараметрической модели Бирнбаума. Чем ниже уровень способностей испытуемого (низкие значения параметра в), тем чаще он прибегает к стратегии угадывания. Аналогично, чем труднее задание, тем больше вероятность того, что испытуемый будет пытаться угадать правильный ответ, а не решать задачу.

Бирнбаум предложил трехпараметрическую модель, которая позволила бы учесть влияние угадывания на результат выполнения теста.

Трехпараметрическая модель Бирнбаума выглядит так:

Соответственно оценка “силы” пункта (трудности задания) в логистической форме модели

 

Cj характеризует вероятность правильного ответа на задание j в том случае, если испытуемый угадывал ответ, а не решал задание, т. е. при q® 0. Для заданий с пятью вариантами ответов С становится более пологой, так как 0 < С < 1, но при всех С = 0 кривая поднимается над осью qна величину Сj. Тем самым даже самый неспособный испытуемый не может показать нулевой результат. Дифференцирующая сила тестового задания при введении параметра Сj снижается. Из этого следует нетривиальный вывод: тесты с “закрытыми” заданиями (вынужденным выбором ответа) хуже дифференцируют испытуемых по уровням свойства, чем тесты с “открытыми” заданиями.

Модель Бирнбаума не объясняет парадоксального, но встречающегося в практике тестирования феномена: испытуемый может реже выбирать правильный ответ, чем неправильный. Таким образом, частота решения некоторых заданий может не соответствовать предсказаниями модели Рj < Сj, тогда как, согласно модели Бирнбаума, в пределе Рj= Сj.

Рассмотрим еще одну модель, которую предложил В. С. Аванесов. Как мы уже заметили, в IRT не решается проблема валидности: успешность решения задачи зависит в моделях IRT только от одного свойства. Иначе говоря, каждое задание теста считается априорно валидным.

Аванесов обратил внимание на это обстоятельство и ввел дополнительный, четвертый, параметр, который можно обозначить как внутреннюю валидность задания. Успешность решения задания определяется не только “основной” способностью (q), но и множеством условий, нерелевантных заданию, однако влияющих на деятельность испытуемого.

Четырехпараметрическая модель представляет, по мнению ряда исследователей, лишь теоретический интерес:

где gj– валидность тестового задания.

Если gj > 1, то тест не является абсолютно валидным. Следовательно, вероятность решения задания не только определяется теоретически выделенным свойством, но и зависит от других психических особенностей личности.

Бирнбаум считает, что количество информации, обеспеченное j-м заданием теста, при оценивании qjявляется величиной, обратно пропорциональной стандартной ошибке измерения данного значения qj j-м заданием. Более подробно вычисление информационной функции рассмотрено в работе М. Б. Челышковой [ЧелышковаМ. Б., 1995].

Главный же недостаток IRT – игнорирование проблемы валидности. В психологической практике не наблюдается случаев, когда ответы на задания теста были бы обусловлены лишь одним фактором. Даже при тестировании общего интеллекта модели IRT неприменимы.

Клайн рекомендует использовать модели IRT для коротких тестов с валидными заданиями (факторно простые тесты).

где т – число альтернатив.

Сложность тестового задания

где n– число испытуемых, способных решить задание, N – общее количество испытуемых в выборке валидизации.

При W < Р невозможно определить, решена задача случайно или закономерно. Предполагается, что биноминальное распределение вероятности успешного выполнения тестового задания при больших N аппроксимируется нормальным.

Должны выполняться следующие условия:

1. Правильный ответ выбирается неслучайно, если:

– его экспериментально полученная частота больше 1 /т;

– это превышение статистически значимо;

– оценивать его можно с помощью t-критерия Стьюдента.

2. Все ложные варианты ответов должны выбираться не чаще, чем случайные:

где nj– частота выбора неверного ответа.

Тем самым тестовое задание стимулирует испытуемого к выбору правильного ответа.

3. В тестах “уровня” диапазон изменения показателя сложности 0 < W < 1 должен быть уменьшен “слева” на величину W, значимо отличающуюся от W, в которой t = tкр (t – критерий Стьюдента). Чем больше вариантов ответов в тесте, тем меньше W и шире область допустимых значений показателя сложности тестового задания. Например, для N= 100, a= 0,05 (tкр = 1,90) и 10 > т > 3 расчет показывает, что уже при т > 6 скорость расширения области значений показателя сложности значимо замедляется. Поэтому рекомендуется выбирать 6–10 вариантов ответа.

В тесте “уровня” число градаций сложности и число заданий связано. Чем точнее оценка свойства, тем больше число градаций. Но это влечет снижение достоверности измерения, так как длина теста (число заданий) ограничена. Уменьшение числа градаций приведет к нивелированию различий между испытуемыми.


Пример:
Пример простой программы, для тестирования по структурным критериям

public void Method (ref int x)

{

   if (x>17)

       x = 17-x;

   if (x==-13)

       x = 0;

}

void Method (int *x)

{

   if (*x>17)

       *x = 17-*x;  if (*x==-13)

      *x = 0;

}

 

Тестовый набор из одного теста, удовлетворяет критерию команд (C0):

(X,Y)={(xвх=30, xвых=0)} покрывает все операторы трассы 1-2-3-4-5-6

Тестовый набор из двух тестов, удовлетворяет критерию ветвей (C1):

(X,Y)={(30,0), (17,17)} добавляет 1 тест к множеству тестов для С0 и трассу 1-2-4-6. Трасса 1-2-3-4-5-6 проходит через все ветви достижимые в операторах if при условии true, а трасса 1-2-4-6 через все ветви, достижимые в операторах if при условии false.

Тестовый набор из четырех тестов, удовлетворяет критерию путей (C2):

(X,Y)={(30,0), (17,17), (-13,0), (21,-4)}

Набор условий для двух операторов if c метками 2 и 4 приведен в таблица.1

Таблица 1. Условия операторов if

  (30,0) (17,17) (-13,0) (21,-4)
2 if (x>17) > >
4 if (x==-13) =
           

Задания для лабораторной работы:

Решить и отладить следующую задачу. Отладку выполнить каждым из указанных способом.

Варианты заданий:

Реализовать в виде модуля набор подпрограмм для выполнения следующих операций над обыкновенными дробями вида , где Р - целое, Q – натуральное:

сложения;

вычитания;

умножения;

Используя этот модуль, решить задачу:

Дан массив А – массив обыкновенных дробей. Найти сумму всех дробей, результат представить в виде несократимой дроби. Вычислить среднее арифметическое всех дробей, результат представить в виде несократимой дроби.

Реализовать в виде модуля набор подпрограмм для выполнения следующих операций над одномерными массивами:

заполнение массива;

вывод на экран массива;

добавление элемента в k-ю позицию;

удаление k-го элемента;

Используя этот модуль, решить следующую задачу:

В одномерном массиве все отрицательные элементы переместить в начало массива, а остальные – в конец с сохранением порядка следования.

Реализовать в виде модуля набор подпрограмм для выполнения следующих операций над двумерными массивами:

заполнение массива;

вывод на экран массива;

добавление элемента в k-ю позицию;

суммирование элементов массива.

Используя этот модуль, решить следующую задачу:

В данной квадратной матрице порядка n найти сумму элементов строки, в которой расположен элемент с наименьшим значением. Предполагается, что такой элемент единственен.

IV. Реализовать в виде модуля набор подпрограмм для выполнения следующих операций над натуральными числами в шестнадцатеричной системе счисления:

1) сложения;

2) умножения;

3) перевода из шестнадцатеричной системы счисления в десятичную;

Используя этот модуль, решить задачу.

Возвести число в степень (основание и показатель степени записаны в шестнадцатеричной системе счисления). Результат выдать в шестнадцатеричной и десятичной системах счисления.

Реализовать в виде модуля набор подпрограмм для выполнения следующих операций над множествами:

заполнение и определение количества элементов в множестве;

объединение множеств;

пересечение множеств;

принадлежность элемента множеству;

Используя этот модуль, решить следующую задачу:

Даны N множеств. Найти их пересечение, объединение.

Реализовать в виде модуля набор подпрограмм для выполнения следующих операций с квадратными матрицами:

сложения двух матриц;

нахождения транспонированной матрицы;

вычисления определителя матрицы.

Матрицу описать следующим образом:

 Const NMax=10;

Type Matrica = Array[1..NMax,1..NMax] of Real;

Используя этот модуль, решить следующую задачу:

Задан массив величин типа Matrica. Отсортировать этот массив в порядке возрастания значений определителей матриц.

Реализовать в виде модуля набор подпрограмм для выполнения следующих операций над числами:

сложения;

вычитания;

умножения;

деления;

Используя этот модуль, решить следующую задачу:

Дан массив чисел А[М]. Получить матрицу В[N], каждая строка которой получается умножением на число, равное номеру этой строки, данного массива.

Реализовать в виде модуля набор подпрограмм для выполнения следующих операций над длинными числами:

1) сложения;

2) вычитания;

3) умножения;

4) нахождения частного и остатка от деления одного числа на другое;

5) функций, реализующих операции отношения (равно, не равно, больше или равно, меньше или равно, больше, меньше).

Длинное число представить следующим типом:

Type Tsifra=0..9; Chislo=Array[l..1000] Of Tsifra;

Используя этот модуль, решить задачу.

Возвести число в степень (основание и показатель степени — длинные числа).

 

Контрольные вопросы

  1. Что такое стохастическое тестирование?
  2. Что такое IRT?
  3. Что является недостатками IRT?
  4. За что отвечают латентные переменные?

Лабораторная работа №26-27

 

«Применение тестирования разбиений на уровне классов»

Цель работы: получение навыков при тестировании разбиений на уровне классов

Образовательные результаты, заявленные во ФГОС третьего поколения:

Студент должен

уметь:

- владеть основными методологиями процессов разработки программного обеспечения;

- использовать методы для получения кода с заданной функциональностью и степенью качества;

- тестировать программное обеспечение с использованием различных принципов.

 

знать:

-модели процесса разработки программного обеспечения;

-основные принципы процесса разработки программного обеспечения;

-основные подходы к интегрированию программных модулей;

-основные методы и средства эффективной разработки;



Поделиться:


Последнее изменение этой страницы: 2021-12-07; просмотров: 42; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.221.165.246 (0.117 с.)