Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Общепедагогические основы использования методов

Поиск

Тестирования в школе

 

Тестом — по прямому значению английского слова test — мож­но называть любую пробу, любое испытание. В таком широком понимании термин «тест» применяется в технике, биологии, ме­дицине и химии. В психолого-педагогических исследованиях тес­том обычно называют нормированные по времени выполнения и по трудности наборы заданий, используемые для сравнительного изучения групповых и индивидуальных особенностей.

Широкое распространение тесты нашли в прикладной психо­логии. Именно в этой области были разработаны методические критерии по конструированию, применению, проверке и обра­ботке тестов. Эти критерии с некоторыми уточнениями должны признаваться обязательными и для тестов педагогических. С помо­щью последних сравниваются знания отдельных учеников и клас­сов. Тест выступает в качестве измерительного инструмента; по­этому он должен удовлетворять строгим и ясным методическим требованиям. Случайно подобранный набор заданий тестом на­звать нельзя.

Поскольку при тестировании производится сравнение учени­ков или групп учеников, нужно пользоваться какими-то едини­цами измерения. Чаще всего результаты выполнения теста срав­ниваются по числу выполненных заданий за установленное время. За единицу измерения в этом случае берется одно задание. Иссле­дователь сравнивает своих испытуемых по числу выполненных за­даний в отведенное время (или за определенную его единицу). Поэтому первостепенное значение приобретает равнотрудность заданий, включенных в тест. Чтобы приблизиться к решению это­го вопроса, приходится производить предварительные неодно­кратные пробы теста в специальных группах и после обработки вносить изменения. Добиться в каждом отдельном случае при ре­шении заданий теста их равнотрудности на практике вряд ли воз­можно — специфика индивидуальной подготовки и психологические особенности испытуемых неизбежно скажутся на процессе выполнения отдельных заданий. Субъективная трудность задания может не совпадать с трудностью, которая ему приписывается исследователем по итогам массового усредненного материала. На это приходится идти. Тем не менее требование равнотрудности в определенном приближении всегда остается как одно из фунда­ментальных.

Тесты не могут рассматриваться как универсальный и всеобъ­емлющий инструмент педагогического контроля в школе, даже в рамках контроля за успеваемостью учащихся. Ибо каждое задание теста и весь тест, поскольку он составлен из однородных заданий, направлены на выявление ограниченного комплекса признаков усвоения и понимания, и чем меньше признаков входит в комп­лекс, тем яснее возможная интерпретация результатов и тем луч­ше тест выполняет свою функцию. Лучше всего, если задание выявляет всего один признак, например знание учеником одного арифметического правила. Задание, направленное на его обнару­жение сразу и без возможностей последующего вычленения груп­пы признаков, затрудняет интерпретацию. Успех или неуспех ис­пытуемого не получает единственной и однозначной оценки, так как может зависеть от разных признаков. Учитель, не имея такой оценки, не сможет прийти к заключению о причинах, обусло­вивших конечный результат, и вряд ли сформулирует четкие ди­дактические выводы.

Этим, конечно, не исключается сознательное объединение в тесте заданий с различной направленностью. Так, в тест по исто­рии могут быть включены задания на знание исторических фак­тов: дат, имен, географических пунктов; и на знание историче­ских закономерностей: причин, вызвавших данное историческое событие, его следствий и исторических законов в абстрактной форме. Учитель, возможно, сочтет удобным включить те и другие задания в один и тот же тест. Задания должны полностью соответ­ствовать своей цели: измерять то, что интересует учителя.

Однако метод тестирования имеет определенные границы при­менения. Есть такие характеристики обученности школьника, ко­торые настолько сложны и многоплановы, что тестовые методи­ки для их выявления не могут быть применены.

Пока еще не найден тестовый эквивалент того, что можно было бы назвать общей подготовленностью или образованностью уче­ника. Многие учителя и методисты придают немаловажное значе­ние этой характеристике. Но тесты обладают возможностью пред­ставлять только отдельные составляющие этого сложного целого.

Приходится считаться и с тем, что характеристики, не имею­щие ясного содержания, вообще не могут стать объектом тести­рования. В частности, неясностью содержания отличается и харак­теристика общего развития образованности. Учитель, конечно, может заранее оговорить, что эта характеристика, согласно его взгляду, состоит из таких-то и таких-то простых и поддающихся измерениям индивидуальных особенностей. В этом случае зада­ча, которую он ставит перед собой, поддается решению. Вопрос только в том, удастся ли ему обосновать свой взгляд на эту ха­рактеристику.

Учителю, использующему данный метод, нужно постоянно иметь в виду органически присущие ему свойства. При массовом применении тестов, а только тогда может быть оправдана боль­шая работа, затраченная на их составление и предварительную проверку, обычная форма заданий предлагает испытуемому в том или другом виде готовые ответы на выбор; ему нужно найти и отметить тот ответ, который он считает правильным. Тест пред­ставляет собой специфическую проверку знаний и умений учени­ка, активность которого выражается, скорее, в узнавании, чем в воспроизведении нужных знаний.

В исследованиях проблем воспитания в основном находят при­менение личностные тесты.

Специфические свойства личностных тестов. Наиболее важным отличительным свойством таких тестов принято считать их на­правленность на выявление поведения, типичного для данного индивида.

Как известно, и тесты успеваемости, и тесты способностей требуют от испытуемого продемонстрировать «максимальное вы­полнение», найти «лучшее решение», как «можно быстрее вы­полнить» задание и т.п., причем тестовые оценки находятся в прямой зависимости от этих показателей. В личностных же тестах такого рода требования обычно не выдвигаются, и внимание ис­пытуемого обращается на то обстоятельство, что в данном тесте нет правильных и неправильных ответов и что главным здесь яв­ляется искреннее, правдивое изложение фактов, точное выпол­нение инструкций и т. п.

Другая существенная особенность личностных тестов состоит в том, что их подлинное назначение, как правило, скрывается от испытуемых. Таковы, в частности, некоторые тесты отношений, методики для измерения внушаемости, правдивости, доброты, склонности к сотрудничеству и т.д.

Одним из специфических показателей, используемых в лич­ностных тестах, является частота обнаружения данного свойства. Каждое отдельное задание теста предоставляет испытуемому одну возможность проявить измеряемое свойство. Если, например, тест состоит из 30 заданий, то таких возможностей оказывается 30. По числу использованных испытуемым возможностей и опреде­ляется степень выраженности у него измеряемого свойства. При этом предполагается, что все задания теста характеризуют оди­наковые возможности. К сожалению, вопрос о том, насколько практически удается добиться такой эквивалентности, анализи­руется редко.

Другим показателем, используемым в личностных тестах, слу­жит диапазон, широта проявления изучаемого личностного свой­ства. Например, в «инвентарии», предназначенном для измерения общительности, испытуемому могут быть предложены вопросы о его поведении в 20 различных ситуациях, каждая из которых, по мнению автора теста, «провоцирует» те или иные проявления дан­ного свойства. Такого рода вопросы могут касаться, в частности, участия в общественных мероприятиях школы, посещения вече­ров, танцев, встреч с одноклассниками во внешкольной обста­новке и т. п.

Может показаться, что данный критерий ничем по существу не отличается от первого из рассмотренных нами. Однако в дей­ствительности между ними имеется существенное различие. В пер­вом случае речь идет о проявлении измеряемого свойства в ситу­ациях, создаваемых при самом тестировании. Во втором же — устанавливаются особенности поведения испытуемого в ситуа­циях, имевших место в его прошлом жизненном опыте. Разумеет­ся, и в данном случае встает вопрос об одинаковой значимости отдельных ситуаций, что, естественно, должно стать предметом специального исследования при разработке того или иного теста.

Еще один показатель, используемый в личностных тестах, — интенсивность проявления данного свойства. Так, например, в некоторых шкалах отношений испытуемый сам определяет и фик­сирует степень выраженности своего отношения к тому или ино­му суждению, выбирая один из следующих пяти альтернативных ответов: полностью согласен, согласен, не имею определенного мне­ния, не согласен и абсолютно не согласен.

Во многих личностных тестах одновременно используются два или даже три различных показателя, что, конечно, в принципе повышает валидность и надежность измерительного инструмента. Однако при этом возникает весьма сложная задача сопоставления отдельных показателей, их совокупной интерпретации, выведе­ния общей оценки и т. п.

«Шкалирование» в личностных тестах. Подавляющее большин­ство применяемых в настоящее время личностных тестов пред­назначается для измерения отдельных личностных свойств или черт. При конструировании и использовании одномерных тестов изме­ряемая черта рассматривается как некоторый непрерывный коли­чественный континуум, который может быть изображен в виде прямой линии, представляющей собой биполярную шкалу. Каж­дый испытуемый в этом случае может быть представлен опреде­ленной точкой на такой шкале.

В качестве примеров биполярных черт можно назвать такие психические свойства личности, как самообладание — нервозность, властвование — подчинение, добротажестокость, альтруизмэгоизм, правдивостьлживость и т.д.

Биполярная шкала имеет два полюса с находящейся между ними нулевой точкой. Нулевая точка в биполярной шкале находится строго посредине между двумя полюсами лишь в том случае, если оба экстремума равны друг другу. Но так бывает не всегда. Напри­мер, максимальная степень влечения, интереса к какому-либо объекту, наблюдаемая среди достаточно представительной выборки людей, может быть намного больше, чем максимальная степень аверсии (отталкивания) по отношению к этому объекту, зарегистрированная в той же выборке. Отсюда следует, что нулевая точка на соответствующей шкале находится ближе к отрицательному полюсу, т. е. к полюсу аверсии.

Связь личностных тестов с другими количественными методами. Было бы ошибкой считать тестами все без исключения количе­ственные методы, применяемые в исследованиях проблем воспи­тания. В частности, нет оснований относить к методу тестов раз­личные виды оценочных классификаций (рейтинга), в том числе и так называемые социометрические методики.

Как известно, сущность метода оценочных классификаций за­ключается в том, что отдельные лица («оценщики», «судьи»), хо- рошо знакомые с данным объектом, оценивают его по опреде­ленным стандартным критериям, шкалам и т.д. Путем соответ­ствующей статистической обработки индивидуальные оценки трансформируются в совокупный количественный показатель, Однако лица, являющиеся объектами оценочных классификаций, не только не подвергаются какому-либо стандартизованному ис­пытанию (что служит необходимым элементом каждого теста), но во многих случаях даже не ставятся в известность о производи­мом оценивании. Представления, исходя из которых оценщики выносят свои суждения, формируются у них на протяжении дли­тельного общения или наблюдений в повседневной жизни.

Следовательно, рейтинг, как таковой, не может быть отнесен к разряду тестов. Однако здесь необходимо сделать две существен­ные оговорки. Первая из них касается тех случаев, когда метод оценочных классификаций входит составной частью в процеду­ру тестирования. Речь идет об очень немногочисленной группе тестов, которые хотя и предусматривают предъявление испытуе­мым стандартных заданий, тем не менее не содержат каких-либо механизмов для объективной регистрации их выполнения. Вмес­то нее используется метод оценочной классификации, осуще­ствляемой на основе наблюдений, проводимых при тестиро­вании.

Вторая оговорка. Любой акт оценивания характеризует не только объект, но при определенных обстоятельствах и сам субъект оценки. Иными словами, быть оценщиком — это в известном смысле значит быть испытуемым. Вопрос в том, кто является подлинным объектом оценивания: если таковым служит сам оценщик, то мы фактически имеем дело с тестом. Если же объектом оценивания выступает не оценщик, а лицо или группа, которые им оценива­ются, то тогда перед нами рейтинг, который сам по себе тестом считаться не может.

Как и все другие методы педагогического контроля, тест имеет определенные достоинства и недостатки. При правильном и уме­лом использовании он может дать педагогу много важной инфор­мации, которую не получить никаким другим способом.

Достоинством теста является то, что все сформулированные в нем задания, будучи предварительно глубоко обдуманы и экспе­риментально проверены, раскрывают в своей совокупности в мак­симально короткие сроки и в компактной форме интересующие исследователя признаки ученика — его знания и понимание им некоторых частных сторон предмета. В этом смысле тест превосхо­дит любой другой способ проверки тех же знаний и понимания.

Другим, еще более важным достоинством теста является его объективность. Известно, что учитель, вероятно, невольно вносит некоторую долю субъективизма в оценки работ учащихся — в дан­ном случае в оценки и самих учащихся. Этот оттенок субъективиз­ма нередко оправдывается тем, что учитель, накопивший большой запас наблюдений о каждом ученике, не может отделаться от того, что некоторые неточности работы, по его глубокому убеждению, возникли незакономерно, оказались плодом неблагоприятного со­четания случайностей. И в самом деле, в массе, вероятно, это так: оценка хорошего учителя точнее характеризует ученика, чем оцен­ка его отдельной работы. Однако даже при изучении большого чис­ла классов в разных школах сочетание различных по своей направ­ленности и обоснованности субъективностей может исказить под­линную картину. Тест, который проводится в различных классах при строгом соблюдении определенных условий, дает значительно большую уверенность в объективности добытой информации.

Существуют такие области изучения, в которых именно тесты оказываются наиболее удобным и адекватным методом. К ним относится сравнение эффективности преподавания по разным методикам, по разным учебникам и т.п. Тесты могут быть приме­нены также при сравнительной оценке усвоения определенных знаний в школах различных районов, школах, работающих в спе­цифических условиях. Этим далеко не исчерпывается применение метода тестов.

Исследователь, впервые приступающий к использованию тес­тов в своей работе, должен решить такие наиболее существенные задачи, как: 1) разработка самого теста; 2) достижение его удов­летворительной надежности; 3) получение удовлетворительной валидности теста.

Научно обоснованный тест — это метод, соответствующий ус­тановленным стандартам надежности и валидности. В требованиях проверки теста на надежность и валидность реализуется важная идея методологического характера, выдвинутая довольно давно еще Р. Бэконом, — к истинному знанию ведет лишь истинный метод. Таким образом, качество педагогической информации ока­зывается зависимым от качества используемого для этого инстру­ментария.

Тест не может считаться завершенным, если он не получил удов­летворительной оценки по надежности. Понятие надежности в тестологии имеет два смысла. С одной стороны, имеется в виду на­дежность теста как определенного инструмента. К примеру, пользуясь метром, мы уверены в том, что он остается неизменным, какие бы измерения мы ни производили. В таком понимании метр можно назвать надежным. С другой стороны, говоря о надежности, мы имеем в виду относительную неизменность того предмета, который мы измеряем. Измерив длину предмета, мы должны быть уверены, что она в обычных условиях останется неизменной. Если применить эти рассуждения к тестированию, то, очевидно, следует разделить два объекта оценки надежности. Первый из них — сам тест. Он дол­жен быть надежным. Должны быть применены такие методики, которые позволили бы выносить определенное суждение о его на­дежности. Положим, мы получили устраивающую нас оценку его надежности. Теперь встает вопрос о том, насколько надежен объект, для измерения которого разработан тест. Специфичность задачи состоит в том, что оценку надежности самого предмета измере­ния — уровень или качество знаний и умений ученика по какой-либо школьной дисциплине — необходимо производить инстру­ментом, который и сам проходит оценку надежности.

При оценке надежности теста исходят из того, что тест тем надежнее, чем он более однороден. Для задачи, которую выполня­ет тест, существенно, чтобы каждая его часть, используемая в из­мерении, давала бы тот же результат измерения, что и другая часть. Сравним с метром: если это надежный измерительный инструмент, то, измерив лист бумаги по ширине, получим 210 мм, с какой точки на этом инструменте ни начали бы измерять — с 0 мм, с 500 мм или с любой другой. Для проверки теста применяется та­кой прием: тест проводят по какой-то выборке. Затем обрабатыва­ют раздельно четные и нечетные задания. В результате такой обра­ботки каждый испытуемый получает данные по решению четных и нечетных заданий. Эти два ряда данных коррелируют между со­бой. Тест получает оценку надежности в зависимости от получен­ного коэффициента. В тестологической практике тест признается достаточно надежным, когда полученный коэффициент не ниже +0,75...+0,80. Лучшие по надежности тесты дают коэффициенты корреляции порядка +0,90 и более.

Но в некоторых случаях надежность теста оказывается сравни­тельно невысокой, порядка +0,45...+0,50. Это, собственно, в по­давляющем большинстве случаев означает, что в нем представ­лено некоторое количество заданий, которые в силу своей специ­фичности ведут к снижению коэффициента корреляции. Такие задания нужно специально проанализировать; может быть, уда­стся, немного изменив характер вопроса или подбор ответов, перестроить их. После перестройки они могут быть снова вклю­чены в тест, а сам тест подвергнут новой проверке. Иногда же оказывается более целесообразным просто изъять задание. По­этому при подготовке первых вариантов теста лучше иметь неко­торый запас заданий.

Валидность говорит о степени соответствия теста своему на­значению. Предположим, разработан тест, диагностирующий зна­ния по физике в объеме 1 полугодия VIII класса. Валидность та­кого теста есть его показатель, свидетельствующий о том, что тест действительно выявляет знания по физике, и притом имен­но в том объеме, который указан составителями. Чем ближе рас­крывается в тестовом испытании тот признак, для обнаружения и измерения которого он предназначен, тем выше его валид­ность.

При установлении надежности все необходимое и достаточное исследователь находит в самом тесте: он сопоставляет одну часть заданий (с четными номерами) с другой (с нечетными номера­ми). Он делит тест на две части и, проводя одну через 40—50 дней после другой, коррелирует полученные результаты, т.е. тест дает ему все необходимые материалы. Но для установления валидности этого мало. Валидность может быть выведена только при сопо­ставлении результатов по тесту с каким-то критерием, с какой-то оценкой, находящейся вне теста; ее обычно называют внешним критерием.

Легко усмотреть прямую связь валидности с надежностью. Тест с низкой надежностью не может обладать высокой валидностью. Низкая надежность означает, что неверен измерительный инст­румент и нестабилен тот признак, который он измеряет. Такой тест при сопоставлении с внешним критерием может в одном случае показать высокие совпадения, а в другом — крайне низкие. Понятно, что при таких данных никаких выводов о том, насколь­ко тест соответствует своему назначению, сделать невозможно. Устанавливать валидность ненадежного теста нет никакого смыс­ла, это пустая трата времени.

Одна из самых больших трудностей, которые приходится пре­одолевать учителю, решившему дать характеристику своего теста по валидности, — это выбор внешнего критерия. Пусть автор тес­та полностью уверен, что тест действительно выявляет то, для чего он предназначен, — знания по физике в объеме 1 полугодия VIIIкласса. Но соответствует ли это реальному положению? Не являются ли задания теста случайными, не поставлены ли в них вопросы второстепенного значения? Сомнения может разрешить только сопоставление с внешним критерием. В этом случае таким критерием может быть, очевидно, солидная оценка знаний уча­щихся, проведенная квалифицированным и объективным экспер­том. Классный журнал и четвертные оценки вряд ли могут быть признаны надежным критерием — учителю приходится выводить оценки из малого числа опросов и работ, к тому же не всегда охватывающих материал всего курса.

Встает вопрос о требованиях, которым должен удовлетворять внешний критерий, пригодный для установления валидности. Тестология выдвигает три таких требования: критерий должен быть надежным (в том же понимании, как и в отношении теста); он должен быть «чист», т.е. в оценках речь должна идти только о том признаке, который выявляется в тесте, а не о дисциплине, не об общественной активности, не об усердии и т.п.; наконец, крите­риальная оценка должна охватывать с надлежащей полнотой весь тот круг знаний, который обнаруживается при помощи теста, он должен быть полностью соотносим с тестом.

В наибольшей степени отвечает этим требованиям результат так называемого экспертного опроса учащихся, который организует­ся следующим образом. Подбирается группа из 5—7 опытных учи­телей и методистов. Назначается председатель или руководитель, задача которого состоит в том, чтобы в предварительных беседах с членами группы определить уровень требований и форму опро­са. Сделать это необходимо, так как известно, что даже опытные педагоги расходятся между собой в том, что считать наиболее важ­ным, что второстепенным: одни отдают предпочтение сформиро­ванности мышления в понятиях данного предмета, другие — уме­нию решать практические задачи, третьи — фундаментальности знаний. Нужно, чтобы по крайней мере на время экспертного опроса его участники договорились о единстве требований. Из­вестная доля субъективности в оценках, вероятно, сохранится, но ее влияние сгладится за счет усреднения конечной оценки. За председателем сохраняется право ставить вопрос о дезавуирова­нии отдельных оценок, резко не совпадающих с оценками боль­шинства.

Подготовленная таким способом группа экспертов проводит опрос учащихся, которые до или после этого прошли тестирова­ние. Результат экспертного опроса обладает определенной надеж­ностью, ее можно установить, вычислив корреляции между от­дельными оценками, выставленными экспертами. В оценках не должно быть отражено ничего, кроме знаний по предмету. Наме­ченная программа опроса гарантирует охват тестируемого круга знаний.

Через экспертный опрос следует пропустить ту выборку, на которой учитель намерен установить валидность теста. Желатель­ная численность выборки — примерно 50 учащихся.

Результаты экспертного опроса сопоставляются с результата­ми по тесту, чаще всего для этого применяются корреляции. По­лученный коэффициент именуется коэффициентом валидности. По тестологической терминологии в данном случае получена так называемая валидность по содержанию.

Выведение коэффициента валидности — трудоемкая процеду­ра. Она не обязательна в тех случаях, когда учитель использует тест в ограниченных пределах только для своей работы и не пред­полагает предназначить его для диагностирования знаний в более широком масштабе.

К коэффициенту валидности предъявляются вообще те же тре­бования, что и к коэффициенту надежности. В общем, чем мето­дически более совершенен критерий, тем выше должен быть и коэффициент. Низкий коэффициент валидности следует подверг­нуть специальному рассмотрению. Среди причин, повлекших за собой получение низкого коэффициента валидности, можно на­звать следующие: значительная часть заданий теста отражает вто­ростепенные вопросы курса, некоторые существенные вопросы вообще не вошли в тест и т. п. Учителю придется рассмотреть слу­чаи наиболее резких расхождений между оценками экспертного опроса и результатами по тесту и, насколько это возможно, ис­править тест в соответствии с требованиями экспертов. Конечно, такое исправление влечет за собой немало новых забот: обновив тест, нужно вновь подумать о его надежности.

Вывод, который сам собою напрашивается, состоит в том, что при составлении теста нужно проявить максимальное внимание к содержанию тестируемого предмета и принять все меры к наилуч­шему и полному отражению этого содержания в заданиях теста.

 



Поделиться:


Последнее изменение этой страницы: 2016-04-08; просмотров: 713; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.144.1.100 (0.01 с.)