Научение методом проб и ошибок 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Научение методом проб и ошибок



 

При научении методом проб и ошибок индивидуум, встретившись с каким-либо препятствием, совершает попытки преодолеть его и при этом, постепенно отказываясь от неэффективных действий, находит в конце концов решение задачи.

Такой тип научения был открыт Торндайком (Thorndike, 1890) — одним из первых ученых, заинтересовавшихся процессами научения (рис. 7.2). В своих опытах Торндайк использовал так называемые проблемные клетки, в которые он помещал голодных кошек (рис. 7.3). Некоторые клетки открывались в том случае, если животное тянуло за веревку, а в других нужно было приподнять запорный крючок. Торндайк подсчитывал, сколько попыток и сколько времени требовалось кошке для того, чтобы решить стоящую перед ней задачу — выйти из клетки и получить пищу, помещенную снаружи.

 

Рис. 7.2. Эдуард Торндайк, американский психолог (1874-1949). Он впервые стал изучать решение животными задач в лабораторных условиях. Работы Торндайка привели его к теории научения методом проб и ошибок и к закону эффекта, на котором основана эта теория.

 

Рис. 7.3. «Проблемная клетка», разработанная Торндайком в 1911 году. Кошка, помещенная в такую клетку, должна была методом проб и ошибок научиться нажимать на деревянную педаль, что благодаря системе блоков и веревок позволяло открывать дверцу.

 

Наблюдая за животными, Торндайк заметил, что сначала их действия были чисто случайными, но в конце концов кошка «нечаянно» задевала веревку или крючок, освобождалась и получала вознаграждение. Однако по мере увеличения числа попыток действия животных все больше сосредоточивались вокруг «ключевого» участка клетки, и число ошибок, а также и время, проведенное в клетке, быстро сокращалось. Торндайк представил эти результаты в виде кривых (рис. 7.4) и вывел закономерности, позволяющие объяснить эффективность такого метода «проб и ошибок». Согласно важнейшей из этих закономерностей — закону эффекта,— вслучае, если какое-то действие приводит к желательным результатам, вероятность его повторения возрастает, а если к нежелательным последствиям — снижается (см. документ 7.2).

 

Рис. 7.4. Кривые научения методом проб и ошибок. Сходные кривые получал Торндайк по данным своих опытов на кошках. Видно, что чем больше проб совершает животное, тем меньше становится число ошибок.

 

Однако научение методом проб и ошибок само по себе не очень эффективно. Если бы новые формы поведения удавалось «изобрести» лишь случайным образом, было бы трудно объяснить быстрое приобретение новых навыков людьми и домашними животными. Без сомнения, вполне вероятно, что на протяжении миллионов лет именно такой процесс приводил к выработке различных навыков у наших предков. Но не менее очевидно, что по мере совершенствования этих навыков и упрочения власти человека над окружающей средой постепенно складывались новые способы формирования и передачи новых типов поведения.

Скиннер — признанный вождь американских бихевиористов в последние 30 лет — систематизировал теорию Торндайка, пытаясь объяснить, каким образом в структурированной среде формируется множество различных типов поведения. При этом Скиннер вскрыл принципы оперантного обусловливания и формирования реакций путем последовательных приближений.

 

Формирование реакций

 

С точки зрения Скиннера, поведение не всегда возникает чисто случайным образом — нередко оно формируется в результате отбора под действием подкрепляющего фактора. Таким фактором может быть любой стимул, появляющийся или исчезающий после той или иной поведенческой реакции и повышающий вероятность того, что эта реакция будет повторена с целью получить подкрепление. Это позволяет объяснить формирование очень сложных поведенческих реакций поэтапно, каждый этап при этом будет подкрепляться.

Исходя из этих соображений, Скиннер разработал способ формирования поведения путем последовательных приближений,составляющий основу оперантного обусловливания. Этот способ состоит в том, что весь путь от исходного поведения (еще до начала обучения) до конечной реакции, которую исследователь стремится выработать у животного, разбивается на несколько этапов. В дальнейшем остается лишь последовательно и систематически подкреплять каждый из этих этапов и таким образом подводить животное к нужной форме поведения. При таком способе обучения животное вознаграждают за каждое действие, приближающее его к конечной цели, и у него постепенно вырабатывается заданное поведение.

Допустим, что нам нужно обучить голубя ударять клювом по маленькому светящемуся кружку, когда он захочет получить вознаграждение в виде зернышка (рис. 7.5). Вначале мы будем давать ему зернышко каждый раз, когда он зайдет в ту половину клетки, где находится светящийся кружок. Далее мы будем вознаграждать его лишь в том случае, если он не только зашел в эту половину клетки, но еще и повернулся головой к стенке, на которой находится кружок. На третьем этапе можно, например, давать зернышко при сочетании этих двух условий, если вдобавок еще клюв животного направлен в сторону кружка. Затем постепенно можно заставить голубя касаться клювом кружка и, наконец, ударять по нему с целью получить вознаграждение. Как мы видим, при таком методе обучения к очередному этапу переходят лишь тогда, когда уже сформировалась поведенческая реакция, необходимая на предыдущем этапе (рис. 7.6).

 

Рис. 7.5. Голубь в клетке Скиннера реагирует на световой сигнал, появляющийся перед ним на стенке при освещении пластмассового диска с другой стороны. В ответ на такой сигнал голубь ударяет по диску клювом, чтобы в кормушке появилось зерно.

 

Рис. 7.6. Крыса, помещенная в клетку Скиннера, должна при появлении определенного стимула нажать на рычаг, за что получает пищевое вознаграждение.

 

По мнению Скиннера и других бихевиористов, именно так происходит выработка большинства поведенческих реакций у человека. Действительно, можно привести множество примеров, как будто бы частично подтверждающих это.

С позиций Скиннера можно объяснить очень быстрое обучение ребенка первым словам (не распространяя, однако, эту концепцию на освоение языка в целом). Вначале, когда ребенок еще только начинает произносить какие-то членораздельные звуки, лепет «ме-ме-ме» уже вызывает восторг окружающих, и особенно счастливой мамы, которой уже кажется, что дитя зовет именно ее. Однако вскоре энтузиазм родителей по поводу таких звуков остывает до тех пор, пока младенец ко всеобщей радости не выговорит «мо... мо». Потом и эти звуки перестают для новорожденного подкрепляться, пока не появится сравнительно членораздельное «мо-мо». В свою очередь это слово по тем же причинам вскоре сменится сочетанием «мома», и наконец ребенок отчетливо выговорит свое первое слово — «мама». Все же остальные звуки будут восприниматься окружающими лишь как «детский лепет» в буквальном смысле слова, и они постепенно исчезнут из «лексикона» новорожденного.

Таким образом, в результате избирательного поощрения со стороны членов семьи младенец отбрасывает те неправильные реакции, за которые он не получает социального подкрепления,и сохраняет лишь те, которые наиболее близки к ожидаемому результату.

Формирование реакции играет роль не только в воспитании ребенка, но также в отношениях между супругами и в различных аспектах социальной жизни. Каждый раз, когда индивидуум или социальный институт хочет добиться той или иной поведенческой реакции от партнера или от группы населения, он вполне может запланировать и реализовать такие подкрепляющие факторы, которые повышали бы вероятность желательного поведения. Однако ясно, что подобные методы часто находятся на грани манипулирования личностью и не всегда практикуются исключительно для ее блага.

Кроме того, как мы уже знаем из главы 6, сторонники когнитивного подхода к мотивации полагают, что внешняя мотивация, создаваемая подкреплением, чаще всего приводит к исчезновению внутренней мотивации, присутствующей на первых этапах во многих видах поведения у человека (см. документ 7.3).

Для того чтобы лучше разобраться в приведенных примерах, нам нужно теперь вернуться к некоторым аспектам подкрепления.

 

Различные стороны процесса подкрепления

 

Подкрепление — это такое воздействие, при котором появление или исчезновение какого-то стимула в результате той или иной поведенческой реакции повышает вероятность повторения этой реакции. Например, если голодное животное каждый раз будет находить в определенном углу помещения пищу, то оно будет все чаще направляться в этот угол (хорошим примером могут служить эксперименты Олдса, в которых были открыты центры удовольствия; см. документ 6.4). И напротив, если после зажигания красной лампочки животное будет получать удар током, а избежать его можно будет только перепрыгнув из одной половины клетки в другую, то вероятность такой реакции на красную лампочку будет возрастать. В первом случае потребление пищи или удовольствие, получаемое при электростимуляции мозга, играет роль положительного подкрепления. Во втором случае речь идет об отрицательном подкреплении [*] — предотвращении электрического удара.

[Надо сказать, что этот термин несколько неудачен, так как всякое подкрепление по определению должно способствовать выработке какой-то формы поведения, т. е. оказывать положительное действие. Видимо, правильнее было бы в обоих случаях говорить о подкреплении, но не о положительном и отрицательном, а о положительном и аверсивном (в зависимости от его значения для организма). Однако условности и общепринятые правила, особенно в науке, довольно живучи, и поэтому многие студенты еще долго будут недоумевать по поводу того, почему организм может столь активно стремиться к отрицательному подкреплению.]

Часто смешивают отрицательное подкрепление с наказанием. Однако, как мы уже знаем, подкрепление всегда увеличивает вероятность повторения данной поведенческой реакции, а наказание, наоборот, приводит к исчезновению такой реакции, которая сочтена нежелательной. Значит, в отличие от подкрепления при наказании стремятся либо подать аверсивный раздражитель (например, нанести животному удар током или отшлепать ребенка), либо лишить вознаграждения (вкусной еды или ласки) каждый раз, когда проявляется такая форма поведения, которую нужно устранить.

Скиннер и многие психологи принципиально отрицают наказание как средство воспитания, предпочитая в основном использование положительных подкрепляющих факторов, которые способствуют выработке у ребенка социально адекватного поведения, а не подавлению социально неадекватного. По их мнению, нежелательные формы поведения легко могли бы исчезнуть, если бы те, кому доверен процесс воспитания, осуществляли его правильно и не были вынуждены наказывать за то, что они сами вначале непроизвольно поощряли.

Кроме того, бихевиористы различают первичное и вторичное подкрепление. Первичное подкрепление — это удовлетворение физиологических потребностей, таких как голод, жажда, сон и т. п. Что касается вторичного подкрепления,то здесь речь идет об удовлетворении, как-то связанном с другими подкрепляющими факторами (первичными или вторичными). Когда мы получаем гонорар или диплом за выполненную работу, когда ребенка награждают игрушкой или военного — орденом [*], когда человек получает престижную должность — во всех этих случаях действует вторичное подкрепление, удовлетворение социальных потребностей, повышающее самоуважение у лиц, у которых оно высоко развито или, наоборот, поколеблено.

[Такое подкрепление широко практиковалось Наполеоном — основателем ордена Почетного легиона и ярко выраженным лидером. Его приемы поощрения вошли в историю: всем известно, что он мог потрепать за ухо гвардейца, который, возможно, вскоре будет убит в сражении, или присвоить дворянский титул первому подвернувшемуся вояке в награду за какие-то услуги.]

 

Угасание, дифференцировка и генерализация

 

Мы уже видели, что как при реактивном, так и при оперантном научении приобретенная реакция сохраняется лишь до тех пор, пока ее поддерживают безусловным раздражителем (в первом случае) или специальным подкреплением (во втором случае). Если же эти подкрепляющие факторы перестают действовать, то выработанное на их основе поведение быстро угасает и после нескольких попыток прекращается вовсе. Например, если сразу после звонка не следует подача пищи, у собаки вскоре перестает в ответ на этот стимул выделяться слюна. Точно так же, если в семье новорожденного ребенка вдруг перестанут интересоваться звуками, которые он произносит, его словарный запас, скорее всего, не будет развиваться быстро и адекватным образом. Все это проявления процесса угасания.

Важно отметить, что речь здесь идет именно об угасании, а не об исчезновении или «стирании следов». Дело в том, что если снова начать предъявлять безусловный раздражитель или подкрепляющий фактор, то исчезнувшее было поведение почти сразу же восстанавливается.

С угасанием тесно связана так называемая дифференцировка. При дифференцировке те поведенческие реакции, которые перестают сопровождаться безусловным раздражителем или подкреплением, исчезают, и сохраняются лишь такие реакции, при которых эти факторы продолжают действовать. Например, если внезапно прекратить подачу пищи после звука колокольчика, но продолжать давать ее в сочетании со звуком зуммера, то слюноотделение на первый из этих звуковых раздражителей прекратится, а на второй сохранится. Точно так же и наш младенец в приведенном выше примере постепенно перестанет издавать неподкрепляемые звуки, и будет повторять лишь те, за которыми следует социальное поощрение.

Важнейшую роль в научении путем выработки условных связей играет процесс генерализации [*]. Именно благодаря этому явлению вновь образованная связь распространяется на все то, что похоже на безусловный раздражитель или на ситуацию, в которой происходило подкрепление. Например, в опытах Уотсона и Рейнер у маленького Альберта (см. документ 7.1) быстро выработался страх перед всеми белыми пушистыми предметами — от бороды деда Мороза до мехового воротника на пальто матери. Все мы знаем, как быстро наступает генерализация у плаксивых детей — сначала они хнычут, требуя конфету, а потом — уже всегда, как только им чего-нибудь захочется, будь то игрушка в магазине или телевизионная передача, идущая по параллельному каналу одновременно с любимой передачей родителей (табл. 7.1).

[Павлов называл этот процесс «иррадиацией». — Прим. перев. ]

 

Таблица 7.1. Сравнение реактивного и оперантного обусловливания

Схемы Реактивное обусловливание Оперантное обусловливание
Синонимы Павловское, классическое Скиннеровское, инструментальное
Способ научения Путем ассоциации между специфическим стимулом (вызывающим естественный рефлекс) и нейтральным стимулом (2а)   2а. Ассоциация между ИС и БС (индифферентным и безусловным стимулами) Путем ассоциации между поведением и его последствиями (2б)   2б. Подкрепление связано с реакцией A в ситуации X
Соответствующие типы поведения Рефлекторные и эмоциональные реакции Произвольное поведение
Степень участия организма в целом Связь между безусловным (БС) и условным (УС) стимулами формируется при пассивном участии организма в целом (2а) Для формирования связи между реакцией и подкреплением необходимы активные действия организма над объектами окружающей среды (2б)
Временн ы е отношения Индифферентный стимул (ИС) в большинстве случаев должен предшествовать безусловному (БС) (3а)   3а. ИС в результате ассоциации с БС может превратиться в УС, способный вызывать УР Реакция всегда должна предшествовать подкреплению (3б)   3б. Подкрепляющая ситуация вызывает обусловливание реакции. Другие реакции угасают
Типы связей Физиологическая связь между УС и безусловным рефлексом (БР) (1а)   1а. Физиологическая связь между БС и БР Связь между реакцией и естественным поведенческим репертуаром организма (1б)   1б. Реакции на ситуацию X случайны
  Никакой физиологической связи между индифферентным стимулом (ИС) и условным рефлексом (УР) (2а) Никакой физиологической связи между реакцией и подкреплением (2б)
Угасание В результате отмены БС (4а)   4а. Отмена БС вызывает угасание УР В результате отмены подкрепления (4б)   4б. Отмена подкрепления вызывает угасание условной реакции
Генерализация УР вызывается всеми стимулами, сходными с УС Реакция возникает во всех ситуациях, сходных с той, в которой происходило подкрепление
Дифференцировка УР остается только на те сходные с УС стимулы, после которых следует БС Остаются только те реакции, за которыми следует подкрепление

 

Бихевиористы предложили множество различных сфер применения методов обусловливания в различных областях человеческой деятельности. Чаще всего реактивное и оперантное научение используется в психотерапии, когда врач пытается применить соответствующие принципы для помощи определенным больным. Подобные примеры приведены в документах 3.1 и 3.2. Подробнее мы рассмотрим этот вопрос в главе 12.

В области образования Скиннер выдвинул, в частности, концепцию программированного обучения. По его мысли такое обучение может освободить ученика и преподавателя от скучного процесса простой передачи знаний: учащийся будет постепенно продвигаться в освоении той или иной темы в собственном ритме и маленькими шажками, каждый из которых подкрепляется [*]; из этих шажков и состоит процесс последовательного приближения (Skinner, 1969). Однако очень скоро обнаружилось, что такое обучение быстро достигает своего «потолка», и это связано именно с тем, что от учащегося требуются лишь минимальные усилия и поэтому подкрепление вскоре становится неэффективным. В результате учащемуся такое обучение быстро надоедает. Кроме того, для постоянного поддержания мотивации у учащегося и упорядоченной передачи знаний, видимо, необходим личный контакт с учителем. Все это, вероятно, можно объяснить с помощью принципов, лежащих в основе социального научения, и в частности научения путем наблюдения. Но еще ближе к истине, наверное, те ученые, которые стоят на позициях когнитивного научения. К этому вопросу мы вернемся в последующих разделах.

[Подкреплением служит лампочка, загорающаяся в ответ на каждый правильный ответ, слово «Молодец!», появляющееся на экране, сумма баллов и т. п.]

 



Поделиться:


Последнее изменение этой страницы: 2016-12-17; просмотров: 1466; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.226.226.169 (0.024 с.)