Не рычите на собаку! (страница 6)
Как и в случае с сигналом завершения, неважно, какой стимул вы используете для продолжения действий. Это может быть кликер, свисток, окрик или движение руки. Важно, чтобы стимул не являлся сигналом бессмысленного подбадривания, который лишь отвлекает животное или случайно подкрепляет нежелательное поведение. Нужно сформировать прочное и точно используемое условное подкрепление.
Условное отрицательное подкрепление
Правильно поданное условное положительное подкрепление говорит ученику: «То, что ты сейчас делаешь, хорошо и правильно. Это действие принесет тебе пользу, так что продолжай в том же духе». Но можно также установить отрицательный условный сигнал. Такое действие говорит ученику: «То, что ты сейчас делаешь, нехорошо. Если ты не прекратишь, с тобой случится что-то плохое».
Условные отрицательные подкрепления более эффективны, чем угрозы. Некоторые субъекты – и в частности, кошки – не реагируют на крики и выговоры. Но моей подруге удалось совершенно случайно отучить кота от дурной привычки драть диван, сделав условным раздражителем слово «Нет!». Как-то раз, готовя обед, моя подруга уронила большой медный поднос, который упал прямо рядом с котом. Когда поднос падал, подруга воскликнула: «Нет!» – а после этого слова поднос приземлился на пол со страшным звоном. Кот ужасно перепугался, подскочил, шерсть на нем встала дыбом. Когда в следующий раз подруга заметила, что кот дерет диван, она громко крикнула: «Нет!» Испуганный кот тут же умчался прочь. Достаточно было двух повторений, чтобы раз и навсегда положить конец вредной привычке.
Выговоры являются неотъемлемой частью нашего существования. Использование в качестве основного средства обучения положительного подкрепления вовсе не означает, что вы не можете при необходимости использовать и отрицательные подкрепления. Это жизненно необходимо, например, когда ребенок пытается засунуть шпильку в электрическую розетку. Однако часто мы совершаем две ошибки: во-первых, не учитываем побочный эффект, который оказывает отрицательное подкрепление на ученика (см. главу 4, «Наказание»). И, во-вторых, используем выговоры и наказания, не устанавливая предупреждающего сигнала, то есть условного отрицательного подкрепления.
Например, любой, кто считает необходимым использовать электрошокер при воспитании собаки, должен всегда говорить «нет», когда собака что-то делает неправильно. После этого нужно сделать паузу, прежде чем нажать на кнопку шокера, чтобы собака имела возможность избежать отрицательного подкрепления, изменив свое поведение. Простое нажатие на кнопку без предупредительного сигнала превратит ваше действие в наказание, воздействие которого на будущее поведение и на готовность собаки подчиняться вашим приказам абсолютно непредсказуемо. Третья распространенная ошибка – продолжать нажимать на кнопку даже тогда, когда собака уже перестала делать то, что вам не нравилось. Таким образом вы наказываете ее за оба вида поведения – неправильное и правильное.
Неумение использовать условное отрицательное подкрепление повышает количество реальных отрицательных подкреплений, которые используются в коррекционной тренировке. Это значительно замедляет процесс обучения. Традиционные дрессировщики собак и лошадей иногда тратят на выработку желаемого поведения гораздо больше времени, чем те, кто использует положительное подкрепление. Порой время дрессировки увеличивается на несколько месяцев, а то и лет. Это происходит не только потому, что они полагаются исключительно на наказание (этот прием останавливает поведение, а не дает начало новому), но еще и потому, что они используют реальные отрицательные подкрепления, не сформировав условного отрицательного подкрепления. В результате требуются сотни повторений, прежде чем животное поймет, чего же от него хотят.
Среди дрессировщиков собак в последнее время приобрел популярность особый вид условного отрицательного подкрепления. Речь идет о маркере отсутствия вознаграждения. Обычно таким маркером служит слово «Неправильно», произнесенное нейтральным тоном. Идея заключается в том, что, когда собака пытается вести себя неправильно, чтобы понять, чего же вы хотите, вы помогаете ей, сообщая, что именно она делает не так. Вы формируете сигнал, который говорит животному: «Эти действия не будут вознаграждены».
Б. Ф. Скиннер определял отрицательное подкрепление, как лишение чего-то желанного. В этом смысле сигнал «неправильно» является условным отрицательным подкреплением, поскольку он означает недоступность вознаграждения.
Занимаясь дрессировкой собак, я сталкивалась с ситуациями, в которых сигнал «неправильно» был очень полезен. Если ваша собака демонстрирует широкий набор полностью сформированных видов поведения, то есть является сложным объектом для дрессировки, вы можете использовать сигнал «неправильно» в качестве намека на изменение поведения. В данной ситуации он означает: «Этот путь никуда не приведет. Попробуй что-нибудь другое».
Этот прием работает только в том случае, если вы уже использовали положительные подкрепления различных видов поведения, а ваша собака активно ищет новые пути, чтобы заставить вас кликнуть или дать ей реальное подкрепление. Люди испытывают трудности с условным отрицательным подкреплением, когда используют его с неопытной собакой, которая не понимает, чего от нее хотят.
Прикажите собаке сесть, а если она этого не сделает, скажите: «Неправильно». Если собака уже понимает, что этот сигнал означает отсутствие вознаграждения, она поймет, что вы наказываете ее за то, что она не села. Но это еще не означает, что она действительно сядет. На самом деле результат будет таким же, как и при любом другом наказании – то есть абсолютно непредсказуемым. Собака может вообще перестать реагировать на слова и убежать или бросить все и начать искать собственные подкрепления, то есть вести себя неподобающе – лаять, тянуть поводок, обнюхивать землю, скрести, обращать внимание на все, что угодно. Поэтому условное и реальное отрицательное подкрепление лучше использовать тогда, когда вам необходимо прекратить нежелательное поведение, а для выработки новых навыков пользуйтесь положительным подкреплением.
Режимы подкрепления
Существует распространенное заблуждение, что если вы начали вырабатывать какое-то поведение с помощью положительного подкрепления, то должны продолжать пользоваться этим методом всю жизнь. А если перестать использовать этот метод, желательное поведение прекратится. На самом деле это не так. Постоянное подкрепление необходимо только на этапах обучения.
Вы можете постоянно хвалить малыша за то, что он научился пользоваться горшком. Но как только поведение закреплено, дальше оно проявляется автоматически. Мы подаем (или должны подавать) массу подкреплений начинающему. Когда ребенок учится кататься на велосипеде, вы наверняка постоянно повторяете ему: «Правильно, а теперь прямо… Ты сделал это, хорошо!» А теперь представьте, насколько глупо вы будете выглядеть, если продолжите хвалить ребенка, который уже отлично катается на велосипеде. Да и ребенок подумает, что вы сошли с ума.
Чтобы заученное поведение надежно закрепилось, вовсе не нужно подкреплять его каждый раз. Наоборот, очень важно не подкреплять поведение на регулярной основе, а использовать подкрепление лишь от случая к случаю, случайно и непредсказуемо.
Психологи называют это вариативным режимом подкрепления. Вариативный режим намного более эффективно поддерживает поведение, чем постоянный и предсказуемый. Один психолог объяснил мне это так. Если вы купили новую машину, которая резво трогается с места, и в один прекрасный момент она почему-то не завелась, вы несколько раз попробуете повернуть ключ, но потом поймете, что что-то сломалось, и позвоните механику. Поворачивание ключа в отсутствие ожидаемого немедленного подкрепления быстро прекращается. Если же у вас старая машина, которая почти никогда не заводится с первой попытки, и для того, чтобы ее завести, требуется длительное время, вы будете поворачивать ключ снова и снова. Поворачивание ключа длительно подкреплялось в вариативном режиме. И поэтому это прочно закрепленное поведение.
Если я буду давать дельфину рыбу за каждый прыжок, животное станет прыгать невысоко и вяло – лишь бы получить рыбу и отделаться от меня. Если я прекращу давать рыбу, дельфин быстро перестанет прыгать. Но можно поступить иначе. Дельфин научился прыгать за рыбу. Теперь я начинаю подкреплять первый, третий и последующие прыжки случайным образом. Тогда желательное поведение закрепится более прочно. Не получивший вознаграждения дельфин станет прыгать более часто, надеясь вытянуть счастливый билет, а энергичность прыжков может даже возрасти. Это позволит мне избирательно подкреплять лучшие прыжки. Используя вариативный режим, я сформирую требуемое поведение.
Но даже профессиональные дрессировщики не всегда правильно используют вариативный режим положительного подкрепления. Понять и принять эту концепцию бывает нелегко.
Мы понимаем, что не нужно наказывать за неправильное поведение, если это поведение прекратилось. Но мы не понимаем, что необязательно и даже нежелательно вознаграждать правильное поведение постоянно.
Стремясь закрепить дисциплину животного с помощью положительного подкрепления, мы оказываемся менее уверенными в себе.
Привлекательность вариативного режима лежит в основе всех азартных игр. Если бы каждый раз, когда вы опускали мелкую монетку в игровой автомат, вам выпадала монетка более крупного достоинства, вы быстро заскучали бы. Да, вы обогатитесь, но вам будет скучно. Люди любят игровые автоматы именно потому, что предсказать результат практически невозможно. Вы можете ничего не выиграть, выиграть маленькую сумму или получить огромный выигрыш. Невозможно понять, в какой момент будет получено подкрепление (это может случиться даже в самый первый раз). Почему некоторые люди впадают в игровую зависимость, а некоторые – нет, это другой вопрос. Но для тех, кто попался на крючок, привлекательным является именно вариативный режим подкрепления.
Чем дольше сохраняется вариативный режим, тем прочнее он закрепляет поведение. Но длительность режима работает против вас в тех случаях, когда вы стремитесь устранить определенный стандарт поведения.
Неподкрепленное поведение угасает само собой. Но если поведение время от времени подкрепляется, пусть даже спорадически – одна сигарета, одна рюмка, одна уступка капризному ребенку или нудному партнеру, – оно не угаснет, а, напротив, прочно закрепится.
И добьетесь вы такого нежелательного результата с помощью длительного вариативного режима. Так человек, бросивший курить и случайно позволивший себе одну сигарету, может снова превратиться в отъявленного курильщика за одну минуту.
У каждого из нас есть знакомые, которые почему-то продолжают жить с супругами или любовниками, хотя те относятся к ним несправедливо. Мы привыкли считать, что такое случается только с женщинами, которые влюбляются в грубых, невнимательных, эгоистичных и даже жестоких людей. Но это происходит и с мужчинами. Мы все знаем таких людей. Даже после развода или расставания с неподходящим партнером они ухитряются найти себе нового точно такого же.
Являются ли эти люди по каким-то глубинным психологическим причинам постоянными жертвами? Возможно. Но не являются ли они жертвами длительного вариативного режима? Вступив в отношения с обаятельным, сексуальным, веселым и внимательным человеком, который со временем превращается в настоящего монстра, хотя время от времени все же проявляет свою хорошую сторону, вы живете надеждой на те редкие моменты, когда вам удается получить столь желанное положительное подкрепление: обаяние, сексуальность, внимание и заботу.