Б.Ф. Скиннер, один из основных теоретиков бихевиоризма, определил подкрепление как тип обучения, основанный на связывании поведения с вытекающими из него последствиями, тем самым повышая вероятность его повторения. Когда последствия отрицательные, говорят о наказании, а когда они являются положительными, о поддержке или похвале. В рамках обучения с подкреплением специалисты различают два типа последствий: положительное и отрицательное.
В то время как положительное подкрепление происходит, когда поведение связано с чем-то одобряемым, отрицательное подкрепление заключается в том, чтобы избежать или отозвать отвращающий стимул. Давай посмотрим на основные особенности обеих процедур и поговорим о том, как можно использовать подкрепление в повседневной жизни.
В этой статье:
Что такое положительное подкреплениеПримеры положительного подкрепления в семьеЧто такое отрицательное подкреплениеПервичные усилители – удовлетворение основных потребностейВторичные подкрепления – награда не мгновеннаяСмешивание разных усилителейНежелательные позитивные подкрепления
Что такое положительное подкрепление
Фото Tim Mossholder on Unsplash
При обучении с позитивным подкреплением достижение определенного поведения связано с получением приятных последствий. Это не обязательно должен быть объект, даже не материальный.
Еда, поглаживание, улыбка, словесное сообщение или появление приятных эмоций во многих контекстах могут рассматриваться как положительные подкрепления.
Мать, которая поздравляет свою маленькую дочь каждый раз, когда она правильно пользуется туалетом, способствует обучению за счет положительного подкрепления.
То же самое происходит, когда компания дает экономический бонус своим наиболее продуктивным сотрудникам, и даже игровой выигрыш можно так расценивать. Но в психологии понятие «положительное подкрепление» относится к различию, которое следует за поведением. Положительное подкрепление – это процесс, посредством которого обучаемый субъект создает ассоциации.
С технической точки зрения можно сказать, что при позитивном подкреплении существует положительная зависимость между конкретной реакцией и приятном стимулом. Осведомленность об этой ситуации побуждает субъекта выполнять действия, чтобы получить вознаграждение (или подкрепление).
Метод 6. Подкрепление смены поведения
Вы подкрепляете любое другое поведение, кроме нежелательного. Например, ребенок выпрашивает у вас дорогой подарок, который вы не собираетесь делать, и уже сообщили об этом. А он ноет и ноет. Вы не реагируете на его нытье, (применяете метод угашения) При этом важно именно не реагировать. Никак. А не демонстрировать свое нежелание обсуждать ту или иную тему. Если, скажем, на нытье о подарке вы будете постоянно повторять: » Я не желаю с тобой это даже обсуждать!» или «Ну, сколько можно ныть, ты же видишь, я не реагирую на твои просьбы!» — ребенок же прекрасно видит, что вы реагируете и еще как! Но как только ребенок начинает говорить о чем-то другом, живо на это откликаетесь. Важно именно подкреплять смену темы. Сразу заметить это и поддержать. Не пропустить этот момент.
Примеры положительного подкрепления в семье
Положительное подкрепление следует применять дозированно.
Например, есть много разных ситуаций, в которых родители хвалят своих детей. Однако, чтобы положительный эффект подкрепления имел смысл, не следует ожидать вознаграждения за каждую мелочь.
В долгосрочной перспективе, само собой разумеется, следует убрать за собой со стола или убрать мусор. Однако это не обязательно означает, что на этом этапе нельзя хвалить.
Смотри, как положительное подкрепление работает в семье и как оно может реализоваться разными способами:
- Вечером ребенок убирает со стола, даже если его не просят. Как прямое следствие, ему разрешается не спать на 10 минут дольше.
- Твой ребенок убирает в своей комнате. Тогда похвали его и покажи свою радость.
- Если школьный отчет от учителя положительный, многие родители награждают своего ребенка деньгами или игрушкой.
Если ты хочешь использовать положительное подкрепление в своих целях, убедись, что соответствующее вознаграждение пришло как можно скорее.
Если между действием и наградой проходит слишком много времени, связь отсутствует и желаемый эффект (повторение поведения) не материализуется.
Метод позитивного подкрепления
Отучение
Карен Прайор также пишет и о процессе отучения. Т.е. когда есть какое-то нежелательное поведение, от которого вы хотите избавиться. Она приводит 8 принципов отучения. Первые четыре из них негативные, а вторые позитивные. Как вы можете догадаться, вторая половина принципов действует лучше и даёт сохраняющийся результат.
- Убить, удалить, избавиться. Просто убрать источник или органичить его так, чтобы он не смог физически выполнять нежелательное действие.
- Наказание. Поставить ребёнка в угол, ударить собаку палкой, лишить программиста премии
- Отрицательное подкрепление
- Угашение. Не обращаете внимание на нежелательное поведение. Не подкрепляете его никак: ни отрицательно, ни положительно.
- Выработка несовместимого поведения. Выработать такое новое поведение, которое будет несовместимо с нежелательным.
- Добиться, чтобы данное поведение совершалось по сигналу, а потом постепенно убрать этот сигнал
- Формирование отсутствия. Подкрепляется всё что угодно, кроме нежелательного поведения.
- Смена мотивации. Определите, почему и зачем происходит нежелательное поведение и попробуйте заменить цель поведения на более нужную/правильную.
PS:
Карен Прайор много пишет о дрессировке животных, но эти же принципы можно так же успешно применять в нашей повседневной жизни. Я лично в процессе чтения книги замечал, как хорошо на меня лично действуют положительные подкрепления. Могу сказать, что овладев наукой, изложенной в книге, можно действительно получить +1 к общению, как это и объявлено на обложке книги.
Что такое отрицательное подкрепление
В отличие от того, что происходит при положительном подкреплении, при отрицательном – инструментальный ответ включает в себя исчезновение отталкивающего стимула, то есть объекта или ситуации, которые побуждают субъекта убежать или попытаться не контактировать с ним.
С точки зрения поведения, подкреплением этой процедуры является исчезновение или отсутствие аверсивной стимуляции. Понятие «отрицательный» относится к тому факту, что вознаграждение заключается не в получении стимула, а в его отсутствии.
При отрицательном подкреплении нежелательное поведение предотвращает появление отвращающего стимула. Например, когда человек, страдающий агорафобией, сознательно не пользуется общественным транспортом, чтобы избежать приступа страха.
Следующий этап такого обучения состоит в исчезновении отвращающего стимула, который присутствует до того, пока субъект не изменит нежелательное поведение.
Это похоже на то, как раздражающий будильник останавливается одним нажатием кнопки, как мать покупает своему ребенку то, от чего он перестает плакать, или дает болеутоляющее средство, когда у него что-то болит.
А теперь давай поговорим о некоторых нюансах.
Процесс выработки
Когда субъект уже делает то, что нужно и просто нужно подкрепить это поведение — всё более-менее понятно. Но что делать, если нужное поведение ещё нет и подкреплять, как будто, и нечего? Выработка состоит в том, чтобы использовать малейшую тенденцию к нужному поведению и шаг за шагом сдвигать её к поставленной цели. Разбейте конечную цель на ряд последовательных, более мелких, целей. Найдите какое-то поведение, которое осуществляется уже сейчас, как первый шаг. Часто происходит так, что субъект может выполнить нужную задачу (или её часть) случайно. В этом случае вам нужно обязательно заметить это поведение и его подкрепить.
Ниже перечислены 10 правил выработки, которые подробно разбирает автор. В рамках этой статьи подробное описание не влезет, но можно поверхностно с ними ознакомиться.
- Повышайте критерий понемногу, чтобы всегда была возможность выполнить требуемое и получить подкрепление.
- Отрабатывайте что-нибудь одно в конкретный промежуток времени. Не пытайтесь отрабатывать несколько критериев одновременно.
- Прежде, чем переходить к повышению уровня, подкрепите текущий
- Вводя новые критерии временно ослабьте старые
- Планируйте программу обучения так, чтобы всегда быть готовыми к резкому прогрессу в обучении
- Не меняйте тренеров в процессе выработки конкретного навыка
- Если один путь выработки не приносит успеха, найдите другой способ. Их много
- Не заканчивайте обучение, не дав положительного подкрепления. Это равносильно наказанию.
- Если навык ухудшается, — быстро пройдитесь по всему предыдущему процессу обучения, давая подкрепления
- Оканчивайте тренировку на высокой ноте. Конец обучения должен быть радостным, а не унылым.
Первичные усилители – удовлетворение основных потребностей
Однако на практике с подкреплением не все так однозначно, потому что многие вопросы рассматриваются субъективно. Очень ярким примером является мнение о том, что младенца можно «приучить к рукам», если давать ему родительские объятия по первому же крику.
Но важно помнить: в контексте психологии основными подкрепляющими элементами являются те, которые непосредственно ориентированы на потребности человека.
Голод и жажда, а также любовь и близость – самые важные факторы для младенцев и детей ясельного возраста. Однако их никогда не следует делать условными, чтобы дети могли сформировать необходимое им базовое доверие.
Положительные и отрицательные подкрепления могут использоваться только как дополнительные аспекты, выходящие за рамки обычной степени удовлетворения потребностей.
Нет ничего плохого в десерте после обеда, сладостях или родительских объятиях.
Метод 5. Добиться, чтобы нежелательное поведение совершалось по сигналу
А в дальнейшем вы перестанете давать этот сигнал.
Есть притча про мудрого старика, который ценил тишину и покой. Рядом с его домом повадилась играть шумная компания детей. Однажды старик вышел к детям и дал им по монетке, сказав, что ему очень нравится слушать их веселые крики. И на следующий день он им снова дал по монетке. Так продолжалось некоторое время. А затем старик вышел к детям и сказал, что у него больше нет для них денег. Дети ответили: «Мы что идиоты – кричать для тебя бесплатно?» и ушли.
Ребенок шумит и бесится. Предложите ему вместе с вами по команде устроить как можно больший шум. Сделайте так пару раз по команде. Во-первых, это весело, и необычно. Во-вторых, такое занятие требует много энергии и утомляет довольно быстро. А потом не давайте такую команду. Или ребенок устраивает в комнате беспорядок, разбрасывает свои вещи. Договоритесь устроить по команде за 5 минут как можно больший беспорядок в комнате. Возможно, ребенок раньше вообще не замечал своих раскиданных вещей. Теперь заметит. После того, как он (возможно с вашей помощью) наведет порядок, не давайте больше таких команд.
Да, тут нужна определенная смелость и фантазия. Конечно, воспитание детей — это вызов, и требует творческого подхода.
Вторичные подкрепления – награда не мгновенная
В отличие от прямого удовлетворения потребностей, вторичные подкрепления ориентированы на то, что их можно использовать только косвенно для индивидуального удовлетворения потребности.
Например, самое простое средство на данном этапе – деньги. Если человек получает определенную сумму денег за определенные занятия, он впоследствии может что-то купить для себя. Опять же, это могут быть основные потребности: пища или одежда.
В семьях некоторые родители также используют своего рода систему жетонов. Позитивное поведение отмечено звездочкой. Если набрано определенное количество звездочек, ребенок может выбрать что-нибудь в магазине.
Например, это могут быть простые вещи, такие как есть мороженое после пяти звездочек или посещение зоопарка после 25 звездочек.
Метод 7. Изменение мотивации
Это самый лучший метод, но и наиболее сложный. Изменение мотивации значит, что ребенку расхотелось делать то, что вы считаете плохим, или захотелось делать то, что вы считаете хорошим. Как это работает: поведение ребенка связано с его потребностями.
Представьте себе, что ваш ребенок раздражен и разговаривает с вами грубо, по-хамски.
А происходит это, например, потому что устал и не выспался. Помогите ему организовать правильный режим, и раздражение исчезнет. Если его хамство связано с неуверенностью в себе и попыткой отыграться на вас, найдите способы укрепить его веру в себя. А может, он хамит, потому что расстроен ссорой с друзьями. Поддержите его, покажите, что понимаете его чувства, но не лезьте с советами. Так вы лучше поможете ему справиться с огорчением.
Смешивание разных усилителей
Для облегчения оперантного обучения используется множество различных типов подкрепления. Их не всегда можно отнести к четкой категории: они не негативные и не позитивные.
В целом, однако, существует три различных типа усилителей:
- Материальные подкрепления.
- Социальное подкрепление: этот аспект характеризуется словами похвалы и признания. Однако может быть достаточно ободряющей улыбки или дружеского кивка.
Фото автора Ron Lach: Pexels
- Активные подкрепления. В итоге выбирается посещение зоопарка, совместный вечер кино или посещение концерта.
Лучше максимально избегать материальных стимулов.
Негативное подкрепление — методика манипуляторов.
а профсоюз? » Человек проходит некоторую систему ситуаций, и каждая из этих ситуаций отпечатывается на нём в качестве его морфологических характеристик. И человек есть след, отпечаток тех ситуаций, которые он прошёл, а эти ситуации есть не что иное, как современная ему общественная или социокультурная организация и у человека у него нет никакого выбора, за исключением выбора такого типа — либо остаться, либо уехать. Остаться он не может, поскольку его уже вынесло. И уехать тоже не может, потому что это фактически удар по самому себе. Расписка в том, что он не может. Какой тут выбор? Между чем и чем? Педагоги конца XIX века строили систему образования как систему, противостоящую этому механизму жесткого «тащения», вовлечения человека в деятельность и в мышление. Они зафиксировали фактор генезиса. Объективировали его в идее развития человека. Начиная с Коменского эта линия приобретает очень мощное звучание. И попробовали построить альтернативную структуру, в которой человек мог бы выйти из совокупности общественных отношений и проходить некоторые ситуации, которые характерны для данной общественной структуры, уже не принудительно, а как бы двигаться по определенному пути. В идее закрытой школы человек объективирует и свой опыт тоже, поскольку он четко понимает, что человек полностью вовлечен во все это. И сколько бы не выдумывал и не выпендривался, машина работает. Поэтому вся педагогика есть в определенном смысле рефлексия жизни и рефлексия факта вовлеченности. А поэтому введение генетического фактора и попытка спроектировать последовательность ситуаций, которые должен пройти человек. Но параллельно осознается и другой факт, что сколько бы мы всего этого не проектировали, человека все равно протаскивает по этим ситуациям. А есть еще улица? Есть современное производство, которое втаскивает человека в систему разделения труда и заинтересовано только в его рабочей части. И между этикой и теорией деятельности, этикой и теорией мышления возникает парадокс, который очень хорошо обсуждали — о мышлении и деятельности в тех или иных их формах к вопросам этики и самоопределения и задать вопрос: Что это означает? Если человек начинает размышлять о человеке и отказывается от идеи «стоп-описаний» (фиксирующих срез, то, что есть сегодня), то он выходит в область проектов человека и проект человека коллективной мыследеятельности, выводится из ситуации описанных парадоксов. И является ответом системомыследеятельностного проекта на эту сумму парадоксов, попыткой сочленить принудительность развертывания деятельности и свободу. Можно было бы, например, сказать: только в коллективной мыследеятельности человек свободен. Или, вернее, так: только в коллективной мыследеятельности он может быть свободен. А свободен он или не свободен, это уже другой вопрос и все эти структуры бытийствования человека и его впаянность в деятельность, в группу, в класс и во все остальные социальные структуры, его растворение в них — есть лишь эффекты того, что определенным образом работает знание, и того когда знание не создает никакой поддержки тому, что мы называем человеком в силу наличия структур современной коммуникации и доступности знаний и коммуникации как факторе демократизации: не всякое знание, будучи запущено в структуры массовой коммуникации, производит сдвиг в сторону демократизации. Только строго определенное знание. Поскольку предметное знание не демократизирует, а наоборот. Оно дробит на профессиональные сферы по принципу включённости, групповой сплоченности и даже профессиональное мышление, предоставленное нам иезуитским орденом (в качестве наследства и возможности сохраниться в условиях церковной иерархии), — даже оно сегодня фактически демонтировано и расплавлено в процессах групповой включённости человека, в которых он с большей радостью предпочитает отказаться от человеческого существования и стать элементом деятельности, элементом группы, а кто хочет быть человеком? И выяснится, что по этому параметру сразу же пойдет разграничительная линия, ибо людьми быть не хотят. Почему? Сытые, не нужно мыслить.(с)
Проблемы, стоящие перед Reinforcement Learning
Обучение с подкреплением, хотя и имеет высокий потенциал, может быть трудным для развертывания и, к сожалению, остается ограниченным в применении. Одно из препятствий для развертывания этой сферы машинного обучения – это зависимость от исследования окружающей среды.
К примеру, если вы развернули робота, который применяет обучение с подкреплением для навигации в окружающей среде, то он будет искать новые состояния и предпринимать различные действия во время движения. Однако сложно последовательно предпринимать наилучшие действия из-за частых изменений в окружающей среде. Так, если вы задали роботу environment (окружающую среду) в виде вашего дома, то после перестановки предметов или мебели ваше устройство придется полностью адаптировать к новым условиям.
Время, необходимое для правильного обучения с помощью reinforcement learning может ограничить его полезность и потребовать значительных вычислительных ресурсов. По мере того как среда обучения становится более сложной, растут и требования ко времени и вычислительным ресурсам. Именно эти проблемы специалистам в области обучения с подкреплением предстоит решить в ближайшем будущем.