REFORÇO POSITIVO FORMAÇÃO: SOMANDO AS VANTAGENS E OS PONTOS NEGATIVOS

O reforço positivo não é só para cães – ele também pode aplicar-se a treinar cavalos. Saiba como fazer o seu cavalo quer trabalhar para você.

 

 

Wendy Bancroft foto

 

No meu último artigo, “Equitação Science” na edição de novembro / dezembro de Horse-Canadá, eu discuti o papel predominante do reforço negativo no treinamento do cavalo, e como podemos fazer um trabalho melhor. Aqui, eu vou considerar os princípios subjacentes de reforço positivo, e onde ele poderia desempenhar um papel mais importante em nossas interações com cavalos. Mas, primeiro, vamos voltar e considerar por que o reforço negativo veio a ser o esteio do treinamento do cavalo.

 

 

 

PORQUE reforço negativo?

Na formação de cavalos para realizar, na maior parte dos comportamentos que procuram, que aplicam pressão (um evento levemente aversiva), e quando o cavalo oferece a resposta desejada, que relaxar a pressão. Como animais de presa, os cavalos são particularmente motivados para escapar eventos aversivos.Isso os torna evolutivamente programado para cumprir as exigências de um cavaleiro para evitar o desconforto da pressão de bit, perna, esporão, ou assento. Reforço negativo, que premia o comportamento desejado, removendo essa pressão, forma a base do controle central para que monta um cavalo sob a sela(McGreevy, 2010).

 

 

 

 

POR QUE NÃO reforço positivo?

O reforço positivo tem sido pouco utilizado, em primeiro lugar, porque equitação montado torna difícil oferecer uma recompensa de alimentos da parte traseira de um cavalo sem interromper o próprio comportamento que você quer recompensar. Em segundo lugar, os formadores são geralmente vago sobre o que o reforço positivo é, ou como implementá-lo. Um estudo feito por dois especialistas em comportamento de eqüinos – Natalie Warren-Smith e Paul McGreevy (2008) – dos melhores treinadores de cavalos Nova Zelândia descobriu que a maioria dos treinadores erroneamente acreditava que a liberação de pressão após uma resposta desejada foi o reforço positivo. Em terceiro lugar, algumas pessoas vêem depreciativamente recompensas do alimento e têm uma idéia errada de que os cavalos que são deleites alimentado por mão se tornará nippy e agressivo.

 

 

 

PORQUE reforço positivo?

Há um crescente corpo de pesquisas que sugerem um papel para o reforço positivo no treinamento do cavalo contemporânea. O uso do “reforçador secundário” (mais sobre isso depois) contorna o problema de como usar reforço positivo sob a sela. Há uma riqueza de informações disponíveis para formadores e amadores que oferecem guias passo a passo-a para treinamento de reforço positivo.

 

 

Além disso, não há nenhuma evidência para sugerir que a tendência do cavalo para morder aumenta com a utilização de um reforço positivo (Hockenhull & Creighton, 2010). Pelo contrário, se o cavalo nunca é reforçada por comportamentos dos assaltos “(tais como a procura de roupas ou agarrando para deleites), o reforço positivo pode servir para eliminar esses comportamentos em vez de induzi-los.

 

 

Finalmente, a pesquisa indica que há muito mais espaço para o uso de reforço positivo do que nós empregamos atualmente. Estudos têm mostrado que, embora a maioria dos cavalos, independentemente do método de treinamento, aprender a tarefa dentro do prazo exigido, cavalos reforçadas positivamente geralmente aprendem as tarefas mais rapidamente, reter as tarefas aprendidas mais, experimentar menos stress, reagir aos seres humanos de forma mais positiva e são capazes para generalizar esta formação através formadores, novas tarefas, e durante longos períodos de tempo.

 

Em 2010, por exemplo, o Dr. Carol Sankey, um pesquisador no comportamento dos equídeos na França, treinou 21 pôneis de um ano para fazer backup usando o reforço positivo ou negativo.Sankey descobriram que os pôneis reforçadas positivamente aprendeu a fazer o backup de forma mais rápida, sentiram menos stress e eram mais propensos a responder agradavelmente ao seu treinador e para um recém-chegado oito meses depois, que eram pôneis reforçados negativamente. Curiosamente, pela terceira sessão, pôneis reforçados negativamente, mostrou níveis de estresse elevados imediatamente após entrar na área de formação e antes do treinamento, na verdade, começou.

 

 

Vários estudos comparando o reforço positivo e negativo para treinar animais de um ano de preparação, alinhavando-se e longo forro, para treinar cavalos com graves histórias de reboque de carga, ou trabalhar com cavalos de resgate para aproximar objetos assustadores relatar resultados semelhantes.

 

COMO TREINAR COM REFORÇO POSITIVO: treinamento de Clicker

O treinamento de Clicker é sem dúvida o método mais eficaz de usar reforço positivo para treinar animais. O clicker é simplesmente um pequeno dispositivo de mão de plástico, projetado para fazer um clique distinto quando uma mola de metal é pressionado e liberado. Ao usar o condicionamento clássico para emparelhar o som do clicker seguido por uma recompensa alimentar, o cavalo vem a entender que o clique significa que as coisas boas vão acontecer. Em aprender linguagem, criamos uma associação entre um reforçador primário e secundário.

 

 

Reforçadores primários são inerentemente premiar, como alimentos, água, sexo e companheirismo, porque eles são fundamentais para nossa sobrevivência. Reforçadores primários são inerentemente premiar, como alimentos, água, sexo e companheirismo, porque eles são fundamentais para nossa sobrevivência. Reforçadores secundários atingir o seu valor ao ser combinado com um ou mais destes reforçadores primários. O dinheiro, por exemplo, é um reforçador secundário porque tem vindo a ser associado com muitas coisas que são inerentemente gratificante. Na verdade, esta associação é tão forte que o dinheiro está a reforçar por si só. Basta ver e segurando uma nota de $ 100 se sente bem. Da mesma forma, o som do clicker que tem sido repetidamente emparelhado com um alimento (ou outro saliente) recompensa começa a se sentir bem para nossos cavalos porque aprenderam que algo de bom vai seguir.

 

Aprender teoria também nos diz que para fazer um comportamento que é mais provável para ficar (ou “resistente à extinção ‘), um programa de reforço aleatório e intermitente é o melhor. Pense na sua resposta a uma máquina de coque que lhe dá um pop sempre que você inserir dinheiro, em comparação com a sua resposta a uma slot machine que oferece uma grande recompensa, imprevisível e com pouca freqüência (conhecido como um “esquema de razão variável ‘no condicionamento operante). Nós não nos tornamos viciados em máquinas de coque. Na verdade, quando eles nos decepcionou, nós desistir de usá-los por completo. Assim, para ensinar um comportamento, é preciso recompensá-lo cada vez que o comportamento é realizada. Para manter esse comportamento, precisamos nos mover em direção a reforçar o comportamento só uma parte do tempo e, aleatoriamente, de preferência quando temos a melhor execução desse comportamento.

Quando eu devo usar treinamento de Clicker?

Considere um cavalo que aparece de pé, no corredor sem estar vinculado, é calmo e dócil para todos os procedimentos veterinários e ferrador, abaixa a cabeça, tolera recorte, ou cargas facilmente em um trailer. Talvez o seu cavalo faz todas estas coisas já; ainda há um lugar para treinar com reforço positivo.

Estabelecer boas maneiras terrestres
princípios reforço positivo pode ser generalizada para qualquer comportamento que gostaríamos de ver mais vezes. Por exemplo, se você quer ensinar seu cavalo para ficar sem ser amarrado, comece por recompensando-o para estar ao seu lado sem se mover por cinco segundos. Em seguida, recuar um passo, e tê-lo repousar durante cinco segundos, seguido de um clique e recompensa. Em seguida, recuar dois passos, aguarde cinco segundos e clique e recompensa. Aos poucos, estender o tempo que você quer que seu cavalo para ficar e aumentar a sua distância dele, introduzindo apenas uma alteração em cada progressão (distância ou tempo).

 

Superar Fobias e Reabilitação
reforço positivo pode ser usado para criar novas histórias de reforço para reabilitar cavalos com problemas de comportamento ou fobias. Um cavalo que está com medo de clippers, por exemplo, pode ser gradualmente condicionados a tolerar o objeto temido por pequenos incrementos gratificantes de o comportamento que nós queremos ver. Ele pode ser inicialmente recompensado por em pé, parado quando o Clippers estão em execução, mas suficientemente longe para que ele não oferece nenhuma reação. Aos poucos, o cavalo pode ser movido um passo mais perto para o Clippers, seguido de um clique e recompensa, em seguida, mais um passo, um clique e recompensa, e assim por diante. Eventualmente, você pode pegar a tesoura e executar a mão segurando-os sobre o ombro do cavalo e, finalmente, o Clippers-se sobre o rosto do cavalo.

 

A mecânica de treinamento de Clicker

Enquanto um detalhado ‘como fazer’ da formação clicker está além do escopo deste artigo, eu recomendo uma visita ao site da Shawna Karrasch para uma análise mais detalhada. Seu livro, você pode treinar seu cavalo para fazer qualquer coisa!, E acompanha de vídeo, oferece um programa excelente, simples que não requer experiência anterior ou experiência profissional. Outros treinadores que aplicaram esta técnica particularmente eficaz com cavalos incluem Alexandra Kurland, e Karen Pryor (verificar se seus sites listados no final deste artigo). Embora a abordagem de cada clínico tem algumas variações, há princípios subjacentes comuns que valem a pena discutir aqui.

 

 

 

 

 

 

O ‘Clicker’ em treinamento de Clicker
O termo “formação clicker” é enganosa, porque coloca a ênfase no próprio clicker. Na verdade, qualquer estímulo sonoro distinto (manipuladores zoo costumam usar apitos, por exemplo) pode tornar-se um reforçador secundário, desde que seja previsivelmente emparelhado com um reforçador primário. Se, por exemplo, você disse várias vezes que a palavra «Espargos» seguido de forma confiável por uma recompensa alimentar, a palavra “espargos” viria a ter significado e valor, e trabalhar como um reforçador secundário satisfatória para marcar o comportamento desejado. O clicker é eficaz porque o som é distintivo e romance. O cavalo não tem idéias anteriores sobre as consequências deste som, para que possamos construir uma história de reforço forte desde o início. As palavras “bom menino”, por outro lado, provavelmente não ter previsto com fiabilidade uma recompensa alimentar no passado, e assim perderam o seu impacto.

 

Construindo a Ponte: A associação entre a Click and Reward
Karrasch (2000) esboça uma primeira sessão que ensina o cavalo a associação entre o reforçador primário (alimentos) e o reforçador secundário (o som do clique), ao mesmo tempo, treiná-lo para manter-se longe do balde deleite. Ela chama o clique no ‘sinal de ponte, “uma vez que preenche a lacuna entre o comportamento exato que você está recompensando e da administração da recompensa. Karrasch sugere cronometrando o clique e recompensar a seguir qualquer comportamento que mostra uma inclinação de distância do balde deleite. Isso pode começar com um movimento muito pequeno, mesmo o movimento dos olhos. Para começar, pode ser necessário para empurrar o seu cavalo de distância, seguido de um clique e recompensa. Surpreendentemente rapidamente (geralmente dentro da primeira ou segunda sessão de cinco minutos) o cavalo aprendeu que a) que um clique significa coisas boas vão acontecer; e b) que ficar longe do balde de alimentação resultará em uma recompensa alimentar, e que os comportamentos assaltos não.

 

Formação alvo
Uma vez que a associação está firmemente estabelecida, muitos treinadores, então, ensinar o cavalo a tocar um alvo de mão (um objeto visível, como uma pequena bola de borracha fixada na extremidade de um passador de madeira). Você pode começar por reforçar o seu cavalo para bater no alvo (ou olhando ou farejando), e, em seguida, movendo-se gradualmente o alvo mais longe, para cima ou para baixo, e acabou recebendo o cavalo para dar um passo em direção a um alvo, depois dois, em seguida, três, e assim por diante. O alvo pode então ser usada para guiar o cavalo em direções diferentes (como fazer backup, movendo-se de lado, ou na sequência de você). Você também pode treinar o seu cavalo para me afastar de você (clicando e recompensando um passo de cada vez) para tocar um alvo fixo em um local diferente. Esta técnica de treinamento é a base de ensinar um cavalo a andar em um trailer, e é surpreendentemente eficaz, mesmo para os cavalos com uma história prévia de ser “unloadable ‘(Hendrickson et al., 2008).

 

Trabalhando com o Clicker Under Saddle
Embora seja relativamente simples para oferecer uma recompensa de alimentos imediatamente após um comportamento desejado, enquanto trabalhava com seu cavalo no chão, isso se torna mais complicado quando em sua volta. Na verdade, você estava para recompensar um comportamento desejado sob a sela ao descer para a frente para oferecer uma cenoura, o comportamento que você provavelmente ver mais de, no futuro, seria o seu cavalo a abrandar e virar a cabeça, uma vez que este é o comportamento que precedeu imediatamente a recompensa.

Com o treinamento do clicker, você pode “marca” o comportamento exato que você quer recompensar. Como a associação se torna mais forte ea resposta mais confiável, você pode gradualmente aumentar o tempo entre o clique ea recompensa alimentar. Este será o seu objetivo final ao trabalhar sob a sela. Lembre-se, que com o tempo e consistência, o próprio clique começa a se sentir bem (como dinheiro), por isso torna-se menos essencial que a recompensa siga imediatamente.

 

 

O treinamento de Clicker foi usado com sucesso para ensinar movimentos dressage mais elevados (como piaffe e passagem) na primeira-mão e, em seguida, transferir esse conhecimento para trabalhar sob a sela com o clicker (McGreevy & McLean, 2010). Karrasch trabalhou de forma muito eficaz com Beezie e John Madden para ajudar a top jumper de show, Julgamento, superar seu medo de obstáculos de água por treiná-lo para responder ao clicker e sistematicamente clicando e recompensando mais perto e abordagens mais próximas e, eventualmente, sobre o salto.

 

 

 

 

 

Dando forma: a pedra angular do treinamento de Clicker
Ao longo de todos estes exemplos, vemos que ‘moldar’ constitui a base de toda a formação clicker. Alguns comportamentos ocorrer espontaneamente e pode ser recompensado imediatamente após sua ocorrência. Para treinar o seu cavalo de urinar no comando, por exemplo, simplesmente esperar que esse comportamento ocorra (previsivelmente após um passeio ou vindo do paddock para uma tenda do recém-camas), nomeia-o, dando um comando consistente verbal, em seguida, clique e recompensa . Essa associação repetiu acabará por levar a seu cavalo executar o comportamento na hora, dentro de um contexto consistente, como uma tenda do recém-camas. A maioria dos comportamentos que queremos cavalos para executar não fizer isso, no entanto, ocorrer por si só, por isso usamos os princípios de moldar para recompensar aproximações cada vez mais perto do eventual comportamento que nós queremos ver.

Karrash enfatiza a necessidade de “definir o cavalo se para o sucesso, ‘fazendo incrementos modelar suficientemente pequena para que o cavalo pode ter sucesso facilmente. Desta forma, nós fornecemos mais oportunidades para reforçar a resposta desejada, minimizar a confusão, reduzindo ou eliminando a resposta errada, e confiantemente estabelecer o novo comportamento de forma mais rápida e eficiente.

 

 

Karen Pryor descreve ’10 Leis de Shaping “, como segue:

1. Critérios de aumento de pequenos incrementos o suficiente para que o assunto sempre tem uma chance real de reforço.

2. Trem de qualquer um aspecto particular, o comportamento de cada vez. Não tente moldar por dois critérios simultaneamente.

 

3. Durante a formação, colocou o atual nível de resposta em um esquema de razão variável de reforço antes de acrescentar ou aperfeiçoar os critérios.

4. Quando a introdução de um novo critério, ou aspecto da habilidade comportamental, relaxar temporariamente os antigos.

5. Fique à frente do seu assunto: Planeje seu programa de formação completamente de modo que se o assunto progride repente, você está ciente do que para reforçar seguinte.

6. Não altere os formadores no meio do caminho. Você pode ter vários treinadores por estagiário, mas ater a um shaper por comportamento.

 

7. Se um procedimento de modelagem não está provocando progresso, encontrar um outro. Existem tantas maneiras de obter o comportamento como há treinadores a pensar-los.

8. Não interrompa uma sessão de treinamento gratuitamente; que constitui um castigo.

 

9. Se o comportamento se deteriora, “De volta para o jardim de infância.” Rapidamente rever todo o processo de formação com uma série de reforços facilmente ganhos.

10. Fim cada sessão com uma nota alta, se possível, mas em qualquer caso, sair enquanto estiver à frente.

~ From o Capítulo 2 do Do not Shoot the Dog por Karen Pryor

 

Os aspectos positivos do reforço positivo

Ao treinar com o reforço negativo, o nosso tempo precisa ser impecável para que o lançamento vem no momento exato em que o cavalo tem realizado o comportamento desejado. Amadores, muitas vezes não possuem esta época, por isso, inadvertidamente, punir seus cavalos para a realização dos mesmos comportamentos que eles estavam procurando recompensar. E, amadores e profissionais, em seus esforços para alcançar um melhor desempenho, pode sustentar a pressão mais do que é confortável ou produtivo. Com o reforço positivo não há nenhuma desvantagem ao mau tempo, ou a administração não qualificada. Pode levar mais tempo para o cavalo para compreender a associação que você está tentando fazer, mas é improvável que você veja comportamento agonístico ou perigosos (como morder, chutar, bucking, ou parafusos) que muitas vezes resultam de entrega com defeito de reforço negativo.

 

 

 

 

O mais esmagadora sobre o treinamento do clicker, no entanto, se tornará facilmente evidente após apenas algumas sessões. Sua recompensa é ver o seu cavalo antecipar seu trabalho com entusiasmo, respondem com entusiasmo, o que lhe permite ganhar uma compreensão mais profunda e relacionamento mais próximo com ele. Na verdade, ela nos permite conectar a um nível ainda mais profundo para o espírito enorme e generoso do cavalo que nos mantém de sair para o estábulo todos os dias do ano.

 

 

Quatro quadrantes do condicionamento operante

O condicionamento operante, introduzido pela primeira vez por Edward Thorndyke e refinada por BF Skinner, é assim chamado porque o organismo opera em seu ambiente com base nas consequências.

Reforço refere-se a um evento ou estímulo que serve para reforçar o comportamento que a ela conduziu. Os reforços podem ser tanto positiva como negativa; tanto servem para tornar o comportamento anterior mais provável de ocorrer no futuro. Muitas vezes, pensamos em negativo e positivo no sentido moral do bem e do mal, e isso é onde grande parte da confusão reside em fazer sentido de linguagem de aprendizagem. Em vez disso, negativo refere-se a tirar algo, e positivo refere-se a acrescentar algo.

 

 

 

 

 

Reforço positivo ocorre quando um comportamento é reforçada porque é seguida pela apresentação de um estímulo gratificante.

Reforço negativo ocorre quando um comportamento é reforçada porque é seguido pela remoção de um estímulo aversivo ou desagradável.

Castigo refere-se a um evento ou estímulo que serve para diminuir a frequência de um comportamento – mais tipicamente um comportamento indesejado. Punições também pode ser tanto positivo quanto negativo.

 

Punição positiva, em seguida, é a administração de um estímulo desagradável, a fim de reduzir ou parar um comportamento indesejado.

 

Punição negativa refere-se à remoção de um estímulo desejado, a fim de reduzir ou parar e o comportamento indesejado.

 

Publicado Horse-Canadá 

Escrito por: Antonia Henderson

 

Escreva um Comentário

Please enter your comment!
Please enter your name here