Operante

O conceito de “Condicionamento Operante” foi criado pelo escritor e psicólogo Burrhus Frederic Skinner. Este refere-se ao procedimento através do qual é modelada uma resposta no organismo através de reforço diferencial e aproximações sucessivas. É onde a resposta gera uma consequência e esta consequência afeta a sua probabilidade de ocorrer novamente; se a consequência for reforçadora, aumenta a probabilidade, se for punitiva, além de diminuir a probabilidade de sua ocorrência futura, gera outros efeitos colaterais. Este tipo de comportamento que tem como consequência um estímulo que afete sua frequência é chamado “Comportamento Operante”.

O conceito de Comportamento Operante difere do conceito de Comportamento respondente, estudado por Pavlov, porque o primeiro ocorre em um determinado contexto, chamado estímulo discriminativo, e gera um estímulo que afeta a probabilidade dele ocorrer novamente; o segundo é diretamente eliciado por algum estímulo e é uma reação fisiológica do organismo. Uma resposta fisiológica a um estímulo, como fechar o olho diante de algo que se aproxima dele, retirar o braço diante de uma agulhada, etc.

O comportamento operante é modelado a partir de nosso repertório inato. As respostas que gerem mais reforço em média, tendem a aumentar de frequência e se estabelecer no repertório, ou seja, em um contexto semelhante tendem a ser novamente emitidas. O tipo de consequência que aumenta a probabilidade de ocorrência da mesma função de resposta em contextos semelhantes, chama-se reforço. O reforço pode ser positivo, quando há a adição de um estímulo no ambiente que resulte no aumento da frequência da resposta que o gerou; ou negativo, quando a resposta emitida remove algum estímulo aversivo, ou seja, que a pessoa tende a evitar, do ambiente.

Os contextos onde existe probabilidade de uma determinada resposta ser reforçada são chamados estímulos discriminativos, ou SD; os contextos onde não existe a probabilidade da resposta ser reforçada, são chamados estímulos delta, ou S∆.

Lei do Efeito de Thorndike

O condicionamento operante, também chamado de condicionamento instrumental ou aprendizagem instrumental foi primeiramente estudado por Edward L. Thorndike (1874-1949), que observou o comportamento de gatos tentando escapar de “caixas problemas”. Na primeira vez que os gatos eram colocados nas caixas, eles demoravam bastante tempo para escapar delas. Mas, com o passar do tempo, as respostas ineficientes foram diminuindo de frequência, e as respostas mais efetivas aumentavam de frequência, e os gatos agora conseguiam escapar em menos tempo e com menos tentativas. Em sua Lei do Efeito, Thorndike teorizou que as respostas que produziam consequências mais satisfatórias, foram “escolhidas” pela experiência e portanto, aumentaram de frequência. Algumas consequências reforçavam o comportamento, outras enfraqueciam-no”. Thorndike produziu a primeira curva de aprendizagem com este procedimento. B. F. Skinner (1904-1990)formulou uma análise mais detalhada do condicionamento operante utilizando de conceitos como reforçamento, punição e extinção. Seguindo as idéias de Ernst Mach, Skinner rejeitou as estruturas mediadores de Thorndike requeridas pela “satisfação” e construiu um novo conceito de comportamento sem a utilização de tais referências.

Princípios do Reforço

É importante ressaltar, que reforço, ao contrário do que pode pensar o senso comum, não é uma simples recompensa. Para B. F. Skinner, reforço, pode ser qualquer evento que aumenta a frequência de uma reação precedente. Um reforço pode ser uma recompensa tangível. Pode ser um elogio ou uma atenção. Ou pode ser uma atividade, como poder usar o carro depois que a louça estiver lavada, ou ter uma folga depois de uma hora de estudo.

Reforços Primários e Secundários

Os reforços primários – como receber alimento ou ser aliviado de um choque elétrico – são intrinsecamente satisfatórios. Os reforços secundários são aprendidos. Se um rato numa caixa de Skinner aprende que uma luz sinaliza de maneira confiável que a comida está chegando, ele vai se empenhar em acender a luz. Dinheiro, boas notas, são exemplos de reforços secundários, cada um das quais está ligado a recompensas mais básicas.

Reforços Imediatos e Retardados

Para ilustrar bem como funcionam esses dois tipos de reforços, pode-se usar como exemplo um experimento de moldagem em que se condiciona um rato a apertar uma barra. Antes de efetuar esse comportamento “desejado”, o rato faminto se empenhará numa sequência de comportamentos “indesejados” – arranhar, farejar, andar de um lado para o outro. qualquer desses comportamentos que preceda imediatamente o reforço de comida tem mais probabilidade de ocorrer de novo. Se você retarda o reforço da pressão da barra por mais 30 segundos, permitindo que outros comportamentos interfiram e sejam recompensados, não ocorrerá praticamente qualquer aprendizagem de apertar a barra.

Humanos, ao contrário de ratos, reagem a reforços bem mais retardados: o pagamento do salário no fim do mês, a nota no fim do semestre, o troféu no campeonato.

Porém, reforços pequenos, mas imediatos, são às vezes mais atraentes do que reforços grandes, mas retardados. Fumantes, alcoólatras e outros usuários de drogas podem saber que seu prazer imediato é mais do que contrabalançado pelos futuros efeitos perniciosos, mas nem por isso abandonam seu vício.

Reforço Positivo, Reforço Negativo e Punição

Existem duas formas de reforço que são: o positivo e o negativo. Ambos têm como escopo ensinar e reforçar um determinado comportamento. O indivíduo aprende qual o comportamento desejável para alcançar determinado objetivo. Já a punição reforça qual o comportamento indesejável, ou seja, que não deve ser manifestado para evitá-la.

No reforço positivo quando o comportamento desejado é alcançado um elemento de recompensa é adicionado. Para exemplificar o reforço positivo consideremos um experimento onde um rato é privado de comida. Quando este puxa determinada alavanca (comportamento desejado) é disponibilizado o alimento (elemento de recompensa). Com o passar do tempo o rato ao sentir fome irá puxar a alavanca para receber o alimento. Desta forma o indivíduo exposto ao reforço positivo aprende o comportamento adequado.

Já no reforço negativo um elemento punitivo é adicionado ao ambiente e quando o comportamento desejado é alcançado este, é retirado. Para exemplificar temos novamente um experimento com um rato onde é colocada uma corrente elétrica ligada a sua gaiola. Esta corrente provoca um desconforto ao animal (elemento punitivo). Quando puxada uma alavanca (comportamento desejado) a corrente elétrica é desligada. Neste exemplo o choque elétrico é colocado como elemento punitivo que é eliminado ao conseguir o comportamento almejado. Após algum tempo o rato associa o ato de puxar a alavanca a extinção de seu desconforto e sempre que a corrente elétrica é ligada vai direto a alavanca. Como no reforço positivo, o negativo visa que o indivíduo aprenda o comportamento adequado a determinada situação.

A punição é muitas vezes confundida com o reforço negativo pois o elemento punitivo encontra-se inserido neste. Porém, ao contrário do reforçamento negativo, o objetivo da punição é levar à extinção do comportamento, ou seja, com o passar do tempo, a probabilidade de ele ocorrer novamente diminui. O reforçamento negativo, passa a ideia de uma obrigação: um rato pode puxar uma alavanca (comportamento) para desligar uma corrente elétrica que o esteja infligindo um desconforto (reforço negativo). O reforçamente negativo, não é um evento punitivo: é a remoção de um evento punitivo. Ambos utilizam de estímulos aversivos.

As punições podem ser de dois tipos: por adição (punição positiva), quando experiências aversivas são adicionadas, ou por subtração (punição negativa), quando facilitadores do comportamento são subtraídos. Ambas as técnicas levam a aquilo que chamamos de extinção.

A punição pode acarretar uma série de problemas: esse tipo de estimulação aversiva, acarreta respostas do sistema nervoso, entendidas como ansiedade, depressão, baixa auto-estima. Além do mais, o comportamento punido não é esquecido, ele é suprimido. Pode ser que após a estimulação aversiva ter sido eliminada, o comportamento volte a ocorrer: a criança pode simplesmente aprender a não dizer palavrões em casa, mas continuar a usá-los em outros lugares.

Ela também suprime o comportamento indesejado, mas não guia a pessoa para um comportamento mais desejável. A punição diz o que não fazer, o reforço diz o que fazer. Uma punição combinada com um reforçamento positivo de comportamentos desejáveis é mais eficiente.

Em suma, a punição rápida e segura pode ser eficaz, e pode de vez em quando causar menos dor do que o comportamento autodestrutivo que suprime. Mas ele pode reaparecer, se for possível evitar a punição. Essa estimulação aversiva também pode provocar efeitos colaterais indesejáveis, como ansiedade e ensinar agressividade. Os psicólogos preferem dar mais ênfase ao reforço positivo do que à punição.

Programações de Reforço

Usando-se esquemas de reforço contínuo, a aprendizagem ocorre rapidamente, mas sem o reforço, a extinção ocorre rapidamente também. Na vida real, esquemas de reforço contínuo são raros.

Nevin, em 1988, estudou que as reações às vezes são reforçadas, às vezes não. É o que se chama de reforço parcial. A aprendizagem demora mais, no começo, mas ela é mais “resistente” à extinção. Imagine um pombo que aprendeu a bicar uma tecla para obter comida. quando o pesquisador vai suspendendo gradativamente a entrega de alimento, até que ela ocorra só de maneira rara e imprevisível, os pombos podem bicar 150.000 vezes sem recompensa. Com o reforço parcial, a esperança flui eterna (esse é o princípio do “pombo supersticioso” de Skinner). É o que ocorre por exemplo, em jogadores compulsivos, que continuam a jogar, mesmo sem nunca ganharem.

Programações de Ritmo Fixo

Reforçam o comportamento depois de um determinado número de respostas. Empregados que trabalham em fábricas que recebem por produção, são reforçados de tal maneira. quando são recompensados.

Programações de Ritmo Variável

Reforçam a primeira resposta depois de uma quantidade imprevisível de respostas. É o que ocorre com os jogadores e pescadores. A dificuldade de se extinguir tais comportamentos é de que o reforço aumenta à medida que aumentam as respostas. as programações de ritmo variável são constantes. Dependem muito de certos factores. As programações de ritmo variável são constantes. Dependem de vários factores.

Programações de Intervalos Fixos

Reforça a primeira resposta depois de um período determinado. Como pessoas que verificam a caixa de correspondência quando a hora do carteiro passar se aproxima, os pombos bicam uma tecla com mais frequência à medida que fica mais próxima a hora esperada de recompensa, produzindo um padrão inconstante de “para-começa”.

Programações de Intervalo Variável

Reforça a primeira resposta depois de intervalos de tempo variáveis. Como o questionário imprevisível que reforça o estudo, as programações de intervalo variável tendem a eliciar respostas lentas e firmes. Caso os questionários tornem-se previsíveis, os estudantes começarão a seguir o padrão de pára-começa que caracteriza as programações de intervalo fixo (em outras palavras, estudarão apenas na véspera).

O Uso dos modelos Animais

Um behaviorista utiliza o comportamento dos animais não como forma de poder estudar as particularidades que os animais possuem quanto ao seus comportamentos, mas sim, para procurar leis universais que regem o comportamento dos organismos. Para Skinner (1956), os esquemas de reforço do condicionamento operante são universais. Importa pouco, disse ele, que reação, que reforço ou que espécie você usa. O efeito de determinada programação de reforço é quase o mesmo: “Pombo, rato, macaco, o que é o quê? Não importa… O comportamento apresenta características espantosamente similares.”

Fonte: Wikipédia

You are free to comment