Wat is machinale conditionering en hoe werkt het?

Operante conditionering (soms ook wel instrumentele conditionering genoemd) is een leermethode die ontstaat door beloningen en straffen voor gedrag. Via operante conditionering wordt een verband gelegd tussen een gedrag en een gevolg voor dat gedrag.

Als een labyrint bijvoorbeeld op een blauwe knop drukt, ontvangt hij een voedselpellet als beloning, maar als hij op de rode knop drukt, krijgt hij een lichte elektrische schok. Als gevolg hiervan leert hij op de blauwe knop te drukken maar de rode knop te ontwijken.

Maar operante conditionering is niet alleen iets dat plaatsvindt in experimentele omgevingen tijdens het trainen van proefdieren; het speelt ook een krachtige rol in het dagelijks leren. Versterking en straf vinden bijna elke dag plaats in natuurlijke omgevingen en in meer gestructureerde omgevingen zoals de klas of therapiesessies.

Laten we eens nader bekijken hoe operante conditionering werd ontdekt, welke impact dit had op psychologie, en hoe het wordt gebruikt om oud gedrag te veranderen en nieuwe te leren.

De geschiedenis van operante conditionering

Operante conditionering werd bedacht door behaviorist B.F. Skinner, daarom kun je het af en toe horen spreken van Skinneriaanse conditionering. Als behaviorist geloofde Skinner dat het niet echt nodig was om naar interne gedachten en motivaties te kijken om gedrag te verklaren. In plaats daarvan, zo stelde hij, zouden we alleen naar de externe, waarneembare oorzaken van menselijk gedrag moeten kijken.

In het eerste deel van de 20e eeuw was behaviorisme een belangrijke kracht binnen de psychologie geworden. De ideeën van John B. Watson domineerden deze school van denken al vroeg. Watson concentreerde zich op de principes van klassieke conditionering, eens beroemd suggererend dat hij elke persoon kon nemen, ongeacht hun achtergrond, en hen trainde om alles te zijn wat hij koos.

Waar de vroege behavioristen hun interesses hadden gericht op associatief leren, was Skinner meer geïnteresseerd in hoe het gevolgen van de acties van mensen beïnvloedde hun gedrag.

Skinner gebruikte de term operante om te verwijzen naar "actief gedrag dat werkt op de omgeving om consequenties te genereren". Met andere woorden, de theorie van Skinner legde uit hoe we het bereik van aangeleerd gedrag dat we dagelijks tentoonstellen, verwerven.

Zijn theorie werd sterk beïnvloed door het werk van psycholoog Edward Thorndike, die had voorgesteld wat hij de wet van het effect noemde. Volgens dit principe is het waarschijnlijker dat acties die worden gevolgd door gewenste resultaten vaker worden herhaald, terwijl acties die worden gevolgd door ongewenste resultaten waarschijnlijk minder vaak worden herhaald.

Operante conditionering is gebaseerd op een vrij eenvoudig uitgangspunt - acties die worden gevolgd door versterking zullen worden versterkt en zullen in de toekomst waarschijnlijk vaker voorkomen. Als je in de klas een grappig verhaal vertelt en iedereen lacht, zul je waarschijnlijk eerder dat verhaal in de toekomst vertellen. Als je je hand opsteekt om een vraag te stellen en je leraar je beleefde gedrag prijst, zul je eerder de hand opsteken wanneer je een vraag of opmerking hebt. Omdat het gedrag werd gevolgd door versterking of een wenselijk resultaat, worden de voorgaande acties versterkt.

Omgekeerd zullen acties die resulteren in straf of ongewenste gevolgen verzwakt zijn en minder waarschijnlijk in de toekomst opnieuw optreden. Als je hetzelfde verhaal in een andere klas opnieuw vertelt, maar niemand lacht dit keer, zul je het verhaal in de toekomst waarschijnlijk minder vaak herhalen. Als je een antwoord in de klas schreeuwt en je leraar je uitscheldt, loop je de kans dat je de klas weer onderbreekt waarschijnlijk minder goed.

Soorten gedrag

Skinner onderscheidde twee verschillende soorten gedrag

Gedrag van respondenten zijn diegene die automatisch en reflexief plaatsvinden, zoals je hand terugtrekken van een hete kachel of je been schokken wanneer de dokter op je knie tikt. Je hoeft dit gedrag niet te leren, ze komen eenvoudigweg automatisch en onwillekeurig voor.
Gedrag van de operator, aan de andere kant zijn diegenen onder onze bewuste controle. Sommige kunnen spontaan en anderen opzettelijk voorkomen, maar het zijn de gevolgen van deze acties die dan van invloed zijn of ze in de toekomst al dan niet plaatsvinden. Onze acties met betrekking tot het milieu en de gevolgen van die actie vormen een belangrijk onderdeel van het leerproces.

Terwijl klassieke conditionering gedrag van respondenten kon verklaren, realiseerde Skinner zich dat het niet veel leerproces kon verklaren. In plaats daarvan stelde Skinner voor dat operante conditionering veel belangrijker was.

Skinner bedacht verschillende apparaten tijdens zijn jeugd en hij zette deze vaardigheden aan het werk tijdens zijn studies naar operante conditionering.

Hij creëerde een apparaat dat bekend staat als een operante conditioneringskamer, tegenwoordig het meest aangeduid als een Skinner-box. De kamer was in wezen een doos die een klein dier, zoals een rat of een duif, kon vasthouden. De doos bevatte ook een bar of sleutel die het dier kon indrukken om een beloning te ontvangen.

Om reacties te volgen, ontwikkelde Skinner ook een apparaat dat bekend staat als een cumulatieve recorder. Het apparaat nam de reacties op als een opwaartse beweging van een lijn, zodat de responsratio's konden worden afgelezen door naar de helling van de lijn te kijken.

Componenten van Operante Conditionering

Er zijn verschillende sleutelbegrippen bij operante conditionering.

Versterking bij operante conditionering

Versterking is elke gebeurtenis die het gedrag dat erop volgt versterkt of verhoogt. Er zijn twee soorten versterkingen:

Positieve versterkers zijn gunstige gebeurtenissen of resultaten die na het gedrag worden gepresenteerd. In situaties die positieve versterking weerspiegelen, wordt een reactie of gedrag versterkt door de toevoeging van iets, zoals lof of een directe beloning. Bijvoorbeeld als u goed werk verricht op het werk en uw manager u een bonus geeft.
Negatieve versterkingen betrekking hebben op het verwijderen van ongunstige gebeurtenissen of uitkomsten na het vertonen van een gedrag. In deze situaties wordt een reactie versterkt door het verwijderen van iets dat als onaangenaam wordt beschouwd. Bijvoorbeeld, als je kind begint te gillen in het midden van de supermarkt, maar stopt zodra je hem een traktatie geeft, zal je hem de volgende keer dat hij begint te gillen een grotere traktatie geven. Je actie leidde tot het verwijderen van de onaangename toestand (het kind schreeuwde), waardoor je gedrag negatief werd versterkt.

In beide gevallen van wapening neemt het gedrag toe.

Versterking in conditioneringsgedrag

Straf in operante conditionering

Straf is de presentatie van een ongunstige gebeurtenis of uitkomst die een afname in het gedrag dat volgt. Er zijn twee soorten straf:

Positieve straf, soms aangeduid als straf door toepassing, presenteert een ongunstige gebeurtenis of uitkomst om de reactie die volgt te verzwakken. Spanking voor wangedrag is een voorbeeld van straf door toepassing.
Negatieve straf, ook bekend als straf door verwijdering, treedt op wanneer een gunstige gebeurtenis of uitkomst wordt verwijderd nadat zich een gedrag heeft voorgedaan. Een videogame wegnemen na slecht gedrag is een voorbeeld van negatieve straf.

In beide gevallen van straf neemt het gedrag af.

Straf en zijn invloed op gedrag

Versterkingsschema's

Versterking is niet noodzakelijk een eenvoudig proces en er zijn een aantal factoren die van invloed kunnen zijn op hoe snel en hoe goed nieuwe dingen worden geleerd. Skinner vond dat wanneer en hoe vaak gedrag werd versterkt speelde een rol in de snelheid en kracht van acquisitie. Met andere woorden, de timing en frequentie van de versterking beïnvloedde hoe nieuw gedrag werd geleerd en hoe oud gedrag werd gewijzigd.

Skinner heeft verschillende verschillende schema's voor wapening geïdentificeerd die van invloed zijn op het operante conditioneringsproces:

Continue versterking houdt in dat elke keer dat er een reactie plaatsvindt, een wapening wordt geleverd. Leren verloopt relatief snel, maar de respons is vrij laag. Extinctie treedt ook zeer snel op als de wapening is gestopt.
Fixed-ratio schema's zijn een soort gedeeltelijke versterking. Antwoorden worden alleen versterkt nadat een specifiek aantal antwoorden heeft plaatsgevonden. Dit leidt meestal tot een redelijk stabiele respons.
Vaste-interval schema's zijn een andere vorm van gedeeltelijke versterking. Wapening treedt pas op nadat een bepaald tijdsinterval is verstreken. Responspercentages blijven redelijk stabiel en beginnen te stijgen naarmate de versterkingstijd nadert, maar langzaam nadat de wapening is toegediend.
Variabele verhoudingsschema's zijn ook een soort gedeeltelijke versterking waarbij sprake is van versterkingsgedrag na een gevarieerd aantal antwoorden. Dit leidt tot zowel een hoge responsratio als een langzame uitstervingssnelheid.
Variabele intervalschema's zijn de laatste vorm van gedeeltelijke versterking die Skinner beschrijft. Dit schema omvat het leveren van versterking nadat een variabele hoeveelheid tijd is verstreken. Dit heeft ook de neiging om te leiden tot een snel responspercentage en een langzame uitdovingssnelheid.

Versterkingsschema's en hoe ze werken

Voorbeelden van Operante conditionering

We kunnen voorbeelden van operante conditionering op het werk overal om ons heen vinden. Denk aan het geval dat kinderen huiswerk maken om een beloning van een ouder of leraar te verdienen, of werknemers die projecten afronden om lof of promoties te ontvangen.

Nog enkele voorbeelden van operante conditionering in actie:

Als je kind tijdens een dagje winkelen handelt, kan je hem trakteren op stilte. Omdat je het wangedrag positief hebt versterkt, zal hij waarschijnlijk in de toekomst waarschijnlijk meer acteren om een nieuwe traktatie te krijgen.
Na het uitvoeren van een gemeenschapstheater, ontvangt u applaus van het publiek. Dit werkt als een positieve versterker die je inspireert om uit te proberen voor meer speelrollen.
Je traint je hond om te halen door hem lof en een schouderklopje te geven wanneer hij het gedrag correct uitvoert.
Een professor vertelt de studenten dat als ze het hele semester volmaakt aanwezig zijn, ze het laatste uitgebreide examen niet hoeven af te leggen. Door het verwijderen van een onaangename stimulus (de laatste toets) worden studenten negatief bekrachtigd om regelmatig naar de les te gaan.
Als je een project niet op tijd inlevert, wordt je baas boos en berispt je je prestaties voor je collega's. Dit werkt als een positieve straffer waardoor het minder waarschijnlijk is dat je laat in de toekomst projecten zult beëindigen.

Een tienermeisje maakt haar kamer niet schoon als haar werd gevraagd, dus nemen haar ouders de rest van de dag haar telefoon mee. Dit is een voorbeeld van een negatieve straf waarbij een positieve stimulus wordt weggenomen.

In sommige van deze voorbeelden veroorzaakt de belofte of mogelijkheid van beloningen een toename in gedrag, maar operante conditionering kan ook worden gebruikt om een gedrag te verminderen. Het verwijderen van een gewenst resultaat of een negatieve uitkomstapplicatie kan worden gebruikt om ongewenst gedrag te verminderen of te voorkomen. Een kind kan bijvoorbeeld te horen krijgen dat het de recessievoorrechten verliest als hij tijdens de les uit zijn beurt praat. Dit potentieel voor straf kan leiden tot een afname van storend gedrag.

Een woord van heel goed

Hoewel het behaviorisme mogelijk een groot deel van de dominantie in het begin van de 20e eeuw heeft verloren, blijft operante conditionering een belangrijk en vaak gebruikt hulpmiddel in het leer- en gedragsmodificatieproces. Soms leiden natuurlijke gevolgen tot veranderingen in ons gedrag. In andere gevallen kunnen beloningen en straffen bewust worden uitgedeeld om een verandering te creëren.

Operante conditionering is iets dat je in je eigen leven misschien meteen herkent, of het nu in je benadering is om je kinderen goed gedrag te leren of in het trainen van de huishond om te stoppen met kauwen op je favoriete slippers. Het belangrijkste om te onthouden is dat het bij elke vorm van leren soms even kan duren. Overweeg welk type versterking of bestraffing het beste is voor uw unieke situatie en bepaal welk type versterkingsschema kan leiden tot de beste resultaten.