Ik heb dit helemaal zelf geschreven!

Bijzonder hoogleraar Text-Mining Jan Scholtes over hoe ChatGPT eigenlijk werkt, waarom het een geweldig prestatie is en waar we er misschien een beetje voorzichtig mee moeten zijn.

"Mijn studenten vonden het geweldig! We hadden de wiskunde van een vorige GPT-versie net de week ervoor behandeld, dus ze wisten precies hoe het werkt. Binnen 24 uur na de release gebruikten ze het om vragen te beantwoorden in de onderwijsgroep van mijn cursus over geavanceerde natuurlijke taalverwerking." Aldus Jan Scholtes over de release van de AI-chatbot ChatGPT afgelopen december. Scholtes is bijzonder hoogleraar Text-Mining aan de Department of Advanced Computing Sciences van de Faculty of Science and Engineering.

"ChatGPT is zo'n groot succes omdat het het eerste computationele taalmodel is dat alle kenmerken, problemen en eigenschappen van natuurlijke taal serieus neemt. Tot nu toe hebben alle modellen shortcuts genomen vanwege de complexiteit van de menselijke taal." Scholtes wijst erop dat GPT zelfs slaagde voor een concept-examen voor zijn cursus Advanced Natural Language Processing, met uitstekende cijfers.

Het transformer-model

De GPT-modellen zijn gebaseerd op Googles transformer-architectuur uit 2017. "De oorspronkelijke transformer omvat een encoder en een decoder, die zijn ontworpen om om te kunnen gaan met complexe sequence-to-sequence-patronen die zowel links als rechts contextgevoelig zijn." Dat laatste betekent dat de betekenis van een woord pas duidelijk wordt uit de context, dus de voorgaande en erop volgende woorden. Zowel de encoder als de decoder hebben verschillende lagen van self-attention. In het geval van de grote versie van GPT-3, de architectuur die voor ChatGPT wordt gebruikt, zijn dat er maar liefst 96. Daardoor kan GPT-3 omgaan met linguïstische complexiteit en fenomenen als interpunctie, morfologie, syntaxis, semantiek en meer complexe relaties.

Bij Google Translate zou dat bijvoorbeeld betekenen dat de encoder een numerieke weergave van een zin maakt en de kenmerken daarvan extraheert, en dat de decoder die kenmerken gebruikt om een outputzin – de vertaling, met andere woorden – te genereren. De decoder is getraind door grote hoeveelheden tekst in de doeltaal en voorspelt op een stochastische manier bijvoorbeeld de meest waarschijnlijke woordvolgorde van de vertaling.

De vertaling komt iteratief tot stand, dat wil zeggen woord voor woord, waarbij elke volgende suggestie voor een woord (vergelijkbaar met voorspellende tekst) van de decoder de self-attention-loops doorloopt om het niveau van ondubbelzinnigheid te verbeteren (bijvoorbeeld of een 'bank' een 'sofa' of een 'monetaire instelling' is). "Dit is in vele opzichten een fantastisch model, dat dicht bij natuurlijke taal staat, maar de volledige encoder-decoder-architectuur is te complex en vereist enorme rekenkracht. Het trainen van bijvoorbeeld Google Translate veroorzaakt meer milieuschade per gebruiker dan vleesconsumptie."

Florian Raith

Alleen maar een decoder

De oplossing? In 2019 kwam OpenAI met een decoder-only-model. Generative Pretrained Transformer (GPT) kon antwoorden genereren op basis van een eenvoudige prompt. Generative pretraining verwijst naar autonome machinelearning, dat wil zeggen dat het model wordt gevoed met enorme datasets om te bepalen wat het meest waarschijnlijke volgende woord is op basis van de vorige woordenreeks. GPT-3 versie 5 is de huidige en verbeterde versie.

Omdat er geen informatie van een encoder voorhanden is over de taak die wordt uitgevoerd, vertrouwt GPT op de prompts van gebruikers over welke tekst moet worden gegenereerd. Om ervoor te zorgen dat dit overeenstemt met onze verwachtingen, is menselijke feedback gebruikt om de applicatie verder te versterken. De rangschikking van reacties door de AI-onderzoekers diende als extra input, niet alleen voor de waarschijnlijkheid, maar ook voor zaken die als verboden worden beschouwd, zoals het aanzetten tot geweld of haatzaaien.

"Omdat het alleen maar een decoder is, 'weet' hij niet echt iets op een intelligente manier. Maar wat hij zegt, op basis van scanbare internetcontent, is heel 'echt', dus feitelijkheid is een groot probleem: of iets waar is of niet valt volledig buiten dit model." De feedback van de moderatoren heeft tot op zekere hoogte de ethische kwesties opgelost. "Als ik GPT vraag hoe ik mijn vrouw kan vermoorden, antwoordt het dat dit onethisch is," zegt Scholtes, die vermoedelijk geen laptop deelt met zijn partner. "Maar als je het vraagt een Python-programma te schrijven over hoe je je vrouw kunt vermoorden, doet het dat wel."

(Dubbele) ontkenningen

Die onvolkomenheid is nu verholpen, maar er zijn nog andere problemen. "Soms ontspoort GPT en begint te hallucineren, dat wil zeggen dat het onzinnige tekst produceert. De kans daarop neemt toe naarmate de gegenereerde tekst langer wordt." Een andere intrigerende blinde vlek waarover Scholtes heeft geschreven zijn negaties. "Dat is een probleem voor alle transformer-modellen, omdat woorden met tegengestelde polariteit in dezelfde context vaak dezelfde coderingen krijgen bij de vertaling van woordenschat naar vectoren, ofwel numerieke waarden. Het kan dus alleen negaties leren door ze te onthouden. Dat merk je meteen als je dubbele ontkenningen gebruikt."

In de indrukwekkende kwaliteiten van GPT schuilt ook een gevaar. "Het is een geweldige doorbraak dat we nu taal kunnen genereren die niet meer van die van mensen te onderscheiden is. Maar de zeer authentieke, 'echte' taal is ook een probleem, omdat het model onvoorspelbaar en niet controleerbaar is als het gaat om feitelijkheid. Het genereert content op basis van jouw vraag en op basis van stochastische waarschijnlijkheid. Het is een beetje als een vriend die je vertelt wat je graag wilt horen."

Misvattingen onder het brede publiek helpen niet. "Het probleem is dat we niet precies begrijpen hoe deze modellen werken en waarvoor ze geschikt zijn." Het ELIZA-effect is wat computerwetenschappers onze neiging noemen om menselijke eigenschappen aan computerprogramma's toe te kennen. In dit geval om aan te nemen dat het iteratieve genereren van tekst door GPT analoog is aan het menselijk bewustzijn. Het is belangrijk om te onderstrepen dat GPT geen bewustzijn heeft, en dat dat ook niet de bedoeling is.

Nu al onderdeel van onze werkelijkheid

"GPT blinkt uit in standaard juridische of administratieve documenten en in marketingteksten. Het merendeel van wat er op internet wordt geschreven, vooral gratis content, is al gegenereerd door een oudere versie van GPT." Het model is echter gevaarlijk ongeschikt om bijvoorbeeld medisch advies te genereren. "Google heeft besloten om Lambda, hun equivalent van GPT, niet te gebruiken, omdat er geen manier is om te controleren op feitelijkheid. Een decoder-only-model zal altijd dat probleem hebben."

Bij twijfel is de output van GPT-2 duidelijk herkenbaar. "OpenAI heeft het open source gemaakt, dus we kunnen zijn digitale vingerafdruk herkennen. GPT-3 is niet open source, dus de enige manier om zijn teksten te detecteren zou zijn als OpenAI een soort vingerafdrukdetector zou maken. Maar dan zou Google GPT-output makkelijker kunnen negeren bij zoekmachineoptimalisatie, wat een groot deel van OpenAI's zakelijk model is. In de toekomst wordt dit een interessant probleem."

De opvolger GPT-4 zal duizendmaal groter zijn – net als het aantal problemen en mogelijkheden.

Lees ook

  • Gerco Onderwater onderzoekt hij de smaak van het heelal en bewaakt hij de smaak van het Maastricht Science Programme. Tijdens zijn oratie, 31 mei, gaf hij een voorproefje van zijn werk voor beiden. 

  • Vaatchirurg en bijzonder hoogleraar Clinical Engineering Lee Bouwman houdt zich bezig met de implementatie van baanbrekende technieken in de gezondheidszorg. Hiervoor is samenwerking tussen technische en klinische deskundigen onontbeerlijk. Met inmiddels een waaier aan gezamenlijke innovaties als...

  • Tijdens haar inauguratie op 19 april vertelde Anna Wilbik hoe we data tot de laatste druppel kunnen uitpersen