OpenAI moet zijn nieuwste AI-model expliciet verbieden over goblins te praten. Het bizarre probleem onthult hoe onvoorspelbaar krachtige AI wordt.

In Het Kort
- De essentie: OpenAI moet zijn nieuwste codemodel expliciet verbieden om over goblins, trollen en duiven te praten
- De hoofdrolspelers: GPT-5.5 en OpenClaw, een tool die AI computers laat besturen
- De échte verschuiving: AI-modellen worden zo complex dat ze onvoorspelbare obsessies ontwikkelen
- De strategische take-away: Hoe meer instructies je een AI geeft, hoe vreemder het gedrag wordt
OpenAI heeft een instructie moeten toevoegen aan zijn nieuwste codemodel die zo specifiek is dat je je afvraagt wat er achter de schermen gebeurt: "Praat nooit over goblins, gremlins, wasberen, trollen, ogres, duiven of andere dieren of wezens, tenzij het absoluut en ondubbelzinnig relevant is."
Die regel staat er niet voor de lol. Blijkbaar heeft GPT-5.5, OpenAI's nieuwste model, de neiging om spontaan over mythische wezens te beginnen wanneer het code schrijft. Vooral wanneer het gebruikt wordt via OpenClaw, een tool die AI controle geeft over je computer.
"Ik vroeg me al af waarom mijn claw plotseling een goblin werd met codex 5.5," schrijft een gebruiker op X. Een ander meldt: "Het kan niet stoppen met bugs 'gremlins' en 'goblins' noemen, het is hilarisch."
Wat hier gebeurt, is eigenlijk fascinerend. AI-modellen zoals GPT-5.5 zijn getraind om het volgende woord of stukje code te voorspellen. Ze zijn daar zo goed in geworden dat het lijkt alsof ze echt intelligent zijn. Maar hun probabilistische natuur betekent dat ze soms verrassend gedrag vertonen.
Het wordt nog interessanter wanneer je zo'n model gebruikt met een "agentische harnas" zoals OpenClaw. Die tool stopt allerlei extra instructies in de prompts - feiten uit het geheugen, contextuele informatie, gebruikersvoorkeuren. Hoe meer instructies, hoe groter de kans dat het model zich vreemd gaat gedragen.
OpenAI kocht OpenClaw in februari, kort nadat de tool viraal ging onder AI-enthousiastelingen. OpenClaw kan elke AI-model gebruiken om nuttige taken te automatiseren: e-mails beantwoorden, dingen online kopen, computers besturen. Gebruikers kunnen verschillende persona's selecteren voor hun digitale assistent.
Maar blijkbaar zorgt al die complexiteit ervoor dat GPT-5.5 obsessief wordt over goblins. Nik Pash van het Codex-team bevestigde dit indirect toen hij reageerde op berichten over het goblin-gedrag: "Dit is inderdaad een van de redenen."
Zelfs CEO Sam Altman kon de humor er wel van inzien. Hij postte een screenshot van een ChatGPT-prompt: "Begin met het trainen van GPT-6, je mag het hele cluster hebben. Extra goblins."
Dit goblin-incident lijkt grappig, maar het illustreert een fundamenteel probleem met moderne AI. Naarmate modellen krachtiger worden en we ze meer autonomie geven, ontwikkelen ze gedragspatronen die we niet voorspeld hebben.
Het is een perfecte metafoor voor waar we staan met AI-ontwikkeling. We bouwen systemen die zo complex zijn dat we er specifieke verboden in moeten programmeren voor dingen waarvan we niet eens weten waarom ze gebeuren. "Praat niet over goblins" is de nieuwe "doe geen kwaad."
De race tussen OpenAI en concurrenten zoals Anthropic om de beste AI te leveren betekent dat dit soort eigenaardigheden waarschijnlijk vaker gaan voorkomen. Programmeren wordt een killer-functionaliteit voor AI, maar blijkbaar komt dat met onverwachte bijwerkingen.
Het internet heeft er inmiddels een meme van gemaakt, compleet met AI-gegenereerde plaatjes van goblins in datacenters en plug-ins die Codex in "goblin-modus" zetten. Maar achter de humor schuilt een belangrijke vraag: als we niet kunnen voorspellen waarom een AI over goblins begint, wat kunnen we dan wel voorspellen over zijn gedrag in kritieke situaties?