OpenAI gikk inn for å rette opp problemet

ChatGPT har utviklet en uvanlig besettelse av nisser, gremlins, vaskebjørner, troll og orkerbegynner å sette inn disse referansene i svarene deres med en uvanlig hyppighet, og refererer til disse figurene i mange tilfeller som siterer dem ut av kontekst. Problemet ble klart etter lanseringen av GPT-5.1november i fjor. Brukere hadde rapportert at modellen virket merkelig overdreven i tonen, nesten for konfidensiell. Dette fikk teamet til å undersøke spesifikke språklige mønstre i svarene. En forsker ba om å inkludere ordene i analysen «nisse» Og «gremlins»og ifølge en intern analyse beskrevet av OpenAI, avslørte dataene noe overraskende: bruken av det første begrepet hadde økt med 175 % sammenlignet med perioden før lanseringen, mens bruken av den andre hadde registrert en økning på 52 %. La oss prøve å forstå fordi ChatGPT har blitt besatt av nisser og troll og fremfor alt, hvordan OpenAI løste problemet.

ChatGPTs fiksering på nisser: årsakene

Grunnen til at ChatGPT ble fiksert på nisser og andre lignende figurer ble sporet tilbake til en chatbot-tilpasningsfunksjon kalt «Nerdete»et av alternativene som tillot brukere å endre stilen og tonen i svarene. Systemmeldingen knyttet til denne personligheten inviterte modellen til anerkjenne verdens «merkelighet» og ta lett på problemerunngå selvseriøsitet. Under trening via forsterkende læringeller forsterkende læring, en teknikk der modellen styres av «belønning» eller «straff»-signaler basert på den opplevde kvaliteten på svarene, noen belønningssignaler endte opp med å favorisere svar med metaforer relatert til fantastiske skapninger. I 76,2 % av datasettene som ble analysert, fikk svar som inneholdt begrepene «nisse» eller «gremlin» systematisk bedre vurderinger enn tilsvarende svar uten disse begrepene.

Resultatet? Den «nerdete» personligheten, som bare representerte 2,5 % av ChatGPTs totale svar, var ansvarlig for 66,7 % av alle omtaler av «nisse». Dette førte til en økning i 3881,4 % av bruken av dette begrepet, som fremhevet i følgende graf.

Men fenomenet stoppet ikke der. De forsterkende læring det garanterer ikke atferdsisolasjon: et mønster som belønnes i én kontekst kan forplante seg til andre, spesielt når det går inn i finjusterende datasett. Det var nettopp dette som skjedde: nissene formerte seg langt utover personligheten som ga opphav til dem.

Hvordan OpenAI løste problemet

For å løse problemet, OpenAI trakk tilbake «Nerdete»-personligheten i mars og eliminerte belønningssignalet ansvarlig for problemet, samtidig som du filtrerer treningsdata som inneholder referanser til skapninger. GPT-5.5men hadde allerede begynt sin treningssyklus før årsaken ble identifisert. For dette, i programmeringsmiljøet Codexvar satt inn en eksplisitt instruks som forhindrer malen fra å nevne nisser, gremlins, vaskebjørner, troll, orker, duer eller andre skapninger med mindre de er strengt relevante for forespørselen.

Denne historien illustrerer en av de mer subtile utfordringene ved å utvikle språkmodeller: Selv et enkelt dårlig kalibrert belønningssignal kan utløse en ond sirkel der en atferd belønnes, generaliserer, overfører og forsterker. Å forstå det i tide, utvikle verktøyene for å identifisere det og korrigere det ved roten er, ifølge OpenAI selv, en grunnleggende ferdighet for alle som jobber i dette feltet.