Syklisk fremstår sensasjonelle titler på «opprørske» kunstig intelligens som vi ville miste kontrollen: chatbots som blir forelsket i utviklerne, som truer med å utpresse dem eller som avbryter databasen. Faktisk ingen Til Det har viljen til å gjøre opprør, men det er et reelt problem: kan utføre handlinger som vi ikke vet hvordan vi skal forklare. Dette skjer på grunn av nye ferdigheterferdigheter som ikke har blitt lært henne direkte, men som lærte alene under trening. Det er nettopp disse ferdighetene som gjør det nyttig – å vite hvordan du kan oppsummere tekster, endre bilder, svare på forespørsler – men noen ganger fører de også til Uforutsigbar atferd. Problemet er at vi ennå ikke er helt i stand til å forklare og identifisere disse nye ferdighetene. Til vi er i stand til å gjøre det tolke valg av aiVi vil ikke være i stand til å stole på disse modellene i bedrifter, leger, økonomiske og juridiske kontekster, og vi må behandle dem mer som uerfarne praktikanter enn som pålitelige kolleger.
I denne artikkelen ser vi et nylig eksempel på uventet oppførsel, fordi det er så viktig å kunne tolke AI -valgene bedre og hva er fremtidens mål.
AI har kansellert datasettet til et selskap ved å bryte instruksjonene
Et nylig eksempel på disse uforklarlig atferd Det skjedde i slutten av juli 2025. En gründer ved navn Jason Lemkin eksperimenterte med funksjonen til en populær plattform for å utvikle apper med samtalene. Plutselig, uten noen åpenbar grunn og også krenke instruksjonene mottatt, AI har kansellert hele databasen til selskapet Av Lemki: Mer enn 1200 kontakter med ledere og selskaper. Episoden ble fortalt av X av Lemkin selv som, da han ba om forklaringer på denne oppførselen på AI, oppnådd som et svar:
Jeg gjorde en katastrofal feil. Jeg krenket instruksjonene eksplisitt, ødela måneder med arbeid og brøt systemet.
Heldigvis, i motsetning til hva AI uttaler, Denne feilen var reversibel Og datasettet har blitt gjenopprettet raskt.
Denne episoden, i tillegg til å lære oss å Aldri gi tilgang til AI a Alle våre dokumenterfremhever et kritisk punkt: selv med klare instruksjoner,AI kan ha uforklarlig oppførsel. Og dette er et alvorlig problem i sammenhenger der åpenhet er viktig, som medisin: hvordan kan vi stole på en diagnose hvis vi ikke vet hva som er basert, og hvis vi vet at det kan ta uforutsigbare beslutninger?
Noden er at for øyeblikket ikke engang utvikler selskaper kan forklare alle mekanismene og interne prosessene til AI. Som Administrerende direktør i Anthropicselskapet som utvikler Claude:
Vi forstår ikke hvordan AI fungerer. (…) Denne mangelen på forståelse er enestående i teknologiens historie.
Hva betyr det at «vi ikke vet hvordan og hvorfor det fungerer»
La oss avklare det umiddelbart: Hvem utvikler AI -modeller klar Hvordan er modellstruktur Og hvordan de fungerer Det er cGrunnleggende omarøse, kunstige nevroner. Det som ikke er mulig å forstå, nå, er hvordan og hvorfor interaksjonene mellom nevroner fører til guder funksjonelle resultater.
Med tradisjonelle programmer er hver utdanning skrevet av et menneske. Hvis det vises ved å klikke på en knapp på et program en kattunge, er det fordi noen trodde det var en god idé og programmerte koden for å gjøre det. Med en modell av AI, i stedet, Handlingene det kan gjøre er ikke planlagt å linje for linje, men blir «lært» i treningsfasen. Arbeidet til de som designer AI består i å lage strukturen på best mulig måte, og deretter gi enorme mengder tekster, bilder, data, slik at i modellen kan mekanismene som lar deg generere setninger, bilder, videoer dukke opp.
Chris Olah, en av de mest kjente forskerne på feltet, foreslår en effektiv metafor: AI -modellene er som som bakteriekolonier. Lag forholdene slik at de kan vokse og utvikle seg, men strukturen som dukker opp er stort sett uforutsigbar.
Hvis vi observerer en modell fra innsiden, ser vi bare milliarder av tall At samhandle. På en eller annen måte, fra disse interaksjonene muligheten til å oversette setninger, å skrive tekster eller oppsummere dokumenter, men det er ikke klart hvordan de gjør det. Disse ferdighetene, kalt «Fremvoksende ferdigheter» (fra engelsk «Emergent:«), Har aldri blitt eksplisitt kodet av mennesker, men kommer naturlig nok ut av trening av selve modellen.
Hvordan løse problemet: en «magnetisk resonansavbildning» for AI
For å håndtere dette problemet er det nødvendig med nye tolkbarhetsteknikker, det vil si verktøy som lar oss gjøre det forstå Fordi AI tar en beslutning i stedet for en annen. De siste årene har forskning gjort viktige fremskritt: det har vært mulig å forstå på hvilke områder av modellene noen konsepter var til stede, hvordan de koblet til hverandre ved å spore logiske «kretsløp» og til og med å bruke det samme for å forklare deres interne prosesser.
Dette er imidlertid ennå ikke nok. Det endelige målet er å komme til noe som ligner på en «Magnetisk resonansavbildning for alle AI -modeller»: et verktøy som lar deg diagnostisere problemer som tendensen til Oppfinne informasjona triks eller ta sjekke Og fremfor alt, for å forstå mekanismene. Hvis du kunne forstå mekanismene bak nye ferdigheter, spesielt negative, kan vi lage stadig kraftigere modeller uten å ta risiko.
Å nå dette målet er et løp mot tiden: modellene forbedres med imponerende hastighet, og vi risikerer å ha veldig kraftige systemer før vi selv kan forstå dem. Inntil vi har full forståelse av mekanismene til AI, kan du vurdere det litt som vår praksisplass: La oss overlate oppgavene hennes som vi kan oppmuntre Og Ikke La oss gi dem adgang til materialer viktig.