På hvilket språk «tenker kunstig intelligens»? Antropisk studie om språklige modeller

- Ole Andersen

På hvilket språk tror du chatgpt? Når vi kommuniserer med kunstig intelligens som Chatgpt, Gemini eller Claude, gjør vi det på språket vårt: at det er italiensk, fransk, engelsk, kinesisk … og AI reagerer på oss på samme språk, på en sammenhengende måte. Men hvordan er det mulig at en av de kan forstå og utdype Svar på alle språk av verden? På hvilket språk «tror du» før du svarer? Disse spørsmålene, som bare kan virke nysgjerrighet, er i sentrum for en rekke forskning de siste årene. Å forstå hvordan AI utdyper språket oss til å forstå potensialet, grensene og fremfor alt å kontrollere risikoen.

Å prøve å svare på disse spørsmålene, i mars 2025, Antropisk – Selskapet som utvikler Claude – Han har publisert en forskning på hvordan modellen hans tolker språket. Studien viste at Claude 3.5 haiku det fungerer på samme måte som hjernen av mennesker tospråklig: Aktiver de samme interne «områdene» når det utdyper ord på forskjellige språk. I praksis, hvis et spørsmål på flere språk oppstår, aktiveres de samme «kretsløpene» uavhengig av språket som brukes. Denne prosessen lar Claude overføre konsepter fra et språk til et annet, lar de som bruker det til det Skriv på ditt eget språk Mor uten å miste kvaliteten på responsen og pålegger oss å skape til det stadig mer gjennomsiktige og trygge.

I denne artikkelen ser vi hvordan språkmodeller fungerer, hva det vil si å si at aTil «tenk» på flere språkog hvorfor å forstå disse mekanismene er viktig for å bygge mer pålitelige, gjennomsiktige og trygge systemer.

Hva er de store språkmodellene «Tenk»

Store språklige modeller, eller LLM (store språkmodeller), er systemer designet for tolke, rettssak Og generere tekst. De er grunnlaget for verktøy som Chatgpt, Gemini Og Claudeog er i stand til å snakke, oppsummere dokumenter, svare på komplekse spørsmål og også oversette mellom språk. For å gjøre alle disse operasjonene har det ikke vært noen radlinje av mennesker, men de var det trent på enorme mengder teksterhvorfra De lærer selv til gjenkjenne, forhold Og regler av språk.

Selv om vi vet hva hovedmekanismene som ligger til grunn for valg av ord og tolkning av forespørsler fra LLM, den logiske strategier som utvikler seg i treningsfasen for å møte språklige oppgaver er fortsatt eneståendeogså av utviklerne selv.

Som administrerende direktør i Anthropic selv sa:

Når en generativ kunstig intelligens gjør noe, hvordan vi kan oppsummere et økonomisk dokument, har vi ingen anelse om (…) om hvorfor det tar valgene det tar, fordi det å velge visse ord i stedet for andre, eller fordi det tidvis gjør en feil til tross for at de vanligvis er nøyaktig.

Nettopp av denne grunn er det et sentralt poeng å ha mer og tryggere å kunne forstå den dype logikken på grunnlag av språklige valg eller tolkning av tekstene for å ha mer og tryggere.

Claude «Tror du på flere språk»? Antropisk søk

For å prøve å tolke driften av Claude og å forstå om «tenker» annerledes avhengig av språket som spørsmålet stilles, har antropisk bestemt seg for observere hvilken områder Ja «aktivere«Når et spørsmål blir stilt på forskjellige språk og hvordan disse områdene er tilkoblet blant dem, litt som når du gjør en Magnetisk resonansavbildning på en menneskelig hjerne.

De startet fra enkle forespørsler: de ba for eksempel til Claude Di Fullfør setningen «Det motsatte av ‘lite’ er …» i Engelsk, Fransk Og Kinesisk. Analyse av de interne aktiveringene av modellen, forsto de at:

  • «Liten», «liten» og «petit» aktiver alltid det samme området, det vil si uansett språket som brukes, det samme konsept (Det «lille» vesenet) tilsvarer samme område modell;
  • Når du aktiverer området som inneholder begrepet «lite» og det «motsatte», aktiveres også området som inneholder konseptet «stort», og dette gjelder alle språk. For Claude er mekanismen som det motsatte av et ord genereres ikke avhenger av språket, men refererer til en vanlig, delt, abstrakt representasjon. Claude, derfor, er i stand til generalisere de forhold blant konseptene og for å gjøre dem uavhengige av startspråket.

Denne studien har selvfølgelig også begrensninger. Selv om bare veldig kort og lett å tolke forespørsler er studert, klarte ikke forskningsgruppen å forklare alle operasjonene Claude gjorde for å generere svaret. Dette er et tegn på hvor mye vi fortsatt er langt borte for å forstå Virkelig i dybden funksjonen til disse modellene.

Vi har ennå ikke forstått hvordan vi skal «tenke» AI

Forstå på hvilket språk «tenk» En språkmodell har veldig praktiske konsekvenser, spesielt for å designe systemer som fungerer braOg på flere språk, at de er effektiv Og fremfor alt, sikker. Hvis en AI virkelig klarer å abstrahere konseptene og koble dem til hverandre, kan den overføre det som har lært på et språk til de andre. Dette lar deg garantere konsistens Og kvalitet i svareneuavhengig av brukerens språk.

Forskningen på dette området er imidlertid fortsatt i begynnelsen, og meningene fra det vitenskapelige samfunnet er ikke enstemmige. Noen studier hevder at de mest avanserte språkmodellene bruker strukturer Virkelig flerspråklig, Som Claude. Andre observerer imidlertid at engelsk, selv i de mest sofistikerte systemene, fortsetter å spille en dominerende rolle, spesielt i de endelige passasjene av generasjonen av svar. Hovedårsaken er knyttet til trening: de fleste dataene som disse modellene er utdannet, er, fremdeles i dag, i Engelsk språk.

Til tross for alle grensene, representerer studier som antropisk et første skritt mot større åpenhet av de interne mekanismene til språklige modeller. Måten å virkelig forstå de interne mekanismene til AI er fremdeles lang, men studier som dette representerer grunnleggende stadier for en større mestring av denne teknologien.