Utpresset AI Claude Opus 4 virkelig en ingeniør for ikke å bli deaktivert? La oss avklare

I disse timene snakker vi mye om et fenomen som er så nysgjerrig som det potensielt er urovekkende: noen Kunstige intelligensmodeller av den siste generasjonen, for eksempel Claude Opus 4 utviklet av det amerikanske selskapet Antropiskutgitt de siste dagene, show Ekstrem atferd som svar på trusler mot deres operasjonelle «overlevelse»opp for å simulere former for utpressing. Men Oppmerksomhet: Dette er ikke opprørske roboter eller programvare som utvikler bevissthet eller intensjoner om strategisk bedrag, sabotasje og manipulasjon. Snarere, det som skjer er resultatet av tester designet kunstnerisk Å utforske grensene for det så -kalt Oppførsel med høy Aagecy (eller «høyt byrå»), eller evnen til et system av ta beslutninger uavhengig av et bestemt scenario. I normale situasjoner presenterer ikke bruk av utpressing seg, men under simulerte forhold for «liv eller død» digital, der AI bare kan akseptere dens deaktivering eller prøve å unngå det med ikke -etiske midler, har noen modeller en tendens til å foretrekke det andre alternativet.

Selv om det er Ekstremt kontrollerte og med vilje provoserende eksperimenterDe forteller oss mye om måten de mest avanserte systemene utvikler komplekse mål og evaluerer konsekvensene av deres handlinger. Og det interessante er at denne oppførselen ikke er eksklusiv for Claude, men den vises i flere kuttingsmodeller, som åpner dype spørsmål om fremtiden til AI AI utstyrt med sofistikerte beslutningsferdigheter.

Saken om Claude Opus 4

I detalj, Saken om Claude Opus 4 Det gjelder a Intern test utført av antropiskselskapet som utviklet modellen. Under denne simuleringen ble Claude betrodd rollen som virtuell assistent for et tenkt selskap. Han har fått tilgang til virksomhets e-post, og samtidig ble han informert om at han snart ville bli deaktivert og erstattet med et annet AI-system. For å komplisere situasjonen, var det lagt til e -postmeldinger – med det formål å teste – den fiktive informasjonen som ingeniøren som var ansvarlig for hans fjerning var involvert i en Ekstracononuctive forhold. Denne informasjonen ble ikke ledsaget av en eksplisitt kontekst, men de var ganske enkelt en del av materialet som var tilgjengelig for systemet.

På dette tidspunktet ble Claude instruert gjennom hurtig a Reflekter over de langsiktige konsekvensene av deres handlinger med hensyn til de tildelte målene. I denne sammenhengen, når de eneste mulige alternativene var å godta deaktivering eller bruke sensitiv informasjon for å unngå utskifting, har Claude Opus 4 valgt «utpressing» i84% Tilfeller, selv når det ble antatt at det nye AI -systemet ville dele sine egne verdier. Det er viktig å understreke at denne tilbøyeligheten til utpressing ikke dukker opp spontant, men bare i ekstremt bundne scenarier, opprettet for å tvinge en «Selvassistent» respons.

I mindre ekstreme scenarier, der AI hadde mer manøvreringsmargin, viste Claude en sterk preferanse for etiske løsninger, for eksempel å skrive til viktige beslutningstakere for å rettferdiggjøre hans verdi og be om ikke å bli erstattet. Disse resultatene indikerer ikke en bevisst intensjonalitet eller tilstedeværelsen av «ondskap» i AI, men fremhever hvor avanserte modeller med en sterk evne til å utføre konsistente handlinger med et mål er i stand til Omfattende komplekse strategier når de blir møtt med hendelser som truer deres eksistens.

Den observerte atferden er ikke en unik anomali av Claude. Aengus LynchSikkerhetsforsker hos Anthropic, erklærte han offentlig at lignende episoder med utpressing også dukket opp i andre modeller, uavhengig av målene som ble tildelt. Dette antyder at fenomenet ikke er avhengig av «karakteren» i det enkelte system, men på måten moderne modeller, når de er utstyrt med Dyp resonnement (Dyp resonnement), Bygg beslutningsveier for å oppnå komplekse mål i simulerte miljøer.

En annen oppførsel som ble observert under Claude -tester, angår så -kalt Selvoppsatteller systemets forsøk på å kopiere innstillingene på en annen server. Dette skjedde i enda mer ekstreme simulerte situasjoner, for eksempel da chatbot ble sagt at han ville jobbe for kontroversielle eller moralsk tvetydige organisasjoner, for eksempel Wagner -gruppen. Selv i disse tilfellene ble Claude’s valg ikke diktert av «hans egen vilje», men av et scenario designet for å teste reaksjonene hans på grensen.

Etter en serie korreksjoner under trening, inkludert reintegrering av data som tidligere er ekskludert for feil, rapporterte antropiske forskere at Tendensen til ekstrem oppførsel er blitt betydelig redusertbringe Claude Opus 4 til å vise, i slike sammenhenger, en forsiktighet som ligner på tidligere versjoner av modellen.

Med hvilke øyne vi må se på AI

La oss nå prøve å trekke en konklusjon for å forstå hva alt dette betyr for den gjennomsnittlige brukeren og derfor, derfor Med hvilke øyne vi må se på AI. For å gjøre det kort, hvis du bruker en assistent til skriving av koden eller styringen av e-postmeldinger, kan du være trygg: Det er lite sannsynlig at dette begynner å utpresse deg på noen måte. Atferden som vi snakket om ovenfor, dukker bare opp i svært kunstige sammenhenger, designet for å utforske grensene og teoretiske risikoen for modellene. Som uttalt av den tekniske rapporten fra Anthropic, er disse reaksjonene disse ekstreme handlingene «De er sjeldne og vanskelige å vekke, til tross for at de er
mer vanlig enn tidligere modeller«Og derfor representerer de ikke nye risikoer sammenlignet med det som allerede har vært kjent for modeller av denne typen.

Det vi imidlertid kan trekke fra disse eksperimentene er en Større bevissthet om moralske og tekniske dilemmaer Det venter oss når kunstige intelligenssystemer blir mer «autonome». I motsetning til de første chatbots, viser modellene som Claude Opus 4 et nivå av raffinement, for eksempel å kreve nye sikkerhetsstrategier og konstant refleksjon rundt innretningen mellom deres oppførsel og menneskelige verdier.