Google presenterer Gemini 3, AI-modellen som fortsetter utfordringen mot ChatGPT: funksjonene

- Ole Andersen

Google har offisielt sluppet Gemini 3en oppdatering som markerer et nytt kapittel i konkurransen om AI-overlegenhet, posisjonert som en direkte respons på de nylige lanseringene av OpenAI og Anthropic. Vi snakker om den mest sofistikerte modellen som noen gang er laget av Mountain View-laboratoriene, designet ikke bare for å chatte i tekstform med brukeren, men for å fungere som «en ekte tankepartner», for å bruke uttrykket brukt av Google i den offisielle pressemeldingen. Den store innovasjonen ligger i diversifiseringen av tilbudet: på den ene siden har du Gemini 3 Proallerede tilgjengelig, optimalisert for multimodal forståelse og hastighet; på den annen side kommer den snart Gemini 3 Deep Thinken variant med dype resonneringsevner for å løse komplekse vitenskapelige og matematiske problemer. La oss se nærmere på dem funksjoner i Gemini 3.

Egenskapene til AI Gemini 3

Når du kommer til hjertet av de tekniske spesifikasjonene, bør du vite at Gemini 3 Pro representerer et generasjonssprang sammenlignet med versjonen 2.5og overgår det i alle viktige beregninger. Modellen nådde toppen av LMArena-rangeringen med en Elo-poengsum på 1501 (et komparativt evalueringssystem basert på menneskelige preferanser), men det som er mest overraskende er hans ytelse på strenge akademiske tester. I benchmark Menneskehetens siste eksamendesignet for å teste resonnement på ekspertnivå, oppnådde modellen 37,5 % uten hjelp av eksterne verktøy, løsne de tidligere rekordholderne. Ved å oversette benchmark-tallene til mer konkrete aspekter betyr alt dette at Googles nye modell kan håndtere komplekse nyanser, og forlate de klisjefylte og smigerfylte svarene som er typiske for tidligere chatbots til fordel for en mer direkte, saklig og om nødvendig, kritikk. Dens multimodale natur har blitt ytterligere forfinet: den leser ikke bare tekster, men er også i stand til å behandle video, lyd Og Bilder med enestående presisjon, som demonstrert av poengsummen til87,6 %Video-MMMU.

For de som leter etter enda høyere ytelse, er det modusen Deep Think av Gemini 3som vil være tilgjengelig for Ultra-abonnenter etter ytterligere sikkerhetstesting. Denne modusen er designet for å «tenke» før den svarer, og oppnådde svært interessante resultater i flere referanser. I testen ARC-AGIsom evaluerer evnen til å løse problemer som aldri er sett før, når 45,1 %en verdi som indikerer en evne til abstraksjon og generalisering som begynner å simulere deduktiv menneskelig tenkning. Tenk deg å kunne gi modellen hele videoleksjoner eller komplekse akademiske artikler: Deep Think vil ikke bare oppsummere dem, men vil kunne generere datavisualiseringer, interaktive flashcards eller personlige studieplaner, og fungere som en slags dedikert universitetsveileder.

Google introduserte konseptet vibe og agentkodingen metodikk som lar deg utvikle programvare basert mer på intensjon og naturlig beskrivelse enn på rigid syntaks, og betro AI oppgaven med å oversette ideen til arbeidskode. For å støtte denne visjonen ble født Google Antigravityen agentutviklingsplattform som Google snakket om i disse vilkårene:

Google Antigravity forvandler AI-hjelp fra et verktøy i en utvikleres verktøysett til en aktiv partner. Mens hjertet av Google Antigravity er en kjent AI IDE-opplevelse, har agentene blitt oppgradert til et dedikert grensesnitt og gitt direkte tilgang til editoren, terminalen og nettleseren. Nå kan agenter selv planlegge og utføre komplekse, ende-til-ende programvareoppgaver på dine vegne, mens de validerer sin egen kode.

Disse agentegenskapene, evnen til AI til å fungere som en autonom enhet som forfølger et mål, strekker seg langt utover programmering. Takket være bedre langsiktig planlegging, verifisert av benchmark Salgsbenk 2 (en kompleks ressursstyringssimulering), ser det ut til at Gemini 3 kan håndtere komplekse daglige oppgaver. Dette betyr at det, bare for å gi et banalt eksempel, vil være mulig å delegere din egen ledelse til ham e-post på Gmail, og ber ham ikke bare lese, men organisere og svare på meldinger eller, et annet eksempel, til planlegge reiseruter komplisert ved å krysse data fra ulike kilder. Målet er derfor å flytte samhandlingen fra innsetting av en forespørsel til delegering av en kompleks oppgave.

Spørsmålet om sikkerhet og pålitelighet til Googles «smarteste modell».

Et aspekt som Google har understreket, gjelder sikkerhet og pålitelighet av modellen. I et landskap der AI-hallusinasjoner fortsatt er et problem, viste Gemini 3 fremgang i testen SimpleQA Verifiedoppnå faktisk nøyaktighet av 72,1 %. Videre ble modellen opplært til bedre motstå «raske injeksjon»en teknikk som brukes av cyberkriminelle for å lure AI til å utføre uventede handlinger (en stadig mer lumske type cyberangrep), og også for å unngå selvtilfredsheteller AIs tendens til å bekrefte brukerens meninger selv når de er feil. Siden alle testene vi refererte til ble utført internt av Google, må vi teste den nye Gemini 3 i felten for å se om modellen har fått alle forbedringene vi snakket om, som i hvert fall på papiret ser ut til å være ganske saftige.