AI slår (ennå) ikke mennesker i nye matematiske problemer: resultatene av "First Proof"-testen

Kunstig intelligens har blitt slått av mennesker i å løse 10 kompliserte matematiske problemer innenfor «First Proof»-prosjektet. Prosjektet ble født ut fra dette spørsmålet: kan AI erstatte matematikere? For å prøve å svare, opprettet en gruppe forskere fra flere europeiske og amerikanske universiteter prosjektet «Første bevis”, som betyr “første demonstrasjon.” Målet med dette prosjektet er å evaluere AI-evner i å løse komplekse matematiske problemer, beviset på som aldri har blitt publisert før.

First Proof-teamet, som allerede hadde organisert en første mindre «offisiell» test i februar, leverte 10 nye problemer av ekstremt avansert matematikk til fire forskjellige AI-modeller. Svarene ble deretter vurdert av eksperter av sektoren, akkurat som for en vanlig gjennomgang av vitenskapelig forskning. Resultatene, publisert på nettstedet First Proof 10. juni, viser at så langt harTIL det er fortsatt langt fra nivået til de beste menneskelige forskerne. Det beste systemet, laget av Universitetet i Zürich, klarte å demonstrere bare 6 av 10 spørsmål. Det verste, Princeton University, viste bare 2.

Hvordan testen var bygget opp og hva dens formål er

Det er ikke lett å evaluere de faktiske matematiske egenskapene til AI. Et av hovedproblemene er at modeller trenes på enorme mengder tekster, vitenskapelige artikler og materiale tilgjengelig på nett. Hvis en spørsmål det er for mye lignende til noe som allerede er til stede i treningsdataene, er risikoen at systemet rett og slett klarer å løse det foreslå en løsning allerede tilstede i dataene den ble trent på, og fremstår som mer dyktige enn den er.

For å virkelig teste evnene, ba «First Proof»-teamet forskere fra hele verden om å sende inn problemerspørsmål og teoremer som de hadde løst under forskningen, men som Ikke de hadde fortsatt publisert verken i vitenskapelige artikler eller på nett. Blant alle forslagene ble det valgt ut ti, tilhørende ulike grener av matematikken, fra geometri tilalgebra til sjanse.

AI-systemer har måttet løse disse problemene helt autonomt, uten menneskelig hjelp. Løsningene ble deretter undersøkt av en gruppe på rundt tretti matematikere, etter en prosess lik den som ble brukt i gjennomgang av artikler vitenskapelig.

Fire forskjellige AI-er ble testet og ETH Zurich vant

Fire AI-modeller deltok i utfordringen. Det eneste store selskapet som var direkte tilstede var OpenAI med ChatGPT 5.5 Pro. De tre andre systemene er utviklet av forskningsgrupper fraUniversity of California fra Los Angeles (UCLA), av Princeton University of New Jersey og Føderal polyteknisk høyskole (ETH) fra Zürich.

Alle tre universitetene har utviklet såkalte «seletøy”, dvs. AI-systemer der en modell (f.eks. ChatGPT) produserer en løsning og andre modeller (f.eks. Gemini og Claude). de sjekkerkritiserer de det og forbedrer det gjennom en rekke påfølgende trinn. Vinnersystemet fra ETH Zürich fungerte akkurat slik: ChatGPT genererte et mulig bevis, som deretter ble verifisert og forbedret med bidrag fra Gemini og Claude.

Som vi sa, ETH Zürich-selen var den beste, løste og beviste riktig 6 av 10 problemer. På andreplass kom UCLA-teamet, etterfulgt av ChatGPT 5.5 Pro. Sist var Princeton-systemet, som med en sele hovedsakelig basert på Gemini 3.1 Pro klarte å demonstrere bare to spørsmål.

Alt dette var imidlertid ikke uten kostnader. Systemene laget av de tre universitetene, nettopp på grunn av deres kontinuerlige verifiseringsmekanismer, var utrolig dyre. ETH-modellen har kommet for å konsumere 950 dollar i et forsøk på å løse et enkelt problemuten å lykkes. Til sammenligning er kun ChatGPT 5.5 Pro brukt alene nødvendig $144 å takle hele settet med ti problemer.

Fordi AI fortsatt ikke kan erstatte matematikere

Etter konkurransen prøvde First Proof-teamet å forstå hvorfor noen av de foreslåtte problemene forble uløst. Hovedkonklusjonen er at disse spørsmålene krevde ideer eller strategier veldig forskjellige fra de som er tilstede i den eksisterende matematiske litteraturen. I følge Johannes Schmitt, et medlem av ETH Zurich-teamet, manglet AI ofte «en kritisk og uventet idé», det kreative trinnet som er nødvendig for å fullføre resonnementet og komme frem til beviset.

En annen begrensning som dukket opp gjelder måten modellene konstruerer bevisene på. AIer hadde en tendens til å utvikle seg med stor presisjon de mer prosessuelle delene e mekaniskde som anses som mest kjedelig av mennesker, men i trinn mer konseptuelt kompleks de pleier å være mange mindre strenge. I noen tilfeller tok de for gitt resultater som ville kreve demonstrasjon, uten å gi noen begrunnelse. I andre siterte de artikler som faktisk ikke inneholdt det nevnte resultatet.

Dette betyr ikke at kunstig intelligens er ubrukelig for matematisk forskning. Tvert imot viser testen at den allerede kan være et nyttig verktøy for bekrefte trinn og bli støttet i demonstrasjoner. First Proof-teamet vil begynne å forberede en ny utgave av testen, planlagt til oktober 2026. Ifølge arrangørene kan de neste versjonene av testen bidra til bedre å forstå i hvilke sammenhenger kunstig intelligens kan bli virkelig nyttig for matematikere, fra å verifisere bevis til å finne nye strategier for å takle problemer som fortsatt er åpne.

AI slår (ennå) ikke mennesker i nye matematiske problemer: resultatene av «First Proof»-testen

Hvordan testen var bygget opp og hva dens formål er

Fire forskjellige AI-er ble testet og ETH Zurich vant

Fordi AI fortsatt ikke kan erstatte matematikere