Hvordan SAM 3D fungerer, den nye Meta AI-modellen som forvandler 2D-bilder til 3D-modeller

- Ole Andersen

I de siste dagene Halv kunngjorde han SAM 3D (Segmenter hva som helst modell), en programvare som lar deg ekstrapolere komplekse og romlig koherente tredimensjonale modeller med utgangspunkt i enkle todimensjonale fotografier. Hjertet til denne nye teknologiske arkitekturen ligger i to distinkte, men komplementære modeller: SAM 3D-objekter Og SAM 3D Body. Den første er spesielt utviklet for rekonstruksjon av livløse gjenstander og hele scenerløse vanlige problemer som okklusjoner eller delperspektiver, mens den andre spesialiserer seg påanalyse av menneskefigurenestimerer positur og kroppsform med tidligere usett presisjon. I motsetning til tidligere forsøk på feltet, som hovedsakelig baserte seg på syntetiske og isolerte data, tar dette systemet sikte på en «sunn fornuft» forståelse av den virkelige fysiske verden, og gjør grunnleggende ressurser som slutningskoder og nye evalueringsreferanser tilgjengelige for det vitenskapelige samfunnet. I følge Meta alt dette «har potensial til å bli brukt til kreative applikasjoner innen felt som robotikk, interaktive medier, vitenskap og idrettsmedisin».

Hvordan 3D SAM-er fungerer Objekter og SAM 3D Body

Går dypere inn i teknisk drift av SAM 3D-objekterser vi et grunnleggende paradigmeskifte sammenlignet med tradisjonelle tilnærminger. Historisk sett har 3D-rekonstruksjonsmodeller vært begrenset av mangelen på treningsdata: mens det finnes enorme databaser for tekst og bilder, er tilgjengeligheten av «grunnsannhet» innen 3D-utvikling størrelsesordener lavere. For å overvinne denne hindringen, i stedet for å bare stole på datagenererte syntetiske eiendeler (som ofte ikke gjenspeiler kompleksiteten i den virkelige verden), ble det utviklet en innovativ datamotor.

Dette systemet bruker en god syklus der menneskelige annotatorer ikke trenger å lage modeller fra bunnen av, noe som er tregt og dyrt, men bare verifisere og klassifisere maskene som genereres av AI. La oss kort forklare hva vi mener med «mesh»: det er nettverket av polygoner som definerer den geometriske strukturen til et 3D-objekt. Takket være denne metoden, som kombinerer automatisk generering med menneskelig tilsyn, var det mulig å kommentere nesten en million ekte bilder, og skape et massivt opplæringsdatasett som lar programvaren håndtere små objekter, indirekte visninger og komplekse bakgrunner mye bedre enn sine forgjengere.

Skifte oppmerksomheten vår til SAM 3D Bodymerker vi at dette er en løsning designet for å møte behovet for å estimere den menneskelige formen selv under vanskelige forhold, for eksempel uvanlige stillinger eller overfylte scener. Det særegne ved denne modellen ligger i bruken av formatet MHR (Meta Momentum Human Rig), et nytt format som strukturelt skiller skjelettet fra formen på bløtvevet, og sikrer en anatomisk gjengivelse som er mer virkelighetstro.

Opplæringen var basert på et datasett med omtrent 8 millioner bilder av høy kvalitet, og ifølge Meta sier «Modellen er trent ved hjelp av promptbasert veiledning og flertrinns forfining, noe som tillater fleksibel brukerinteraksjon og forbedrer 2D-justering med visuelle bevis i bildet».

Datasettet er også introdusert SA-3DAO (SAM 3D artistobjekter), som tilbyr en rekke benchmarks som er mye mer krevende enn gjeldende standarder, og presser forskningen mot en mer realistisk og mindre kunstig 3D-oppfatning.

Gjeldende begrensninger

Like viktig som fremgangen Meta har gjort i 3D, noen begrensninger gjenstår. Når det gjelder gjenoppbygging av objekter, forblir utgangsoppløsningen moderat, noe som betyr at detaljer i mer komplekse strukturer kan gå tapt eller virke forvrengt. I tillegg behandler SAM 3D-objekter elementer individuelt og er ennå ikke i stand til å resonnere om fysiske interaksjoner, for eksempel kontakt eller gjensidig gjennomtrenging mellom flere objekter. Selv på kroppsrekonstruksjonsfronten er det rom for forbedring: modellen behandler hvert individ separat, ignorerer interaksjonene mellom mennesker eller mellom mennesker og miljøet, og presisjonen i å estimere posisjonen til hendene, selv om den er forbedret, når ennå ikke nivåene av systemer som er spesialisert utelukkende på den anatomiske delen.