En uslåelig lufthockeyrobot utfordrer mennesker i det virkelige liv: hvordan AI lærte å spille

Et spillebord, en plate som suser i full fart over et spillebord lufthockey og en robotarm som spiller som en proff. Tre ingeniørfysikkstudenter fraUBC (University of British Columbia) har lyktes med en bragd som potensielt kan redefiner hvordan roboter trenes. De tre unge forskerne skapte en AI-drevet lufthockeyrobot i stand til å utfordre og slå mennesker, til tross for at de har lært å spille utelukkende innenfor en virtuell simulering.

Generelt, for å lære et robotsystem å utføre komplekse bevegelser i den fysiske verden, brukes metoden for prøving og feiling direkte i felten. Denne klassiske tilnærmingen, selv om den er gyldig, innebærer et enormt sløsing med tid og den reelle risikoen for å slite ut eller ødelegge de mekaniske komponentene på grunn av kontinuerlige første feil. Kanadiske forskere har imidlertid omgått problemet overføre hele læringsfasen til det virtuelle rommetutvikle en «digital tvilling», det vil si en svært detaljert digital kopi av det virkelige bordet, der algoritmen var i stand til å spille millioner av spill og gjøre uendelige feil uten å lide noen materiell skade.

Når denne simulerte studieveien var fullført, ble den virtuelle hjernen kopiert og overført til den mekaniske kroppen til roboten. Resultatet er interessant: fra første øyeblikk viste maskinen seg å være umiddelbart klar til å konkurrere, og demonstrerte ekstraordinær effektivitet mot ekte motstandere og åpnet nye grenser for trening av fremtidens autonome systemer.

Hvordan roboten ble trent

Men hvordan forbereder du programvare for å håndtere den kaotiske virkeligheten til et airhockeyspill uten at det noen gang berører et ekte airhockeybord? Denne sporten er en reell utfordring for roboter, siden skiven beveger seg i svært høye hastigheter, spretter uforutsigbart og påvirkes av minimale variasjoner forårsaket av støt med bankene eller med spillknappen. I den fysiske virkeligheten spiller dessuten komplekse tekniske hindringer inn som latens (dvs. tidsforsinkelsen som data passerer med fra kameraet til motoren), mikrovibrasjoner i strukturen og små fall i elektrisk spenning.

For å overvinne disse barrierene, vedtok UBC-teamet en kontraintuitiv strategi: de utformet en med vilje ufullkommen virtuelt miljø. Gjennom en teknikk kalt «domene randomisering»la studentene inn forstyrrende elementer som uregelmessige sider, lett deformerte bord og sprette anomalier i simuleringen. Dette tillot den kunstige intelligensen å ikke stole på stive og perfekte geometriske beregninger, men å lære å forutsi en omtrentlig bane for pucken, og forberede seg på å håndtere det uventede nøyaktig slik en menneskelig spiller ville gjort.

For å gjøre læringen rask og effektiv, unngikk forskerne klassiske kommersielle grafikkmotorer og implementerte en avansert algoritme basert på den «myke skuespiller-kritiker»-mekanismen. Systemet tilhører familien av forsterkende læringen teknikk der algoritmen lærer ved å motta belønninger når den tar gode beslutninger og ble designet for å maksimere ytelsen uten å gi opp eksperimentering med nye strategier.

For å materialisere alt dette i den fysiske verden, var det virkelige bordet utstyrt med en kamera plassert ovenfra og a skive dekket med refleksbåndet materiale som er i stand til å sende lys direkte tilbake mot kilden som sender det ut, slik at det elektroniske øyet kan spore bevegelser ved 120 bilder per sekund.

Du kan sette pris på resultatet av å bruke dette systemet fra følgende video.

De mulige fremtidige implikasjonene av eksperimentet

Den virkelige seieren til dette eksperimentet, opprinnelig født i universitetslaboratoriet for å skape en undervisningsplattform for fremtidige automasjonskurs, går langt utover enkel moro. Studentene overvant måneder med tekniske utfordringer for å integrere robotens mekanikk med en kontrollmodell feedforwarda prediktivt system som forutser feil før de oppstår og bruker korrigeringer i sanntid.

Suksessen med denne overføringen fra virtuell til virkelig lover godt for fremtiden, og åpner for scenarier der trygt og raskt trening av droner, autonome kjøretøy, industriroboter, etc., innenfor realistiske simuleringer ikke vil være utopiske i det hele tatt.