Az AI új dimenziókat nyit a videojátékok világában
Az utóbbi hónapban a Google GameNGen AI modellje megmutatta, hogy az általánosított képdiffúziós technikák felhasználásával egy játszható verziót lehet létrehozni a Doom című klasszikus játékból. Most a kutatók hasonló technikákat alkalmaznak egy MarioVGG nevű modellen, hogy kiderítsék, vajon az AI képes-e valósághű videót generálni a Super Mario Bros. játékból a felhasználói bemenetekre válaszul.
A MarioVGG modell eredményei—amelyek előnyomtatott tanulmány formájában érhetők el a kriptovalutákkal foglalkozó AI cég, a Virtuals Protocol jóvoltából—még mindig számos nyilvánvaló hibát mutatnak, és túl lassúak ahhoz, hogy valós időben játszhatóak legyenek. Azonban az eredmények azt mutatják, hogy még egy korlátozott modell is képes lenyűgöző fizikát és játékmenet-dinamikát inferálni, csupán egy kis videojáték és bemeneti adatok tanulmányozásával.
737 000 Mario-képkeret
A MarioVGG kutatói (az erniechew és Brian Lim GitHub felhasználók feltüntetve) egy nyilvános adatbázissal kezdtek, amely a Super Mario Bros. játékmenetét tartalmazta, 280 „szint” bemeneti és képadatával, amelyet gépi tanulási célokra rendeztek. A gyűjteményben található több mint 737 000 egyedi képkockát 35 képkockás részletekre „előfeldolgozták”, hogy a modell megtanulhassa, hogyan néznek ki a különböző bemenetek azonnali eredményei.
A kutatók a játékmenet egyszerűsítése érdekében csak két potenciális bemenetre összpontosítottak: „fuss jobbra” és „fuss jobbra és ugorj”. Még ez a korlátozott mozgás is nehézségeket okozott a gépi tanulási rendszernek, mivel az előfeldolgozó néhány képkockát visszafelé kellett nézzen egy ugrás előtt, hogy megállapítsa, mikor kezdődött a „futás”. Minden ugrás, amely közben levegőbeli kiigazításokat tartalmazott (pl. a „bal” gomb), szintén ki kellett dobni, mivel ez „zajt” jelentett volna az edzésadatokban.
Super Mario 0.5
Bár az összes előkészület ellenére a MarioVGG nem éppen sima videót generál, amely megkülönböztethetetlen lenne egy valódi NES játéktól. A kutatók az output képkockákat a NES 256×240 felbontásáról egy sokkal homályosabb 64×48-as felbontásra csökkentették. A 35 képkockányi videóidőt mindössze hét generált képkockába sűrítettek, amelyeket „egyenletes időközönként” osztottak el, így a generált „játék” videó sokkal durvább kinézetű, mint a valódi játék kimenete.
A kutatók elismerik, hogy ez „nem praktikus és nem barátságos az interaktív videojátékok számára”, de remélik, hogy a jövőbeli optimalizálások és a több számítási erőforrások felhasználása javíthatja ezt a sebességet.
Mint minden valószínűségi AI modell, a MarioVGG hajlamos arra, hogy néha teljesen haszontalan eredményeket adjon. Ennek ellenére a MarioVGG képes elfogadhatóan hihető videót generálni Mario futásáról és ugrásáról egy statikus kezdőképből, hasonlóan a Google Genie játékgyártóhoz.
A kutatók megjegyzik, hogy a rendszer képes volt „a játék fizikáját megtanulni csupán a tréningadatokban található videók képkockáiból, anélkül hogy explicit, keményen kódolt szabályok lettek volna”. Ez magában foglalja olyan viselkedések inferálását, mint Mario esése a szakadék széléről és a mozgás megállítása, amikor egy akadály mellett van.
Az AI által generált videók, bár szórakoztatóak, jól szemléltetik a gépi tanulás határait és lehetőségeit a videojátékok fejlesztésében.
Érdekes tény: A MarioVGG modell képes új akadályokat „hallucinálni”, ahogy a videó egy elképzelt szakaszban görget. Ezek az akadályok összhangban állnak a játék grafikai nyelvével, de jelenleg nem befolyásolhatók felhasználói utasításokkal.
Források: Ars Technica