Új AI modell a robotika világában: Google Gemini Robotics
Szerdán a Google DeepMind bejelentette két új AI modellt, amelyek célja, hogy irányítsák a robotokat: a Gemini Robotics és a Gemini Robotics-ER. A vállalat állítása szerint ezek a modellek segítenek a különböző formájú és méretű robotoknak jobban megérteni és interakcióba lépni a fizikai világgal, mint a korábbi rendszerek, megnyitva az utat olyan alkalmazások előtt, mint a humanoid robot asszisztensek.
Érdemes megjegyezni, hogy bár a robotplatformok hardverei folyamatosan fejlődnek, egy olyan képes AI modell létrehozása, amely képes biztonságosan és precízen navigálni az új szituációkban, továbbra is nehéz feladat. Az ipar által „testi AI”-nak nevezett koncepció, például az Nvidia célja, és ez egy olyan szent grál, amely potenciálisan a robotikát általános felhasználású munkásokra változtathatja a fizikai világban.
A Gemini Robotics képességei
A Google új modelljei a Gemini 2.0 nagy nyelvi modell alapjaira épülnek, és kifejezetten robotikai alkalmazásokra vonatkozó képességeket adnak hozzá. A Gemini Robotics tartalmazza azt, amit a Google „látás-nyelv-cselekvés” (VLA) képességeknek nevez, lehetővé téve számára a vizuális információk feldolgozását, a nyelvi parancsok megértését és fizikai mozgások generálását. Ezzel szemben a Gemini Robotics-ER a „testi érvelésre” összpontosít, javított térbeli megértéssel, lehetővé téve a robotikák számára, hogy összekapcsolják a meglévő robot-irányító rendszereikkel.
Például a Gemini Robotics segítségével megkérheti a robotot, hogy „fogja meg a banánt és tegye a kosárba”, és az a kamerás nézet alapján felismeri a banánt, irányítva a robotkarját a sikeres cselekvéshez. Vagy mondhatja, hogy „hajtogasson origami rókát”, és a robot az origami tudását és a papír óvatos hajtogatásának módját felhasználva hajtja végre a feladatot.
Az újdonság hatása
A 2023-as évben a Google RT-2-t mutatta be, amely jelentős lépést képviselt a generalizált robotikai képességek felé az internetes adatok felhasználásával, hogy a robotok megértsék a nyelvi parancsokat és alkalmazkodjanak az új szituációkhoz, majd kétszeres teljesítményt nyújtott az ismeretlen feladatokban a elődjéhez képest. Két év elteltével a Gemini Robotics úgy tűnik, hogy ismét jelentős előrelépést tett, nemcsak abban, hogy megérti, mit kell tenni, hanem a komplex fizikai manipulációk végrehajtásában is, amelyeket az RT-2 kifejezetten nem tudott kezelni.
A Gemini Robotics jelentős mértékben fokozott ügyességet mutat, amely lehetővé teszi olyan eddig lehetetlen feladatok végrehajtását, mint az origami hajtogatása és a snackek csomagolása Zip-loc tasakokba. Ez a váltás a robotok között, amelyek csak megértik a parancsokat, és azok között, amelyek finom fizikai feladatokat is el tudnak végezni, arra utal, hogy a DeepMind talán elkezdte megoldani a robotika egyik legnagyobb kihívását: a robotok „tudásának” gondos, precíz mozgásokká alakítását a valós világban.
Biztonság és korlátok
A Google a biztonsági megfontolások érdekében „rétegezett, holisztikus megközelítést” említ, amely fenntartja a hagyományos robotbiztonsági intézkedéseket, mint a ütközés elkerülését és az erőkorlátozásokat. A vállalat egy „Robot Alkotmány” keretrendszert fejleszt, amely Isaac Asimov Három Robotikai Törvényei által inspirált, és közzétett egy adatbázist „ASIMOV” néven, hogy segítse a kutatókat a robotok cselekedeteinek biztonsági következményeinek értékelésében.
Ez az új ASIMOV adatbázis a Google próbálkozása, hogy standardizált módszereket hozzon létre a robotok biztonságának értékelésére a fizikai kár megelőzésén túl. Az adatbázis célja, hogy segítse a kutatókat abban, hogy alaposan mérjék a robotok cselekedeteinek biztonsági következményeit különböző szituációkban.
Az új AI modellek elérhetőségi időpontjait és a konkrét kereskedelmi alkalmazásokat a vállalat nem jelentette be, mivel azok még kutatási fázisban vannak. Míg a Google által megosztott bemutató videók az AI-vezérelt képességek előrehaladását ábrázolják, a kontrollált kutatási környezetek még mindig nyitott kérdéseket hagynak arról, hogy ezek a rendszerek hogyan teljesítenének a kiszámíthatatlan valós világban.
Érdekes tény: A Google Gemini Robotics AI modellje lehetővé teszi a robotok számára, hogy ne csak parancsokat értsenek meg, hanem kreatív feladatokat is végezzenek, mint például origami hajtogatás, ami új dimenziókat nyithat meg a robotika területén.
Források: Google DeepMind, TechCrunch, The Verge