A Google DeepMind chatbotja által vezérelt robot egy nagyobb forradalom része


A Google DeepMind robotjai új nyelvi modellel navigálnak az irodában

Egy zsúfolt, nyitott terű irodában Mountain View-ban, Kaliforniában, egy magas és karcsú, kerekeken guruló robot folyamatosan túravezetőként és informális irodai segítőként működik – köszönhetően egy nagy nyelvi modell frissítésének, amelyet a Google DeepMind ma jelentett be. A robot a Google legújabb Gemini nyelvi modelljét használja, hogy parancsokat értelmezzen és megtalálja az útját.

Amikor egy ember azt mondja neki: „Keress nekem egy helyet, ahol írhatok,” a robot készségesen elindul, és az embert egy hibátlan fehér táblához vezeti, amely az épület valamelyik részén található. A Gemini képessége, hogy videót és szöveget kezeljen – valamint nagy mennyiségű információt dolgozzon fel korábban rögzített irodai túrák formájában – lehetővé teszi a „Google segítő” robot számára, hogy értelmezze környezetét és helyesen navigáljon, amikor olyan parancsokat kap, amelyek némi közös érvelést igényelnek.

Amikor a Gemini-t decemberben bemutatták, Demis Hassabis, a Google DeepMind vezérigazgatója a WIRED-nek elmondta, hogy multimodális képességei valószínűleg új robotképességeket nyitnak meg. Hozzátette, hogy a vállalat kutatói keményen dolgoznak a modell robotikai potenciáljának tesztelésén.

Egy új tanulmányban, amely a projektet részletezi, a munkát végző kutatók azt mondják, hogy robotjuk akár 90 százalékban megbízható volt a navigációban, még akkor is, amikor bonyolult parancsokat kapott, mint például „Hol hagytam a poháralátétem?” A DeepMind rendszere „jelentősen javította az ember-robot interakció természetességét, és nagymértékben növelte a robot használhatóságát” – írja a csapat.

A bemutató szépen illusztrálja a nagy nyelvi modellek lehetőségét, hogy a fizikai világba is betörjenek és hasznos munkát végezzenek. A Gemini és más chatbotok többnyire egy web böngésző vagy alkalmazás keretein belül működnek, bár egyre inkább képesek vizuális és auditív bemeneteket kezelni, ahogy azt a Google és az OpenAI nemrégiben demonstrálta. Májusban Hassabis bemutatott egy továbbfejlesztett Gemini verziót, amely képes értelmezni egy iroda elrendezését egy okostelefon kameráján keresztül.

Az akadémiai és ipari kutatólaboratóriumok versenyeznek, hogy lássák, a nyelvi modellek hogyan javíthatják a robotok képességeit. Az International Conference on Robotics and Automation májusi programja, amely népszerű esemény a robotikai kutatók számára, majdnem két tucat olyan tanulmányt sorol fel, amelyek látás-nyelvi modellek használatát érintik.

A befektetők öntik a pénzt az AI-t a robotikába alkalmazni kívánó startupokba. A Google projekten dolgozó kutatók közül többen elhagyták a vállalatot, hogy megalapítsák a Physical Intelligence nevű startupot, amely 70 millió dolláros kezdeti finanszírozást kapott; céljuk a nagy nyelvi modellek és valós világban történő képzés kombinálása, hogy a robotok általános problémamegoldó képességekkel rendelkezzenek. A Carnegie Mellon Egyetem robotikusaival alapított Skild AI hasonló célt tűzött ki. Ebben a hónapban jelentettek be 300 millió dolláros finanszírozást.

Csak néhány évvel ezelőtt egy robotnak szüksége volt térképre a környezetéről és gondosan megválasztott parancsokra, hogy sikeresen navigáljon. A nagy nyelvi modellek hasznos információkat tartalmaznak a fizikai világról, és az újabb verziók, amelyeket képekre és videókra, valamint szövegre képeztek, úgynevezett látás-nyelvi modellek, válaszolni tudnak a percepciót igénylő kérdésekre. A Gemini lehetővé teszi a Google robotjának, hogy vizuális utasításokat is értelmezzen, valamint beszéd alapúakat, követve egy fehér táblán rajzolt útvonalat egy új célállomásra.

A kutatók azt írják tanulmányukban, hogy tervezik a rendszer különböző típusú robotokon történő tesztelését. Hozzáteszik, hogy a Gemini képesnek kell lennie bonyolultabb kérdések értelmezésére is, mint például „Van-e ma kedvenc üdítőm?” egy felhasználótól, akinek sok üres kólásdoboz van az asztalán.

Érdekesség: A Google DeepMind Gemini modellje képes egyszerre több nyelvet is felismerni és fordítani, így egy többnyelvű irodában is hatékonyan használható.

Források: WIRED, International Conference on Robotics and Automation, Google DeepMind