Új Navigációs Módszer: A Robotok és a Nyelv Összekapcsolása
Elképzelhető, hogy egyszer majd azt szeretnénk, hogy otthoni robotunk vigye le a szennyes ruhákat a pincébe, és tegye be őket a mosógépbe. A robotnak kombinálnia kell az utasításainkat a vizuális megfigyeléseivel, hogy meghatározza a lépéseket a feladat elvégzéséhez. Az AI ügynökök számára ez nem olyan egyszerű, mint amilyennek hangzik. A jelenlegi megközelítések gyakran több kézzel készített gépi tanulási modellt használnak a feladat különböző részeinek kezelésére, ami rengeteg emberi erőfeszítést és szakértelmet igényel.
Ezek a módszerek, amelyek vizuális reprezentációkat használnak a navigációs döntések közvetlen meghozatalához, hatalmas mennyiségű vizuális adatot igényelnek a képzéshez, amelyeket gyakran nehéz beszerezni. Az MIT és az MIT-IBM Watson AI Lab kutatói egy olyan navigációs módszert dolgoztak ki, amely a vizuális reprezentációkat nyelvi elemekké alakítja, amelyeket egy nagy nyelvi modellbe táplálnak, amely az összes lépést elvégzi a több lépésből álló navigációs feladat során.
Nyelvi Reprezentációk és Robotok
Ahelyett, hogy a robot környezetének képeiből származó vizuális jellemzőket vizuális reprezentációkként kódolnák, ami számításigényes, módszerük szöveges feliratokat hoz létre, amelyek leírják a robot nézőpontját. Egy nagy nyelvi modell a feliratokat használja, hogy megjósolja a robot által végrehajtandó lépéseket a felhasználó nyelvi alapú utasításainak teljesítéséhez.
Mivel módszerük tisztán nyelvi alapú reprezentációkat használ, nagy nyelvi modellt alkalmazhatnak hatékonyan hatalmas mennyiségű szintetikus képzési adat generálására. Bár ez a megközelítés nem teljesít jobban, mint a vizuális jellemzőket használó technikák, jól működik olyan helyzetekben, ahol nincs elegendő vizuális adat a képzéshez. A kutatók azt találták, hogy a nyelvi alapú bemenetek vizuális jelekkel való kombinálása jobb navigációs teljesítményhez vezet.
„Azzal, hogy tisztán nyelvet használunk perceptuális reprezentációként, egy egyszerűbb megközelítést alkalmazunk. Mivel minden bemenet nyelvként kódolható, ember által érthető útvonalat tudunk generálni” – mondja Bowen Pan, az elektromos mérnöki és számítástechnikai (EECS) hallgató és a módszerről szóló tanulmány vezető szerzője.
Nyelv és Vizuális Problémák Megoldása
Mivel a nagy nyelvi modellek a legnagyobb teljesítményű gépi tanulási modellek, a kutatók arra törekedtek, hogy ezeket beépítsék az úgynevezett látás- és nyelvi navigációs feladatba, mondja Pan. Az ilyen modellek azonban szöveges bemeneteket igényelnek, és nem tudják feldolgozni a robot kamerájának vizuális adatait. Ezért a csapatnak meg kellett találnia egy módot a nyelv használatára.
Technikájuk egy egyszerű feliratozási modellt használ, hogy szöveges leírásokat kapjon a robot vizuális megfigyeléseiről. Ezeket a feliratokat nyelvi alapú utasításokkal kombinálják, és egy nagy nyelvi modellbe táplálják, amely eldönti, hogy a robotnak milyen navigációs lépést kell tennie.
A nagy nyelvi modell egy feliratot ad ki arról a jelenetről, amelyet a robotnak látnia kell az adott lépés végrehajtása után. Ezt használják az útvonal történetének frissítésére, hogy a robot nyomon tudja követni, hol járt. A modell ezeket a folyamatokat ismétli, hogy olyan útvonalat generáljon, amely lépésről lépésre vezeti a robotot a céljához.
Az Előnyök és Kihívások
Amikor tesztelték ezt a megközelítést, bár nem tudta felülmúlni a látásalapú technikákat, számos előnyt kínált. Először is, mivel a szöveg kevesebb számítási erőforrást igényel a szintetizáláshoz, mint a komplex képadatok, módszerük gyorsan generálhat szintetikus képzési adatokat. Egy tesztben 10,000 szintetikus útvonalat generáltak 10 valós, vizuális útvonal alapján.
A technika áthidalhatja azt a szakadékot is, amely megakadályozhatja, hogy egy szimulált környezetben képzett ügynök jól teljesítsen a valós világban. Ez a szakadék gyakran azért fordul elő, mert a számítógéppel generált képek meglehetősen eltérhetnek a valós jelenetektől, például a világítás vagy a szín miatt. De a szintetikus és a valós kép leírása nyelvileg sokkal nehezebb megkülönböztetni, mondja Pan.
Emellett a modelljük által használt reprezentációk könnyebben érthetőek az emberek számára, mivel természetes nyelven vannak írva. „Ha az ügynök nem éri el a célját, könnyebben meghatározhatjuk, hol és miért hibázott. Talán a történeti információ nem elég világos, vagy a megfigyelés figyelmen kívül hagy néhány fontos részletet” – mondja Pan.
Továbbá módszerük könnyebben alkalmazható különféle feladatokra és környezetekre, mivel csak egyféle bemenetet használ. Amíg az adatokat nyelvként lehet kódolni, ugyanazt a modellt használhatják módosítások nélkül.
Az egyik hátrány azonban az, hogy módszerük természetesen elveszít néhány információt, amelyet a látásalapú modellek rögzítenének, például a mélységinformációkat. A kutatók azonban meglepődve tapasztalták, hogy a nyelvi alapú reprezentációk és a látásalapú módszerek kombinálása javítja az ügynök navigációs képességét.
„Talán ez azt jelenti, hogy a nyelv képes magasabb szintű információkat rögzíteni, amelyeket a tiszta látásjellemzők nem tudnak” – mondja Pan. Ez egy olyan terület, amelyet a kutatók tovább szeretnének vizsgálni. Emellett egy navigáció-orientált feliratozót is fejleszteni szeretnének, amely növelheti a módszer teljesítményét. Továbbá meg akarják vizsgálni a nagy nyelvi modellek térbeli tudatosságának képességét, és azt, hogy ez hogyan segítheti a nyelvalapú navigációt.
Ez a kutatás részben az MIT-IBM Watson AI Lab támogatásával valósult meg.
Érdekes tény: Tudta, hogy a robotok nyelvi alapú navigációja még az űrkutatásban is hasznos lehet? A jövőben ezek a technikák segíthetnek az űrrobotoknak a Mars felszínén történő navigációban, ahol a vizuális adatok korlátozottak lehetnek.