„Fantasztikus áttörés! Kutatók árnyékok segítségével modelleznek 3D jeleneteket, még a rejtett tárgyakat is feltárják!”


Forradalmasíthatja az autonóm járműveket és AR/VR eszközöket az MIT és a Meta új technikája

Képzelje el, hogy egy alagútban halad egy önvezető járművel, amikor egy baleset miatt a forgalom előtte megáll. Normális esetben az előző autóra kell támaszkodnia, hogy tudja, mikor kell fékeznie. De mi lenne, ha járműve már azelőtt látná, mi van az előtte lévő autó körül, és még korábban fékezne?

Az MIT és a Meta kutatói egy olyan számítógépes látási technikát fejlesztettek ki, amely egy nap lehetővé teheti az autonóm járművek számára, hogy ezt megtegyék.

Új módszer a 3D jelenetek pontosabb modellezésére

Bemutattak egy módszert, amely fizikailag pontos, 3D modelleket hoz létre egy teljes jelenetről, beleértve a blokkolt területeket is, egyetlen kamera pozíciójából készült képek felhasználásával. Technikájuk árnyékokat használ annak megállapítására, hogy mi rejlik a jelenet elzárt részeiben.

Módszerüket PlatoNeRF-nek nevezték el, Platón barlanghasonlatára alapozva, amely a görög filozófus „Állam” című művéből való, ahol a barlangba láncolt foglyok az árnyékok alapján ismerik meg a külvilág valóságát.

A lidar (fényérzékelés és -távolságmérés) technológia és a gépi tanulás kombinálásával a PlatoNeRF pontosabb 3D geometriai rekonstrukciókat képes létrehozni, mint néhány meglévő AI technika. Ezenkívül a PlatoNeRF jobban képes simán rekonstruálni azokat a jeleneteket, ahol az árnyékokat nehéz látni, például magas környezeti fény vagy sötét háttér esetén.

Biztonságosabb önvezető járművek és hatékonyabb AR/VR eszközök

A PlatoNeRF javíthatja az autonóm járművek biztonságát, és hatékonyabbá teheti az AR/VR headseteket, lehetővé téve a felhasználók számára, hogy egy szoba geometriáját modellezzék anélkül, hogy körbe kellene járniuk és méréseket végezniük. Segíthet a raktári robotoknak is gyorsabban megtalálni a tárgyakat zsúfolt környezetben.

„Kulcsfontosságú ötletünk az volt, hogy két különböző tudományterületen korábban végzett munkát összehozzunk — a többvisszaverődéses lidart és a gépi tanulást. Kiderült, hogy amikor ezeket összehozzuk, akkor találunk sok új lehetőséget a felfedezésre és a legjobb eredmények elérésére,” mondta Tzofi Klinghoffer, az MIT médiaművészeti és tudományos hallgatója, az MIT Media Lab tagja és a PlatoNeRF-ről szóló tanulmány vezető szerzője.

Klinghoffer tanulmányát tanácsadójával, Ramesh Raskarral, az MIT médiaművészeti és tudományos társprofesszorával és a Camera Culture Group vezetőjével; a Meta Reality Labs AI kutatási igazgatójával, Rakesh Ranjannal; valamint Siddharth Somasundaram-al az MIT-től, és Xiaoyu Xiang, Yuchen Fan és Christian Richardt-tal a Metától írta. A kutatást a Számítógépes Látás és Minta Felismerés Konferencián fogják bemutatni.

A probléma megvilágítása

Teljes 3D jelenet rekonstruálása egy kamera nézőpontjából összetett probléma.

Bizonyos gépi tanulási megközelítések generatív AI modelleket használnak, amelyek megpróbálják kitalálni, mi rejlik az elzárt részekben, de ezek a modellek olyan tárgyakat is „láthatnak”, amelyek valójában nincsenek ott. Más megközelítések megpróbálják kitalálni az elrejtett tárgyak alakját színes képek árnyékaival, de ezek a módszerek elakadhatnak, amikor az árnyékokat nehéz látni.

A PlatoNeRF-hez az MIT kutatói egy új érzékelési módot, az egyfotonos lidart használták. A lidarok 3D jeleneteket térképeznek fel úgy, hogy fényimpulzusokat bocsátanak ki, és mérik az időt, amíg a fény visszapattan az érzékelőhöz. Mivel az egyfotonos lidarak képesek egyedi fotonokat észlelni, magasabb felbontású adatokat szolgáltatnak.

A kutatók egy egyfotonos lidart használnak, hogy megvilágítsanak egy célt a jelenetben. A fény egy része visszapattan a célpontról, és közvetlenül az érzékelőhöz tér vissza. Azonban a fény nagy része szóródik, és más tárgyakról visszaverődve tér vissza az érzékelőhöz. A PlatoNeRF ezekre a második visszaverődésekre támaszkodik.

Azzal, hogy kiszámítják, mennyi időbe telik a fénynek kétszer visszapattanni és visszatérni a lidar érzékelőhöz, a PlatoNeRF további információkat rögzít a jelenetről, beleértve a mélységet is. A második fényvisszaverődés információkat tartalmaz az árnyékokról is.

A rendszer nyomon követi azokat a másodlagos fénycsóvákat — amelyek a célpontról más pontokra verődnek vissza a jelenetben —, hogy megállapítsa, mely pontok vannak árnyékban (a fény hiánya miatt). Az árnyékok elhelyezkedése alapján a PlatoNeRF kikövetkezteti az elrejtett tárgyak geometriáját.

A lidar sorban 16 pontot világít meg, több képet rögzítve, amelyek az egész 3D jelenetet rekonstruálják.

„Minden alkalommal, amikor megvilágítunk egy pontot a jelenetben, új árnyékokat hozunk létre. Mivel ezek az eltérő megvilágítási források mind rendelkezésre állnak, sok fénycsóva lövöldözik körbe, így kimetszjük az elzárt régiót, amely a látható szemhatáron túl van,” mondta Klinghoffer.

Nyertes kombináció

A PlatoNeRF kulcsa a többvisszaverődéses lidar kombinálása egy speciális gépi tanulási modellel, amelyet neurális sugármezőnek (NeRF) neveznek. Egy NeRF a jelenet geometriáját egy neurális hálózat súlyaiba kódolja, ami erős interpolációs képességet ad a modellnek, vagyis új nézőpontok becslését a jelenetről.

Ez az interpolációs képesség nagyon pontos jelenetrekonstrukciókat eredményez, ha többvisszaverődéses lidarral kombinálják, mondta Klinghoffer.

„A legnagyobb kihívás az volt, hogy kitaláljuk, hogyan kombináljuk ezt a két dolgot. Tényleg át kellett gondolnunk, hogyan történik a fény szállítása a többvisszaverődéses lidarral, és hogyan modellezhetjük ezt gépi tanulással,” mondta.

A PlatoNeRF-et két általános alternatív módszerrel hasonlították össze, az egyik csak lidart használt, a másik pedig csak egy NeRF-et színes képpel.

Megállapították, hogy módszerük képes felülmúlni mindkét technikát, különösen akkor, amikor a lidar érzékelő alacsonyabb felbontású volt. Ez gyakorlatibbá tenné megközelítésüket a valós világban való alkalmazásra, ahol az alacsonyabb felbontású érzékelők gyakoriak a kereskedelmi eszközökben.

„Körülbelül 15 évvel ezelőtt csoportunk feltalálta az első kamerát, amely képes volt ‘látni’ a sarkok mögött, azáltal, hogy kihasználta a fény többszöri visszaverődését, vagy ‘fényvisszhangokat’. Ezek a technikák speciális lézereket és érzékelőket használtak, és három fényvisszaverődést alkalmaztak. Azóta a lidar technológia mainstream lett, ami a ködön átlátó kamerák kutatásához vezetett. Ez az új munka csak két fényvisszaverődést használ, ami azt jelenti, hogy a jel-zaj arány nagyon magas, és a 3D rekonstrukció minősége lenyűgöző,” mondta Raskar.

A jövőben a kutatók több mint két fényvisszaverődést is követni szeretnének, hogy megnézzék, hogyan javíthatná ez a jelenetrekonstrukciókat. Emellett érdeklődnek további mély tanulási technikák alkalmazása és a PlatoNeRF színes képmérésekkel való kombinálása iránt, hogy textúrainformációkat is rögzítsenek.

„Míg az árnyékok kameraképeit régóta tanulmányozták, mint a 3D rekonstrukció eszközét, ez a munka újra megvizsgálja a problémát a lidar kontextusában, jelentős javulásokat demonstrálva a rejtett geometria rekonstruálásának pontosságában. A munkájuk azt mutatja, hogy az ügyes algoritmusok rendkívüli képességeket tehetnek lehetővé, amikor hétköznapi érzékelőkkel kombinálják őket — beleértve a lidar rendszereket, amelyeket sokan zsebünkben hordunk,” mondta David Lindell, a Torontói Egyetem Számítástechnikai Tanszékének adjunktusa, aki nem vett részt ebben a munkában.

Érdekesség: Tudta, hogy az AI technológiák, mint például a PlatoNeRF, a gépi tanulást és a fizikát ötvözik, hogy olyan új megoldásokat találjanak, amelyek a jövőben forradalmasíthatják a mindennapi életünket?

Forrás: MIT News, Meta Reality Labs