A nagy nyelvi modellek képesek-e megérteni a képi világot?

A nagy nyelvi modellek képesek-e megérteni a képi világot?

Valószínűleg hallottad már, hogy egy kép ezer szót ér, de vajon egy nagy nyelvi modell (LLM) képes-e megérteni a képet, ha soha nem látott még képeket? Mint kiderült, a szövegalapú tanulásra épülő nyelvi modellek szilárd megértéssel rendelkeznek a vizuális világról. Képesek képkódokat írni, hogy összetett jeleneteket hozzanak létre érdekes tárgyakkal és kompozíciókkal — és még akkor is, ha ez a tudás nem megfelelően van felhasználva, az LLM-ek képesek finomítani a képeiket.

A MIT Számítástechnikai és Mesterséges Intelligencia Laboratóriumának (CSAIL) kutatói ezt figyelték meg, amikor a nyelvi modelleket különböző képek kódjainak önkorrekciójára késztették, ahol a rendszerek minden lekérdezéssel javították az egyszerű clipart rajzaikat.

Hogyan tanulnak a nyelvi modellek vizuális tudást?

A nyelvi modellek vizuális tudása abból származik, ahogyan az interneten a formákat és színeket leírják, legyen az nyelvi vagy kód alapú. Amikor egy irányítást kapnak, például „rajzolj egy papagájt a dzsungelben”, a felhasználók arra késztetik az LLM-et, hogy fontolja meg, amit korábban leírásokban olvasott.

A CSAIL csapata egy „vizuális ellenőrzést” állított össze az LLM-ek számára: a „Visual Aptitude Dataset” segítségével tesztelték a modellek képességeit a rajzolásban, felismerésben és az ezekhez kapcsolódó fogalmak önkorrekciójában. Az összes végleges rajz összegyűjtésével a kutatók egy számítógépes látásrendszert képeztek ki, amely felismeri a valós fotók tartalmát.

Vizuális adatok generálása szöveges lekérdezésekkel

„Alapvetően egy látásrendszert képeztünk ki anélkül, hogy közvetlenül használtunk volna vizuális adatokat” – mondja Tamar Rott Shaham, a tanulmány társszerzője és a MIT elektromos mérnöki és számítástechnikai (EECS) posztdoktora a CSAIL-nál. „Csapatunk nyelvi modelleket kérdezett meg, hogy képkódokat írjanak, hogy adatokat generáljanak számunkra, majd a látásrendszert természetes képek értékelésére képeztük ki. Az inspirációt az a kérdés adta, hogy hogyan jelennek meg a vizuális fogalmak más médiumokon keresztül, mint például a szöveg.”

A dataset összeállításához a kutatók először lekérdezték a modelleket, hogy különböző formák, tárgyak és jelenetek kódját generálják. Ezután ezt a kódot összeállították, hogy egyszerű digitális illusztrációkat hozzanak létre, például egy sor kerékpárt, ami azt mutatja, hogy az LLM-ek elég jól megértik a térbeli viszonyokat ahhoz, hogy a kétkerekűeket vízszintes sorban rajzolják. Egy másik példa szerint a modell egy autó alakú tortát generált, két véletlenszerű fogalmat kombinálva. A nyelvi modell egy világító izzót is létrehozott, jelezve, hogy képes vizuális hatásokat létrehozni.

A nyelvi modellek képességeinek kihasználása

„A munkánk azt mutatja, hogy amikor egy LLM-et kérdezel meg (multimodális előképzés nélkül), hogy hozzon létre egy képet, sokkal többet tud, mint amilyennek tűnik” – mondja Pratyusha Sharma, a tanulmány társszerzője és a CSAIL tagja. „Tegyük fel, hogy megkérted, hogy rajzoljon egy széket. A modell más dolgokat is tud erről a bútordarabról, amelyeket lehet, hogy azonnal nem jelenített meg, így a felhasználók lekérdezhetik a modellt, hogy javítsák a létrehozott vizuált minden iterációval. Meglepő módon a modell iteratívan gazdagíthatja a rajzot, jelentős mértékben javítva a kódot.”

A kutatók összegyűjtötték ezeket az illusztrációkat, amelyeket aztán egy számítógépes látásrendszer kiképzésére használtak, amely felismeri az objektumokat a valós fotókban (annak ellenére, hogy soha nem látott még egyet sem). Ezzel a szintetikus, szöveggenerált adattal, mint egyetlen referencia pont, a rendszer felülmúlja más eljárásosan generált képadatbázisokat, amelyeket autentikus fotókkal képeztek ki.

LLM-ek és művészi AI eszközök kombinációja

A CSAIL csapata úgy véli, hogy az LLM-ek rejtett vizuális tudásának és más AI eszközök, mint például a diffúziós modellek művészi képességeinek kombinálása is előnyös lehet. Az olyan rendszerek, mint a Midjourney, néha hiányoznak a finom részletek következetes finomításához szükséges tudásból, ami megnehezíti számukra az olyan kérések kezelését, mint a képen szereplő autók számának csökkentése, vagy egy tárgy elhelyezése egy másik mögé. Ha egy LLM előre vázolná a diffúziós modell számára a kért változtatást, az eredményül kapott szerkesztés kielégítőbb lehetne.

Az irónia, ahogy Rott Shaham és Sharma elismeri, az, hogy az LLM-ek néha nem ismerik fel ugyanazokat a fogalmakat, amelyeket meg tudnak rajzolni. Ez világossá vált, amikor a modellek helytelenül azonosították a datasetben szereplő képek emberi újrakreációit. Az ilyen sokféle vizuális világábrázolás valószínűleg kiváltotta a nyelvi modellek tévképzeteit.

Bár a modellek küzdöttek ezekkel az absztrakt ábrázolásokkal, megmutatták azt a kreativitást, hogy minden alkalommal másképp rajzolják ugyanazokat a fogalmakat. Amikor a kutatók lekérdezték az LLM-eket, hogy rajzoljanak például epret és játéktermeket többször, különböző szögekből és különböző formákkal és színekkel készült képeket hoztak létre, ami arra utal, hogy a modellek ténylegesen rendelkezhetnek vizuális fogalmak mentális képzetével (ahelyett, hogy korábbi példákat idéznének fel).

A CSAIL csapata úgy véli, hogy ez az eljárás alapként szolgálhat annak értékelésére, hogy egy generatív AI modell mennyire jól tudja kiképezni a számítógépes látásrendszert. Emellett a kutatók szeretnék bővíteni a nyelvi modellek kihívásaira vonatkozó feladatokat. A legutóbbi tanulmányuk esetében a MIT csoport megjegyzi, hogy nincs hozzáférésük az általuk használt LLM-ek tanítási készletéhez, ami megnehezíti a vizuális tudásuk eredetének további vizsgálatát. A jövőben azt tervezik, hogy egy még jobb látásmodellt képeznek ki azáltal, hogy az LLM közvetlenül dolgozik vele.

Sharma és Rott Shaham mellett a tanulmányban részt vett a volt CSAIL tag Stephanie Fu ’22, MNG ’23 és az EECS PhD hallgatók Manel Baradad, Adrián Rodríguez-Muñoz ’22, és Shivam Duggal, akik mindannyian CSAIL tagok; valamint a MIT társult professzora Phillip Isola és professzor Antonio Torralba. Munkájukat részben a MIT-IBM Watson AI Lab, a LaCaixa Ösztöndíj, a Zuckerman STEM Vezetői Program és a Viterbi Ösztöndíj támogatta. Ezen a héten mutatják be tanulmányukat az IEEE/CVF Számítógépes Látás és Mintafelismerés Konferencián.

Érdekes tény: A kutatók szerint az LLM-ek által generált képek annyira pontosak lehetnek, hogy egyes esetekben a számítógépes látásrendszerek jobban teljesítenek ezekkel a szintetikus adatokkal, mint valódi fotókkal.