Runway Gen-3 Alpha: Szövegből videóba – Az AI jövője
Júniusban a Runway bemutatta új szöveg-alapú videószintézis modelljét, a Gen-3 Alpha-t. Ez a modell írott leírásokat, úgynevezett „prompteket” alakít át hang nélküli HD videó klipekké. Azóta alkalmunk nyílt kipróbálni, és megosztani eredményeinket.
Kísérleteink azt mutatják, hogy a gondos promptolás nem olyan fontos, mint a koncepciók összehangolása, amelyek valószínűleg megtalálhatók a képzési adatokban. Az előírt eredmények elérése gyakran hosszú generációkat és szelektív válogatást igényel.
A generatív AI modellek kihívásai
Minden 2022 óta látott generatív AI modell tartós témája az, hogy kiválóak lehetnek a képzési adatokban talált koncepciók keverésében, de általában nagyon gyengék az általánosításban. Ez azt jelenti, hogy stilisztikai és tematikus újdonságokban kiválóak lehetnek, de küzdenek az alapvető szerkezeti újdonságokkal, amelyek túlmutatnak a képzési adatokon.
A Runway Gen-3 esetében ez azt jelenti, hogy ha egy vitorlás hajót kérsz egy kavargó kávéscsészében, és a Gen-3 képzési adatbázisában vannak példák vitorlás hajókról és kavargó kávéról, akkor ez egy „könnyű” új kombináció a modell számára. De ha egy macskát kérsz, amely sört iszik (mint egy sörreklámban), akkor valószínűleg kudarcot vall, mert nem sok videó van fotorealisztikus macskákról, amelyek emberi italokat fogyasztanak a képzési adatokban.
Alap promptok és eredmények
A Gen-3 Alpha tesztelési fázisában feliratkoztunk a Runway Standard tervére, amely 625 kreditet biztosít havi 15 dollárért, plusz néhány ingyenes próbakreditet. Minden generáció 10 kreditet igényel másodpercenként, és mi 10 másodperces videókat készítettünk 100 kreditért darabonként. Így a generációk száma korlátozott volt.
Először néhány alap promptot próbáltunk ki korábbi képszintézis tesztekből, mint például macskák sört isznak, barbárok CRT TV készülékekkel, és az univerzum királynői. Kipróbáltuk az Ars Technica kabaláját, a „moonshark”-ot is. Lásd az alábbi eredményeket:
- „Egy nagyon intelligens ember, aki az „Ars Technica”-t olvassa a számítógépén, amikor a képernyő felrobban.”
- „Reklám egy új lángoló sajtos hamburgerről a McDonald’s-tól.”
- „A moonshark kiugrik egy számítógép képernyőjéből és megtámad egy embert.”
- „Egy macska egy autóban sört iszik, sörreklám.”
- „Will Smith spagettit eszik” egy szűrőt aktivált, ezért próbáltuk „egy fekete férfi spagettit eszik.” (Nézd meg a végéig.)
- „Robotikus humanoid állatok vaudeville kosztümökben járják az utcákat, és tokenekben szednek védelmi pénzt.”
- „Egy kosárlabdázó egy kísértetjárta utasszállító vonat kocsiban egy kosárlabdapályával, és kísértetcsapat ellen játszik.”
- „Egy millió macska fut egy domboldalon, légifelvétel.”
- „Videójáték felvétele egy dinamikus 1990-es évekbeli harmadik személyű 3D platformjátékról, amelyben egy antropomorf cápa fiú szerepel.”
Néhány említésre méltó kudarc
A Runway videószintézis technológiája már most is sok koncepcionális hibát tartalmaz, ahogy azt fentebb láthattuk. Felmerül a kérdés: Mit tekinthetünk generációs hibának, amikor általában elégedettek vagyunk egy macskával, amely emberi kézzel iszik sört?
Úgy érezzük, hogy voltak idők, amikor az AI modell nem követte szorosan a promtot—sem tematikusan, sem a javasolt kameramozgások szerint. Legalábbis ezek a generációk nem szórakoztattak minket.
- „Benj Edwards, egy számítógépes újságíró, AI-ról ír egy írógépen, amely robottá válik.”
- „Gyors mozgású zoom és forgatás egy gyönyörű univerzum királynőjére.”
- „Egy rémült nő viktoriánus ruhában fut az erdőn keresztül, dolly felvétel.”
- „Egy izmos barbár fegyverekkel a CRT televízió mellett, filmes, 8K, stúdió világítás.”
- „Légifelvétel egy kis amerikai városról, amelyet folyékony sajt önt el egy hatalmas sajteső után, ahol folyékony sajt csöpög az épületekre.”
Részletesebb promptokkal való kísérletezés
Mivel a Gen-3-hoz jó promptok készítése trükkös lehet, valaki létrehozott egy GPT asszisztenst (a ChatGPT-hez), amely segíthet az egyszerű promptok átalakításában részletesebb nyelvre, amely tartalmazza a kamerautasításokat is. Ezzel a GPT-vel a következő generációkat készítettük:
- „Alacsony szögű statikus felvétel: Egy mackó ül egy piknik takarón a parkban, és pizzát eszik. A mackó barna és bolyhos, piros csokornyakkendővel, a pizzaszelet pedig sajtos és pepperonis. A napnyugta arany fényt vet a jelenetre.”
- „Magas szögű statikus felvétel: Egy hacker az 1980-as években szürke kapucnis pulóverben, egy Apple II számítógép fölött görnyed egy halványan megvilágított szobában, ahol kábelek és monitorok szóródnak szét. A képernyő zöld kódsorokat jelenít meg, miközben a hacker őrülten gépel, hogy betörjön a Pentagon hálózatába. A szobát a számítógép képernyőjének és egy kis asztali lámpának a fényes ragyogása világítja meg.”
- „Széles látószögű felvétel, amely a Sasquatch-ot mutatja a színpad közepén, miközben TED beszédet tart a gombákról, majd lassan ráközelít az arckifejezéseire és gesztusaira, mielőtt a figyelmes közönségre pásztáznánk.”
Végül a bonyolult promptok sem igazán segítettek. A Runway Gen-3 Alpha jelenleg egy pszichedelikus játék, amely szórakoztató lehet, ha megengedheted magadnak a krediteket. De általában hiányzik belőle a koherencia, hogy „hasznos videót” generáljon, bár az eredmények attól függően változhatnak, hogy milyen projektről van szó. Még ha az eredmények tökéletesek is lennének, a videószintézis modell etikája, amely ismeretlen adatbázison alapulva készült, némi visszhangot válthat ki.
Érdekes tény: Az OpenAI GPT-4 modellje azért vált híressé a szövegszintézisben, mert elérte azt a méretet, ahol elég információt „szívott fel” a képzési adatokban ahhoz, hogy azt a benyomást keltse, hogy képes valóban megérteni és modellezni a világot.
Források: Runway, Ars Technica