Runway bejelenti a Gen-3 Alpha AI videószintézis modellt
A Runway vasárnap bejelentette a Gen-3 Alpha nevű új AI videószintézis modellt, amely még fejlesztés alatt áll, de már most hasonló minőségű videókat képes létrehozni, mint az OpenAI korábban bemutatott Sora modellje. A Gen-3 Alpha képes új, nagyfelbontású videókat generálni szöveges utasítások alapján, amelyek a realisztikus emberi ábrázolásoktól a szürreális szörnyekig terjednek.
A Runway előző legjobb modellje, amelyet 2023 júniusában dobtak piacra, csak két másodperces klipeket tudott létrehozni, de a Gen-3 Alpha már 10 másodperces videószegmenseket is képes generálni. Ez a konzisztencia és koherencia szempontjából messze felülmúlja a Gen-2-t. Bár a 10 másodperc rövidebb, mint a Sora egyperces videói, érdemes figyelembe venni, hogy a Runway szerényebb költségvetéssel dolgozik, és már korábban is sikeresen szállított videógenerációs technológiát kereskedelmi felhasználóknak.
A Gen-3 Alpha nem generál hangot a videók mellé, és valószínű, hogy az időben koherens generációk (azaz azok, amelyek egy karaktert következetesen ábrázolnak) hasonló minőségű képzési anyagokra támaszkodnak. A Runway vizuális hűségben elért fejlődése az elmúlt évben azonban figyelemre méltó.
Az AI videó szintézis fellendülése
Az elmúlt hetekben az AI videószintézis területén nagy volt a nyüzsgés, beleértve a kínai modell, a Kling bevezetését is, amelyet a pekingi székhelyű Kuaishou Technology fejlesztett ki. A Kling képes két percnyi 1080p HD videót generálni 30 képkocka/másodperces sebességgel, ami állítólag megegyezik a Sora szintjével.
Nem sokkal a Kling bemutatását követően az emberek a közösségi médiában elkezdtek szürreális AI videókat készíteni a Luma AI Luma Dream Machine segítségével. Ezek a videók újszerűek és furcsák voltak, de általában hiányzott belőlük a koherencia; mi is kipróbáltuk a Dream Machine-t, és nem voltunk lenyűgözve.
A New York-i székhelyű Runway, amelyet 2018-ban alapítottak, nemrégiben mémek célpontjává vált, amelyek a Gen-2 technológiájának elavultságát mutatták be az újabb videószintézis modellekhez képest. Ez talán ösztönözte a Gen-3 Alpha bejelentését.
Gen-3 Alpha képességei
Realisztikus emberek generálása mindig is kihívást jelentett a videószintézis modellek számára, ezért a Runway külön bemutatja a Gen-3 Alpha képességeit, hogy „kifejező” emberi karaktereket hozzon létre, amelyek különféle mozdulatokat, gesztusokat és érzelmeket mutatnak. Azonban a cég által bemutatott példák nem voltak különösebben kifejezőek—többnyire emberek lassan bámulnak és pislognak—de realisztikusnak tűnnek.
A bemutatott emberi példák között szerepel egy nő a vonaton, egy asztronauta, aki egy utcán fut, egy férfi, akinek az arca egy TV készülék fényében világít, egy nő, aki autót vezet, és egy nő, aki fut.
A demó videók között szürreális példák is szerepelnek, például egy óriási lény, amely egy lepusztult városban sétál, egy kőből készült ember, aki egy erdőben sétál, és az alábbi képen látható óriási vattacukor-szörny, amely valószínűleg az egész oldal legjobb videója.
A Gen-3 Alpha a Runway különböző AI szerkesztő eszközeit fogja működtetni, beleértve a Multi Motion Brush-t, az Advanced Camera Controls-t és a Director Mode-ot. Képes videókat létrehozni szöveges vagy képi utasítások alapján.
A Runway szerint a Gen-3 Alpha az első egy sor olyan modellek közül, amelyeket egy új infrastruktúrán képeztek ki, amelyet nagy léptékű multimodális képzésre terveztek, és amely egy lépést jelent a „General World Models” nevű hipotetikus AI rendszerek fejlesztése felé, amelyek belső környezetábrázolásokat hoznak létre, és ezeket használják a jövőbeli események szimulálására.
Korai korlátok
Bár ezek a demók első látásra szórakoztatónak tűnnek, érdemes megemlíteni néhány hátrányt is. Mivel a Gen-3 Alpha még nem nyilvános és nincs hozzáférésünk, nem volt lehetőségünk értékelni azt. Ez azt jelenti, hogy még ha el is fogadjuk a Runway állítását („Az oldalon található összes videót a Gen-3 Alpha generálta módosítások nélkül”), a videók valószínűleg különösen optimális eredményeket mutatnak.
Emellett minden kép- és videószintézis modell nagy adatbázisokat igényel meglévő képekből vagy videókból, amelyeket általában online forrásokból gyűjtenek össze engedély nélkül, vagy licencelnek a jogtulajdonosoktól. A Runway nem közölte, honnan szerezte a képzési adatokat a Gen-3 Alpha-hoz, de azt állítja, hogy a modellt videókon és állóképeken is képezték.
Az arculatjavítás terén mutatott fejlődést figyelembe véve a demó videók lenyűgözőek és korszerűek (bár ez egy állandóan mozgó célpont) a videószintézis terén. Ha a technológia a következő években tovább fejlődik, valószínű, hogy a videószintézis klipek valamilyen formában megtalálják az utat a professzionális videóprojektekbe.
Míg a média soha nem rögzítette pontosan a valóságot, a fotorealisztikus videók hosszú ideig főként valós tárgyakhoz és helyzetekhez kötődtek (drága speciális effektek és CGI részlegek kivételével). Ha elég finom generációs kontrollt érnek el, az AI videó technológia készen áll arra, hogy ezt a nagy költségvetésű képességet elhozza az alacsony költségvetésű videóprodukciókhoz, ami drámai módon csökkentheti a filmkészítés költségeit a jövőben. De mivel néhány szórakoztatóipari munkahely potenciálisan veszélybe kerülhet—beleértve a vizuális effektek csapatait, színészeket és díszlettervezőket—is, számíthatunk küzdelemre és visszacsapásra.
Mint említettük, a Gen-3 Alpha még nem elérhető a nyilvánosság számára, de a cég lehetőséget kínál a kereskedelmi entitásoknak, hogy érdeklődjenek a modell finomhangolása iránt a jövőbeni kereskedelmi felhasználásra. A Runway szerint a Gen-3 Alpha kiadása, amikor elérkezik, tartalmazni fog tartalombiztonsági intézkedéseket, mint például egy házon belüli vizuális moderációs rendszert és a C2PA származási szabványait.
Érdekességként, a Gen-3 Alpha egyik legszürreálisabb példája egy óriási, kék vattacukorból készült humanoid, amely a földön taposva ordít az ég felé—a háttérben tiszta kék ég látható.