FELHÍVÁS: Ez az új AI képgenerátor döbbenetesen élethű emberi kezeket alkot!

Új AI technológia a Black Forest Labs-tól

Csütörtökön a Black Forest Labs nevű AI-startup bejelentette cégét és első szöveg-alapú képgeneráló AI modellcsomagját, az FLUX.1-et. A német székhelyű vállalatot olyan kutatók alapították, akik a Stable Diffusion mögött álló technológiát fejlesztették, és feltalálták a latent diffusion technikát. Céljuk, hogy fejlett generatív AI-t hozzanak létre képek és videók számára.

A FLUX.1 bevezetése körülbelül hét héttel azután történt, hogy a Stability AI problémás módon mutatta be a Stable Diffusion 3 Medium-ot június közepén. A Stability AI ajánlata széleskörű kritikát kapott a képgenerálás terén mutatott gyenge teljesítménye miatt, különösen az emberi anatómia terén, ahol a felhasználók torz végtagokról és testekről osztottak meg példákat a közösségi médiában. E problémás bevezetés előtt három kulcsfontosságú mérnök hagyta el a Stability AI-t—Robin Rombach, Andreas Blattmann és Dominik Lorenz—akik a Black Forest Labs-ot alapították a latent diffusion társalapítójával, Patrick Esser-rel és másokkal együtt.

A Black Forest Labs három FLUX.1 szöveg-alapú képgeneráló modullal indult: egy prémium kereskedelmi „pro” verzióval, egy középkategóriás „dev” verzióval, amely nyílt súlyokat tartalmaz nem kereskedelmi használatra, és egy gyors „schnell” verzióval (a „schnell” németül gyorsat jelent). A Black Forest Labs azt állítja, hogy modelljeik felülmúlják a létező lehetőségeket, mint például a Midjourney és a DALL-E, különböző területeken, mint a képminőség és a szöveges utasítások betartása.

A FLUX.1 modellek egy hibrid architektúrát használnak, amely a transformer és a diffusion technikákat kombinálja, 12 milliárd paraméterre bővítve. A Black Forest Labs azt mondta, hogy javított az előző diffusion modelleken, beépítve a flow matching-et és más optimalizálásokat.

Az FLUX.1 látszólag ügyes az emberi kezek generálásában, amely korábban gyenge pont volt a korábbi képgeneráló modellekben. A cég tervei között szerepel a videógenerálásra való terjeszkedés is, állítva, hogy a FLUX.1 lesz az alapja egy új szöveg-alapú videómodellnek, amely versenyezni fog az OpenAI Sora, a Runway Gen-3 Alpha és a Kuaishou Kling modellekkel.

Érdekes tény: A generatív AI technológiák, mint a FLUX.1, képesek a kreatív iparban forradalmasítani a tartalomgyártást, lehetővé téve a felhasználók számára, hogy gyorsan és hatékonyan hozzanak létre új műveket.

Források: Ars Technica, Black Forest Labs hivatalos közleménye, Stability AI bejelentések.