Új mesterséges intelligencia sokkol: A Stable Diffusion 3 hátborzongató testhorror alkotásokkal hódít


Stabil Diffúzió 3: Egy Lépés Visszafelé az AI Képgenerálásban?

Szerdán a Stability AI kiadta a Stable Diffusion 3 Medium súlyait, egy AI képgeneráló modellt, amely szöveges utasítások alapján hoz létre képeket. Az érkezése azonban online gúny tárgyává vált, mivel az emberi alakok generálása terén visszalépésnek tűnik más csúcstechnológiás képgeneráló modellekhez képest, mint például a Midjourney vagy a DALL-E 3. Ennek eredményeként könnyedén képes anatómiailag helytelen vizuális torzszülötteket létrehozni.

Reddit Felhasználók Véleménye

Egy Reddit szál, amely a „Ez a kiadás viccnek készült? [SD3-2B]” címet viseli, részletesen bemutatja a SD3 Medium látványos kudarcait az emberek, különösen az emberi végtagok, mint például a kezek és lábak megjelenítésében. Egy másik szál, amely a „Miért olyan rossz az SD3 a fűben fekvő lányok generálásában?” címet viseli, hasonló problémákat mutat be, de az egész emberi testek esetében.

A kezek hagyományosan kihívást jelentettek az AI képgenerátorok számára a korai tanulási adatkészletek hiányosságai miatt, de az utóbbi időben több képgeneráló modell is úgy tűnt, hogy túllépett ezen a problémán. Ebben az értelemben az SD3 hatalmas visszalépésnek tűnik a Redditen gyülekező képgenerálási rajongók számára—különösen a Stability legutóbbi kiadásaihoz, mint például a SD XL Turbo-hoz képest.

„Nem is olyan régen a Stable Diffusion versengett a Midjourney-vel, most pedig viccnek tűnik hozzá képest. Legalább az adatkészleteink biztonságban és etikusak!” – írta egy Reddit felhasználó.

Anatómiai Hibák és Az NSFW Szűrés Hatása

Az AI képgenerálás rajongói az SD3 anatómiai hibáit a Stability azon ragaszkodásának tulajdonítják, hogy kiszűrjék a felnőtt tartalmakat (gyakran „NSFW” tartalomként említve) az SD3 tanulási adataiból, amelyek megtanítják a modellt képek generálására. „Akár hiszed, akár nem, egy modell erős cenzúrázása az emberi anatómia eltávolítását is eredményezi, szóval… ez történt” – írta egy Reddit felhasználó a témában.

Alapvetően, amikor egy felhasználói utasítás egy olyan koncepcióra összpontosít, amely nem jól képviselteti magát az AI modell tanulási adatkészletében, a képgeneráló modell a legjobb értelmezését fogja létrehozni annak, amit a felhasználó kér. És néha ez teljesen rémisztő lehet.

A Stable Diffusion 2.0 kiadása 2022-ben hasonló problémákkal küzdött az emberek ábrázolásában, és az AI kutatók hamar felfedezték, hogy a meztelenséget tartalmazó felnőtt tartalmak cenzúrázása súlyosan akadályozhatja egy AI modell képességét az emberi anatómia pontos generálására. Akkoriban a Stability AI visszavonta ezt az irányt az SD 2.1 és SD XL esetében, visszanyerve néhány képességet, amelyeket az NSFW tartalom erős szűrése miatt veszítettek el.

Egy másik probléma, amely előfordulhat a modell előképzése során, hogy az NSFW szűrő, amelyet a kutatók használnak a felnőtt képek eltávolítására az adatkészletből, túl válogatós lehet, véletlenül eltávolítva olyan képeket, amelyek nem sértőek, és megfosztva a modellt az emberek bizonyos helyzetekben való ábrázolásától. „[SD3] jól működik, amíg nincsenek emberek a képen, azt hiszem, az új és javított nsfw szűrőjük úgy döntött, hogy bármi, ami humanoid, nsfw” – írta egy Redditor a témában.

Stability AI Helyzete

A Stability AI februárban jelentette be a Stable Diffusion 3-at, és a vállalat különböző modellméretekben tervezi elérhetővé tenni. A mai kiadás a „Medium” verzióra vonatkozik, amely egy 2 milliárd paraméteres modell. A súlyok elérhetőek a Hugging Face-en keresztül, és a vállalat Stability Platformján keresztül is kísérletezhetők. A súlyok ingyenesen letölthetők és használhatók, de csak nem kereskedelmi célokra.

Röviddel a februári bejelentés után az SD3 modell súlyainak kiadásának késései pletykákat indítottak el arról, hogy a kiadást technikai problémák vagy rossz menedzsment miatt tartják vissza. A Stability AI mint vállalat nemrégiben zuhanórepülésbe került, miután márciusban lemondott alapítója és vezérigazgatója, Emad Mostaque, majd egy sor elbocsátás következett. Közvetlenül ezt megelőzően három kulcsfontosságú mérnök—Robin Rombach, Andreas Blattmann és Dominik Lorenz—elhagyta a vállalatot. És a problémák még tovább nyúlnak vissza, mivel a vállalat súlyos pénzügyi helyzetéről szóló hírek már 2023 óta keringenek.

Néhány Stable Diffusion rajongó számára a Stable Diffusion 3 Medium kudarcai a vállalat rossz menedzsmentjének vizuális megnyilvánulásai—és egyértelmű jele annak, hogy a dolgok szétesnek. Bár a vállalat még nem jelentett csődöt, néhány felhasználó sötét vicceket tett a lehetőségről, miután látta az SD3 Mediumot:

„Azt hiszem, most már csődbe mehetnek biztonságos és etikus módon, végül is.”

Érdekes információ: Tudtad, hogy a Stability AI legutóbbi pénzügyi jelentése szerint a vállalat több mint 50 millió dolláros veszteséget könyvelt el az elmúlt évben? Ez a szám jelentős hatással lehet a jövőbeli fejlesztésekre és a vállalat fennmaradására.