Új lehetőségek a Flux AI képalkotó modell segítségével
Az elmúlt héten egy hobbista felfedezte, hogy a legújabb Flux AI képalkotó modell meglepően jól képes egyedi betűtípusok reprodukálására. Miközben évtizedek óta léteznek hatékony módszerek a számítógépes betűk megjelenítésére, ez az új technika különösen hasznos lehet az AI képalkotás iránt érdeklődők számára, mivel a Flux képes pontos szövegek megjelenítésére, és a felhasználók most már közvetlenül illeszthetnek egyedi betűtípusokat az AI által generált képekbe.
Az 1980-as évek óta rendelkezésre állnak olyan technológiák, amelyek lehetővé teszik a sima, számítógéppel renderelt betűk pontos előállítását egyedi formákban, ezért nem meglepő, hogy az AI által reprodukált betűtípus nem újdonság. Azonban az új technika révén most már láthatunk egy adott betűtípust AI által generált képeken, például egy krétával írt étlapot egy fotorealisztikus étteremben vagy egy nyomtatott névjegykártyát egy kiborg róka kezében.
A LoRA (low-rank adaptation) technika, amelyet 2021-ben fedeztek fel, lehetővé teszi a felhasználók számára, hogy bővítsék az AI alapmodell tudását moduláris bővítményekkel, amelyeket egyedileg képeztek ki. Ezek a modulok lehetővé teszik az AI képalkotó modellek számára, hogy új koncepciókat hozzanak létre, amelyek eredetileg nem szerepeltek az alapmodell képzési adatainak között.
A Flux eddig a legjobb AI modell a „világban lévő szöveg” renderelésében, amelyet eddig láthattunk. Míg a Stable Diffusion 1.5-öt arra kérték, hogy rendereljen egy „sajtot” hirdető táblát, az csak értelmetlen szöveget adott vissza. A tavaly megjelent OpenAI DALL-E 3 volt az első mainstream modell, amely viszonylag jól tudta kezelni a szöveget. A Flux azonban néha hibázik a szavakkal és a betűkkel, de a legcapabilisebb modell, amely képes a szövegek pontos renderelésére.
Az első kísérletében Vadim Fedenko egy „Y2K” stílusú, buborékos betűtípust választott, amely a 90-es évek végén és a 2000-es évek elején népszerű volt. A Civitai platformon augusztus 20-án közzétett modellje két nappal később már más felhasználók által is megosztásra került. A Reddit felhasználók közül többen is megjegyezték, mennyire lenyűgöző az új technika.
Bár a generatív AI sok kritikát kap környezeti hatásai miatt, a Flux képes ezeket a betűtípusokat AI által generált jelenetekbe beilleszteni anélkül, hogy túlzott energiafogyasztást igényelne. A Cyberpunk 2077 betűtípust például három óra alatt képezték ki egy 3090 GPU-n.
Jelenleg csak két egyedi Flux betűtípus LoRA létezik, de már most hallani lehet tervekről, amelyek további modellek létrehozását célozzák. A technika még az első lépéseinél tart, de ha az AI képalkotás egyre elterjedtebbé válik, akkor a betűtípus LoRA-k létrehozása alapvető fontosságúvá válhat.
Érdekesség: Az AI által generált művészetek körüli vita nemcsak a környezeti hatásokra, hanem az alkotók jogaira is kiterjed, mivel az AI modellek általában olyan adatokból tanulnak, amelyekhez nem mindig kapták meg a tartalom tulajdonosának engedélyét.
Források: Reddit, Civitai, OpenAI, Stable Diffusion, Flux AI