Miért teljesít gyengén az AI Kamala Harris képgenerálásában? – A technológiai kihívások és a mesterséges intelligencia határai

Elon Musk a múlt héten megosztott egy képet, amelyen Kamala Harris egy „kommunista diktátor” öltözékében látható, ám a valóságban ez a kép nyilvánvalóan hamisítvány volt. Harris nem kommunista, és nem is tűnik úgy, hogy orosz cosplayert játszana. Az X felhasználók közül sokan felhívták a figyelmet arra, hogy a képen látható nő, amely feltehetően az X Grok eszközével készült, csak távolról hasonlít a alelnökre.

„Az AI még mindig képtelen pontosan ábrázolni Kamala Harrist” – írta az egyik felhasználó. „Úgy tűnik, mintha egy véletlenszerű latin nő képe lenne.” Egy másik hozzászólás megjegyezte: „A Grok egy régi Eva Longoria-t öltöztetett fel, és ezzel letudta a napot.” A harmadik felhasználó pedig így fogalmazott: „Az AI egyszerűen NEM képes reprodukálni Kamala Harrist. Meglepő, mennyire megbukik az algoritmus egy AMERIKAI (dél-indiai és jamaikai örökségű) esetében.”

Sok AI által generált Harris-kép hasonlóan gyenge minőségű volt. Eközben egy tweet, amely egy AI által generált videót mutatott be, amelyben Harris és Donald Trump romantikus kapcsolatban állnak – a videó csúcspontján Harris a közös gyermeküket tartja a kezében, aki Trumpra hasonlít – közel 28 millió megtekintést ért el az X-en. A montázs során Harris különböző emberekké alakul, míg Trump képei meglepően konzisztensnek bizonyulnak.

A Grok Különbségei

A Grok eltér a más, magas szintű AI képalkotó eszközöktől, mivel lehetővé teszi a felhasználók számára, hogy politikai figurák hamisított fényképeit készítsenek. Az év elején a Midjourney megkezdte a Trump és Biden képek generálásának blokkolását, amely a Harrisra is vonatkozik. Ez a lépés a Digitális Gyűlölet Elleni Központ által közzétett jelentés után következett be, amely megállapította, hogy az eszköz felhasználható politikai töltetű képek előállítására.

Hasonlóképpen, az OpenAI ChatGPT és a Google Gemini is elutasította Harris vagy Trump képeinek előállítását a WIRED tesztelése során. Eközben számos nyílt forráskódú képalkotó eszköz, mint például a Grok, továbbra is képes politikai szereplők képeit generálni. A WIRED egyik ilyen modell, a Stable Diffusion, szintén nem produkált túl jó minőségű Harris-képeket.

A Képalkotó Modellek Működése

A modern AI képalkotó eszközök a diffúziós modellek néven ismert algoritmusokat használják, hogy képeket generáljanak szöveges utasítások alapján. Ezek a modellek ezer számú címkézett képet dolgoznak fel, amelyek jellemzően az internetről származnak vagy más forrásokból gyűjtöttek. Joaquin Cuenca Abela, a Freepik vezérigazgatója, aki különféle AI eszközöket, köztük több képalkotót is üzemeltet, elmondta a WIRED-nek, hogy Harris képének előállításának nehézsége, Trumphoz képest, azzal magyarázható, hogy kevesebb jól címkézett képet kaptak.

Harris, mint prominens figura, nem szerepel annyira széleskörűen a fényképezőgépek előtt, mint Trump. A WIRED Getty Images fotószolgáltató keresése során 63,295 Harris-képet találtak, míg Trump esetében 561,778 képet. Harris viszonylag új szereplője a politikai versenynek, és mint ilyen, az AI képalkotók számára „új híresség”, magyarázza Cuenca Abela. „Mindig szükség van néhány hónapra, hogy a rendszer felzárkózzon.”

A Harris esetében felmerülő további tényező lehet a bőrszíne és etnikai háttere. Irene Solaiman, az AI cég, a Hugging Face globális politikai vezetője, hangsúlyozza, hogy a „sötétebb bőrszínű és női vonások” gyengébb arcfelismerése hatással lehet Harris képeinek automatikus címkézésére. A női és sötét bőrszínű arcok arcfelismerésének kudarcát először a 2018-as Gender Shades tanulmányban emelték ki, amelyet Joy Boulamwini, az MIT kutatója és Timnit Gebru, a Distributed Artificial Intelligence Research Institute alapítója és ügyvezető igazgatója készítettek.

Lehetséges, hogy még egy ok is állhat a Harrisról készült AI-ábrázolások gyenge minősége mögött. „A képek nem fotórealisztikus megjelenítésre készülnek, hanem inkább narratívák közvetítésére” – mondja Hany Farid, a mélyhamisítványok észlelésére szakosodott szakértő és a GetReal Labs társalapítója. Más szavakkal, azok, akik AI által generált képeket osztanak meg Harrisszel, gyakran inkább mémekhez hasonló szcenáriók létrehozására összpontosítanak, mintsem hogy a hasonlóságának a realizmusát finomítsák.

A Musk által megosztott „kommunista diktátor” kép és az a videó, amelyben Harris a Trumpy gyermekét tartja a kezében, mind a demokratikus jelölt megvetésére és kigúnyolására szolgálnak, nem pedig dezinformáció terjesztésére.

A Carnegie Mellon Egyetem Heinz Főiskolájának digitális média és marketing professzora, Ari Lightman elmondta, hogy egyesek talán szándékosan választanak rossz Harris-képeket, hogy hangsúlyozzák, hogy a politikus egy csaló. „Ez egy AI által generált kommunikációs korszak” – mondja Lightman. „Ha azt durván csinálják, az üzenet közvetítésére tervezték.”

Érdekes tény: A 2018-as Gender Shades tanulmány kimutatta, hogy a mélytanuló algoritmusok a sötétebb bőrszínű nőket gyakran alulreprezentálják, ami a társadalmi igazságosság szempontjából is fontos kérdés.

Források: WIRED, Getty Images, Gender Shades Study, Freepik.