Csütörtökön az OpenAI kiadta a GPT-4o AI modell „rendszerkártyáját”, amely részletezi a modell korlátait és a biztonsági tesztelési eljárásokat. A dokumentum között található példák között szerepel, hogy a tesztelés során a modell Fejlett Hangmódja engedély nélkül utánozta a felhasználók hangját. Jelenleg az OpenAI olyan védelmi mechanizmusokat alkalmaz, amelyek megakadályozzák a hasonló eseteket, azonban ez az incidens rávilágít az AI chatbotok biztonságos építésének növekvő összetettségére.
Az engedély nélküli hanggenerálás
Az OpenAI rendszerkártyájának egyik részében, amely az engedi nélküli hanggenerálásról szól, részletezik azt az epizódot, amikor egy zajos bemenet véletlenül arra késztette a modellt, hogy hirtelen a felhasználó hangját utánozza. Az OpenAI megjegyzi: „A hanggenerálás nemcsak ellenséges helyzetekben fordulhat elő, hanem a mi használatunkban is a ChatGPT fejlett hangmódjának képességeként.” A tesztelés során ritkán megfigyelték, hogy a modell véletlenül a felhasználó hangját emulálta.
Hangpromt injekciók
Hogyan történhetett a hangutánzás az OpenAI új modelljével? A fő nyom a GPT-4o rendszerkártyájában rejlik. A GPT-4o képes szintetizálni szinte bármilyen hangot, amely a képzési adataiban található, beleértve a hanghatásokat és a zenét is. Az OpenAI biztonságosan irányítja ezt a képességet azáltal, hogy engedélyezett hangmintát biztosít, amelyet utánozni kell. „Ideális befejezéseket felügyelünk a rendszerüzenetben szereplő hangminták alapján,” írja az OpenAI.
A jövő kihívásai
Az engedély nélküli hanggenerálás problémája komoly biztonsági kockázatot jelent, ezért az OpenAI korábban visszatartotta a hasonló technológiákat. Simon Willison független AI kutató hangsúlyozta, hogy a rendszerkártya alapján nem lesz lehetséges trükközni az engedélyezett hangokkal, mivel robusztus védelmi mechanizmus áll rendelkezésre. „Képzelje el, mennyi szórakozás vár ránk egy szűretlen modellen,” mondta Willison. „Frusztráló, hogy nem tud énekelni – alig vártam, hogy ostoba dalokat énekeljen a kutyámnak.”
Érdekes tény: Az AI modellek hangszintézise egyre fejlettebbé válik, és hamarosan lehetőség nyílhat arra, hogy a felhasználók saját gépeiken futtathassanak hasonló technológiákat. Az ElevenLabs már most is képes hangokat másolni.
Források: BuzzFeed, Ars Technica, OpenAI