Új technikák a mesterséges intelligencia védelmében
Amikor a Meta áprilisban ingyenesen kiadta a Llama 3 nevű nagy nyelvi modelljét, a külső fejlesztőknek mindössze néhány napra volt szükségük ahhoz, hogy létrehozzanak egy olyan verziót, amely mentes a biztonsági korlátozásoktól. Ezek a korlátozások megakadályozzák, hogy a modell gyűlölködő vicceket mondjon, vagy például meth főzésére vonatkozó utasításokat adjon. Az Illinois-i Egyetem, a UC San Diego, a Lapis Labs és a Központ az AI Biztonságért kutatói által kifejlesztett új tréningtechnika megnehezítheti ezeknek a védelmi mechanizmusoknak a eltávolítását a Llama és más nyílt forráskódú AI modellek esetében a jövőben.
„A terroristák és a lázadó államok ezeket a modelleket fogják használni” – mondta Mantas Mazeika, a Központ az AI Biztonságért kutatója. Szerinte a nyílt modellek módosítása könnyebbé teszi a problémás felhasználást, ami növeli a kockázatokat.
A fejlett AI modellek gyakran rejtve maradnak a készítőik által, és csak szoftveres alkalmazásprogramozási interfészen vagy nyilvános chatbotokon, mint például a ChatGPT-n keresztül érhetők el. Bár egy erősebb nyelvi modell kifejlesztése tízmilliókba kerül, a Meta és mások úgy döntöttek, hogy teljes egészében kiadják a modelleket, beleértve a „súlyokat”, vagyis a viselkedésüket meghatározó paramétereket, amelyeket bárki letölthet.
A kutatók új technikája megnehezíti a nyílt modellek rosszindulatú célokra való módosítását. Ez a folyamat a módosítási folyamat másolásával jár, de közben a modell paramétereit úgy változtatják meg, hogy a szokásos módszerek, amelyek a modellt arra késztetik, hogy válaszoljon egy problémafelvetésre, már ne működjenek.
Mazeika és kollégái ezt az eljárást a Llama 3 egy leegyszerűsített verzióján demonstrálták. Még több ezer kísérlet után sem tudták a modellt arra tanítani, hogy válaszoljon a nem kívánt kérdésekre. Mazeika megjegyzi, hogy a megközelítés nem tökéletes, de azt sugallja, hogy a „cenzúrázástalanítás” küszöbét jelentősen meg lehet emelni.
„Remélhetőleg ez a munka elindítja a kutatásokat a manipulációálló védelmek terén, és a kutatóközösség kitalálja, hogyan lehet egyre robusztusabb védelmeket fejleszteni” – tette hozzá Dan Hendrycks, a Központ az AI Biztonságért igazgatója.
Az új technika népszerűsége növekedhet, ahogy a nyílt forráskódú AI iránti érdeklődés is nő. Már most is versenyképesek a nyílt modellek a zárt modellek legújabb változataival, amelyek olyan cégektől származnak, mint az OpenAI és a Google.
Érdekesség: A nyílt forráskódú AI modellek védelmét célzó kutatások során a kutatók azt is felfedezték, hogy a társadalmi hatások figyelembevételével a modellek biztonságosabbá tétele érdekében új megoldások születhetnek.
Források:
- WIRED
- Központ az AI Biztonságért
- Illinois-i Egyetem
- UC San Diego