Fedezd fel ezt az új trükköt, amely megakadályozza az open source AI visszaélését!

Új technikák a mesterséges intelligencia védelmében

Amikor a Meta áprilisban ingyenesen kiadta a Llama 3 nevű nagy nyelvi modelljét, a külső fejlesztőknek mindössze néhány napra volt szükségük ahhoz, hogy létrehozzanak egy olyan verziót, amely mentes a biztonsági korlátozásoktól. Ezek a korlátozások megakadályozzák, hogy a modell gyűlölködő vicceket mondjon, vagy például meth főzésére vonatkozó utasításokat adjon. Az Illinois-i Egyetem, a UC San Diego, a Lapis Labs és a Központ az AI Biztonságért kutatói által kifejlesztett új tréningtechnika megnehezítheti ezeknek a védelmi mechanizmusoknak a eltávolítását a Llama és más nyílt forráskódú AI modellek esetében a jövőben.

„A terroristák és a lázadó államok ezeket a modelleket fogják használni” – mondta Mantas Mazeika, a Központ az AI Biztonságért kutatója. Szerinte a nyílt modellek módosítása könnyebbé teszi a problémás felhasználást, ami növeli a kockázatokat.

A fejlett AI modellek gyakran rejtve maradnak a készítőik által, és csak szoftveres alkalmazásprogramozási interfészen vagy nyilvános chatbotokon, mint például a ChatGPT-n keresztül érhetők el. Bár egy erősebb nyelvi modell kifejlesztése tízmilliókba kerül, a Meta és mások úgy döntöttek, hogy teljes egészében kiadják a modelleket, beleértve a „súlyokat”, vagyis a viselkedésüket meghatározó paramétereket, amelyeket bárki letölthet.

A kutatók új technikája megnehezíti a nyílt modellek rosszindulatú célokra való módosítását. Ez a folyamat a módosítási folyamat másolásával jár, de közben a modell paramétereit úgy változtatják meg, hogy a szokásos módszerek, amelyek a modellt arra késztetik, hogy válaszoljon egy problémafelvetésre, már ne működjenek.

Mazeika és kollégái ezt az eljárást a Llama 3 egy leegyszerűsített verzióján demonstrálták. Még több ezer kísérlet után sem tudták a modellt arra tanítani, hogy válaszoljon a nem kívánt kérdésekre. Mazeika megjegyzi, hogy a megközelítés nem tökéletes, de azt sugallja, hogy a „cenzúrázástalanítás” küszöbét jelentősen meg lehet emelni.

„Remélhetőleg ez a munka elindítja a kutatásokat a manipulációálló védelmek terén, és a kutatóközösség kitalálja, hogyan lehet egyre robusztusabb védelmeket fejleszteni” – tette hozzá Dan Hendrycks, a Központ az AI Biztonságért igazgatója.

Az új technika népszerűsége növekedhet, ahogy a nyílt forráskódú AI iránti érdeklődés is nő. Már most is versenyképesek a nyílt modellek a zárt modellek legújabb változataival, amelyek olyan cégektől származnak, mint az OpenAI és a Google.

Érdekesség: A nyílt forráskódú AI modellek védelmét célzó kutatások során a kutatók azt is felfedezték, hogy a társadalmi hatások figyelembevételével a modellek biztonságosabbá tétele érdekében új megoldások születhetnek.

Források:

  • WIRED
  • Központ az AI Biztonságért
  • Illinois-i Egyetem
  • UC San Diego