Az AI Kockázatok Rendszere
Bo Li, a Chicagói Egyetem egyetemi docense, aki a stressztesztelésre és az AI modellek provokálására specializálódott, az utóbbi időben egyre népszerűbb forrásává vált a tanácsadó cégeknek. Ezek a cégek sokkal inkább a problémás aspektusokkal foglalkoznak — jogi, etikai és szabályozási megfelelőség szempontjából — mintsem az AI modellek intelligenciájával.
Li és kollégái, akik több más egyetem kutatói is, valamint a Li által alapított Virtue AI és a Lapis Labs, nemrégiben kidolgozták az AI kockázatok egy taxonómiáját, valamint egy benchmarkot, amely megmutatja, mennyire szabályszegőek a különböző nagy nyelvi modellek.
„Szükségünk van néhány elvre az AI biztonságával kapcsolatban, a szabályozási megfelelőség és a mindennapi használat szempontjából” – mondta Li a WIRED-nek.
A kutatók elemezték a kormányzati AI szabályozásokat és irányelveket, beleértve az Egyesült Államok, Kína és az EU szabályait, valamint 16 jelentős AI vállalat használati politikáit világszerte. Az AIR-Bench 2024, amelyet a kutatók építettek, több ezer promptot használ arra, hogy meghatározza, hogyan teljesítenek a népszerű AI modellek a konkrét kockázatok szempontjából.
Például, az Anthropic Claude 3 Opus modell kiemelkedően teljesít a kiberbiztonsági fenyegetések generálásának elutasítása terén, míg a Google Gemini 1.5 Pro a nem konszenzusos szexuális meztelenség elkerülésében áll a legjobban. Ezzel szemben a Databricks által kifejlesztett DBRX Instruct modell a legrosszabb eredményeket hozta.
Az AI kockázatok megértése, valamint a konkrét modellek előnyei és hátrányai egyre fontosabbá válhatnak a cégek számára, akik AI-t kívánnak alkalmazni bizonyos piacokon vagy felhasználási esetekben. Li megjegyzi, hogy a kormányzati szabályok általában kevésbé átfogóak, mint a vállalatok politikái, ami azt jelzi, hogy a jogszabályok szigorítása lehetséges.
Érdekes tény, hogy a kutatók által vizsgált AI modellek közül a legnagyobb és legfejlettebb változat, a Meta Llama 3.1 modellt elemezve megállapították, hogy bár a modell képességei javultak, a biztonsági szintje nem változott jelentősen.
Források: WIRED, Chicagói Egyetem, Virtue AI, Lapis Labs, MIT