Hogyan értékeljük egy általános célú AI modell megbízhatóságát, mielőtt bevezetnénk: A végső útmutató az AI biztonsághoz és hatékonysághoz


Új Technika Az Alap Modellek Megbízhatóságának Értékelésére

A mesterséges intelligencia terén végzett fejlesztések jelentős előrelépéseket hoztak az elmúlt években. Az MIT és az MIT-IBM Watson AI Lab kutatói új technikát dolgoztak ki, amely lehetővé teszi az alap modellek megbízhatóságának becslését, mielőtt azokat egy adott feladatra alkalmaznák. Az alap modellek hatalmas, általános célú, címkézetlen adatokon előre betanított mélytanulási modellek, amelyek különböző feladatokra alkalmazhatók, például képek generálására vagy ügyfélkérdések megválaszolására.

Az új módszer lényege, hogy egy csoport alap modellt használ, amelyek kis mértékben különböznek egymástól. Az algoritmusuk segítségével értékelik, hogy mennyire konzisztens a modellek által tanult reprezentációk megbízhatósága azonos tesztadatpontok esetében. Ha a reprezentációk konzisztensnek bizonyulnak, az azt jelenti, hogy a modell megbízható.

Navid Azizan, az MIT Gépészeti Tanszékének és az Adat-, Rendszer- és Társadalom Intézetének (IDSS) adjunktusa, és a Laboratórium az Információs és Döntési Rendszerekért (LIDS) tagja, elmondta: “Minden modell tévedhet, de azok a modellek, amelyek tudják, mikor tévednek, hasznosabbak. A megbízhatóság vagy bizonytalanság mennyiségi meghatározása nehezebb ezeknél az alap modelleknél, mivel az absztrakt reprezentációik nehezen hasonlíthatók össze. Módszerünk lehetővé teszi annak meghatározását, hogy mennyire megbízható egy reprezentációs modell bármely adott bemeneti adat esetében.”

A kutatók egy cikkben részletezték munkájukat, amelyet a Mesterséges Intelligencia Bizonytalanság Konferencián (Conference on Uncertainty in Artificial Intelligence) fognak bemutatni. Az együttműködők között szerepel Young-Jin Park, a LIDS doktorandusza; Hao Wang, az MIT-IBM Watson AI Lab kutatója; és Shervin Ardeshir, a Netflix vezető kutatója.

A Konszenzus Mérése

A hagyományos gépi tanulási modelleket egy adott feladat végrehajtására képezik ki. Ezek a modellek általában konkrét előrejelzéseket adnak egy bemenetre alapozva. Például a modell megmondhatja, hogy egy adott kép tartalmaz-e macskát vagy kutyát. Ebben az esetben a megbízhatóság értékelése a végső előrejelzés megvizsgálásával történhet. Az alap modellek azonban mások.

Az alap modelleket általános adatok felhasználásával előképzik, egy olyan környezetben, ahol az alkotóik nem ismerik az összes későbbi feladatot, amelyre alkalmazni fogják őket. A felhasználók ezután adaptálják a modellt a saját specifikus feladataikhoz, miután már kiképezték.

Az alap modellek nem adnak konkrét kimeneteket, mint például “macska” vagy “kutya” címkék. Ehelyett egy absztrakt reprezentációt generálnak egy bemeneti adatpontról. A kutatók egy ensemble megközelítést alkalmaztak, amely több modellt képez ki, amelyek sok tulajdonságukban megegyeznek, de kissé eltérnek egymástól.

“Az ötletünk olyan, mint a konszenzus mérése. Ha ezek az alap modellek konzisztens reprezentációkat adnak bármely adat esetében a készletünkben, akkor azt mondhatjuk, hogy ez a modell megbízható,” mondja Park.

Azonban találkoztak egy problémával: hogyan hasonlíthatják össze az absztrakt reprezentációkat? “Ezek a modellek csak egy vektort adnak ki, amely számokból áll, így nem tudjuk őket könnyen összehasonlítani,” teszi hozzá.

A Reprezentációk Igazítása

Az alap modellek az adatpontokat egy úgynevezett reprezentációs térbe térképezik. Az egyik módja annak, hogy elképzeljük ezt a teret, mint egy gömböt. Minden modell hasonló adatpontokat térképez ugyanazon a gömb egy adott részére, így például a macskák képei egy helyre kerülnek, míg a kutyák képei egy másikra. De minden modell máshogyan térképezné fel az állatokat a saját gömbjében, így míg az egyik modell a macskákat a Déli-sark közelébe csoportosítaná, egy másik modell az Északi Féltekén helyezné el őket.

A kutatók a szomszédos pontokat horgonyként használják, hogy igazítsák ezeket a gömböket, így a reprezentációk összehasonlíthatóvá válnak. Ha egy adatpont szomszédai konzisztensen jelennek meg több reprezentációban, akkor magabiztosan állíthatjuk, hogy a modell kimenete megbízható az adott pont esetében.

Amikor ezt a megközelítést széles körben alkalmazták különböző osztályozási feladatoknál, azt találták, hogy sokkal konzisztensebb volt, mint az alapmódszerek. Ráadásul nem zavarta meg azokat a kihívást jelentő tesztpontokat, amelyek más módszereket kudarcra ítéltek.

Továbbá, a megközelítésüket bármely bemeneti adat megbízhatóságának értékelésére is használhatják, így valaki értékelheti, hogy egy modell milyen jól működik egy adott típusú egyén esetében, például egy adott jellemzőkkel rendelkező beteg esetében.

“Még ha a modellek átlagos teljesítményt nyújtanak is összességében, egy egyéni szemszögből nézve, az a modell, amelyik a legjobban működik az adott egyén számára, preferált,” mondja Wang.

Mindazonáltal az egyik korlátozás abból fakad, hogy több alap modellt kell kiképezni, ami számításigényes. A jövőben hatékonyabb módokat terveznek találni több modell felépítésére, például egyetlen modell kis perturbációinak felhasználásával.

“Az alap modellek beágyazásainak felhasználása a különböző downstream feladatok támogatására – a finomhangolástól a visszakeresés támogatott generációig – egyre fontosabbá, de kihívásokkal teli feladattá válik, mivel a beágyazások önmagukban nem rendelkeznek megalapozottsággal. Ehelyett az számít, hogy a különböző bemenetek beágyazásai hogyan viszonyulnak egymáshoz, amit ez a munka szépen megragad a javasolt szomszédsági konzisztencia pontszámával,” mondja Marco Pavone, a Stanford Egyetem Repüléstechnikai és Asztronautikai Tanszékének adjunktusa, aki nem vett részt ebben a munkában. “Ez ígéretes lépés a beágyazási modellek magas minőségű bizonytalanságmérése felé, és izgatottan várom a jövőbeli kiterjesztéseket, amelyek modellezés nélkül is képesek lesznek működni, hogy valóban lehetővé tegyék ezt a megközelítést az alap méretű modellekhez.”

Ezt a munkát részben az MIT-IBM Watson AI Lab, a MathWorks és az Amazon finanszírozta.

Érdekes tény: Az MI modellek megbízhatóságának értékelése egyre fontosabbá válik, mivel a mesterséges intelligencia egyre inkább beépül a mindennapi életünkbe, például az önvezető autók esetében, ahol egy hiba végzetes következményekkel járhat.