Új vita robban ki az „open source AI” kifejezés körül: itt az idő, hogy végre tisztázzuk a definíciót!

Az Open Source Initiative új meghatározása az „open source AI”-ról

Az Open Source Initiative (OSI) nemrégiben bemutatta legújabb tervezetét az „open source AI” kifejezésre, célja, hogy tisztázza a fogalom zavaros használatát a gyorsan fejlődő területen. Ez a lépés különösen aktuális, mivel olyan cégek, mint a Meta, korlátozásokkal ellátott AI nyelvi modellek súlyait és kódját adják ki „nyílt forráskódú” címkével.

Például a Meta Llama 3 modellje, bár szabadon elérhető, nem felel meg a hagyományos nyílt forráskódú kritériumoknak, mivel licencek korlátozzák a felhasználást a cég mérete vagy a modellel előállított tartalom típusa alapján. Az AI képalkotó Flux szintén olyan „nyitott” modell, amely valójában nem tekinthető teljesen nyílt forráskódúnak.

Az OSI, amely jól ismert a nyílt szoftverstandardok melletti kiállásáról, körülbelül 70 résztvevőből álló csoportot állított össze, beleértve kutatókat, jogászokat, politikai döntéshozókat és aktivistákat. A csoport jelenlegi tervezete (0.0.9 verzió) az open source AI-ról hangsúlyozza a „négy alapvető szabadságot”, amelyek a szabad szoftverek meghatározására emlékeztetnek: a felhasználók számára engedélyezni kell az AI rendszer bármilyen célú használatát, a működésének tanulmányozását, bármilyen célú módosítását, valamint a módosításokkal vagy anélkül történő megosztását.

A világos kritériumok felállításával az OSI célja, hogy egy olyan mércét biztosítson, amely alapján az AI rendszerek értékelhetők. Ez segíthet a fejlesztőknek, kutatóknak és felhasználóknak abban, hogy informáltabb döntéseket hozzanak az általuk létrehozott, tanulmányozott vagy használt AI eszközökről.

Az igazán nyílt forráskódú AI rendszerek fényt deríthetnek az AI rendszerek potenciális szoftversebezhetőségeire is, mivel a kutatók láthatják, hogyan működnek az AI modellek a háttérben. Ezt a megközelítést összehasonlíthatjuk egy átláthatatlan rendszerrel, mint például az OpenAI ChatGPT, amely nem csupán egy nagy nyelvi modell, hanem egy szabadalmaztatott rendszerekből és szűrőkből álló összhang, amelynek pontos architektúrája szigorúan titkos.

Az OSI projekt ütemterve szerint az „open source AI” definíció stabil verzióját várhatóan októberben jelentik be az All Things Open 2024 eseményen, Raleighben, Észak-Karolinában.

Stefano Maffulli, az OSI ügyvezető igazgatója egy májusi sajtóközleményben hangsúlyozta, hogy fontos a nyílt forráskódú AI valódi jelentésének meghatározása. „Az AI eltér a hagyományos szoftvertől, és arra kényszeríti az összes érdekelt felet, hogy felülvizsgálja, hogyan alkalmazhatók a nyílt forráskód elvei ezen a területen,” mondta Maffulli.

A szervezet legújabb tervezete nemcsak az AI modellre vagy annak súlyaira terjed ki, hanem az egész rendszerre és annak alkotóelemeire is. Az AI rendszernek nyílt forráskódúnak kell lennie, ha hozzáférést biztosít az OSI által „preferált formának” nevezett információkhoz a módosításokhoz. Ez magában foglalja a képzési adatok részletes információit, a rendszer képzésére és futtatására használt teljes forráskódot, valamint a modell súlyait és paramétereit.

Érdekes, hogy a tervezet nem kötelezi a nyers képzési adatok kiadását. Ehelyett „adatinformációkat” követel meg—részletes metaadatokat a képzési adatokkal és módszerekkel kapcsolatban.

A „data information” megközelítés célja a transzparencia és a reprodukálhatóság biztosítása anélkül, hogy feltétlenül közzétennék a tényleges adatállományt, ami látszólag kezelheti a potenciális adatvédelmi vagy szerzői jogi aggályokat, miközben ragaszkodik a nyílt forráskód elveihez.

Az OSI az egész világra kiterjedő workshop-sorozatot indított el, hogy finomítsa és validálja az open source AI definíciót. A résztvevők között 53 százalék volt a színes bőrű emberek aránya, míg 28 százalék nő.

Amikor a végső definíciót októberben bejelentik, az új open source AI definíció mély hatással lehet az AI iparágra, befolyásolva a cégek AI modellek kiadását és a jövőbeli szabályozásokat.

Érdekesség: Az AI rendszerek nyílt forráskódú megközelítései segíthetnek a szoftversebezhetőségek feltárásában, mivel a kutatók képesek lesznek elemezni a modellek mögötti működést.

Források: Open Source Initiative, Ars Technica, TechCrunch