A mesterséges intelligencia képzésének adatai gyorsan eltűnnek, a tanulmány szerint — „Ezért tűnnek el villámgyorsan a mesterséges intelligencia képzési adatai – Új tanulmány felfedi az igazságot!”


Az adattartalmak szűkülése veszélyezteti az A.I. fejlődését

Új kutatások szerint drámai csökkenés tapasztalható az elérhető tartalmakban, amelyeket a mesterséges intelligencia (A.I.) fejlesztéséhez használnak. Évek óta az A.I. rendszereket építő szakemberek óriási mennyiségű szöveget, képeket és videókat használnak az internetről modellek betanításához. Most ez az adatforrás kezd kiszáradni.

Az elmúlt év során a legfontosabb webes források közül sokan korlátozták adatuk felhasználását, derül ki a Data Provenance Initiative, egy M.I.T. által vezetett kutatócsoport e heti tanulmányából. A tanulmány, amely 14 000 webdomaint vizsgált, amelyek három gyakran használt A.I. tréning adatbázisban szerepelnek, felfedezett egy „felmerülő beleegyezési válságot”, mivel a kiadók és online platformok lépéseket tettek adatuk begyűjtésének megakadályozására.

A kutatók becslése szerint a három adatbázisban – C4, RefinedWeb és Dolma – az összes adat 5 százalékát, és a legmagasabb minőségű források adatainak 25 százalékát korlátozták. Ezeket a korlátozásokat a Robots Exclusion Protocol segítségével állítják be, egy évtizedek óta használt módszerrel, amely lehetővé teszi a weboldal-tulajdonosok számára, hogy megakadályozzák az automatizált botok oldalainak bejárását egy robots.txt nevű fájl használatával.

A tanulmány azt is megállapította, hogy az egyik adatbázisban, a C4-ben található adatok akár 45 százalékát is korlátozták a weboldalak felhasználási feltételei. „Gyorsan csökken az adatfelhasználásra vonatkozó beleegyezés az interneten, amely nemcsak az A.I. vállalatokra, hanem a kutatókra, akadémikusokra és nem kereskedelmi szervezetekre is következményekkel jár” – mondta Shayne Longpre, a tanulmány vezető szerzője egy interjúban.

Érdekes tény: A Robots Exclusion Protocol, amelyet a weboldalak használnak adataik védelmére, 1994-ben került bevezetésre, és azóta is az egyik legfontosabb eszköz az adatgyűjtés szabályozásában.

Források: Data Provenance Initiative jelentés, M.I.T. tanulmányok