Tanulmány: A Nagy Nyelvi Modellek Képzéséhez Használt Adathalmazon Gyakran Hiányzik a Átláthatóság! Fedezd Fel, Miért Fontos Ez!

Az Adat Származási Explorer: Új Eszköz az AI Fejlesztéséhez

A mesterséges intelligencia (AI) fejlődése során a kutatók egyre inkább szembesülnek az adatok átláthatóságának hiányával. Az MIT és más intézmények multidiszciplináris kutatócsoportja egy átfogó auditot indított, amely több mint 1,800 szöveges adatgyűjteményt vizsgált meg népszerű tárhelyeken. Az audit során megállapították, hogy a datasetek 70% -a nem tartalmazott megfelelő licencinformációt, míg körülbelül 50% hibás adatokat tartalmazott.

Az adatgyűjtemények helyes azonosítása elengedhetetlen ahhoz, hogy a gépi tanulási modellek megbízhatóan működjenek. Az adatforrások ismerete segíthet a fejlesztőknek abban, hogy elkerüljék a torzítottságot és a jogi problémákat. Alex “Sandy” Pentland, az MIT professzora, hangsúlyozta, hogy ezek a típusú eszközök segíthetnek a szabályozóknak és a gyakorlati szakembereknek megalapozott döntések meghozatalában az AI alkalmazásáról.

A kutatók által kifejlesztett Data Provenance Explorer eszköz automatikusan generál könnyen olvasható összefoglalókat a datasetek alkotóiról, forrásairól, licencéről és engedélyezett felhasználásáról. Ez a megoldás lehetővé teszi, hogy a szakemberek olyan adatgyűjteményeket válasszanak, amelyek megfelelnek a megcélzott felhasználásnak.

Az MIT kutatói megállapították, hogy a datasetek 70% -a “nem meghatározott” licencet tartalmazott, míg a kutatások során a helyes licencelés általában szigorúbb volt, mint amit a tárhelyek hozzárendeltek. Ezen kívül a datasetek alkotói szinte kizárólag a globális északi területeken találhatóak, ami korlátozhatja a modellek képességeit, ha más régiókban alkalmazzák őket.

A kutatók a jövőben szeretnék bővíteni az elemzést multimodális adatokra, például videókra és beszédre is. Ezen kívül a weboldalak szolgáltatásainak feltételeit is szeretnék tanulmányozni, és ennek megfelelően a kutatásukat a szabályozó hatóságokkal is szeretnék megosztani.

Érdekes tény: A kutatók megfigyelték, hogy 2023 és 2024 során drámai növekedés volt tapasztalható a datasetekre vonatkozó korlátozások számában, amelyet az akadémikusok aggályai vezéreltek az adatok nem kívánt kereskedelmi célú felhasználásával kapcsolatban.

Források: MIT, Nature Machine Intelligence, Human Dynamics Group