Apple, Nvidia és Anthropic több ezer ellopott YouTube videóval képezték mesterséges intelligenciájukat


Tech Cégek Kontroverz Taktikái: Az Adatéhes Mesterséges Intelligencia Kiképzése

Tech cégek vitatható módszerekhez folyamodnak, hogy kielégítsék adatéhes mesterséges intelligencia modelljeiket, gyakran könyveket, weboldalakat, fényképeket és közösségi média posztokat gyűjtve be a készítők tudta nélkül.

AI cégek általában titkolják az adatok forrását, de a Proof News nyomozása során kiderült, hogy a világ leggazdagabb AI cégei több ezer YouTube videó anyagát használták fel modellek kiképzésére. Ez annak ellenére történt, hogy a YouTube szabályzatai tiltják az anyagok engedély nélküli felhasználását.

Nyomozásunk során kiderült, hogy a YouTube Subtitles nevű dataset 173,536 YouTube videó feliratát tartalmazza, amelyeket több mint 48,000 csatornáról gyűjtöttek be. A Silicon Valley nagyágyúi, mint az Anthropic, Nvidia, Apple és Salesforce mind használták ezeket az anyagokat AI trénelésre.

A dataset, amelyet YouTube Subtitles néven ismernek, oktatási és online tanulási csatornák videóinak átiratait tartalmazza, mint például a Khan Academy, MIT, és Harvard. A Wall Street Journal, NPR, és a BBC is áldozatul estek, ugyanúgy mint a The Late Show With Stephen Colbert, Last Week Tonight With John Oliver, és Jimmy Kimmel Live.

A Proof News megállapította, hogy a YouTube sztárok, köztük MrBeast (289 millió feliratkozó, két videó), Marques Brownlee (19 millió feliratkozó, hét videó), Jacksepticeye (közel 31 millió feliratkozó, 377 videó) és PewDiePie (111 millió feliratkozó, 337 videó) anyagát is felhasználták. Néhányak az AI kiképzésére felhasznált anyagok közül összeesküvés-elméleteket, például a “lapos-Föld elméletet” is tartalmaztak.

A Proof News egy eszközt is létrehozott, amely segítségével lekérdezhető, hogy mely tartalomkészítők anyagait használták fel a YouTube AI tréning datasetben.

“Senki nem keresett meg engem, hogy ‘Szeretnénk használni ezt’,” mondta David Pakman, a The David Pakman Show baloldali politikai csatorna házigazdája, amelynek több mint 2 millió feliratkozója és több mint 2 milliárd megtekintése van. Közel 160 videóját használták fel a YouTube Subtitles datasetben.

Pakman, akinek vállalkozásában négy főállású dolgozó van, akik naponta több videót tesznek közzé, valamint podcastot, TikTok videókat és más platformokra szánt anyagokat készítenek, úgy véli, hogy ha az AI cégek fizetést kapnak, neki is kompenzációt kellene kapnia az adatainak felhasználásáért. Rámutatott arra, hogy néhány média cég nemrégiben megállapodásokat kötött munkájuk AI kiképzésre történő felhasználásáért.

“Ez az én megélhetésem, és időt, erőforrásokat, pénzt és munkaidőt fektetek ezen tartalmak elkészítésébe,” mondta Pakman. “Nincs hiány a munkában.”

“Ez lopás,” mondta Dave Wiskus, a Nebula streaming szolgáltatás vezérigazgatója, amely részben a készítők tulajdonában van, akik közül néhányak munkáját a YouTube-ról vették el AI tréninghez.

Wiskus elmondta, hogy “tiszteletlenség” a készítők munkájának engedély nélküli felhasználása, különösen azért, mert a stúdiók “generatív AI-t használhatnak, hogy minél több művészt helyettesítsenek.”

“Ez művészek kizsákmányolására és bántalmazására lesz használva? Igen, abszolút,” mondta Wiskus.

Az EleutherAI dataset készítői nem reagáltak a Proof News megállapításaira, beleértve a videók engedély nélküli felhasználására vonatkozó vádakat. A cég weboldala kijelenti, hogy céljuk az AI fejlesztés akadályainak csökkentése a Big Tech falain kívül.

A YouTube Subtitles nem tartalmazza a videók képi anyagát, csupán a feliratok szövegét, gyakran fordításokkal együtt japán, német és arab nyelvekre.

Az EleutherAI által publikált kutatási anyag szerint a dataset része egy nagyobb összeállításnak, amit a nonprofit szervezet a Pile néven adott ki. A Pile fejlesztői nem csak a YouTube-ot, hanem az Európai Parlamentet, az angol Wikipédiát és az Enron Corporation alkalmazottainak e-mailjeit is felhasználták a dataset összeállításához.

A Pile datasetek többsége hozzáférhető és elérhető bárki számára az interneten, aki rendelkezik elegendő tárhellyel és számítási kapacitással. Akadémikusok és más fejlesztők is felhasználták az adatokat, de nem ők voltak az egyetlenek.

Az Apple, Nvidia és Salesforce – cégek, amelyek értéke több száz milliárd és trillió dollár – kutatási anyagaikban és posztjaikban leírják, hogyan használták a Pile-t AI kiképzésre. Dokumentumok azt is mutatják, hogy az Apple a Pile-t használta az OpenELM kiképzésére, egy magas profilú modellre, amit áprilisban adtak ki, hetekkel azelőtt, hogy a cég bejelentette, új AI képességekkel bővíti az iPhone-okat és MacBook-okat.

A Bloomberg és a Databricks is AI modelleket képzett a Pile-on, ahogy a cég publikációi is jelzik. Az Anthropic, egy vezető AI gyártó, amely 4 milliárd dolláros befektetést kapott az Amazontól, szintén használta a Pile-t generatív AI asszisztense, Claude kiképzésére.

“A Pile nagyon kicsi részét képezi a YouTube feliratoknak,” mondta Jennifer Martinez, az Anthropic szóvivője egy nyilatkozatban, megerősítve a Pile használatát az Anthropic generatív AI asszisztensében, Claude-ban. “A YouTube felhasználási feltételei a platform közvetlen használatára vonatkoznak, ami eltér a Pile dataset használatától. Az esetleges felhasználási feltételek megsértése kapcsán a Pile szerzőihez kellene fordulni.”

A Salesforce is megerősítette a Pile használatát egy AI modell építésére “akadémiai és kutatási célokra.” Caiming Xiong, a cég AI kutatásért felelős alelnöke egy nyilatkozatban hangsúlyozta, hogy a dataset “nyilvánosan elérhető” volt.

A Salesforce később ugyanazt az AI modellt nyilvánosan is elérhetővé tette 2022-ben, és azóta legalább 86,000-szer töltötték le, a Hugging Face oldalán elérhető adatok szerint. Kutatási anyagukban a Salesforce fejlesztői figyelmeztettek, hogy a Pile olyan tartalmakat is tartalmaz, amelyek vulgáris szavakat, valamint nemi és vallási csoportokkal szembeni előítéleteket tartalmaznak, ami “biztonsági aggályokat” vethet fel.

A Proof News több ezer vulgáris kifejezést talált a YouTube Subtitles datasetben, valamint faji és nemi sértéseket is. A Salesforce képviselője nem reagált a biztonsági aggályokra vonatkozó kérdésekre.

Az Nvidia képviselője nem kívánt nyilatkozni. Az Apple, Databricks és Bloomberg képviselői sem válaszoltak kérdéseinkre.

Az adatok aranybányája a YouTube-on Az AI cégek versenyt futnak egymással, részben azáltal, hogy jobb minőségű adatokat szereznek be, mondta Jai Vipra, AI politika kutató és CyberBRICS ösztöndíjas a Fundação Getulio Vargas Law School-on, Rio de Janeiro-ban, Brazíliában. Ez az egyik oka annak, hogy a cégek titokban tartják az adatforrásaikat.

A The New York Times korábbi jelentése szerint a Google, amely a YouTube tulajdonosa, a platform videóit használta fel szövegként a modelljei kiképzésére. A válaszukban a szóvivő elmondta, hogy a felhasználás megengedett volt a YouTube készítőivel kötött megállapodások alapján.

A Times nyomozása azt is feltárta, hogy az OpenAI is engedély nélkül használta fel a YouTube videókat. A cég képviselői sem megerősítették, sem cáfolták a lap megállapításait.

Az OpenAI vezetői többször is elutasították a nyilvános kérdések megválaszolását arról, hogy használták-e a YouTube videókat AI termékük, a Sora kiképzésére, amely szöveg alapján hoz létre videókat. A The Wall Street Journal egyik riportere korábban megkérdezte Mira Muratit, az OpenAI technológiai igazgatóját, hogy használtak-e YouTube videókat a kiképzéshez.

“Nem vagyok benne biztos,” válaszolta Murati.

A YouTube Subtitles és más típusú beszéd-szöveg adat potenciálisan egy “aranybánya,” mondta Vipra, mert segíthet a modellek kiképzésében, hogy utánozzák az emberek beszédét és párbeszédeit.

“Ez még mindig az elv kérdése,” mondta Dave Farina, a Professor Dave Explains csatorna házigazdája, amely kémia és más tudományos oktatóanyagokat mutat be, és 3 millió feliratkozóval rendelkezik, valamint 140 videóját emelték át a YouTube Subtitles-be.

“Ha nyereséget termelsz az általam végzett munkából [egy termék építéséhez], amely engem vagy hozzám hasonlókat kiszorít a munkából, akkor beszélgetést kellene folytatnunk a kompenzációról vagy valamilyen szabályozásról,” mondta.

A YouTube Subtitles, amelyet 2020-ban publikáltak, több mint 12,000 videó feliratát tartalmazza, amelyeket azóta töröltek a YouTube-ról. Egy esetben a készítő teljes online jelenlétét törölte, mégis munkája ismeretlen számú AI modellbe került be.

A Proof News megpróbálta elérni a történetben említett csatornák tulajdonosait. Sokan nem válaszoltak a megkeresésekre. Az általunk megkérdezett készítők közül senki sem tudott arról, hogy adataikat elvették, és még kevésbé arról, hogyan használták fel azokat.

Azok között, akik meglepődtek: a Crash Course (közel 16 millió feliratkozó, 871 videó) és a SciShow (8 millió feliratkozó, 228 videó) producerei, amelyek a Hank és John Green fivérek oktatási videó birodalmának pillérei.

“Fel vagyunk háborodva, hogy az általunk gondosan előállított oktatási tartalmakat ilyen módon használták fel beleegyezésünk nélkül,” mondta Julie Walsh Smith, a műsorok gyártási cégének, a Complexly-nek a vezérigazgatója egy nyilatkozatban.

A YouTube Subtitles nem az első AI tréning dataset, amely problémát okoz a kreatív iparágakban.

A Proof News közreműködője, Alex Reisner megszerezte a Books3 dataset egy példányát, amely szintén része a Pile-nek, és tavaly publikált egy cikket a The Atlantic-ban, amelyben felfedezte, hogy több mint 180,000 könyvet, köztük Margaret Atwood, Michael Pollan és Zadie Smith műveit emelték át. Sok szerző azóta pert indított AI cégek ellen munkájuk engedély nélküli felhasználása és szerzői jogok megsértése miatt. Hasonló esetek azóta elterjedtek, és a Books3-t tartalmazó platform eltávolította azt.

A perekre válaszul a vádlottak, mint a Meta, OpenAI és Bloomberg azt állították, hogy cselekedeteik tisztességes használatnak minősülnek. Az EleutherAI ellen indított pert, amely eredetileg begyűjtötte és nyilvánossá tette a könyveket, az alperesek önkéntesen elvetették.

A folyamatban lévő perek korai szakaszban vannak, így a kérdések a beleegyezés és fizetés körül még mindig megoldatlanok. A Pile azóta eltávolításra került hivatalos letöltési oldaláról, de továbbra is elérhető fájlmegosztó szolgáltatásokon.

“A technológiai cégek átgázoltak a szabályokon,” mondta Amy Keller, fogyasztóvédelmi ügyvéd és partner a DiCello Levitt ügyvédi irodánál, aki pereket indított kreatívok nevében, akik munkáját állítólag engedély nélkül vették át AI cégek.

“Az emberek aggódnak amiatt, hogy nem volt választási lehetőségük az ügyben,” mondta Keller. “Szerintem ez az, ami igazán problémás.”

Parrot egy papagáj Sok készítő bizonytalan a jövővel kapcsolatban.

A főállású YouTube-erek figyelik munkájuk engedély nélküli felhasználását, rendszeresen bejelentéseket tesznek eltávolításra, és néhányan aggódnak, hogy csak idő kérdése, mikor lesz az AI képes hasonló tartalmat létrehozni – ha nem kifejezetten másolatokat.

Pakman, a The David Pakman Show készítője, nemrég találkozott az AI hatalmával, miközben a TikTok-on böngészett. Talált egy videót, amelyet Tucker Carlson klipként jelöltek meg, de amikor megnézte, megdöbbent. Carlson hangját hallotta, de szó szerint azt mondta, amit Pakman a YouTube műsorában mondott, még a hanglejtésig is. Ugyanúgy megdöbbentette, hogy a videó kommentelői közül csak egy valaki ismerte fel, hogy hamis – Carlson hangklónja, amely Pakman szövegét olvassa fel.

“Ez probléma lesz,” mondta Pakman egy YouTube videóban, amelyet a hamisításról készített. “Ezt gyakorlatilag bárkivel meg lehet tenni.”

Az EleutherAI társalapítója, Sid Black a GitHub-on írt, hogy YouTube Subtitles datasetet egy szkript segítségével készítette el. Ez a szkript letölti a feliratokat a YouTube API-járól ugyanúgy, ahogy egy YouTube néző böngészője letölti azokat videónézés közben. A GitHub-on található dokumentáció szerint Black 495 keresőszót használt a videók kiválogatásához, beleértve a “vicces vloggerek,” “Einstein,” “fekete protestáns,” “védelmi szociális szolgáltatások,” “infowars,” “kvantum kromodinamika,” “Ben Shapiro,” “Ujgur,” “gyümölcsevő,” “torta recept,” “