Amazon Vizsgálatot Indított a Perplexity AI Ellen
Az Amazon felhőszolgáltatásokat nyújtó ágazata vizsgálatot indított a Perplexity AI ellen, hogy kiderítse, a mesterséges intelligenciával működő kereső startup megsértette-e az Amazon Web Services szabályait azzal, hogy olyan webhelyeket scrape-elt, amelyek ezt megakadályozták. Az AWS szóvivője, aki név nélkül nyilatkozott a WIRED-nek, megerősítette a vizsgálatot.
A WIRED korábban megállapította, hogy a Perplexity, amelyet a Jeff Bezos családi alap és az Nvidia támogat, és amelyet nemrégiben 3 milliárd dollárra értékeltek, olyan webhelyek tartalmára támaszkodik, amelyek a Robots Exclusion Protocol segítségével tiltották a hozzáférést. Bár a Robots Exclusion Protocol nem jogilag kötelező erejű, a szolgáltatási feltételek általában azok.
A Robots Exclusion Protocol egy évtizedek óta létező webes szabvány, amely egy egyszerű szövegfájl elhelyezését jelenti egy domainen (például wired.com/robots.txt), hogy jelezze, mely oldalakhoz nem szabad hozzáférni automatizált botokkal és crawlerekkel. Bár a scrape-elést végző cégek dönthetnek úgy, hogy figyelmen kívül hagyják ezt a protokollt, a legtöbben hagyományosan tiszteletben tartják. Az Amazon szóvivője elmondta a WIRED-nek, hogy az AWS ügyfelei kötelesek betartani a robots.txt szabványt a webhelyek crawl-elése során.
„Az AWS szolgáltatási feltételei tiltják, hogy ügyfeleink szolgáltatásainkat bármilyen illegális tevékenységre használják, és ügyfeleink felelősek azért, hogy betartsák feltételeinket és az összes alkalmazandó jogszabályt,” mondta a szóvivő egy nyilatkozatában.
A Perplexity gyakorlatait övező vizsgálatot előzte meg a Forbes június 11-i jelentése, amely szerint a startup legalább egy cikket ellopott. A WIRED vizsgálatai megerősítették ezt a gyakorlatot, és további bizonyítékokat találtak a scrape-elés visszaéléseire és plágiumra a Perplexity AI-alapú kereső chatbotjához kapcsolódó rendszereknél.
A Condé Nast mérnökei, a WIRED anyavállalata, blokkolják a Perplexity crawlerét az összes webhelyükön egy robots.txt fájl segítségével. De a WIRED megállapította, hogy a vállalat hozzáférést kapott egy szerverhez egy nem nyilvános IP-cím (44.221.181.252) használatával, amely az elmúlt három hónapban legalább több száz alkalommal látogatta meg a Condé Nast tulajdonában lévő webhelyeket, nyilvánvalóan hogy scrape-elje azokat.
A Perplexity-hez kapcsolódó gép széleskörű crawl-tevékenységet folytat a hírportálokon, amelyek tiltják a botok hozzáférését tartalmukhoz. A The Guardian, a Forbes és a The New York Times szóvivői is azt mondták, hogy többször észlelték az IP-címet szervereiken.
A WIRED az IP-címet egy virtuális géphez, azaz egy Elastic Compute Cloud (EC2) példányhoz vezette vissza, amelyet az AWS hostolt, amely a WIRED kérdése után indította meg a vizsgálatot, hogy az AWS infrastruktúrájának használata a tiltott webhelyek scrape-elésére megsérti-e a cég szolgáltatási feltételeit.
Múlt héten Aravind Srinivas, a Perplexity vezérigazgatója először azt mondta a WIRED-nek, hogy a céghez intézett kérdések „mély és alapvető félreértést tükröznek arról, hogyan működik a Perplexity és az Internet.” Srinivas később a Fast Company-nak elmondta, hogy a WIRED által megfigyelt titkos IP-címet, amely a Condé Nast webhelyeit scrape-elte, és egy tesztoldalt, amelyet létrehoztunk, egy harmadik fél cég üzemeltette, amely webes crawl- és indexelési szolgáltatásokat nyújt. Nem volt hajlandó megnevezni a céget, hivatkozva egy titoktartási megállapodásra.
Amikor megkérdezték, hogy megkérné-e a harmadik felet, hogy hagyja abba a WIRED crawl-olását, Srinivas így válaszolt: „Ez bonyolult.”
Sara Platnick, a Perplexity szóvivője elmondta a WIRED-nek, hogy a cég szerdán válaszolt az Amazon kérdéseire, és az eljárást szokásos eljárásként jellemezte. Platnick szerint a Perplexity nem változtatott működésén az Amazon aggodalmaira reagálva.
„A PerplexityBot – amely az AWS-en fut – tiszteletben tartja a robots.txt fájlt, és megerősítettük, hogy a Perplexity által ellenőrzött szolgáltatások semmilyen módon nem crawl-olnak, amely megsérti az AWS szolgáltatási feltételeit,” mondta Platnick. Hozzátette azonban, hogy a PerplexityBot figyelmen kívül hagyja a robots.txt fájlt, amikor egy felhasználó egy adott URL-t ad meg a promptjában – egy olyan felhasználási eset, amelyet Platnick „nagyon ritkának” ír le.
„Amikor egy felhasználó egy adott URL-t ad meg a promptban, az nem váltja ki a crawl viselkedést,” mondta Platnick. „Az ügynök a felhasználó nevében cselekszik, hogy lekérje az URL-t. Ugyanúgy működik, mintha a felhasználó maga látogatna el az oldalra, másolná a cikk szövegét, majd beillesztené a rendszerbe.”
E leírás alapján a Perplexity működéséről a WIRED megállapításait megerősítette, hogy chatbotja bizonyos esetekben figyelmen kívül hagyja a robots.txt fájlt.
A Digital Content Next egy digitális tartalomipari szakmai szövetség, amelynek tagjai közé tartozik a The New York Times, a The Washington Post és a Condé Nast. Tavaly a szervezet megosztott egy tervezetet a generatív AI szabályozásának alapelveiről, hogy megelőzze a potenciális szerzői jogsértéseket. Jason Kint, a szervezet vezérigazgatója elmondta a WIRED-nek, hogy ha a Perplexity elleni vádak igazak, a cég számos alapelvet megsért.
„Alapértelmezés szerint az AI vállalatoknak feltételezniük kell, hogy nincs joguk a kiadók tartalmának megszerzésére és újrahasznosítására engedély nélkül,” mondta Kint. Ha a Perplexity kikerüli a szolgáltatási feltételeket vagy a robots.txt fájlt, „a vörös riasztásoknak jelezniük kellene, hogy valami helytelen történik.”
Érdekesség: A mesterséges intelligencia fejlődése során egyre több startup botlott bele hasonló etikai és jogi kérdésekbe, mint a Perplexity, ami a technológia gyors előrehaladásának egyik árnyoldala.
Információ forrása: WIRED, Forbes, Condé Nast