Microsoft CTO Kevin Scott szerint az LLM „méretezési törvényei” megállják a helyüket a kritikák ellenére


Kevin Scott szerint az LLM skálázási törvények továbbra is hajtják az AI fejlődését

Kevin Scott, a Microsoft technológiai igazgatója (CTO), a múlt kedden megjelent Sequoia Capital „Training Data” podcast interjújában megismételte hitét abban, hogy az úgynevezett nagy nyelvi modellek (LLM) „skálázási törvényei” továbbra is hajtják az AI fejlődését, annak ellenére, hogy néhány szakértő szkeptikus, és úgy véli, hogy a fejlődés lelassult.

„Annak ellenére, amit mások gondolnak, nem tartunk a csökkenő hozamoknál a skálázás terén” – mondta Scott. „Próbálom megértetni az emberekkel, hogy itt egy exponenciális növekedésről van szó, és az a pech, hogy csak pár évente tudjuk ezt mintavételezni, mert időbe telik szuperszámítógépeket építeni, majd azokon modelleket kiképezni.”

Az LLM skálázási törvények az OpenAI kutatói által 2020-ban feltárt mintázatokra utalnak, amelyek szerint a nyelvi modellek teljesítménye előre láthatóan javul, ahogy a modellek nagyobbak lesznek (több paraméter), több adaton képezik őket, és több számítási kapacitással rendelkeznek. A törvények azt sugallják, hogy a modell méretének és a képzési adatnak a növelése jelentős javulásokhoz vezethet az AI képességekben, anélkül hogy alapvető algoritmikus áttörésekre lenne szükség.

Más kutatók azóta megkérdőjelezték a skálázási törvények időbeli fennmaradását, de a koncepció továbbra is az OpenAI AI fejlesztési filozófiájának sarokköve marad.

Scott optimizmusa ellentétben áll néhány AI közösségi kritikus narratívájával, akik szerint az LLM-ek fejlődése a GPT-4 osztályú modelleknél megállt. Ezt a felfogást leginkább informális megfigyelések és néhány benchmark eredmény táplálta a legutóbbi modellekkel kapcsolatban, mint például a Google Gemini 1.5 Pro, az Anthropic Claude Opus, és még az OpenAI GPT-4o is, amelyek egyesek szerint nem mutattak olyan drámai képességnövekedéseket, mint a korábbi generációk.

„Mindannyian tudjuk, hogy a GPT-3 lényegesen jobb volt, mint a GPT-2. És mindannyian tudjuk, hogy a GPT-4 (tizenhárom hónapja jelent meg) lényegesen jobb volt, mint a GPT-3” – írta Gary Marcus, az AI kritikusa áprilisban. „De mi történt azóta?”

Scott álláspontja azt sugallja, hogy a technológiai óriások, mint a Microsoft, továbbra is indokoltnak érzik a nagyobb AI modellekbe való befektetést, fogadva a folyamatos áttörésekre a képesség plafonjának elérése helyett. Tekintettel a Microsoft OpenAI-ba fektetett tőkéjére és saját Microsoft Copilot AI funkcióinak erős marketingjére, a vállalatnak erős érdeke fűződik ahhoz, hogy fenntartsa a folyamatos fejlődés képét, még akkor is, ha a technológia megtorpan.

A podcast interjúban a Microsoft CTO visszautasította azt az elképzelést, hogy az AI fejlődése megállt volna, de elismerte, hogy az adatok ritka mintavételezése kihívást jelent ezen a területen, mivel az új modellek gyakran éveket vesznek igénybe a fejlesztéshez. Ennek ellenére Scott bizalmát fejezte ki, hogy a jövőbeni iterációk javulásokat mutatnak, különösen azokban a területeken, ahol a jelenlegi modellek nehézségekbe ütköznek.

„A következő minta érkezik, és nem tudom megmondani mikor, és nem tudom pontosan előre jelezni, hogy milyen jó lesz, de szinte biztosan jobb lesz azokban a dolgokban, amelyek most törékenyek” – mondta Scott az interjúban. „Mindez jobb lesz. Olcsóbb lesz, és a dolgok kevésbé lesznek törékenyek. És akkor bonyolultabb dolgok válnak lehetségessé. Ez minden egyes generáció története, ahogy felméreteződtünk.”

Érdekesség: Az OpenAI GPT-3 modellje több mint 175 milliárd paraméterrel rendelkezik, és ez az egyik legnagyobb méretű nyelvi modell a világon.

Források: Sequoia Capital Training Data podcast, OpenAI, Microsoft