Radikálisan Új Módszer az AI Nyelvi Modellek Hatékonyabb Futásához
A Kaliforniai Egyetem Santa Cruz, UC Davis, LuxiTech és a Soochow Egyetem kutatói új módszert fejlesztettek ki az AI nyelvi modellek hatékonyabb futtatására, amely megszünteti a mátrixszorzást a folyamatból. Ez alapvetően áttervezi a GPU chipek által gyorsított neurális hálózati műveleteket. Az eredményeket egy nemrégiben megjelent preprint tanulmányban részletezték, amely mély hatással lehet az AI rendszerek környezeti hatására és működési költségeire.
Mátrixszorzás Nélkül
A tanulmányban a kutatók leírják egy egyedi, 2,7 milliárd paraméteres modell létrehozását, amely nem használ mátrixszorzást és hasonló teljesítményt nyújt a hagyományos nagy nyelvi modellekhez (LLM-ekhez) képest. Bemutatják egy 1,3 milliárd paraméteres modell futtatását is, amely 23,8 token/másodperc sebességgel fut egy GPU-n, amelyet egy egyedi programozott FPGA chip gyorsított, amely körülbelül 13 watt energiát használ (a GPU energiafogyasztását nem számítva). A kutatók szerint ez az FPGA hatékonyabb és hardverbarátabb architektúrák kifejlesztésének alapját képezheti.
A kutatók – Rui-Jie Zhu, Yu Zhang, Ethan Sifferman, Tyler Sheaves, Yiqiao Wang, Dustin Richmond, Peng Zhou és Jason Eshraghian – azt állítják, hogy munkájuk kihívást jelent a jelenlegi paradigmának, amely szerint a mátrixszorzás műveletek nélkülözhetetlenek a magas teljesítményű nyelvi modellek építéséhez. Úgy vélik, hogy megközelítésük hozzáférhetőbbé, hatékonyabbá és fenntarthatóbbá teheti a nagy nyelvi modelleket, különösen az erőforrás-korlátozott hardvereken való telepítéshez, mint például az okostelefonok.
A Mátrix Matek Elhagyása
A tanulmányban a kutatók megemlítik a BitNet-et (az úgynevezett „1 bites” transzformátor technikát, amely októberben jelent meg preprintként) mint fontos előfutárát munkájuknak. A szerzők szerint a BitNet bemutatta a bináris és ternáris súlyok használatának életképességét a nyelvi modellekben, és sikeresen skálázott fel 3 milliárd paraméterig, miközben megtartotta a versenyképes teljesítményt.
Két Fő Innováció
Először, a kutatók egy egyedi LLM-et hoztak létre, és csak ternáris értékeket (-1, 0, 1) használtak a hagyományos lebegőpontos számok helyett, ami egyszerűbb számításokat tesz lehetővé. Másodszor, áttervezték a hagyományos nyelvi modellek számításigényes önfigyelési mechanizmusát egy egyszerűbb, hatékonyabb egységgel (amelyet MatMul-mentes Lineáris Gated Recurrent Unit—MLGRU-nak neveztek), amely szavakat dolgoz fel szekvenciálisan alapvető aritmetikai műveletek segítségével, a mátrixszorzások helyett.
Harmadszor, adaptálták a Gated Linear Unit (GLU)—egy kapu mechanizmust, amely az információáramlást szabályozza a neurális hálózatokban—ternáris súlyokat használva a csatornakeveréshez. A csatornakeverés azt a folyamatot jelenti, amelyben az AI különböző aspektusokat vagy funkciókat kombinál és átalakít az adatokból, amelyeket dolgoz fel, hasonlóan ahhoz, ahogyan egy DJ különböző audio csatornákat kever össze egy összefüggő dal létrehozásához.
Ezek a változtatások, az említett FPGA chipen keresztül gyorsított ternáris műveletek egyedi hardveres implementációjával kombinálva, lehetővé tették a kutatók számára, hogy elérjék azt, amit állításuk szerint a legkorszerűbb modellekkel összehasonlítható teljesítmény, miközben csökkentették az energiafelhasználást. Bár összehasonlításokat végeztek GPU-kon a hagyományos modellekkel való összehasonlítás érdekében, a MatMul-mentes modelleket úgy tervezték, hogy hatékonyan működjenek olyan hardvereken, amelyek egyszerűbb aritmetikai műveletekre vannak optimalizálva, mint például az FPGA-k. Ez arra utal, hogy ezek a modellek különféle hardvereken is futtathatók, beleértve azokat is, amelyek korlátozottabb számítási erőforrásokkal rendelkeznek, mint a GPU-k.
Érdekes tény: A mátrixszorzás jelentős energiaigényű, és az AI modellek hatékonyságának növelése e technika nélkül drámaian csökkentheti a számítási költségeket és az energiafelhasználást.
Források: Kaliforniai Egyetem Santa Cruz, UC Davis, LuxiTech, Soochow Egyetem