Az első GPT-4-es osztályú AI modell, amelyet bárki letölthet: Megérkezett a Llama 405B – Ne hagyd ki ezt a forradalmi áttörést!


Meta Bemutatja a Llama 3.1 405B Nyílt Forráskódú AI Modellt

A mesterséges intelligencia világában nagy a felhajtás egy új AI nyelvi modell körül, amelyet a Meta kedden mutatott be: ez a Llama 3.1 405B. Az ok? Ez az első alkalom, hogy bárki ingyen letölthet egy GPT-4 szintű nagy nyelvi modellt, és saját hardverén futtathatja. Azért szükséges némi erős hardver: a Meta szerint egy „egyetlen szervercsomóponton” futtatható, ami nem asztali PC szintű felszerelés. Ez egy provokatív lépés a „zárt” AI modell szállítók, mint az OpenAI és az Anthropic ellen.

„A Llama 3.1 405B az első nyíltan elérhető modell, amely versenyez a legjobb AI modellekkel, ha az általános tudásról, irányíthatóságról, matematikáról, eszközhasználatról és többnyelvű fordításról van szó,” – mondja a Meta. A vállalat vezérigazgatója, Mark Zuckerberg a 405B-t „az első határszintű nyílt forráskódú AI modellként” említi.

Az AI iparágban a „határmodell” kifejezés egy olyan AI rendszerre utal, amelyet a jelenlegi képességek határainak feszegetésére terveztek. Ebben az esetben a Meta a 405B-t az iparág legjobb AI modelljei közé pozicionálja, mint például az OpenAI GPT-4o, Claude 3.5 Sonnet, és a Google Gemini 1.5 Pro.

Egy, a Meta által közzétett diagram azt sugallja, hogy a 405B nagyon közel kerül a GPT-4 Turbo, GPT-4o és Claude 3.5 Sonnet teljesítményéhez olyan mérföldköveken, mint az MMLU (egyetemi szintű tudás), GSM8K (általános iskolai matematika), és HumanEval (kódolás).

De, mint már sokszor megjegyeztük március óta, ezek a mércék nem feltétlenül tudományosan megalapozottak, és nem közvetítik az AI nyelvi modellekkel való interakció szubjektív élményét. Valójában ezek a hagyományos AI mércék annyira általánosan haszontalanok a laikusok számára, hogy még a Meta PR osztálya is csak néhány képet tett közzé numerikus diagramokkal anélkül, hogy megpróbálták volna elmagyarázni azok jelentőségét.

Mi inkább a beszélgető AI modellek szubjektív élményének mérését (amit „vibemarking”-nek hívhatunk) A/B ranglistákon, mint például a Chatbot Arena-n tartjuk jobb módszernek az új LLM-ek megítélésére. A Chatbot Arena adatok hiányában a Meta a saját emberi értékeléseinek eredményeit közölte a 405B kimeneteiről, amelyek úgy tűnik, hogy a Meta új modellje versenyképes a GPT-4 Turbo és Claude 3.5 Sonnet modellekkel.

De mi van a 405B név mögött? Ebben az esetben a „405B” 405 milliárd paramétert jelent, és a paraméterek olyan numerikus értékek, amelyek tárolják a neurális hálózatban kiképzett információkat. Több paraméter általában egy nagyobb neurális hálózatot jelent, amely az AI modellt működteti, ami általában (de nem mindig) nagyobb képességet jelent, például jobb képességet a kontextuális kapcsolatok kialakítására a fogalmak között. De a nagyobb paraméterű modelleknek van egy ellensúlyuk, hogy több számítási teljesítményre van szükségük a futtatáshoz.

A Meta szerint a 405B hasznos a hosszú szövegek összefoglalására, többnyelvű beszélgető ügynökökre, és kódolási asszisztensekre, valamint szintetikus adatok létrehozására, amelyeket a jövőbeli AI nyelvi modellek kiképzésére használnak. Érdekes módon ez az utóbbi felhasználási eset – lehetővé téve a fejlesztők számára, hogy a Llama modellek kimeneteit más AI modellek javítására használják – most először hivatalosan támogatott a Meta Llama 3.1 licencében.

A Llama 3.1 405B nyílt súlyú modell, ami azt jelenti, hogy bárki letöltheti a kiképzett neurális hálózat fájljait, és futtathatja vagy finomhangolhatja azokat. Ez közvetlen kihívást jelent azon üzleti modellek számára, ahol olyan vállalatok, mint az OpenAI, megtartják maguknak a súlyokat, és helyette előfizetéses csomagokon keresztül, mint a ChatGPT vagy API-n keresztül tokenenkénti hozzáférésért számítanak fel díjat.

Zuckerberg számára nagy ügy a „zárt” AI modell elleni küzdelem, aki ma egy 2300 szavas kiáltványt is kiadott arról, hogy a vállalat miért hisz az AI modellek nyílt kiadásában, amelynek címe „A nyílt forráskódú AI az út előre”.

A Llama 3.1 modellek letölthetőek a Meta saját weboldaláról és a Hugging Face-en keresztül. Mindkettő esetében meg kell adni a kapcsolattartási adatokat és el kell fogadni egy licencet és egy elfogadható használati politikát, ami azt jelenti, hogy a Meta technikailag jogilag bármikor visszavonhatja a Llama 3.1 vagy annak kimeneteinek használatát.

Érdekesség: Az AI nyelvi modellek fejlesztéséhez használt hatalmas mennyiségű adat feldolgozása során a Meta több mint 16,000 H100 GPU-t használt.

Információ forrásai: Ars Technica, Meta