Ai2 olmo 2: új szintet lép az nyílt nyelvi modellek világában.

Az OLMo 2, az Ai2 új nyílt forráskódú nyelvi modellcsaládja

Az Ai2 bejelentette az OLMo 2 kiadását, amely egy új, nyílt forráskódú nyelvi modellcsalád, amely a mesterséges intelligencia demokratizálását célozza meg, és csökkenti a nyílt és a tulajdonosi megoldások közötti különbséget. Az új modellek 7B és 13B paraméteres verziókban érhetők el, és akár 5 billió tokenen is kiképezték őket, így teljesítményük a hasonló, teljesen nyílt modellek szintjét meghaladja vagy azzal megegyezik, miközben versenyképes a nyílt súlyú modellekkel, mint például a Llama 3.1 az angol tudományos benchmarkokon.

„Az első OLMo februári megjelenése óta 2024-ben gyors növekedést tapasztaltunk a nyílt nyelvi modell ökoszisztémájában, és a nyílt és tulajdonosi modellek közötti teljesítménykülönbség csökkenését” – mondta el az Ai2.

Az OLMo 2 modellképzés áttörése

A fejlesztőcsapat számos újítással érte el ezeket a fejlesztéseket, többek között a javított képzési stabilitási intézkedésekkel, szakaszos képzési megközelítésekkel és a Tülu 3 keretrendszerből származó, korszerű utólagos képzési módszerekkel. Kiemelkedő technikai fejlesztések közé tartozik a nemparaméteres réteg normálról az RMSNorm-ra való áttérés, valamint a rotációs pozíciós beágyazás bevezetése.

A képzési folyamat egy kifinomult, kétlépcsős megközelítést alkalmazott. Az első szakasz az OLMo-Mix-1124 adathalmazon alapult, amely körülbelül 3,9 billió tokent tartalmazott, és a DCLM, Dolma, Starcoder és Proof Pile II forrásait használta. A második szakasz egy gondosan válogatott, magas minőségű webadat és domain-specifikus tartalom keverékét tartalmazta a Dolmino-Mix-1124 adathalmazon keresztül.

Különösen figyelemre méltó az OLMo 2-Instruct-13B változat, amely a sorozat legképzettebb modellje. Ez a modell a teljesítményét tekintve felülmúlja a Qwen 2.5 14B instruct, Tülu 3 8B és Llama 3.1 8B instruct modelleket különböző benchmarkokon.

Elköteleződés a nyílt tudomány mellett

Az Ai2 megerősítette elkötelezettségét a nyílt tudomány iránt, és átfogó dokumentációt tett közzé, amely tartalmazza a súlyokat, adatokat, kódot, receptúrákat, köztes ellenőrzőpontokat és az utasításokkal hangolt modelleket. Ez az átláthatóság lehetővé teszi az AI közösség számára az eredmények teljes ellenőrzését és reprodukálását.

A kiadás egy új értékelési keretrendszert is bevezetett, az OLMES-t (Open Language Modeling Evaluation System), amely 20 benchmarkot tartalmaz, hogy értékelje a főbb képességeket, mint például a tudásfelidézést, a közönséges érvelést és a matematikai érvelést.

Az OLMo 2 megemeli a mércét a nyílt forráskódú mesterséges intelligencia fejlesztésében, potenciálisan felgyorsítva az innováció ütemét a területen, miközben megőrzi az átláthatóságot és a hozzáférhetőséget.

Érdekes tény: Az OLMo 2 modellek képzése során alkalmazott új módszerek jelentősen csökkentették a training időt, lehetővé téve a tudósok számára, hogy gyorsabban jussanak el a kívánt eredményekhez.

Források: Ai2, AI News