Fejlesztés
Hétfőn a kínai AI labor, a DeepSeek, bemutatta új R1 modellcsaládját nyílt MIT licenc alatt, amelynek legnagyobb változata 671 milliárd paramétert tartalmaz. A cég állítja, hogy a modell teljesítménye összehasonlítható az OpenAI o1 szimulált érvelés (SR) modelljével több matematikai és programozási benchmarkon.
A DeepSeek-R1-Zero és DeepSeek-R1 modellek kiadása mellett a DeepSeek hat kisebb „DeepSeek-R1-Distill” változatot is közzétett, amelyek 1,5 milliárd és 70 milliárd paraméter között mozognak. Ezek a desztillált modellek meglévő nyílt forráskódú architektúrákra, mint például a Qwen és Llama, épülnek, és a teljes R1 modelltől származó adatokkal lettek kiképezve. A legkisebb verzió akár egy laptopon is futhat, míg a teljes modell jelentős számítási teljesítményt igényel.
A kiadások azonnal felkeltették az AI közösség figyelmét, mivel a legtöbb létező nyílt súlyú modell, amelyet helyi hardveren is futtathatunk és finomhangolhatunk, elmaradt a zárt forrású modellek, például az OpenAI o1 mögött a szimulált érvelés benchmarkjain. Az MIT licenc alatt elérhető képességek potenciálisan új irányt jelenthetnek a közpublicisztikai AI modellek terén.
„Annyira szórakoztató őket futtatni, figyelni, ahogyan gondolkodnak, hihetetlen,” írta Simon Willison, független AI kutató az Ars-nak egy üzenetben. Willison tesztelte az egyik kisebb modellt, és tapasztalatait megosztotta a blogján: „Minden válasz egy … álnévvel kezdődik, amely tartalmazza a gondolkodás láncolatát, amely segített a válasz generálásában,” megjegyezve, hogy még egyszerű kérések esetén is a modell kiterjedt belső érvelést produkál a kimenet előtt.
Simulált érvelés működés közben
Az R1 modell eltér a tipikus nagy nyelvi modellektől (LLM), mivel egy olyan megközelítést alkalmaz, amelyet az iparban érvelésidő-beli megközelítésnek neveznek. Ezek megpróbálják szimulálni az emberi gondolkodás láncolatát, miközben a modell megoldja a kérdést. Az ilyen típusú modellek, vagyis a szimulált érvelés modellek, 2024 szeptemberében jelentek meg, amikor az OpenAI bemutatta o1 modellcsaládját. Az OpenAI decemberben egy jelentős frissítést, az „o3”-at ígérte.
A szokásos LLM-ekkel ellentétben ezek a SR modellek további időt igényelnek a válaszok előállításához, és ez az extra idő gyakran javítja a matematikai, fizikai és tudományos feladatok teljesítményét. Az új nyílt modell azért is felkeltette a figyelmet, mert láthatóan gyorsan felzárkózik az OpenAI mögött.
Például a DeepSeek jelentése szerint az R1 számos benchmarkon és teszten felülmúlta az OpenAI o1-et, beleértve az AIME-t (matematikai érvelési teszt), a MATH-500-at (szóproblémák gyűjteménye), és a SWE-bench Verified-et (programozási értékelő eszköz). Mint általában említjük, az AI benchmarkokat óvatosan kell kezelni, és ezek az eredmények még nem kaptak független ellenőrzést.
A TechCrunch jelentése szerint három kínai labor – a DeepSeek, az Alibaba, és a Moonshot AI Kimi – most olyan modelleket bocsátott ki, amelyeket állításuk szerint az o1 képességeihez hasonlítanak, a DeepSeek pedig elsőként mutatta be az R1-et novemberben.
De az új DeepSeek modellnek van egy bökkenője, ha a felhőalapú verzióban futtatják – mivel kínai eredetű, az R1 nem fog válaszokat generálni bizonyos témákra, mint például a Tienanmen tér vagy Tajvan autonómiája, mivel „meg kell testesítenie a szocialista alapértékeket” a kínai internetes szabályozások szerint. Ez a szűrés egy további moderálási rétegből ered, amely nem probléma, ha a modellt helyben futtatják Kínán kívül.
Még a lehetséges cenzúra ellenére Dean Ball, a George Mason Egyetem AI kutatója, a X-en írta: „A DeepSeek desztillált modelljeinek (az R1 kisebb verziói) lenyűgöző teljesítménye azt jelenti, hogy nagyon képes érvelők fognak széles körben elterjedni, és futtathatók lesznek helyi hardveren, távol bármilyen felülről irányított kontroll rendszertől.”
Érdekesség: A DeepSeek R1 modellje a nyílt forráskódú közösség számára is elérhető, amely lehetővé teszi a felhasználók számára, hogy módosítsák és testre szabják a modellt a saját igényeik szerint.
Források: Ars Technica, TechCrunch, DeepSeek hivatalos közleményei.




